Model Card:
„Weil Du 'Beitrag' geschaut hast“
30.01.2024
Die Model Card beschreibt sowohl den fachlichen Anwendungsfall als auch seine technische Implementierung. Model Cards dienen vor allem der Transparenz für Entwickler:innen, Redakteur:innen und für Nutzer:innen der ZDFmediathek.
Zielsetzung
Nutzer:innen werden ähnliche Inhalte in der ZDFmediathek zu bereits gesehenen VoDs/Serien angeboten.
Inhalte und Regeln
- Inhalte: Alle ZDF-Inhalte mit VoD aus der gleichen Rubrik wie der Ausgangsbeitrag, ausgenommen Inhalte unterhalb folgender Strukturknoten:
- Rubriken:
- /zdf/barrierefreiheit-im-zdf
- /zdf/funk
- /zdf/zdfunternehmen
- /zdf/nachrichten
- /zdf/phoenix
- /zdf/service-und-hilfe
- /zdf/international
- Sendungsbereiche:
- /zdf/arte/arte-journal
- /zdf/arte/h24
- /zdf/arte/karambolage
- /zdf/arte/markte-europas
- /zdf/arte/mit-offenen-karten
- /zdf/arte/stadt-land-kunst
- /zdf/arte/the-european-collection
- /zdf/arte/tracks
- /zdf/arte/twist
- /zdf/arte/zu-tisch
- /zdf/gesellschaft/aktenzeichen-xy-ungeloest
- /zdf/gesellschaft/einfach-mensch
- /zdf/gesellschaft/gottesdienste
- /zdf/gesellschaft/sonntags
- /zdf/kinder/logo
- /zdf/kinder/logo-newsdate
- /zdf/kultur/aspekte
- /zdf/kultur/kulturzeit
- /zdf/politik/auslandsjournal-extra
- /zdf/politik/auslandsjournal/videos
- /zdf/politik/berlin-direkt
- /zdf/politik/frontal
- /zdf/politik/laenderspiegel
- /zdf/politik/politik-sonstige
- /zdf/politik/standpunkte
- /zdf/politik/wahlen
- /zdf/sport/bundesliga
- /zdf/sport/das-aktuelle-sportstudio
- /zdf/sport/die-finals
- /zdf/sport/fussball-em
- /zdf/sport/mainzer-keller-bundesliga
- /zdf/sport/olympia
- /zdf/sport/paralympics
- /zdf/sport/sportler-des-jahres
- /zdf/sport/uefa-champions-league
- /zdf/sport/wintersport
- /zdf/sport/zdf-sportextra
- /zdf/verbraucher/makro
- /zdf/verbraucher/volle-kanne
- /zdf/verbraucher/wiso
- /zdf/wissen/deutscher-zukunftspreis/sb-material
- /zdf/wissen/nano
- Ausblenden, wenn:
- Content Type:
- für Beiträge vom Typ Episode werden nur Episodes empfohlen
- für Beiträge vom Typ Clip werden Clips und Episodes empfohlen
Personalisierung
- Individuell (keine gruppenbasierte Empfehlungen)
- Mit und ohne Login
Kontext
KPIs
Algorithmus:
- Preprocessing
- Filterung der Nutzungshistorie nach Pfaden (Speicherorten) im redaktionellen Content Management System
- Zufälliges Sampling der Referenz-Beiträge aus gefilterter Nutzungshistorie
- Basis-Algorithmen
- Gruppe-a/d (siehe auch A/B-Test)
- Collaborative Filtering:
- Text Model
- Gruppe-b:
- Gruppe-c:
- Sequence Base Recommendation
- Gruppe-e:
- Sequence Base Recommendation
- Text Model
- Postprocessing:
- Entfernen bereits gesehener Videos
- Ersetzen von Einzelbeiträgen aus Serien, Comedy, Kinder durch die entsprechenden Übersichtsseiten (Sendungbereiche), damit die Programmmarken statt einzelner Episoden empfohlen werden
- Beschränkung auf ganze Sendungen mit mehr als 5 Minuten Länge
- Beschränkung auf maximal 3 Beiträge pro Sendungsbereich
- Entfernen von Duplikaten, falls mehrere Cluster ausgegeben werden
- Leere Ausgabe, wenn weniger als 7 Teaser empfohlen werden
- Model Deployment
- Sequence Base Recommendation
- Bereitstellung des trainierten Modells unmittelbar nach dem Training
- Collaborative Filtering
- Ablage von vorberechneten Empfehlungen unmittelbar nach dem Training
- Text Model
- Ablage von vorberechneten Empfehlungen unmittelbar nach dem Training
- Bei Anfragen werden die aktuellsten Sequence- / Collaborative Filtering und Text-Scores abgerufen und addiert
Daten Training:
- "Weil du <Beitrag/Serie> gesehen hast" (history-picks) kombiniert nutzungsbasierte und ähnlichkeitsbasierte Empfehlungen
- Sequence Model
- Nutzungsdaten
- 30 Tage (ZDFtracking, alle Nutzer:innen), pro Geräteklasse, nur Plays mit mindestens 35% Nutzung des Videos, Denoising (Videos mindestens 20x gesehen über alle Nutzer:innen hinweg)
- Metadaten: aus redaktionellem Content Management System (zur Filterung)
- Voreingenommenheit/Bias (qualitativ):
- Neuheit / recency (nur letzte 30 Tage Nutzungsdaten)
- Beliebtheit / popularity (30 Tage Nutzungsdaten, keine ungenutzten Inhalte, Denoising)
- Exposition / exposure (nur genutzte Inhalte)
- Collaborative Filterung
- Nutzungsdaten
- 30 Tage (ZDFtracking, alle Nutzer:innen), pro Geräteklasse, nur Plays mit mindestens 35% Nutzung des Videos, Denoising (Videos mindestens 20x gesehen über alle Nutzer:innen hinweg)
- Metadaten: aus redaktionellem Content Management System
- Voreingenommenheit/Bias (qualitativ):
- Neuheit / recency (nur letzte 30 Tage Nutzungsdaten)
- Beliebtheit / popularity (30 Tage Nutzungsdaten, keine ungenutzten Inhalte, Denoising)
- Exposition / exposure (nur genutzte Inhalte)
- Text Model
- Metadaten: aus redaktionellem Content Management System (Search-Service-Tags extrahiert aus Titel & Text, Darsteller, Crew, redaktionelle Tags, Sendungsbereich, FSDB-Daten [Beschreibung, Kategorien, Untertitel, visuelle Beschreibung])
- Voreingenommenheit/Bias: Informationsgehalt/sparse data bias (Beiträge redaktionell sehr unterschiedlich stark aufbereitet
Daten Inferenz:
- Nutzungshistorie
- Alle plays (Sichtungen) mit mehr als 30 Sekunden Abspielfortschritt
- Wenn dies zu leeren plays führen würde: alle plays ohne Filterung
- Wenn plays insgesamt leer sind: alle views (Klicks)
- Wenn keine Historie mitgeschickt wird: Login-Token zum serverseitigen Abruf der Abspiel-Historie (plays)
- Wenn keine Authentication mitgeschickt wird: neueste Episode jeder gemerkten Sendung als Historie
- Angebotsseite:
- Geräteklasse:
Weiterentwicklung / Tests:
- Sequence Model: reines Offline-Training, alle 4 Stunden, Bereitstellung des trainierten Modells unmittelbar nach dem Training
- Collaborative Filtering: reines Offline-Training, alle 4 Stunden, Ablage von vorberechneten Empfehlungen unmittelbar nach dem Training
- Text Model: reines Offline-Training, alle 3 Stunden, Ablage von vorberechneten Empfehlungen unmittelbar nach dem Training
- Kein Auto ML nach A/B-Tests, keine automatische Hyperparameter-Optimierung
Hinweise allgemein / Known Issues:
- Nutzungsbasierter Anteil weitgehend unabhängig von Qualität der Metadaten
- Ähnlichkeitsbasierter Ansatz sehr abhängig von Texten und Tags in Metadaten