Model Card:
„Das könnte Dich interessieren“
16.04.2024
Die Model Card beschreibt sowohl den fachlichen Anwendungsfall als auch seine technische Implementierung. Model Cards dienen vor allem der Transparenz für Entwickler:innen, Redakteur:innen und für Nutzer:innen der ZDFmediathek.
Zielsetzung
Der Nutzer:in werden Inhalte angeboten, die ihren Nutzungsinteressen in der ZDFmediathek entsprechen.
Inhalte und Regeln
- Inhalte: Alle ZDF-Inhalte mit Video-on-Demand (VoD), davon ausgeschlossen:
- Partnerinhalte
- Nachrichten und Sport älter als 24 Stunden (außer ZDF-Sportreportage, Sport Archiv und Extremsport-Reisen)
- Einzelinhalte für Serien, Comedy, Kinder (stattdessen nur Sendungsbereiche)
- Sendungsbereiche, die nicht über Einzelinhalte mit Video verfügen
- Von der Nutzer:in bereits gesehene Einzelinhalte
- Ausblenden, wenn:
- weniger als 10 Ergebnisse enthalten wären
- Nutzer:innen keine Historie haben
- Nutzer:innen in CMP nicht Personalisierung zugestimmt haben
Personalisierung
- Individuell (keine gruppenbasierte Empfehlungen)
- Mit und ohne Login
Kontext
KPIs
Algorithmus:
- Basis-Algorithmus:
- Sequence Base Recommendation:
- Postprocessing:
- Filterung bereits gesehener Videos
- Ersetzen von Einzelbeiträgen aus Serien, Comedy, Kinder durch die entsprechenden Übersichtsseiten (Sendungbereiche), damit die Programmmarken statt einzelner Episoden empfohlen werden
- "post-series-next": Nächste ungesehene Folge für serielle Inhalte, die nicht als SB dargestellt werden
- Model Deployment:
- Deployment erfolgt automatisch beim Start der Instanzen mit dem aktuellesten Modell
Daten Training:
- Nutzungsdaten: 30 Tage (ZDFtracking, alle Nutzer:innen), pro Geräteklasse, nur Plays mit mindestens 35% Nutzung des Videos, Denoising (Videos mindestens 20x gesehen über alle Nutzer:innen hinweg)
- Metadaten: aus redaktionellem Content Management System (zur Filterung von Inhalten)
- Bias (qualitativ): Recency (nur letzte 30 Tage Nutzungsdaten), Popularity (30 Tage Nutzungsdaten, keine ungenutzten Inhalte, Denoising) und Exposure (nur genutzte Inhalte)
Daten Inferenz:
- Nutzungshistorie:
- Alle plays (Sichtungen) mit mehr als 30 Sekunden Abspielfortschritt
- Wenn dies zu leeren plays führen würde: alle plays ohne Filterung
- Wenn plays insgesamt leer sind: alle views (Klicks)
- Wenn keine Historie mitgeschickt wird: Login-Token zum serverseitigem Abruf der Abspiel-Historie (plays)
- Wenn keine Authentication mitgeschickt wird: neueste Episode jeder gemerkten Sendung als Historie
- Angebotsseite:
- Geräteklasse:
Weiterentwicklung / Tests:
- reines Offline-Training, alle 4 Stunden
- A/B-Testing fortlaufend
- Kein Auto ML nach A/B-Tests, keine automatische Hyperparameter-Optimierung
Hinweise allgemein / Known Issues:
- Modell-Qualität weitgehend unabhängig von der Qualität der Metadaten