Model Card:

„Das könnte Dich interessieren“

16.04.2024

Die Model Card beschreibt sowohl den fachlichen Anwendungsfall als auch seine technische Implementierung. Model Cards dienen vor allem der Transparenz für Entwickler:innen, Redakteur:innen und für Nutzer:innen der ZDFmediathek.

Zielsetzung

Der Nutzer:in werden Inhalte angeboten, die ihren Nutzungsinteressen in der ZDFmediathek entsprechen.

Inhalte und Regeln

Inhalte: Alle ZDF-Inhalte mit Video-on-Demand (VoD), davon ausgeschlossen:
- Partnerinhalte
- Nachrichten und Sport älter als 24 Stunden (außer ZDF-Sportreportage, Sport Archiv und Extremsport-Reisen)
- Einzelinhalte für Serien, Comedy, Kinder (stattdessen nur Sendungsbereiche)
- Sendungsbereiche, die nicht über Einzelinhalte mit Video verfügen
- Von der Nutzer:in bereits gesehene Einzelinhalte
Ausblenden, wenn:
- weniger als 10 Ergebnisse enthalten wären
- Nutzer:innen keine Historie haben
- Nutzer:innen in CMP nicht Personalisierung zugestimmt haben

Personalisierung

Individuell (keine gruppenbasierte Empfehlungen)
Mit und ohne Login

Kontext

Gerät (Mapping auf Endgeräteklasse)
Nutzungshistorie
Aktuelle Seite (konkret: Startseite)

KPIs

Sehvolumen
Vielfalt ("unterschiedliche Inhalte")

Algorithmus:

Basis-Algorithmus:
- Sequence Base Recommendation:
  - Paper: Session-based Recommendations with Recurrent Neural Networks (Hidasi et al.)
  - Implementierung: Open source 3rd party Basis-Framework "spotlight"
  - Derzeit nur Sequence-Based, aber potentiell auch mehrere Algorithmen im Test parallel
- Postprocessing:
  - Filterung bereits gesehener Videos
  - Ersetzen von Einzelbeiträgen aus Serien, Comedy, Kinder durch die entsprechenden Übersichtsseiten (Sendungbereiche), damit die Programmmarken statt einzelner Episoden empfohlen werden
  - "post-series-next": Nächste ungesehene Folge für serielle Inhalte, die nicht als SB dargestellt werden
- Model Deployment:
  - Deployment erfolgt automatisch beim Start der Instanzen mit dem aktuellesten Modell

Daten Training:

Nutzungsdaten: 30 Tage (ZDFtracking, alle Nutzer:innen), pro Geräteklasse, nur Plays mit mindestens 35% Nutzung des Videos, Denoising (Videos mindestens 20x gesehen über alle Nutzer:innen hinweg)
Metadaten: aus redaktionellem Content Management System (zur Filterung von Inhalten)
Bias (qualitativ): Recency (nur letzte 30 Tage Nutzungsdaten), Popularity (30 Tage Nutzungsdaten, keine ungenutzten Inhalte, Denoising) und Exposure (nur genutzte Inhalte)

Daten Inferenz:

Nutzungshistorie:
- Alle plays (Sichtungen) mit mehr als 30 Sekunden Abspielfortschritt
- Wenn dies zu leeren plays führen würde: alle plays ohne Filterung
- Wenn plays insgesamt leer sind: alle views (Klicks)
- Wenn keine Historie mitgeschickt wird: Login-Token zum serverseitigem Abruf der Abspiel-Historie (plays)
- Wenn keine Authentication mitgeschickt wird: neueste Episode jeder gemerkten Sendung als Historie
Angebotsseite:
- aktuelle Seite
Geräteklasse:
- z.B: Mobile / Tablet

Weiterentwicklung / Tests:

reines Offline-Training, alle 4 Stunden
A/B-Testing fortlaufend
Kein Auto ML nach A/B-Tests, keine automatische Hyperparameter-Optimierung

Hinweise allgemein / Known Issues:

Modell-Qualität weitgehend unabhängig von der Qualität der Metadaten