Glossar


01.12.2022


A/B-Test Jede Besucher:in wird auf einem Endgerät (TV, native App, responsive Webseite) zufällig in eine sogenannte "A/B-Gruppe" einsortiert, sofern er dem nicht widerspricht. Anhand der A/B-Gruppe kann unterschiedlicher Content pro Gruppe ausgespielt werden:

  • Empfehlungen mit unterschiedlichen Algorithmen
  • Alternative Startseiten bei HbbTV und mobilen Apps

Diese A/B-Tests nutzen wir vor allem, um neue Algorithmen und Anwendungsfälle zu testen.

Algorithmus Ein Algorithmus im Allgemeinen beschreibt durch einen Satz an eindeutigen Regeln Vorschriften zur Lösung einer Klasse von Problemen und beinhaltet eine endliche Anzahl an Schritten, um dieses Ziel zu erreichen. Im Anwendungsbereich Personalisierung und Automatisierung beschreibt ein Algorithmus, z.B. in Form von Programmcode, welche Inhalte einer Nutzer:in angeboten werden auf Basis verschiedener Daten und Parameter (z.B. bisherige Nutzung, Inhalte-Bestand, Kennzahlen).

Automatisierung Anwendungsfälle bei denen automatisiert Inhalte empfohlen werden. Diese unterscheidet sich von einer Personalisierung vor allem dadurch, dass die gesehenen Videos einer Nutzer:in keinen Einfluss auf die Empfehlung haben. Sie kann anhand von Metadaten ausgesprochen werden (z.B. "Zeige alle Videos, die nur noch kurz verfügbar sind") oder anhand der anonymisierten Nutzung aller Mediatheksnutzer:innen (z.B. "Inhalte, die in den letzten 24 Stunden bei allen Nutzer:innen beliebt waren").

Autoplay ist eine Funktion für die automatische Wiedergabe eines folgenden Videos, die ohne eine Interaktion von Seite der Nutzer:innen auskommt.

CMAB (Contextual Multi-Armed Bandit): Ein Contextual Multi-Armed Bandit (CMAB) ist ein Algorithmus des Reinforcement Learning. Dieser Algorithmus sorgt dafür, dass Inhalte angezeigt werden, die eine bestimmte Kennzahl erhöhen ("Exploitation"), aber trotzdem Inhalten, die nach dieser Kennzahl nicht so erfolgreich sind, eine Chance geben, angezeigt zu werden ("Exploration").

CMP (Consent Management Platform) ist ein Werkzeug, um bei Nutzer:innen die Zustimmung ("Consent") zur Verwendung ihrer Daten einzuholen. Das ZDF folgt dabei dem "Gesetz über den Datenschutz und den Schutz der Privatsphäre in der Telekommunikation und bei Telemedien" (TTDSG). Wenn eine Nutzer:in der Verwendung der Daten nicht zustimmt, werden diese vom ZDF nicht erhoben.

Coverage oder Abdeckung beschreibt, welcher Anteil des vorhandenen Contents empfohlen wird.

Coverage beschreibt, wie viele Videos vom Gesamtbestand der Mediathek wirklich empfohlen werden. Angenommen in der ZDFmediathek wären insgesamt 100 Videos vorhanden und der Algorithmus empfiehlt davon im Verlaufe des Tages 80, wäre die Coverage = 80%.

Dieser Anteil wird als Bruch angegeben, wobei der Zähler \(\mathcal{I}\) die individuellen Empfehlungen an alle Nutzer:innen über einen bestimmten Zeitraum zählt. Alle eventuell mehrfach empfohlenen Inhalte werde nur einmal gezählt. Der Nenner \(\mathcal{N}\) ist die Summe der in der ZDFmediathek zu diesem Zeitpunkt vorhandenen Elemente. Abhängig vom der Fragestellung kann der Nenner beschränkt sein und eine Untermenge der empfehlbaren Inhalte darstellen. Wenn ein Anwendungsfall zum Beispiel nur Serien empfiehlt, dann ist der Nenner die Summe aller verfügbaren Serieninhalte in der Mediathek, während z.B. Filme ausgeschlossen sind. Durch die Coverage wird transparent gemacht, welchen Ausschnitt am Gesamtbestand an Inhalten den Nutzer:innen empfohlen wird. Eine hohe Coverage ist wichtig, um möglichst wenig selektiv bei den Empfehlungen zu sein und den komplett vorhandenen Content zu nutzen. Zusammengefasst lässt sich Coverage im dem hier dargestellten Zusammenhang wie folgt definieren:

\[ \begin{align} cov & = \frac{\mathcal{I}}{\mathcal{N}} < 1 \end{align}\]

Diversity oder auch Vielfalt ist eine Public Value Metrik.

Diversity im Kontext von Empfehlungssystemen beschreibt wie (un-)ähnlich verschiedene Elemente einer Gruppe von Empfehlungen sind. Nimmt man Rubriken als Beispiel, wäre eine Empfehlungsliste mit Serien und Filmen diverser, als eine mit nur Dokus.

Wir interessieren uns für die Diversity \(div@k^T\), die mittlere paarweise Ungleichheit der Empfehlungslisten \(R\) mit \(k\) Elementen, welche vom Empfehlungssystem allen Nutzer:innen \(u\) über einen bestimmten Zeitraum \(T\) empfohlen werden. Dafür wird zuerst die Diversity \(div_u@k\) für jeden Nutzer \(u\) nach einer Empfehlung mit \(k\) vorgeschlagenen Elementen wie folgt bestimmt:

\[ \begin{align} div_{u@k} & = 1-\left( \frac{1}{k\cdot(k-1)}\right) \sum_{i\neq j \in R } sim(i,j) \\[6pt] sim(i,j) & = \left\{ \begin{aligned} 1\hspace{0.5cm} &\text{i, j aus gleicher Kategorie}\\ 0\hspace{0.5cm} &\text{sonst} \end{aligned} \right. \end{align}\]

Eine Kategorisierung nach Ähnlichkeit wird durch die Funktion \(sim(i,j)\) implementiert. Diese beträgt \(sim(i,j) = 0\), wenn die empfohlenen Elemente \(i\) und \(j\) aus verschiedenen Kategorien stammen. Hier wird die Rubrik innerhalb der ZDFmediathek des Elementes als Kategorie für Ähnlichkeit angenommen. Falls beide Elemente aus der selben Kategorie stammen, beträgt \(sim(i,j) = 1\). Im folgenden Schritt werden die Ergebnisse aus der obigen Formel über alle Nutzer \(u\) und einen Zeitraum \(T\) gemittelt und somit die Diversity \(div@k^T\) bestimmt.

Ein anschauliches Beispiel zur Berechnung von \(div@k^T\) ist in der nachfolgenden Grafik dargestellt: zwei Nutzer:innen werden jeweils drei Inhalte empfohlen. Der ersten Nutzerin (\(u=1\)) empfiehlt das System drei Elemente (\(k=3\)) aus verschiedenen Rubriken, womit ihre persönliche \(div_1@3 = 1\) wäre. Dem Nutzer zwei (\(u=2\)) empfiehlt der Algorithmus zwei Elemente aus der gleichen Rubrik und ein weiteres Element aus einer anderen. Damit wäre seine persönliche Diversity nach obiger Formel \(div_2@3 = 2/3\). Angenommen die beiden Empfehlungslisten wurden im selben Zeitintervall \(T\) erstellt, ergibt sich für die mittlere paarweise Ungleichheit ein Wert von \(div@3^T=5/6\).

DKDI "Das könnte Dich interessieren": Der wichtigste personalisierte Anwendungsfall. In unterschiedlichen Ausführung vorhanden, beispielsweise auf der allgemeinen Startseite oder auf der Seite "Dokus & Reportagen" beschränkt auf die Inhalte der Rubrikenseite.

Einzelinhalt wird ein Beitrag genannt, der den Ausschnitt einer Sendung oder ein einzelnes Video ohne Sendungsbezug repräsentiert. Zum Beispiel ist ein Film, der zu keiner Reihe gehört, ein Einzelinhalt.

Empfehlung Eine Empfehlung kann ein Video oder mehrere Videos umfassen und wird entweder automatisch oder personalisiert von einem Algorithmus erzeugt oder von der Redaktion zusammengestellt.

Empfehlungssystem Das Empfehlungsystem ist ein technisches System und sorgt dafür, dass in der Mediathek Empfehlungen ausgespielt werden können. Wenn eine Nutzer:in auf die Startseite kommt, kann die Mediathek das Empfehlungsystem nach einer bestimmten Konfiguration fragen und das Empfehlungsystem kann auf Basis dieser Konfiguration eine Empfehlung aussprechen.

Endgeräteklasse Die ZDFmediathek ist über unterschiedlichen Applikationen und Endgeräten abrufbar. Je nach Endgerät unterscheidet sich die Nutzung der Mediathek zum Teil stark. So werden auf mobilen Endgeräten wie Smartphones im Allgemeinen weniger lange Videos angesehen, auf TV-Geräten hingegen werden oft lange Filme geschaut. Solche unterschiedlichen Typen von Endgeräten fassen wir zu Klassen, also Gruppen, zusammen und können zum Beispiel passende Empfehlungen pro Endgeräteklasse berechnen: kürzere Videos auf mobilen Geräten, längere Videos auf TV-Geräten.

Hyperparameter-Optimierung Algorithmen müssen vor Verwendung oft trainiert werden. Das bedeutet, dass sie anhand von Nutzungsdaten und bestimmter, von den Entwicklern gewählter Einstellwerte lernen, wie sie sich optimal verhalten sollen. Diese Einstellwerte werden "Hyperparameter" genannt und eine Hauptaufgabe der Algorithmenentwickler ist es, eine gute Einstellung zu finden, so dass ein Algorithmus Kennzahlen bestmöglich erfüllt.

Klickrate oder auch CTR (Click-Through-Rate) ist eine Leistungsmetrik, welche die Nutzerinteraktion ("Klick") mit dem empfohlenen Inhalt misst und dadurch das Nutzerverhalten und -interesse abbilden kann. Die CTR ist definiert als der Anteil von Nutzer:innen die mit einem angebotenem Inhalt interagiert haben.

Konfiguration oder Anwendungsfall nennen wir eine eindeutige Bezeichnung für einen spezifischen Algorithmus. Jede Konfiguration findet an einer spezifischen Stelle in der ZDF Mediathek statt und hat einen spezifischen journalistischen Zweck zu erfüllen. So zeigt "Das könnte Dich interessieren" eher Inhalte, die zur Nutzungshistorie der Nutzer:in passen.

Leistungsmetriken bezeichnen die Metriken, die eine Zielgröße messen und die umso besser sind je höher der Wert ist. Zum Beispiel ist ein hohes Sehvolumen unter Beibehalt von passenden Werten in anderen Metriken immer positiv für die ZDF Mediathek.

Maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz ermöglicht es mit Hilfe von Algorithmen und vorhandener Datensätze Muster zu erkennen und Lösungen zu vorher festgelegten Fragestellungen zu optimieren. Zum Beispiel kann ein Empfehlungssystem durch maschinelles Lernen Nutzungsinteressen identifizieren und darauf basierend Empfehlungen vorschlagen. Somit wird aus Daten neues Wissen erzeugt.

Mean Reciprocal Rank (MRR) ist ein statistisches Maß für die Evaluation von Empfehlungssystemen. Der reciprocal rank einer Empfehlungsliste ist das multiplikative Inverse des Rangs des ersten geklickten Beitrags in der Empfehlungsliste. Dieser reciprocal rank wird über alle Anfragen Q gemittelt (mean), um das gesamte Empfehlungssystem bewerten zu können. Auf diese Weise wird der Mean Reciprocal Rank definiert. Nachfolgend ist die mathematische Beschreibung:

\[ \begin{align} MRR & = \frac{1}{|Q|} \sum^{|Q|}_{i=1}\frac{1}{rank_i} \end{align}\]

Metadaten sind beschreibende Daten vom Inhalten, z.B. die Beschreibung des Inhalts, Rechteinformationen oder Ähnliches.

Metriken sind Kennzahlen über das Verhalten eines Systems im Allgemeinen oder bei uns des Empfehlungsystems im Speziellen. Metriken werden vereinbart und ihr Erfolg langfristig gemessen und überwacht. Schlagen Metriken über bestimmte Schwellwerte aus, so muss gehandelt werden.

Model Card beschreibt sowohl den fachlichen Anwendungsfall eines Algorithmus als auch seine technische Implementierung. Model Cards dienen vor allem der Transparenz für Entwickler, Redakteure und für Nutzer:innen der ZDFmediathek. Siehe auch unseren Artikel hierzu.

Novelty wird von uns als eine Metrik definiert, die empfohlene Inhalte nutzer-unabhängig, das heißt auf globaler Basis bezogen auf einen Anwendungsfall (z.B. Das könnte Dich Interessieren), nach deren Beliebtheit und Unerwartetheit einordnet. Während wir intern einen Novelty-Wert für jeden empfohlenen Inhalt berechnen, interessiert uns das kumulierte Verhalten des Anwendungsfalls, weshalb wir einen Mittelwert über alle empfohlenen Inhalte berechnen und angeben. Die mathematische Beschreibung ist wie folgt:

\[ \begin{align} nov & = -log\left(\frac{Anzahl\ Sichtungen\ mit\ Inhalt\ i }{Anzahl\ aller\ Sichtungen }\right) \end{align}\]

Novelty gibt die Unerwartetheit von Inhalten wieder. Hier im Dashboard ist diese Größe ein Mittelwert über die Unerwartetheit aller Empfehlungen in einem bestimmten Zeitraum. Ein Anwendungsfall, der weniger beliebte Inhalte empfiehlt, hat eine hohe Novelty.

Nutzungshistorie. Jede Nutzer:in, die der Personalisierung in der ZDF Mediathek zugestimmt hat, baut während dem Anschauen von Videos eine Nutzungshistorie auf. Das ist nichts anderes als eine Liste der von der Nutzer:in angeschauten Videos. Weitere Informationen findest Du hier.

Partnerinhalte Das ZDF zeigt in der Mediathek nicht nur Videos, die von und für das das ZDF produziert wurden, sondern zeigt seit 2019 auch Videos von Partnerinstitutionen (funk, Arte, ..). Diese Inhalte werden als Partnerinhalte bezeichnet.

Personalisierung Die Auswahl oder Darstellung der Inhalte werden persönlichen Präferenzen (expliziten Einstellungen und/oder bisherige Nutzung) angepasst. Eine Personalisierung findet nicht statt, wenn die Nutzer:in Personalisierung in der Consent Management Platform abgewählt hat.

Personalisierungs- und Automatisierungs-Service (P/A-Service) Der Personalisierungs & Automatisierungs-Service, das Empfehlungssystem der Mediathek, und seine Module, der in der Cloud läuft. Liefert persönliche Empfehlungen (z.B. "Das könnte Dich interessieren") und Automatisierungen.

Redaktionelle Empfehlungen Derzeit bauen wir die algorithmischen Empfehlungen in der Mediathek aus. Das heißt aber nicht, dass es nicht bisher bereits Empfehlungen gab und auch weiterhin gibt. Diese werden derzeit noch von Redakteur:innen auf der Startseite händisch ausgewählt und kuratiert. Wir profitieren von dem Erfahrungsschatz der Kolleg:innen indem wir Hand in Hand arbeiten, um die algorithmischen Empfehlungen zu verbessern.

Rekurrente Neuronale Netze (RNN) sind eine Unterklasse neuronaler Netze, deren Neuronen Verbindungen innerhalb der selben, oder auch vorhergehenden Schicht aufweisen. Deshalb werden diese Netze auch rückgekoppelt oder rekurrent bezeichnet. Solche Modelle sind in der Lage zeitlich kodierte Information in den Daten aufzudecken. Im Fall der ZDFmediathek liegen solche zeitlich kodierten Informationen zum Beispiel in Form von Nutzungssequenzen bzw. Nutzungshistorien vor.

Public Value Metriken (PVM) nach denen das ZDF seine Algorithmen optimiert sind vor allem Novelty, Diversity, Coverage und Serendipity.

Rubrik (Rubrikenseite). Mit den Rubriken werden die Online-Inhalte des ZDF strukturiert. Als Rubrik werden sowohl inhaltliche Begriffe aus dem Bereich der TV- und Video-Genres verwendet (z.B. Comedy, Krimi, Politik) als auch TV- und Video-Format-Überbegriffe (z.B. Filme/Serien, Magazin). Zu jeder Rubrik existiert eine Rubrikenseite, als eine Ausprägung der Übersichtsseite, die gestaltet werden kann. Rubriken und Rubrikenseiten sind dauerhaft und beständig im Angebot vorhanden – somit unterscheiden sie sich von den "flüchtigen" Themenseiten.

Sehvolumen wird in der ZDFmediathek in gesehenen Minuten pro Tag dargestellt. Es zeigt die kumulierte Sehzeit aller Nutzer:innen zu einem spezifischen Anwendungsfall an und ist eine typische Leistungsmetrik, die neben dem ZDF auch weltweit von vielen großen Anbietern wie z.B. Netflix oder Disney+ zur Optimierung der Empfehlungssysteme verwendet wird.

Sendungsbereich (SB, SB-Seite). Element der ZDFmediathek, bildet die Übersicht über das Angebot einer TV-Sendung (z.B. heute-journal, Bares für Rares, Das Traumschiff).

Serendipity. Das Empfehlungssystem der ZDFmediathek soll den Nutzer:innen nach Möglichkeit Einblicke in ihnen derzeit unbekannte Themengebiete liefern. Der Erfolg dieser Vorgehensweise kann mithilfe der Metrik Serendipity gemessen werden. Der Ausdruck stammt aus dem Persischen und vereint mehrere Aspekte, unter anderem Relevanz und Unerwartetheit. Bezogen auf Empfehlungssysteme nutzen wir die folgende Definition: Unerwartetheit ist gegeben, wenn der Algorithmus einem Nutzer einen Inhalt außerhalb seines bekannten Interessengebietes vorschlägt, wobei die Rubriken der ZDFmediathek als Ähnlichkeitskriterium genutzt werden. Relevanz ist erfüllt, wenn der Nutzer diesen Inhalt ansieht und damit positiv würdigt. Dieser Ansatz ist ähnlich zur Definition für Diversity, denn die Rubrik eines empfohlenen Elementes wird auch hier zur Bestimmung von Ähnlichkeit genutzt. Der Unterschied liegt in der geforderten Relevanz, d.h. ein Nutzer muss die Empfehlung nutzen, also das Video schauen. Nachfolgend die mathematische Beschreibung:

Sowohl die Serendipity \(s(i,h)\) eines Inhaltes \(i\) und einer Nutzer:innenhistorie \(h\), als auch die gemittelte Serendipity für einen Anwendungsfall \(ser\), sind in der nachfolgenden Formel definiert:

\[ \begin{align} ser_{i} & = \frac{1}{\text{Anzahl i}} \sum_i \frac{\sum_h s(i,h)}{\text{Anzahl h}} \\[6pt] s(i,h) & = \left\{ \begin{aligned} 1\hspace{0.5cm} &\text{wenn Rubrik von } i \text{ nicht in h}\\ 0\hspace{0.5cm} &\text{sonst} \end{aligned} \right. \end{align}\]

Die Serendipity eines Inhaltes \(i\) ist hoch, wenn Nutzer:innen noch keine Inhalte aus der entsprechenden Rubrik gesehen hat. Die Serendipity eines Anwendungsfalls für alle Nutzer:innenhistorien \(h\) und Inhalte \(i\), ist definiert als der arithmetische Mittelwert (Hier nutzen wir Historien von bis zu \(30\) Tagen).

Serendipity beschreibt im Kontext der ZDFmediathek eine Empfehlung, die außerhalb des bekannten Nutzerinteresses liegt und vom Nutzer durch Anschauen positiv aufgenommen wird.

VoD kurz für "Video on Demand". In Online-Angeboten des ZDF abrufbaren Video-Inhalte, die keine Livestreams sind.