Zum Inhalt
02_Elemente/Icons/PfeilLinks Zurück zu Einblicke
Einblicke > Medien

Einsatz von maschinellem Lernen zur Vorhersage zukünftiger TV-Quoten in einer sich entwickelnden Medienlandschaft

5 Minuten lesen | Jingsong Cui, VP, und Scott Sereday, Manager, Data Science, Nielsen | Oktober 2016

Medienunternehmen und Werbetreibende verlassen sich tagtäglich auf die Einschaltquoten, um den Erfolg von Fernsehsendungen zu messen, um zu überprüfen, ob die Größe und Zusammensetzung der Zuschauerschaft den Zielvorgaben für Medienkäufe entspricht, und um sich zu revanchieren, falls die Zahlen zu niedrig ausfallen. So gesehen sind Einschaltquoten Messgrößen, die die Vergangenheit oder bestenfalls die Gegenwart des Fernsehens messen.

Die Medienunternehmen nutzen die Einschaltquoten aber auch, um die Zukunft vorherzusagen. Die Einschaltquoten legen die Erwartungen fest und beeinflussen die Programmentscheidungen von einer Saison zur nächsten. Sie helfen auch bei der Festsetzung der Werbetarife lange vor der tatsächlichen Ausstrahlung einer Kampagne. In den USA zum Beispiel verkaufen die Fernsehsender den größten Teil ihres Werbeinventars für die Saison auf der "Upfront", einer Veranstaltung, die sie nur einmal im Jahr (zwischen März und Mai) organisieren. Das bedeutet, dass der Preis für die Werbung, die Sie heute im Fernsehen sehen, möglicherweise schon vor mehr als einem Jahr ausgehandelt wurde.

Um vorherzusagen, wie die Einschaltquoten einer Sendung in drei, sechs oder 12 Monaten aussehen könnten, verwenden die Forscher Prognosemodelle. Viele dieser Modelle werden seit Jahren mit geringen oder gar keinen Änderungen verwendet. Sie haben sich bei der Vorhersage der Einschaltquoten bewährt und den Austausch von Milliarden von Werbegeldern jedes Jahr unterstützt. Die schnellen Veränderungen im TV-Ökosystem machen es jedoch immer schwieriger, zuverlässige Modelle zu entwickeln.

Betrachten Sie die Liste der jüngsten technologischen Innovationen in der Medienbranche: Die Zuschauer nutzen zunehmend ihre Laptops, Tablets und Smartphones, um Inhalte zu sehen; Streaming-Dienste wie Netflix und Amazon Prime haben die Massenakzeptanz erreicht; neue, mit dem Fernseher verbundene Geräte verändern das Erlebnis des großen Bildschirms. Die Menschen verlagern ihren Medienkonsum, streamen und schauen in Serien - sie haben mehr Kontrolle über die Medien, die sie konsumieren, als je zuvor. Ihr Verhalten ist nicht nur komplexer, sondern auch unvorhersehbarer.

Bei Nielsen haben wir Zugang zu vielen Datenquellen, die messen, wie Menschen Medien konsumieren. Bevor wir digitale TV-Daten in den Mix einbeziehen (sowohl als Input als auch als Output unserer Prognosemodelle), wollten wir prüfen, ob es möglich ist, zunächst die Vorhersage der Einschaltquoten für das traditionelle Fernsehen zu verbessern, indem wir traditionelle TV-Daten als einzige Quelle nutzen. Dank des Nielsen National People Meter verfügen wir über qualitativ hochwertige Daten, die viele Jahre zurückreichen, mit einer konsistenten Methodik und einem robusten Panel von landesweit repräsentativen Zuschauern.

Wir haben diese reichhaltigen Daten auf einer sehr detaillierten Ebene angezapft, um neue Prognosemodelle zu erstellen: Variablen wie historische Live+7-Quoten (d.h., (d. h. Einschaltquoten, die das Live-Publikum sowie die Zuschauer bis zu sieben Tage nach der Erstausstrahlung einschließen), C3-Einschaltquoten (kommerzielle Einschaltquoten, die die Wiedergabe bis zu drei Tage danach einschließen), HUT (der Prozentsatz der Haushalte, die das Fernsehen zu einem beliebigen Zeitpunkt nutzen), Reichweiten, Haushaltseinschaltquoten, demografische Einschaltquoten, Wochentag, Tageszeit und die Identität des Senders sind einige der wichtigsten Informationen, die wir als Eingangsvariablen verwendet haben; und wir nutzten fortschrittliche maschinelle Lernverfahren und statistische Algorithmen (wie Ridge Regression, Random Forest und Gradient Boosting), um relevante Datenbeziehungen zu ermitteln.

In Zusammenarbeit mit einem Kunden haben wir eine Reihe von Proof-of-Concept-Studien durchgeführt, um die von uns entwickelten Modelle zu testen und zu validieren. Wir haben unsere Modelle so konzipiert, dass sie künftige Einschaltquoten auf granularer Ebene vorhersagen (Stundenblöcke für kleine demografische Gruppen wie Männer im Alter von 2-5 Jahren oder Frauen über 65), aber wir haben diese Zahlen auch auf die Netzebene hochgerechnet. Um zu verstehen, wie unsere Modelle im Vergleich zur Realität abschneiden, haben wir eine Wartezeit von zwei Quartalen genutzt, um unsere Prognosen sowie die internen Prognosen unseres Kunden mit den tatsächlichen Einschaltquoten zu vergleichen. So haben wir beispielsweise eine durchschnittliche Live+7-Einschaltquote von 1,94 für die 30- bis 34-Jährigen auf Sender A dienstags zwischen 21.00 und 22.00 Uhr im zweiten Quartal 2015 genau vorhergesagt, und zwar ausschließlich auf der Grundlage historischer Daten bis zum ersten Quartal 2014. Die Vorhersagen waren auf Netzebene mit einem R-Quadrat von 99 % (Prozentsatz der erklärten Varianz) sehr genau, aber auf der detaillierteren Ebene der Tagesstundenblöcke oder für einige der kleineren demografischen Gruppen waren sie schwieriger. Selbst auf der Ebene der Stundenblöcke lag der R-Quadratwert unseres Modells immer noch bei über 95 % und übertraf damit deutlich ein Modell, auf das sich unser Kunde bis dahin verlassen hatte. Bei mehr als 2.000 Tageszeitprognosen waren unsere Prognosen um 41 % genauer beim R-Quadrat und um 16 % genauer beim gewichteten absoluten prozentualen Fehler (WAPE) - zwei wichtige Maßstäbe für die Prognosegenauigkeit.

Weitere Einzelheiten zu diesen Proof-of-Concept-Modellen und den von uns durchgeführten Tests werden wir in einem kommenden Artikel vorstellen. Die wichtigste Erkenntnis aus diesem Projekt ist, dass wir in der Lage waren, große und verrauschte Verhaltensdaten in prädiktive Modellierungsfunktionen umzuwandeln, und dies auf sehr effiziente (und automatisierte) Weise. Aber jede Dezimalstelle eines Bewertungspunktes hat enorme finanzielle Auswirkungen, und wir müssen die Grenzen weiter ausreizen, indem wir neue Eingabevariablen (wie Werbeausgaben oder programmspezifische Daten) hinzufügen, Möglichkeiten zur schnellen Anpassung an Änderungen in Programmpaketen und Kanalaufstellungen entwickeln, neue Formen von Regressions- und Klassifizierungsalgorithmen testen oder sogar mehrere vielversprechende Modelle zu einem einzigen kombinieren.

Obwohl sich dieses Projekt auf das traditionelle Fernsehen konzentrierte, ist es interessant festzustellen, dass sich die Auswirkungen der digitalen Daten in den Veränderungen der TV-Einschaltquoten in den historischen Daten widerspiegeln - und somit auch in unseren Vorhersagen. Dies ist jedoch eine indirekte Messung eines kumulativen Effekts und kein Ersatz für ein Modell, das sich beispielsweise speziell auf die Nutzung von Over-the-Top-Angeboten oder die Nutzung von Smartphone-Apps konzentriert. Zusätzlich zu den oben beschriebenen nächsten Schritten wird die Nutzung digitaler Daten ein wichtiges Element zur Verbesserung unserer Prognosen in der Zukunft sein.

Letztendlich müssen wir auch anerkennen, dass jeder Kunde seine Programme sehr gut kennt und eine starke Intuition dafür hat, wie diese Programme in der Zukunft ankommen könnten. Dieses "menschliche Element" sollte bei der Erstellung von Prognosemodellen nicht außer Acht gelassen werden und kann besonders wertvoll sein, wenn auf bedeutende und unvorhergesehene Veränderungen auf dem Markt reagiert wird. Ein System, das umfangreiche Daten, leistungsstarke Algorithmen des maschinellen Lernens und Fachwissen vereint, kann bessere Ergebnisse erzielen, als dies jeder für sich allein könnte.

Fortsetzung der Suche nach ähnlichen Erkenntnissen