Zum Inhalt
Einblicke > TV und Streaming

Das nicht so versteckte Problem mit großen Datensätzen

6 Minuten lesen | Molly Poppie, SVP Data Science, Nielsen | Oktober 2021

In Medienkreisen wird in letzter Zeit viel über die Zukunft der Messung und das Versprechen von Big Data diskutiert. Bei Nielsen haben wir den Wert von Big Data seit langem erkannt. Erst letzten Monat haben wir weitere Details dazu bekannt gegeben, wie wir unseren nationalen TV-Messdienst um Big Data erweitern. 

Wir wissen auch, dass kein Gremium perfekt ist, wie die letzten Monate gezeigt haben. 

Aber wenn unsere Teams von Datenwissenschaftlern einige der großen, breit angelegten Behauptungen über Big Data hören, die den Tag retten und alle vermeintlichen Herausforderungen in der Branche lösen sollen, ist es schwer, nicht skeptisch zu sein.

Das liegt daran, dass die großen Datensätze, auf die die Branche derzeit zugreifen kann, trotz ihres Wertes und erstaunlichen Potenzials nur sehr begrenzt zur Verfügung stehen. 

Ein aktuelles Beispiel

Nachdem Comscore den Zugang zu den Portable People Meters von Nielsen verloren hat, berichtet das Unternehmen, dass es nun Datensätze von Experian's ConsumerView verwenden wird, um einzelne Zuschauer für Messzwecke zu identifizieren. Die Ankündigung wurde in der Fachpresse als Fortschritt dargestellt - denn wenn Big Data die Zukunft ist, muss jede Verschiebung in diese Richtung eine gute Sache sein. 

Zum Leidwesen ihrer Kunden und der Verbraucher ist dies jedoch nicht der Fall. 

Es gibt eine Handvoll Drittanbieter von Identitätsdaten, die in der Lage sind, Datensätze auf der Grundlage personenbezogener Daten abzugleichen und demografische Merkmale bereitzustellen, die sowohl direkt erhoben als auch modelliert wurden. 

Bei Nielsen überprüfen wir diese Daten regelmäßig. Wir tun dies, indem wir Informationen aus unseren robusten Panels direkt messen, um zu validieren, wie genau diese Datensätze 1) einem Haushalt korrekt zugeordnet sind und 2) demografische Daten und Merkmale korrekt wiedergeben. 

Was wir in der Regel finden, sollte Werbetreibenden zu denken geben. 

Die meisten der heute verfügbaren Datensätze basieren auf Rechnungsdaten oder der Erfassung des Online-Verhaltens, nicht auf demografischen Profilen. Sie verfügen nicht über die reichhaltigen Details darüber, wer genau die Personen auf ihren Listen sind - vom Alter über das Einkommen bis hin zu Rasse und ethnischer Zugehörigkeit - wie dies bei einem robusten Panel der Fall ist. Da diese Datensätze durch Übertragungen von Maschine zu Maschine erstellt werden, erhöhen sie auch die Möglichkeit von Verschwendung und Betrug. 

Aus diesem Grund können sie nur bedingt Auskunft darüber geben, wer tatsächlich in einem bestimmten Haushalt lebt. Und sie können nicht sagen, wer in einem bestimmten Haushalt ein bestimmtes Programm zu einer bestimmten Zeit sieht. 

Selbst wenn Sie diese Daten mit anderen Quellen abgleichen, sind massive Lücken und Fehler in Ihren Schätzungen fast garantiert. Das mag akzeptabel sein, wenn der Anwendungsfall die Zielgruppenansprache ist, aber diese Daten allein bieten nicht die Genauigkeit, Objektivität und Transparenz, die für eine Messung erforderlich sind. 

Warum das wichtig ist

Was bedeutet das nun praktisch? Nun, es hat ein paar Auswirkungen. 

Im Falle von Comscores Abkehr von unseren Personal People Meters, die tatsächlich Mikrofone an ~100.000 realen, verifizierten Menschen anbringen und genau verfolgen, was sie sich ansehen, 

zu einem Modell, das anhand von Abrechnungsdaten Schätzungen darüber anstellt, wer in einer Wohnung ein bestimmtes Programm zu einem bestimmten Zeitpunkt sehen könnte, wird das Ergebnis eine weniger genaue Aussage darüber sein, wer was sieht. 

Die möglicherweise größere Auswirkung ist jedoch, dass diese Verschiebung die Branche noch weiter davon entfernt, ein wahres Bild des Landes zu zeichnen. 

Wir wissen, dass viele dieser Arten von Datensätzen besser geeignet sind, Daten über Haushalte zu liefern, wenn die dort lebenden Menschen ihr eigenes Haus besitzen und schon lange dort leben. Und das ist nur logisch. Das Problem dabei ist, dass langjährige Hausbesitzer in der Regel weißer, wohlhabender und deutlich älter sind als die Bevölkerung insgesamt. In diesen Datensätzen werden Schwarze und Braune, Menschen mit geringerem Einkommen und jüngere Menschen unterrepräsentiert, und das zu einer Zeit, in der alle diese Gruppen wachsen und nicht schrumpfen. 

Das Gleiche gilt für Datensätze, die auf der Grundlage von Set-Top-Box-Daten erstellt werden, die dazu neigen, wohlhabendere Verbraucher, die bereit sind, mehr für Kabelpakete zu zahlen, zu überbewerten, und somit einkommensschwächere Verbraucher, die für viele Vermarkter wichtige Zielgruppen sind, unverhältnismäßig stark ausschließen. 

Die Medienbranche hat zu Recht die genaue Darstellung der schwarzen und braunen Gemeinschaften zu einer zentralen Priorität gemacht. Bei Nielsen war unsere jahrzehntelange Erfolgsbilanz in dieser Hinsicht nicht perfekt, aber heute haben wir den genauesten und fortschrittlichsten Blick auf die Nation, wie sie wirklich ist. 

Von Big Data abgeleitete Messinstrumente, die nicht durch ein repräsentatives, validiertes und geprüftes Panel gestützt werden, können diesen Anspruch nicht erheben. Nielsen-Panels können viele demografische Gruppen innerhalb der Volkszählung mit einer Variabilität von 1 % erfassen, aber die auf Big Data basierenden Optionen kommen nicht einmal annähernd daran heran. Die Branche muss offen und ehrlich mit sich selbst sein, wenn es um die Herausforderungen geht, die Big Data in Bezug auf die Repräsentation mit sich bringt.

Ein größeres Problem

Um es klar zu sagen: Das ist nicht nur ein Problem von Comscore. Dies ist ein Problem mit allen großen Datensätzen, die es derzeit gibt. 

Im August 2020 nutzte die ANA in Zusammenarbeit mit dem MRC und Sequent Partners Nielsen-Daten als Benchmark in einer Studie, die darauf abzielte, zu verstehen, inwieweit die multikulturellen Zielgruppen in der Medienausrichtung genau repräsentiert werden. Die Studie untersuchte eine aggregierte Sammlung hochwertiger Marketing- und Mediendaten und versuchte herauszufinden, wie genau die Zielgruppe der Schwarzen, Braunen und Asiaten angesprochen wird. Die Ergebnisse waren beunruhigend, aber für uns keineswegs überraschend. 

Die Studie ergab, dass die großen Datensätze, auf die sich die Branche verlässt, der Aufgabe nicht gewachsen sind, diese kritischen Gemeinschaften genau anzusprechen. Zum Teil deshalb, weil die Datensätze nicht darauf ausgelegt waren, umfassende Daten darüber zu erfassen, wer diese Verbraucher wirklich sind, wie es bei robusten Panels der Fall ist, kam es zu einer weit verbreiteten Falschdarstellung und Unterrepräsentation in den Daten. 

Dem gegenüber stehen die robusten Nielsen-Panels, die eine Fülle von direkt erhobenen Informationen von Menschen aus dem wirklichen Leben liefern, die für die gesamte US-Bevölkerung repräsentativ sind. Wer wohnt zu Hause? Wie alt sind sie? Welcher Rasse und Ethnie gehören sie an? Wer sitzt zu einem bestimmten Zeitpunkt vor dem Fernseher? Das Nielsen-Panel gibt Antworten auf diese Fragen. 

Auch hier gilt, dass Panels für sich genommen nicht perfekt sind, aber es gibt einen Grund, warum andere Branchen, insbesondere die Pharmaindustrie, bei der Zulassung von Arzneimitteln ähnliche Ansätze wie Panels verwenden. Denn wenn viel auf dem Spiel steht, gibt es keinen Ersatz für echte, verifizierte Menschen.  

Wir wissen, dass viele Akteure der Branche von den Möglichkeiten von Big Data begeistert sind, und wir sind es auch. Aber als Branche müssen wir ehrlich darüber sein, was Big Data leisten kann und was nicht. Und auch wir wissen, dass die Zukunft der Medienmessung in einem Ansatz liegt, der die Reichweite von Big Data mit den verifizierten persönlichen Daten robuster Panels kombiniert.

Dieser Artikel erschien ursprünglich auf Next TV.

Weiterblättern im selben Thema Einblicke