Przejdź do treści
Insights > TV & streaming

Nie tak ukryty problem z dużymi zbiorami danych

6 minuta czytania | Molly Poppie, SVP Data Science, Nielsen | październik 2021 r.

Ostatnio w kręgach medialnych jest wiele energii i emocji na temat przyszłości pomiaru i obietnicy big data. W Nielsen, od dawna rozumiemy wartość big data, w rzeczywistości w zeszłym miesiącu ogłosiliśmy dodatkowe szczegóły dotyczące tego, jak dodajemy je do naszego krajowego pomiaru telewizyjnego

Wiemy też, że żaden panel nie jest idealny, co pokazało kilka ostatnich miesięcy. 

Ale kiedy nasze zespoły naukowców zajmujących się danymi słyszą niektóre z wielkich, szerokich twierdzeń o tym, że big data uratuje dzień i rozwiąże wszystkie postrzegane wyzwania w branży, trudno nie być sceptycznym.

Dzieje się tak dlatego, że przy całej swojej wartości i niesamowitym potencjale, zbiory dużych danych, do których branża ma obecnie dostęp, mają bardzo realne ograniczenia

Odpowiedni niedawny przykład

Po utracie dostępu do przenośnych people meters firmy Nielsen, Comscore poinformował, że będzie teraz używał zestawów danych z ConsumerView firmy Experian, aby pomóc w identyfikacji poszczególnych widzów dla celów pomiarowych. Ogłoszenie to zostało przedstawione w prasie branżowej jako postęp - w końcu, jeśli big data jest przyszłością, każda zmiana w tym kierunku musi być dobra. 

Niestety dla ich klientów, a także dla konsumentów, tak nie jest. 

Istnieje garstka dostawców tożsamości stron trzecich, którzy zapewniają możliwość dopasowania zestawów danych w oparciu o informacje umożliwiające identyfikację osoby i dostarczają cechy demograficzne, zarówno bezpośrednio zebrane, jak i wymodelowane. 

W firmie Nielsen regularnie sprawdzamy te dane. Robimy to poprzez bezpośredni pomiar informacji z naszych solidnych paneli, aby potwierdzić, jak dokładne są te zestawy danych w 1) prawidłowym dopasowaniu do gospodarstwa domowego i 2) dokładnym przedstawieniu danych demograficznych i cech. 

Co zwykle znaleźć powinien dać reklamodawcom pauzę. 

Większość dostępnych obecnie zbiorów danych opiera się na informacjach o rozliczeniach lub zachowaniach online, a nie na profilach demograficznych. Nie mają one bogatych informacji na temat tego, kim dokładnie są ludzie na ich listach - od wieku, przez dochody, po rasę i pochodzenie etniczne - tak jak ma to miejsce w przypadku solidnego panelu. Te zestawy danych, ponieważ są tworzone przez transfery między maszynami, zwiększają również możliwość marnotrawstwa i oszustwa. 

Z tego powodu poziom pewności, jaki mogą zapewnić na temat tego, kto faktycznie mieszka w danym gospodarstwie domowym, jest ograniczony. I nie są w stanie powiedzieć, kto w danym domu ogląda dany program w określonym czasie. 

Nawet w przypadku triangulacji tych danych z innymi źródłami, prawie gwarantowane są ogromne luki i błędy w szacunkach. Może to być akceptowalne, jeśli przypadek użycia jest ukierunkowany, ale te dane same w sobie nie zapewniają dokładności, obiektywności i przejrzystości wymaganej do dostarczania pomiarów. 

Dlaczego to ma znaczenie

Co więc to praktycznie oznacza? Cóż, ma to kilka implikacji. 

W przypadku Comscore'a odchodzi się od naszych Personal People Meters, które faktycznie przyczepiają mikrofony do ~100,000 prawdziwych, sprawdzonych ludzi i śledzą dokładnie to, co oglądają, 

do modelu, który wykorzystuje dane bilingowe, aby zapewnić zgadywanie, kto w mieszkaniu może oglądać dany program w danym czasie, wynik będzie mniej dokładny odczyt na temat tego, kto ogląda co. 

Ale prawdopodobnie większe znaczenie ma to, że ta zmiana jeszcze bardziej oddali branżę od uchwycenia prawdziwej reprezentacji kraju. 

Wiemy, że wiele z tych rodzajów zestawów danych lepiej radzi sobie z dostarczaniem danych dotyczących gospodarstw domowych, w których mieszkają ludzie posiadający własny dom i przebywający w nim od dłuższego czasu. I to jest uzasadnione. Problem w tym, że długoletni właściciele domów są zazwyczaj bardziej biali, zamożni i znacznie starsi niż cały naród. Z założenia te zestawy danych nie uwzględniają osób czarnoskórych i brązowych, osób o niższych dochodach i osób młodszych, w czasie gdy wszystkie te segmenty rosną, a nie maleją. 

To samo dotyczy zestawów danych zbudowanych na podstawie danych z dekoderów, które mają tendencję do zawyżania liczby bardziej zamożnych konsumentów, którzy są skłonni płacić więcej za pakiety kablowe, a tym samym nieproporcjonalnie wykluczają konsumentów o niższych dochodach, którzy są ważnym celem dla wielu marketerów. 

Przemysł medialny słusznie uczynił z dokładnego przedstawiania czarnych i brązowych społeczności główny priorytet. W Nielsen nasze osiągnięcia w tym zakresie, sięgające dziesięcioleci, nie były idealne, ale dziś mamy najdokładniejszy i najbardziej zaawansowany obraz narodu, jaki jest naprawdę. 

Narzędzia pomiarowe oparte na dużych danych, które nie są poparte reprezentatywnym, zwalidowanym i skontrolowanym panelem, nie mogą tego stwierdzić. Panele Nielsena są w stanie objąć wiele grup demograficznych w ramach spisu powszechnego z 1% zmiennością, ale opcje skupione na big data nie są nawet zbliżone do tego. Branża musi być otwarta i szczera wobec siebie w kwestii wyzwań, jakie stawiają big data, jeśli chodzi o reprezentację.

Szerszy problem

Żeby było jasne, to nie jest tylko problem Comscore. Jest to problem ze wszystkimi dużymi zbiorami danych, które są obecnie dostępne. 

W sierpniu 2020 roku ANA, we współpracy z MRC i Sequent Partners, wykorzystała dane Nielsena jako punkt odniesienia w badaniu mającym na celu zrozumienie stopnia, w jakim wielokulturowe grupy odbiorców były dokładnie reprezentowane w targetowaniu mediów. Badanie spojrzało na zagregowany zbiór wysokiej jakości danych marketingowych i medialnych i starało się zrozumieć, jak dokładnie były one kierowane do czarnych, brązowych i azjatyckich odbiorców. Wyniki były niepokojące, ale nie były dla nas zaskakujące. 

Badanie wykazało, że duże zbiory danych, na których opiera się branża, nie były w stanie sprostać zadaniu dokładnego dotarcia do tych krytycznych społeczności. Częściowo dlatego, że zestawy danych nie zostały zaprojektowane tak, aby uchwycić bogate dane na temat tego, kim naprawdę są ci konsumenci, tak jak to robią solidne panele, w danych występowało wiele przekłamań i niedoreprezentacji. 

Porównaj to z solidnymi panelami Nielsena, które zapewniają bogactwo bezpośrednio zebranych informacji od prawdziwych ludzi, reprezentatywnych dla całej populacji USA. Kto mieszka w domu? Ile mają lat? Jaką rasę i pochodzenie etniczne identyfikują? Kto w danym momencie ogląda telewizję? Panel Nielsena odpowiada na te pytania. 

Ponownie, panele same w sobie nie są idealne, ale jest powód, dla którego inne branże, mianowicie farmaceutyczna, używają podejścia podobnego do paneli przy zatwierdzaniu leków. To dlatego, że kiedy stawka jest wysoka, nie ma substytutu dla prawdziwych, sprawdzonych ludzi.  

Wiemy, że wiele podmiotów z branży jest podekscytowanych obietnicą big data, my również. Ale jako przemysł musimy być uczciwi w kwestii tego, co big data może i nie może rozwiązać. I my też rozumiemy, że przyszłość pomiaru mediów to podejście, które łączy zasięg big data ze zweryfikowanymi danymi osobowymi solidnych paneli.

Ten artykuł pierwotnie pojawił się w Next TV.

Kontynuuj przeglądanie tego samego tematu spostrzeżenia