Ir al contenido
Información > TV y streaming

El problema no tan oculto de los grandes conjuntos de datos

6 minutos de lectura | Molly Poppie, SVP Data Science, Nielsen | Octubre 2021

Últimamente hay mucha energía y entusiasmo en los círculos de los medios de comunicación sobre el futuro de la medición y la promesa de los grandes datos. En Nielsen, hace tiempo que entendemos el valor del big data, de hecho, el mes pasado anunciamos detalles adicionales sobre cómo lo estamos añadiendo a nuestro servicio de medición de televisión nacional

También sabemos que ningún panel es perfecto, como han demostrado los últimos meses. 

Pero cuando nuestros equipos de científicos de datos escuchan algunas de las grandes afirmaciones sobre los grandes datos que vienen a salvar el día y a solucionar todos los desafíos percibidos en la industria, es difícil no ser escéptico.

Esto se debe a que, a pesar de todo su valor y sorprendente potencial, los conjuntos de big data a los que la industria tiene acceso actualmente tienen limitaciones muy reales

Un ejemplo reciente y relevante

Tras perder el acceso a los Portable People Meters de Nielsen, Comscore informó de que ahora utilizará conjuntos de datos de ConsumerView de Experian para ayudarles a identificar a los espectadores individuales con fines de medición. Su anuncio se enmarcó en la prensa especializada como un avance; después de todo, si el big data es el futuro, cualquier cambio en esa dirección debe ser positivo. 

Por desgracia para sus clientes, y para los consumidores, no es así. 

Hay un puñado de proveedores de identidades de terceros que ofrecen la posibilidad de cotejar conjuntos de datos basados en información personal identificable y proporcionar características demográficas, tanto recogidas directamente como modeladas. 

En Nielsen, comprobamos regularmente estos datos. Lo hacemos midiendo directamente la información de nuestros robustos paneles para validar la exactitud de estos conjuntos de datos en cuanto a 1) la correspondencia correcta con un hogar y 2) la información precisa de los datos demográficos y las características. 

Lo que solemos encontrar debería hacer reflexionar a los anunciantes. 

La mayoría de los conjuntos de datos que existen en la actualidad se basan en información de facturación o en la recopilación de comportamientos en línea, no en perfiles demográficos. No disponen de los ricos detalles sobre quiénes son exactamente las personas que figuran en sus listas -desde la edad hasta los ingresos, pasando por la raza y el origen étnico-, como se hace con un panel sólido. Estos conjuntos de datos, al ser creados por transferencias de máquina a máquina, también aumentan la posibilidad de despilfarro y fraude. 

Por ello, el nivel de certeza que pueden ofrecer sobre quién vive realmente en un determinado hogar es limitado. Y no pueden decir quiénes, dentro de un hogar determinado, están viendo un programa concreto a una hora determinada. 

Incluso cuando se triangulan esos datos con otras fuentes, está casi garantizado que habrá grandes lagunas y errores en las estimaciones. Esto puede ser aceptable si el caso de uso es la orientación, pero estos datos por sí solos no proporcionan la precisión, la objetividad y la transparencia necesarias para ofrecer una medición. 

Por qué es importante

¿Qué significa esto en la práctica? Bueno, tiene algunas implicaciones. 

En el caso de Comscore, el cambio de nuestros Medidores Personales de Personas, que realmente fijan micrófonos a ~100.000 personas reales y verificadas y rastrean exactamente lo que están viendo, 

a un modelo que utiliza los datos de facturación para proporcionar estimaciones de quiénes, dentro de una vivienda, podrían estar viendo un programa determinado en un momento dado, el resultado será una lectura menos precisa de quién está viendo qué. 

Pero la implicación posiblemente mayor es que este cambio va a alejar a la industria de la captación de una verdadera representación del país. 

Sabemos que muchos de estos tipos de conjuntos de datos hacen un mejor trabajo al proporcionar datos en torno a los hogares cuando las personas que los habitan son propietarias de su casa y llevan mucho tiempo en ella. Y eso es lógico. El problema es que los propietarios de viviendas de larga duración tienden a ser más blancos, más acomodados y bastante más viejos que el conjunto del país. Por diseño, estos conjuntos de datos subestiman a los negros y marrones, a las personas con menos ingresos y a los más jóvenes, en un momento en que todos esos segmentos están creciendo, no disminuyendo. 

Lo mismo ocurre con los conjuntos de datos construidos a partir de los datos de los descodificadores, que tienden a sobrecontar a los consumidores más acomodados que están dispuestos a pagar más por los paquetes de cable y, por tanto, excluyen de forma desproporcionada a los consumidores con menos ingresos, que son objetivos importantes para muchos vendedores. 

La industria de los medios de comunicación ha hecho, con razón, que la representación exacta de las comunidades negras y marrones sea una prioridad central. En Nielsen, nuestro historial en este sentido, que se remonta a décadas atrás, no ha sido perfecto, pero hoy tenemos la visión más precisa y avanzada de la nación tal y como es realmente. 

Las herramientas de medición derivadas del big data que no están respaldadas por un panel representativo, validado y auditado no pueden hacer esa afirmación. Los paneles de Nielsen pueden dirigirse a muchos grupos demográficos dentro del censo con una variabilidad del 1%, pero las opciones centradas en el big data ni siquiera se acercan a eso. La industria debe ser abierta y honesta consigo misma sobre los desafíos que el big data presenta cuando se trata de la representación.

Un problema más amplio

Para ser claros, esto no es sólo un problema de Comscore. Es un problema con todos los conjuntos de big data que existen actualmente. 

En agosto de 2020, la ANA, en colaboración con el MRC y Sequent Partners, utilizó los datos de Nielsen como punto de referencia en un estudio diseñado para comprender el grado de representación de las audiencias multiculturales en la orientación de los medios de comunicación. El estudio examinó una colección agregada de datos de marketing y medios de comunicación de alta calidad y trató de entender con qué precisión se dirigía al público negro, marrón y asiático. Los resultados fueron preocupantes, pero no nos sorprendieron en absoluto. 

El estudio reveló que los grandes conjuntos de datos en los que se basa el sector no estaban a la altura de la tarea de dirigirse con precisión a estas comunidades críticas. En parte, debido a que los conjuntos de datos no estaban diseñados para capturar datos ricos sobre quiénes son realmente estos consumidores, de la forma en que lo hacen los paneles robustos, había una representación errónea y una subrepresentación desenfrenada en los datos. 

Ahora contrasta eso con los sólidos paneles de Nielsen, que proporcionan una gran cantidad de información recogida directamente de personas de la vida real, representativa de toda la población de Estados Unidos. ¿Quién vive en el hogar? ¿Qué edad tienen? ¿Con qué raza y etnia se identifican? ¿Quién está viendo la televisión en un momento determinado? El panel de Nielsen responde a estas preguntas. 

Una vez más, los paneles por sí solos no son perfectos, pero hay una razón por la que otras industrias, en concreto la farmacéutica, utilizan enfoques similares a los paneles para la aprobación de medicamentos. Esto se debe a que, cuando hay mucho en juego, no hay sustituto para las personas reales y verificadas.  

Sabemos que muchos actores del sector están entusiasmados con la promesa de los macrodatos, y nosotros también. Pero, como industria, tenemos que ser honestos sobre lo que el big data puede y no puede resolver. Y nosotros también entendemos que el futuro de la medición de los medios de comunicación es un enfoque que combina el alcance de los big data con los datos personales verificados de los paneles robustos.

Este artículo apareció originalmente en Next TV.

Seguir navegando por el mismo tema