Ir al contenido
02_Elements/Icons/ArrowLeft Volver a Insight
Información > Medios de comunicación

Uso del aprendizaje automático para predecir las audiencias televisivas futuras en un panorama mediático en evolución

Lectura de 5 minutos | Jingsong Cui, vicepresidente, y Scott Sereday, gerente de ciencia de datos, Nielsen | Octubre de 2016.

Las empresas de medios de comunicación y los anunciantes confían cada día en los índices de audiencia para medir el éxito de los programas de televisión, verificar que el tamaño y la composición de su audiencia se ajustan a los objetivos de compra de medios y compensar en caso de que las cifras sean insuficientes. Desde ese punto de vista, los índices de audiencia son métricas que miden el pasado o, en el mejor de los casos, el presente de la audiencia televisiva.

Pero las empresas de comunicación también utilizan los índices de audiencia para predecir el futuro. Las audiencias crean expectativas y afectan a las decisiones de programación de una temporada a otra. También ayudan a fijar las tarifas publicitarias mucho antes de que se emita una campaña. En Estados Unidos, por ejemplo, las cadenas de televisión venden la mayor parte de su inventario publicitario para la temporada en el "upfront", un evento que organizan sólo una vez al año (entre marzo y mayo). Esto significa que la tarifa de los anuncios que está viendo hoy en televisión podría haberse negociado hace más de un año.

Para predecir la audiencia de un programa dentro de tres, seis o doce meses, los investigadores utilizan modelos de previsión. Muchos de esos modelos se han utilizado durante años sin apenas modificaciones. Han tenido éxito en la predicción de las audiencias y han hecho un gran trabajo apoyando el intercambio de miles de millones de dólares de publicidad cada año. Pero los rápidos cambios en el ecosistema televisivo están dificultando cada vez más el desarrollo de modelos fiables.

Considere la lista de innovaciones tecnológicas recientes en la industria de los medios de comunicación: Los espectadores utilizan cada vez más sus portátiles, tabletas y teléfonos inteligentes para ver contenidos; servicios de streaming como Netflix y Amazon Prime han alcanzado una adopción masiva; nuevos dispositivos conectados a la televisión están remodelando la experiencia de la gran pantalla. Las personas cambian de horario, transmiten y ven en atracones: controlan los medios que consumen más que nunca. Su comportamiento no sólo es más complejo, sino también más impredecible.

En Nielsen, tenemos acceso a muchos recursos de datos que miden cómo consumen los medios de comunicación las personas. Antes de añadir los datos de la televisión digital a la mezcla (como entrada y salida de nuestros modelos de previsión), queríamos examinar si era posible mejorar primero la forma de predecir las audiencias de la televisión tradicional, utilizando los datos de la televisión tradicional como nuestra única fuente. Gracias al Nielsen National People Meter, disponemos de datos de alta calidad que se remontan a muchos años atrás, con una metodología coherente y un sólido panel de telespectadores representativos a escala nacional.

Aprovechamos esta riqueza de datos a un nivel muy detallado para crear nuevos modelos predictivos: Variables como las audiencias históricas Live+7 (es decir, (es decir, índices que incluyen audiencias en directo y espectadores hasta siete días después de la emisión inicial), índices C3 (índices comerciales que incluyen la reproducción hasta tres días después), HUT (porcentaje de hogares que utilizan la televisión en un momento dado), alcance, índices de hogares, índices demográficos, día de la semana, hora del día e identidad de la cadena son algunos de los datos clave que utilizamos como variables de entrada; y aprovechamos algoritmos avanzados de aprendizaje automático y estadística (como ridge regression, random forest y gradient boosting) para identificar relaciones relevantes entre los datos.

En colaboración con un cliente, realizamos varios estudios de prueba de concepto para probar y validar los modelos que habíamos creado. Diseñamos nuestros modelos para predecir las audiencias futuras a un nivel granular (bloques de horas para pequeños grupos demográficos, como varones de 2 a 5 años o mujeres mayores de 65), pero también ampliamos esas cifras al nivel de la red. Para conocer el rendimiento de nuestros modelos frente a la realidad, utilizamos un periodo de espera de dos trimestres para comparar nuestras previsiones y las previsiones internas de nuestro cliente con los datos reales de audiencia. Por ejemplo, predijimos con precisión una audiencia media de Live+7 de 1,94 para personas de 30 a 34 años en la Red A entre las 21:00 y las 22:00 horas los martes durante el segundo trimestre de 2015, basándonos únicamente en datos históricos hasta el primer trimestre de 2014. Las predicciones fueron muy precisas a nivel de red, donde obtuvimos un 99% de R-cuadrado (porcentaje de varianza explicada), pero resultaron más difíciles a nivel más granular de bloque de horas por día, o para algunos de los grupos demográficos más pequeños. Sin embargo, incluso a nivel de bloque horario, la R-cuadrado de nuestro modelo superó el 95% y superó significativamente a un modelo en el que nuestro cliente había confiado hasta ese momento. En más de 2.000 proyecciones diurnas, nuestras previsiones fueron un 41% más precisas en R-cuadrado y un 16% más precisas en error porcentual absoluto ponderado (WAPE), dos medidas clave en la precisión de las previsiones.

Compartiremos más detalles sobre esos modelos de prueba de concepto y las pruebas que realizamos en un próximo artículo. Lo más importante de este proyecto es que hemos sido capaces de convertir datos de comportamiento voluminosos y ruidosos en funciones de modelado predictivo y hacerlo de forma muy eficiente (y automatizada). Pero cada decimal de un punto de rating tiene enormes implicaciones financieras, y tenemos que seguir superando los límites añadiendo nuevas variables de entrada (como el gasto publicitario o datos específicos de los programas), creando formas de adaptarse rápidamente a los cambios en los paquetes de programación y las alineaciones de canales, probando nuevas formas de algoritmos de regresión y clasificación, o incluso combinando varios modelos prometedores en uno solo.

Aunque este proyecto se centró en la televisión tradicional, es interesante observar que el impacto de los datos digitales se refleja en los cambios de las audiencias de televisión en los datos históricos y, por tanto, también en nuestras predicciones. Pero se trata de una medición indirecta de un efecto acumulativo y no sustituye a un modelo que se centrara específicamente en la televisión por Internet, por ejemplo, o en la televisión a través de una aplicación de smartphone. Además de los próximos pasos descritos, el uso de datos digitales será un elemento importante para mejorar nuestras previsiones en el futuro.

Al final, también tenemos que reconocer que cada cliente tiene un conocimiento íntimo de sus programas, así como una fuerte intuición sobre cómo podrían ser recibidos esos programas en el futuro. Ese "elemento humano" no debe ignorarse cuando elaboramos modelos predictivos y puede ser especialmente valioso a la hora de reaccionar ante cambios significativos e imprevistos en el mercado. Un sistema que integre una gran cantidad de datos, potentes algoritmos de aprendizaje automático y conocimientos especializados puede lograr mejores resultados que cualquiera de los dos por separado.

Etiquetas relacionadas:

Seguir navegando por perspectivas similares