Skip to content
Perspectives > TV et streaming

Le problème pas si caché des grands ensembles de données

6 minutes de lecture | Molly Poppie, SVP Data Science, Nielsen | Octobre 2021

Ces derniers temps, l'avenir de la mesure et la promesse du big data ont suscité beaucoup d'énergie et d'excitation dans les milieux des médias. Chez Nielsen, nous avons compris depuis longtemps la valeur du big data. En fait, le mois dernier, nous avons annoncé des détails supplémentaires sur la manière dont nous l'ajoutons à notre service national de mesure de la télévision

Nous savons également qu'aucun panel n'est parfait, comme l'ont démontré les derniers mois. 

Mais lorsque nos équipes de scientifiques des données entendent certaines des grandes déclarations sur les big data qui vont sauver la journée et résoudre tous les problèmes perçus dans le secteur, il est difficile de ne pas être sceptique.

En effet, malgré toute leur valeur et leur potentiel extraordinaire, les ensembles de données volumineuses auxquels le secteur a actuellement accès présentent des limites bien réelles

Un exemple récent et pertinent

Après avoir perdu l'accès aux audimètres portables de Nielsen, Comscore a annoncé qu'elle allait désormais utiliser des ensembles de données provenant de ConsumerView d'Experian pour l'aider à identifier les téléspectateurs individuels à des fins de mesure. Cette annonce a été présentée par la presse spécialisée comme un progrès - après tout, si le big data est l'avenir, tout changement dans cette direction doit être une bonne chose. 

Malheureusement pour leurs clients, et pour les consommateurs, ce n'est pas le cas. 

Il existe une poignée de fournisseurs d'identité tiers qui offrent la possibilité de faire correspondre des ensembles de données sur la base d'informations personnellement identifiables et de fournir des caractéristiques démographiques, à la fois directement collectées et modélisées. 

Chez Nielsen, nous vérifions régulièrement ces données. Pour ce faire, nous mesurons directement les informations provenant de nos panels robustes afin de valider le degré de précision de ces ensembles de données en ce qui concerne 1) l'association correcte à un ménage et 2) l'exactitude des données démographiques et des caractéristiques. 

Ce que nous trouvons généralement devrait faire réfléchir les annonceurs. 

La majorité des ensembles de données actuels sont construits autour des informations de facturation ou de la collecte de comportements en ligne, et non de profils démographiques. Ils ne disposent pas d'informations détaillées sur l'identité exacte des personnes figurant sur leurs listes, qu'il s'agisse de l'âge, du revenu, de la race ou de l'origine ethnique, comme c'est le cas avec un panel solide. Ces ensembles de données, parce qu'ils sont créés par des transferts de machine à machine, augmentent également la possibilité de gaspillage et de fraude. 

De ce fait, le niveau de certitude qu'ils peuvent fournir sur les personnes vivant réellement dans un foyer donné est limité. Et ils ne sont pas en mesure de dire qui, dans un foyer donné, regarde un programme donné à un moment précis. 

Même lorsque vous triangulez ces données avec d'autres sources, vous êtes presque sûr d'avoir des lacunes et des erreurs massives dans vos estimations. Cela peut être acceptable si le cas d'utilisation est le ciblage, mais ces données en elles-mêmes ne fournissent pas la précision, l'objectivité et la transparence nécessaires pour fournir des mesures. 

Pourquoi c'est important

Alors, qu'est-ce que cela signifie concrètement ? Eh bien, cela a quelques implications. 

Dans le cas de l'abandon par Comscore de nos audimètres personnels, qui fixent des microphones à environ 100 000 personnes réelles et vérifiées, et suivent exactement ce qu'elles regardent, 

à un modèle qui utilise les données de facturation pour fournir une estimation des personnes qui, dans un logement, sont susceptibles de regarder un programme donné à un moment donné, le résultat sera une lecture moins précise de qui regarde quoi. 

Mais l'implication peut-être la plus importante est que ce changement va éloigner le secteur de la capture d'une véritable représentation du pays. 

Nous savons qu'un grand nombre de ces types d'ensembles de données fournissent de meilleures données sur les ménages lorsque les personnes qui y vivent sont propriétaires de leur logement et y habitent depuis longtemps. Et cela va de soi. Le problème, c'est que les propriétaires de longue date ont tendance à être plus blancs, plus aisés et nettement plus âgés que la nation dans son ensemble. De par leur conception, ces ensembles de données sous-estiment les Noirs et les Bruns, les personnes à faible revenu et les jeunes, à un moment où tous ces segments sont en croissance, et non en décroissance. 

Il en va de même pour les ensembles de données construits à partir des données des boîtiers décodeurs, qui ont tendance à surcompter les consommateurs plus aisés qui sont prêts à payer plus cher pour des forfaits câble et excluent donc de manière disproportionnée les consommateurs à faible revenu qui sont des cibles importantes pour de nombreux spécialistes du marketing. 

L'industrie des médias a, à juste titre, fait de la représentation exacte des communautés noires et brunes une priorité centrale. Chez Nielsen, notre bilan en la matière, qui remonte à plusieurs décennies, n'est pas parfait, mais nous disposons aujourd'hui de la vision la plus précise et la plus avancée de la nation telle qu'elle est réellement. 

Les outils de mesure dérivés des big data qui ne s'appuient pas sur un panel représentatif, validé et audité ne peuvent pas faire cette affirmation. Les panels Nielsen peuvent cibler de nombreuses données démographiques au sein du recensement avec une variabilité de 1 %, mais les options axées sur le big data sont loin d'en être capables. Le secteur doit faire preuve d'ouverture et d'honnêteté à l'égard des défis que présente le big data en matière de représentation.

Un problème plus large

Pour être clair, ce n'est pas seulement un problème de Comscore. C'est un problème avec tous les ensembles de données volumineuses qui existent actuellement. 

En août 2020, l'ANA, en partenariat avec le MRC et Sequent Partners, a utilisé les données Nielsen comme référence dans une étude visant à comprendre dans quelle mesure les publics multiculturels étaient représentés avec précision dans le ciblage des médias. L'étude s'est penchée sur une collection agrégée de données de haute qualité sur le marketing et les médias et a cherché à comprendre avec quelle précision elle ciblait les publics noirs, bruns et asiatiques. Les résultats ont été troublants, mais pas du tout surprenants pour nous. 

L'étude a révélé que les grands ensembles de données sur lesquels le secteur s'appuie n'étaient pas à la hauteur pour cibler avec précision ces communautés critiques. En partie parce que les ensembles de données n'étaient pas conçus pour capturer des données riches sur qui sont vraiment ces consommateurs, comme le sont les panels robustes, il y avait une déformation et une sous-représentation endémiques dans les données. 

Comparez cela aux panels robustes de Nielsen, qui fournissent une multitude d'informations collectées directement auprès de personnes réelles, représentatives de l'ensemble de la population américaine. Qui vit dans la maison ? Quel âge ont-ils ? À quelle race et à quelle ethnie s'identifient-ils ? Qui regarde la télévision à un moment donné ? Le panel de Nielsen répond à ces questions. 

Encore une fois, les panels ne sont pas parfaits en soi, mais il y a une raison pour laquelle d'autres industries, notamment l'industrie pharmaceutique, utilisent des approches similaires aux panels pour approuver les médicaments. C'est parce que, lorsque les enjeux sont élevés, rien ne remplace les personnes réelles et vérifiées.  

Nous savons que de nombreux acteurs du secteur sont enthousiasmés par les promesses du big data, et nous le sommes aussi. Mais en tant que secteur, nous devons être honnêtes sur ce que le big data peut et ne peut pas résoudre. Et nous comprenons également que l'avenir de la mesure des médias réside dans une approche qui combine la portée du big data avec les données personnelles vérifiées de panels robustes.

Cet article a été initialement publié sur Next TV.

Continuer à naviguer sur le même sujet