Le problème pas si caché des grands ensembles de données

L'avenir de la mesure et la promesse du big data ont suscité beaucoup d'énergie et d'enthousiasme dans les cercles médiatiques ces derniers temps. Chez Nielsen, nous comprenons depuis longtemps la valeur du big data. En fait, le mois dernier, nous avons annoncé des détails supplémentaires sur la façon dont nous l'ajoutons à notre service de mesure de la télévision nationale.

Nous savons également qu'aucun panel n'est parfait, comme l'ont montré les derniers mois.

Mais lorsque nos équipes de scientifiques des données entendent certaines des grandes déclarations sur le big data qui va sauver la situation et résoudre tous les problèmes perçus dans l'industrie, il est difficile de ne pas être sceptique.

En effet, en dépit de leur valeur et de leur potentiel extraordinaire, les ensembles de données de grande taille auxquels l'industrie a actuellement accès présentent des limites bien réelles.

Un exemple récent et pertinent

Après avoir perdu l'accès aux compteurs de personnes portables de Nielsen, Comscore a annoncé qu'elle utiliserait désormais des ensembles de données provenant de ConsumerView d'Experian pour l'aider à identifier les téléspectateurs individuels à des fins de mesure. Cette annonce a été présentée dans la presse spécialisée comme un progrès - après tout, si les grandes données sont l'avenir, tout changement dans cette direction doit être une bonne chose.

Malheureusement pour leurs clients et pour les consommateurs, ce n'est pas le cas.

Il existe une poignée de fournisseurs d'identité tiers qui offrent la possibilité de faire correspondre des ensembles de données sur la base d'informations personnellement identifiables et de fournir des caractéristiques démographiques, à la fois directement collectées et modélisées.

Chez Nielsen, nous vérifions régulièrement ces données. Nous le faisons en mesurant directement les informations provenant de nos panels robustes afin de valider la précision de ces ensembles de données 1) en les associant correctement à un ménage et 2) en rapportant avec précision les données démographiques et les caractéristiques.

Ce que nous trouvons généralement devrait faire réfléchir les annonceurs.

La majorité des ensembles de données disponibles aujourd'hui sont construits autour des informations de facturation ou de la collecte de comportements en ligne, et non de profils démographiques. Ils ne contiennent pas de détails sur l'identité exacte des personnes figurant sur leurs listes (âge, revenu, race et origine ethnique), comme c'est le cas avec un panel solide. Ces ensembles de données, parce qu'ils sont créés par des transferts de machine à machine, augmentent également le risque de gaspillage et de fraude.

Pour cette raison, le niveau de certitude qu'ils peuvent fournir quant à l'identité des personnes vivant dans un foyer donné est limité. Et ils ne sont pas en mesure de dire qui, dans un foyer donné, regarde un programme donné à une heure donnée.

Même si vous triangulez ces données avec d'autres sources, vous êtes presque assuré d'avoir des lacunes et des erreurs massives dans vos estimations. Cela peut être acceptable si le cas d'utilisation est le ciblage, mais ces données en elles-mêmes ne fournissent pas la précision, l'objectivité et la transparence nécessaires pour fournir des mesures.

Pourquoi c'est important

Qu'est-ce que cela signifie concrètement ? Eh bien, cela a quelques implications.

Dans le cas de Comscore, il s'agit de l'abandon de nos Personal People Meters, qui fixent des microphones sur environ 100 000 personnes réelles et vérifiées et qui suivent exactement ce qu'elles regardent,

à un modèle qui utilise les données de facturation pour fournir des estimations sur les personnes qui, dans un logement, regardent un programme donné à un moment donné, le résultat sera une lecture moins précise de qui regarde quoi.

Mais la conséquence la plus importante est que ce changement va éloigner l'industrie d'une véritable représentation du pays.

Nous savons qu'un grand nombre de ces types d'ensembles de données fournissent de meilleures informations sur les ménages lorsque les personnes qui y vivent sont propriétaires de leur logement et y vivent depuis longtemps. C'est tout à fait logique. Le problème, c'est que les propriétaires de longue date ont tendance à être plus blancs, plus aisés et nettement plus âgés que l'ensemble de la population. De par leur conception, ces ensembles de données sous-estiment les Noirs et les Noirs marrons, les personnes à faible revenu et les jeunes, à une époque où tous ces segments sont en croissance, et non en décroissance.

Il en va de même pour les ensembles de données construits à partir des données des boîtiers décodeurs, qui ont tendance à surcompter les consommateurs plus aisés qui sont prêts à payer plus cher pour les bouquets câblés et qui excluent donc de manière disproportionnée les consommateurs à faible revenu qui sont des cibles importantes pour de nombreux spécialistes du marketing.

L'industrie des médias a, à juste titre, fait de la représentation fidèle des communautés noires et brunes une priorité centrale. Chez Nielsen, notre bilan en la matière, qui remonte à plusieurs décennies, n'est pas parfait, mais nous disposons aujourd'hui de la vision la plus précise et la plus avancée de la nation telle qu'elle est réellement.

Les outils de mesure dérivés des big data qui ne sont pas soutenus par un panel représentatif, validé et audité ne peuvent pas prétendre à cela. Les panels Nielsen peuvent cibler de nombreuses données démographiques dans le cadre du recensement avec une variabilité de 1 %, mais les options axées sur le big data qui existent sont loin d'y parvenir. L'industrie doit être ouverte et honnête avec elle-même sur les défis que posent les big data en matière de représentation.

Un problème plus large

Pour être clair, il ne s'agit pas seulement d'un problème lié à Comscore. Il s'agit d'un problème lié à tous les ensembles de données de grande taille qui existent actuellement.

En août 2020, l'ANA, en partenariat avec le MRC et Sequent Partners, a utilisé les données Nielsen comme référence dans une étude conçue pour comprendre dans quelle mesure les publics multiculturels étaient représentés avec précision dans le ciblage des médias. L'étude a examiné une collection agrégée de données de haute qualité sur le marketing et les médias et a cherché à comprendre dans quelle mesure les audiences noires, brunes et asiatiques étaient ciblées avec précision. Les résultats ont été troublants, mais pas du tout surprenants pour nous.

L'étude a révélé que les grands ensembles de données sur lesquels s'appuie le secteur n'étaient pas en mesure de cibler avec précision ces communautés essentielles. En partie parce que les ensembles de données n'ont pas été conçus pour capturer des données riches sur l'identité réelle de ces consommateurs, comme le font les panels robustes, il y a eu une multitude de fausses représentations et de sous-représentations dans les données.

Comparez cela avec les panels solides de Nielsen, qui fournissent une mine d'informations directement collectées auprès de personnes réelles, représentatives de l'ensemble de la population américaine. Qui vit à la maison ? Quel âge ont-ils ? À quelle race et à quelle ethnie s'identifient-ils ? Qui regarde la télévision à un moment donné ? Le panel de Nielsen répond à ces questions.

Encore une fois, les panels ne sont pas parfaits en soi, mais il y a une raison pour laquelle d'autres industries, notamment les industries pharmaceutiques, utilisent des approches similaires à celles des panels pour approuver les médicaments. En effet, lorsque les enjeux sont importants, rien ne peut remplacer des personnes réelles et vérifiées.

Nous savons que de nombreux acteurs du secteur sont enthousiasmés par les promesses du big data, et nous le sommes aussi. Mais en tant qu'industrie, nous devons être honnêtes sur ce que le big data peut et ne peut pas résoudre. Nous comprenons également que l'avenir de la mesure des médias réside dans une approche qui combine la portée du big data avec les données personnelles vérifiées de panels solides.

Cet article a été publié à l'origine sur Next TV.

Le problème pas si caché des grands ensembles de données

Un exemple récent et pertinent

Pourquoi c'est important

Un problème plus large

Poursuivre la recherche d'informations similaires

Pourquoi les fans d'anime devraient retenir l'attention de tout le monde

Les favoris des fans stimulent l'esprit festif des fêtes

Joyeux Halloween ! Tendances télévisuelles des films d'horreur pour cette saison effrayante

Nos produits peuvent vous aider, vous et votre entreprise

Lift de marque

Télévision linéaire internationale

Mesure de la télévision nationale et locale aux États-Unis

Trouvez la bonne solution pour votre entreprise

Comment pouvons-nous vous aider ?