Pular para o conteúdo
Insights > TV & streaming

O problema não tão oculto dos grandes conjuntos de dados

6 minutos de leitura | Molly Poppie, SVP Data Science, Nielsen | Outubro 2021

Tem havido muita energia e excitação nos círculos da mídia dos últimos tempos sobre o futuro da medição e a promessa de grandes dados. Na Nielsen, há muito compreendemos o valor dos grandes dados, na verdade, ainda no mês passado anunciamos detalhes adicionais sobre como estamos adicionando ao nosso serviço nacional de medição de TV

Também sabemos que nenhum painel é perfeito, como os últimos meses têm demonstrado. 

Mas quando nossas equipes de cientistas de dados ouvem algumas das grandes e amplas alegações sobre a vinda de grandes dados para salvar o dia e consertar todos os desafios percebidos na indústria, é difícil não ser cético.

Isso porque, por todo o seu valor e incrível potencial, os grandes conjuntos de dados a que a indústria tem acesso atualmente têm limitações muito reais

Um exemplo recente relevante

Depois de perder o acesso aos medidores portáteis Nielsen, a Comscore informou que agora utilizará conjuntos de dados do Experian's ConsumerView para ajudá-los a identificar telespectadores individuais para fins de medição. Seu anúncio foi enquadrado na imprensa comercial como um avanço - afinal, se grandes dados são o futuro, qualquer mudança nessa direção deve ser uma coisa boa. 

Infelizmente para seus clientes, e para os consumidores, esse não é o caso. 

Há um punhado de fornecedores de identidade de terceiros que fornecem a capacidade de combinar conjuntos de dados com base em informações pessoalmente identificáveis e fornecer características demográficas, tanto coletadas diretamente quanto modeladas. 

Na Nielsen, nós verificamos regularmente estes dados. Fazemos isso medindo diretamente as informações de nossos painéis robustos para validar a precisão desses conjuntos de dados em 1) correspondência correta com um agregado familiar e 2) relatório preciso da demografia e das características. 

O que normalmente encontramos deve dar aos anunciantes uma pausa. 

A maioria dos conjuntos de dados que existem hoje são construídos em torno de informações de faturamento ou coleta de comportamento on-line, não de perfis demográficos. Eles não têm os detalhes ricos sobre exatamente quem são as pessoas em suas listas - da idade, à renda, à raça e etnia - da forma como você faz com um painel robusto. Estes conjuntos de dados, porque são criados por transferências máquina-a-máquina, também aumentam a possibilidade de desperdício e fraude. 

Por causa disso, o nível de certeza que eles podem oferecer em torno de quem realmente vive em um determinado lar é limitado. E eles não têm a capacidade de dizer quem dentro de uma determinada casa está assistindo a um determinado programa em um determinado momento. 

Mesmo quando você triangula esses dados com outras fontes, é quase garantido que você terá enormes lacunas e erros em suas estimativas. Isto pode ser aceitável se o caso de uso for o objetivo, mas estes dados por si só não fornecem a precisão, objetividade e transparência necessárias para fornecer a medição. 

Por que isso importa

Então, o que isso praticamente significa? Bem, tem algumas implicações. 

No caso do afastamento da Comscore de nossos medidores pessoais de pessoas, que na verdade afixam microfones em ~100.000 pessoas reais, verificam as pessoas e rastreiam exatamente o que elas estão observando, 

para um modelo que usa dados de faturamento para fornecer adivinhações de quem dentro de uma residência pode estar observando um determinado programa em um determinado momento, o resultado será uma leitura menos precisa sobre quem está observando o quê. 

Mas a implicação possivelmente maior é que esta mudança vai afastar ainda mais o setor da captura de uma verdadeira representação do país. 

Sabemos que muitos desses tipos de conjuntos de dados fazem um trabalho melhor de fornecer dados em torno dos lares quando as pessoas que vivem lá possuem sua própria casa e já lá estão há muito tempo. E isso é lógico. O problema com isso é que os proprietários de casas de longa data tendem a ser mais brancos, mais abastados e significativamente mais velhos do que a nação como um todo. Ao projetar estes conjuntos de dados, os negros e marrons não contam, os de menor renda e os mais jovens, em um momento em que todos estes segmentos estão crescendo, não diminuindo. 

O mesmo se aplica aos conjuntos de dados construídos a partir de dados de set top box, o que tende a superar os consumidores mais abastados que estão dispostos a pagar mais por pacotes de cabos e, portanto, exclui desproporcionalmente os consumidores de baixa renda que são alvos importantes para muitos comerciantes. 

A indústria da mídia, com razão, fez da representação precisa das comunidades negra e marrom uma prioridade central. Na Nielsen, nosso histórico de décadas atrás não tem sido perfeito, mas hoje temos a visão mais precisa e avançada da nação como ela realmente é. 

Grandes ferramentas de medição derivadas de dados que não são apoiadas por um painel representativo, validado e auditado não podem fazer essa reivindicação. Os painéis Nielsen podem visar muitos dados demográficos dentro do censo com 1% de variabilidade, mas as grandes opções focadas em dados não estão nem perto disso. A indústria precisa ser aberta e honesta consigo mesma sobre os desafios que os grandes dados apresentam quando se trata de representação.

Um problema mais amplo

Para ser claro, esta não é apenas uma questão da Comscore. Este é um problema com todos os grandes conjuntos de dados que existem atualmente. 

Em agosto de 2020, a ANA, em parceria com a MRC e a Sequent Partners, utilizou os dados da Nielsen como referência em um estudo destinado a compreender o grau de representação precisa dos públicos multiculturais nos alvos da mídia. O estudo analisou uma coleção agregada de dados de marketing e mídia de alta qualidade e procurou entender o grau de precisão com que estava visando o público negro, marrom e asiático. As conclusões foram preocupantes, mas não nos surpreenderam nada. 

O estudo descobriu que os grandes conjuntos de dados em que a indústria se baseia não estavam à altura da tarefa de visar com precisão essas comunidades críticas. Em parte porque os conjuntos de dados não foram projetados para capturar dados ricos sobre quem realmente são esses consumidores, da forma como os painéis são robustos, houve uma representação desvirtuada e subrepresentada nos dados. 

Agora, contrastando com os painéis robustos da Nielsen, que fornecem uma riqueza de informações coletadas diretamente de pessoas da vida real, representativas de toda a população dos EUA. Quem vive em casa? Quantos anos eles têm? Que raça e etnia eles identificam como? Quem está assistindo à televisão em um determinado momento? O painel da Nielsen responde a estas perguntas. 

Mais uma vez, os painéis por si só não são perfeitos, mas há uma razão pela qual outras indústrias, nomeadamente a farmacêutica, utilizam abordagens semelhantes aos painéis na aprovação de medicamentos. Isso porque, quando os riscos são altos, não há substituto para pessoas reais e verificadas.  

Sabemos que muitos agentes do setor estão entusiasmados com a promessa de grandes dados, nós também estamos. Mas, como indústria, precisamos ser honestos sobre o que os grandes dados podem e não podem resolver. E também entendemos que o futuro da medição da mídia é uma abordagem que combina o alcance dos grandes dados com os dados pessoais verificados de painéis robustos.

Este artigo apareceu originalmente na Next TV.

Continuar navegando pelos mesmos tópicos