콘텐츠로 건너뛰기
TV 및 스트리밍> 대한 통찰력

빅 데이터 세트의 숨겨진 문제

6 분 읽기 | 몰리 포피, SVP 데이터 사이언스, 닐슨 | 2021년 10월

최근 미디어 서클에서는 측정의 미래와 빅 데이터의 약속에 대해 많은 에너지와 흥분이있었습니다. 닐슨에서 우리는 빅 데이터의 가치를 오랫동안 이해해 왔으며, 실제로 지난 달 우리는 빅 데이터를 국가 TV 측정 서비스에 추가하는 방법에 대한 추가 세부 사항을 발표했습니다. 

우리는 또한 지난 몇 달 동안 보여준 것처럼 완벽한 패널이 없다는 것을 알고 있습니다. 

그러나 우리 데이터 과학자 팀이 하루를 절약하고 업계에서 인식 된 모든 문제를 해결하기 위해 빅 데이터에 대한 크고 광범위한 주장을 들었을 때, 회의적이지 않는 것은 어렵습니다.

그 이유는 가치와 놀라운 잠재력 모두에 대해 업계가 현재 액세스 할 수있는 빅 데이터 세트에는 매우 실질적인 한계가 있기 때문입니다

관련 최근 예제

Nielsen의 Portable People Meters에 대한 액세스 권한을 잃은 후 Comscore는 Experian의 ConsumerView의 데이터 세트를 사용하여 측정 목적으로 개별 시청자를 식별하는 데 도움이 될 것이라고 보고했습니다. 그들의 발표는 무역 언론에서 진보로 짜여졌습니다 - 결국 빅 데이터가 미래라면, 그 방향으로의 변화는 좋은 것이어야합니다. 

불행히도 고객과 소비자에게는 그렇지 않습니다. 

개인 식별 정보를 기반으로 데이터 세트를 일치시키고 직접 수집 및 모델링 된 인구 통계 학적 특성을 제공하는 소수의 타사 ID 공급 업체가 있습니다. 

닐슨에서는 정기적으로 이 데이터를 확인합니다. 우리는 견고한 패널의 정보를 직접 측정하여 이러한 데이터 세트가 1) 가정과 올바르게 일치하고 2) 인구 통계 및 특성을 정확하게보고하는 것이 얼마나 정확한지 검증합니다. 

우리가 일반적으로 찾는 것은 광고주에게 일시 중지를 제공해야합니다. 

오늘날 대부분의 데이터 세트는 인구 통계 학적 프로필이 아닌 청구 정보 또는 온라인 행동 수집을 중심으로 구축됩니다. 그들은 나이, 소득, 인종 및 민족에 이르기까지 사람들이 자신의 목록에있는 정확한 사람에 대한 풍부한 세부 사항을 가지고 있지 않습니다. 이러한 데이터 세트는 기계 간 전송에 의해 생성되기 때문에 낭비와 사기의 가능성을 높입니다. 

그 때문에, 그들이 실제로 주어진 가정에 살고있는 주위에 제공 할 수있는 확실성의 수준은 제한적입니다. 그리고 그들은 주어진 가정 내에서 누가 특정 시간에 주어진 프로그램을보고 있는지 말할 능력이 없습니다. 

해당 데이터를 다른 소스와 삼각 측량하더라도 추정치에 엄청난 차이와 오류가 거의 보장됩니다. 이는 사용 사례가 타겟팅되는 경우 허용될 수 있지만, 이 데이터 자체는 측정을 제공하는 데 필요한 정확성, 객관성 및 투명성을 제공하지 않습니다. 

중요한 이유

그렇다면 그것은 실제로 무엇을 의미합니까? 글쎄, 그것은 몇 가지 의미가 있습니다. 

Comscore가 실제로 마이크를 ~ 100,000 실생활에 부착하는 개인 인력 측정기에서 벗어나 사람들을 확인하고 그들이보고있는 것을 정확하게 추적하는 경우, 

청구 데이터를 사용하여 거주지 내에서 누가 주어진 시간에 주어진 프로그램을 시청하고 있는지에 대한 추측을 제공하는 모델의 경우, 결과는 누가 무엇을보고 있는지에 대한 덜 정확한 읽기가 될 것입니다. 

그러나 아마도 더 큰 함의는 이러한 변화가 업계가 국가의 진정한 대표성을 포착하는 것을 더 멀리 할 것이라는 것입니다. 

우리는 이러한 유형의 데이터 세트 중 많은 부분이 그곳에 사는 사람들이 자신의 집을 소유하고 오랫동안 거기에 있었을 때 가정 주위에 데이터를 제공하는 데 더 나은 역할을한다는 것을 알고 있습니다. 그리고 그것은 추론에 서 있습니다. 문제는 오랜 주택 소유자가 국가 전체보다 더 백인이고, 풍요롭고, 훨씬 나이가 많은 경향이 있다는 것입니다. 설계에 따라 이러한 데이터 세트는 흑인과 브라운 사람들, 저소득층 및 젊은 사람들을 과소 평가하며, 모든 부문이 줄어들지 않고 성장하고있는 시점에 있습니다. 

셋톱 박스 데이터로 구축된 데이터 세트도 마찬가지인데, 이는 케이블 패키지에 대해 더 많은 비용을 지불하려는 부유한 소비자를 과대 평가하는 경향이 있으며, 따라서 많은 마케터에게 중요한 목표인 저소득층 소비자를 불균형적으로 배제합니다. 

미디어 산업은 흑인과 브라운 공동체를 정확하게 대표하는 것을 최우선 과제로 삼았습니다. 닐슨에서 수십 년 전으로 거슬러 올라가는 우리의 실적은 완벽하지는 않았지만, 오늘날 우리는 국가에 대한 가장 정확하고 진보 된 견해를 가지고 있습니다. 

대표, 검증 및 감사 패널이 지원하지 않는 빅 데이터 파생 측정 도구는 그러한 주장을 할 수 없습니다. 닐슨 패널은 인구 조사 내에서 1 %의 변동성으로 많은 인구 통계를 타겟팅 할 수 있지만 빅 데이터 중심 옵션은 그다지 가깝지 않습니다. 업계는 빅 데이터가 표현과 관련하여 제시하는 과제에 대해 개방적이고 정직해야합니다.

더 넓은 문제

분명히하기 위해, 이것은 단지 Comscore 문제가 아닙니다. 이것은 현재 모든 빅 데이터 세트에서 문제가됩니다. 

2020년 8월, ANA는 MRC 및 Sequent Partners와 협력하여 다문화 관객이 미디어 타겟팅에서 정확하게 표현되는 정도를 이해하기 위해 고안된 연구에서 닐슨 데이터를 벤치마크로 사용했습니다. 이 연구는 고품질의 마케팅 및 미디어 데이터의 집계 된 컬렉션을 살펴보고 흑인, 브라운 및 아시아 관객을 얼마나 정확하게 타겟팅했는지 이해하려고했습니다. 연구 결과는 문제가되었지만 우리에게 전혀 놀라운 것은 아닙니다. 

이 연구는 업계가 의존하는 빅 데이터 세트가 이러한 중요한 커뮤니티를 정확하게 타겟팅하는 작업에 달려 있지 않다는 것을 발견했습니다. 부분적으로는 데이터 세트가 이러한 소비자가 진정으로 누구인지, 견고한 패널이 무엇인지에 대한 풍부한 데이터를 캡처하도록 설계되지 않았기 때문에 데이터에 만연한 허위 진술과 과소 표현이있었습니다. 

이제 닐슨의 견고한 패널은 미국 전체 인구를 대표하는 실제 사람들로부터 직접 수집 된 풍부한 정보를 제공합니다. 누가 집에 살고 있습니까?  그들은 몇 살입니까? 그들은 어떤 인종과 민족으로 식별합니까? 누가 주어진 시점에서 텔레비전을 시청하고 있습니까? 닐슨의 패널은 이러한 질문에 답합니다. 

다시 말하지만, 패널 자체가 완벽하지는 않지만 다른 산업, 즉 의약품이 의약품을 승인하는 데 패널과 유사한 접근 방식을 사용하는 이유가 있습니다. 왜냐하면 스테이크가 높을 때, 실제적이고 검증 된 사람들을 대체 할 수 없기 때문입니다.  

우리는 많은 업계 플레이어가 빅 데이터의 약속에 대해 흥분하고 있다는 것을 알고 있습니다. 그러나 산업으로서 우리는 빅 데이터가 해결할 수있는 것과 해결할 수없는 것에 대해 정직해야합니다. 그리고 우리는 미디어 측정의 미래가 빅 데이터의 도달 범위와 견고한 패널의 검증 된 개인 데이터를 결합한 접근 방식이라는 것을 잘 알고 있습니다.

이 기사는 원래 다음 TV에 실렸습니다.

동일한 주제 인사이트 계속 탐색