大数据持续占据头条,但它究竟是什么?为何既是精准受众测量的利器,又可能成为阻碍?我们将深入探讨其利弊,并揭示如何有效利用这一技术。
什么是大数据?
在线性媒体领域,大数据通常指由向终端用户传输节目的系统所产生的两种数据流:来自有线或卫星机顶盒(如Dish或DirecTV)的回传数据(RPD),以及来自联网智能电视(如三星或Vizio)的自动内容识别(ACR)数据。


ACR数据
ACR技术并非记录频道切换,而是监控电视屏幕上的图像。这些图像如同指纹,通过与庞大的参考库进行比对,从而识别节目或广告的真实内容。图像带有时间戳,以便追踪播放发生的时间点。
RPD数据
记录机顶盒当前调谐的频道及频道切换时间。该数据可与电视节目表匹配,确定特定时段播放的节目内容,并结合服务商广告服务器或合作伙伴的数据,分析该家庭接触到的广告内容。
在两种情况下,终端用户均允许在设备上进行数据收集。由于数据收集不仅推动测量工作,还能实现用户偏好设置和内容推荐等备受期待的功能,因此用户参与度相对较高。RPD或ACR数据集可能覆盖超过3000万台设备。
为什么大数据如此重要?

曾几何时,人们可选择的电视频道屈指可数。如今,一部剧集能获得60%以上的家庭收视率(如1983年《M*A*S*H》大结局)甚至40%(如1998年《宋飞正传》大结局)都堪称天方夜谭。我们身处一个碎片化程度远超往昔的世界,节目选择清单长得令人瞠目。
这对电视观众来说是件好事,但给基于样本的调研带来了复杂性:在一个拥有10.1万人的全国性样本中,收视率为0.2的电视节目将被80户家庭收看,而在亚特兰大或达拉斯都会区可能只有一户收看。 随着数千万设备被纳入监测范围,大数据使调研公司能够以更精细的粒度报告电视使用情况,为众多受众规模较小且往往多元化的节目提供覆盖数据。但大数据本身从未被设计用于收视率测量。
挑战一:大数据缺乏代表性
要实现有信心的交易,媒体买卖双方需要一种能全面反映人口多样性的测量方案:所有年龄段、种族、族裔以及众多其他关键人口统计和行为特征,都需在基础数据中得到完整且比例准确的呈现。
但规模并不能保证代表性。在分析尼尔森全国电视样本的安装数据时,我们发现配备RPD设备的家庭年龄结构明显偏大,种族多样性也低于普通人群。例如,西班牙裔家庭在数据中的占比低约30%,而25岁以下的户主在RPD数据集中几乎完全缺席。 另一方面,ACR数据集的受众年龄结构比普通人群更年轻,且家庭成员数量更多。在大数据中使用统计加权方法或许能掩盖这一问题,但无法弥补代表性不足群体缺失的独特收视行为。
更糟糕的是,仅依赖RPD和ACR数据的测量方案将遗漏无线电视2和纯流媒体用户群体,而这些群体正占据越来越大的市场份额。
挑战二:大数据可能无法捕捉所有观看行为
即使包含了具有代表性的家庭,RPD和ACR数据集也无法捕捉到家庭中每台机顶盒的收视情况,也无法捕捉到家中非智能电视的其他电视机的收视情况。 这些额外电视可能为不同家庭成员播放不同节目(例如厨房播放烹饪节目,游戏室播放儿童节目),因此大数据家庭不仅无法代表整体人口,大数据本身也无法反映这些家庭中可能发生的全部收视行为。

对于依赖RPD数据的研究公司而言,一个令人沮丧的问题是:当连接的电视机关闭时,机顶盒往往仍处于开启状态。这种"幽灵"收视会导致实际收视率被夸大145%至260%,具体幅度因服务商而异。虽然存在可用于补偿此现象的模型,但在缺乏真实收视数据支撑的参考基准(如基于实际收视情况的样本调查)的情况下,制定正确的启发式算法将面临巨大困难。
自动内容识别(ACR)技术同样存在数据质量问题。某些智能电视流媒体应用程序会在运行时阻止ACR捕捉屏幕内容,导致电视看似处于关闭状态,实则内容已被应用程序屏蔽。此外,多数服务商仅监测了全部可用节目的一小部分。近期分析显示,当前ACR供应商仅覆盖31%的可用频道,且23%的录制时长仍来自未监测频道。由于缺乏可比对的参考指纹,这些观看数据将无法被统计。
挑战三:大数据缺乏观众人口统计数据
RPD和ACR服务商虽能从数百万设备中采集收视数据,却无法识别具体观众身份——而这正是广告主真正需要的。
弥补这一缺陷的一种方式是与第三方人口统计供应商合作。这些公司掌握着全国每个家庭的人口构成记录,调研公司可尝试仅根据特定家庭的收视数据总量及其人口构成,推测该家庭成员的收视行为模式。
儿童节目?那肯定是家里有小孩。摔跤比赛?那肯定是男性观众。由于缺乏现实生活中的参照点来辅助机器学习算法,这种建模方式的缺陷显而易见。毫不意外的是,随着家庭规模扩大,其可靠性会逐渐降低,最终损害了大型家庭(如育有子女的家庭、非白人家庭以及年轻观众群体)数据的准确性。
面板数据的持久价值
对于寻求稳定可靠受众测量解决方案的品牌和媒体公司而言,上述挑战根本无法接受。小组数据对于克服这些局限性至关重要。
在尼尔森,当我们分析RPD或ACR数据时,能够识别哪些家庭和设备属于我们的样本群体,并将这些家庭的收视数据与我们测量仪记录的观看行为进行比对。通过将样本群体作为家庭收视行为的真实数据源,我们能够精准定位大数据与真实情况的偏差,并建立稳健的模型来修正这些异常值。
例如,我们开发了一种方法来确定设备在房屋内的具体位置,并将调谐数据与特定观众匹配。另一种模型能帮助我们判断当机顶盒处于开启状态时电视机是否处于关闭状态。还有一种模型可处理因设备更新导致的额外调谐记录,以及设备同时返回多个调谐事件的情况。
人,而非设备

毫无疑问,大数据为媒体研究者提供了强大的武器库。它开启了前所未有的精细化报道之门。但大数据本质上存在缺陷、带有偏见,且最根本的是目光短浅:它捕捉的是调频数据,而非收视数据。
要充分发挥其潜力,需要对数据进行清理、填充、校准,并补充相关人口统计信息。这正是面板数据发挥作用之处。机器学习在强大的训练和验证数据支持下效果最佳,而当今媒体研究行业中,没有比作为核心的全国代表性面板数据更优质的训练数据了。
尼尔森 《需知》 解析受众测量的基本原理,并揭开媒体行业热门话题的神秘面纱。阅读所有文章 此处。
注
1家庭收视率指全国范围内收看特定节目的家庭所占的百分比。
2通过天线接收的"信号"传输的节目。地面电视(OTA)是最初出现的电视传输方式。




