บิ๊กดาต้ายังคงเป็นข่าวพาดหัวอยู่เรื่อยๆ แต่มันคืออะไรกันแน่ และทำไมมันจึงเป็นทั้งของขวัญและอุปสรรคที่อาจเป็นอุปสรรคต่อการวัดผลผู้ชมอย่างแม่นยำ เราจะเจาะลึกข้อดี ข้อเสีย และวิธีที่จะทำให้มันได้ผล
บิ๊กดาต้าคืออะไร?
ในโลกของสื่อเชิงเส้น ข้อมูลขนาดใหญ่โดยทั่วไปจะหมายถึงสตรีมข้อมูลสองประเภทที่ผลิตโดยระบบที่ส่งโปรแกรมไปยังผู้ใช้ปลายทาง: ข้อมูลเส้นทางกลับ (RPD) จากกล่องรับสัญญาณเคเบิลหรือดาวเทียม (เช่น Dish หรือ DirecTV) และการจดจำเนื้อหาอัตโนมัติ (ACR) จากทีวีอัจฉริยะที่เชื่อมต่ออินเทอร์เน็ต (เช่น Samsung หรือ Vizio)


ข้อมูล ACR
แทนที่จะบันทึกการเปลี่ยนช่อง เทคโนโลยี ACR จะตรวจสอบภาพบนหน้าจอทีวี ภาพเหล่านี้ทำหน้าที่เสมือนลายนิ้วมือ ซึ่งจะถูกนำไปเปรียบเทียบกับคลังข้อมูลอ้างอิงขนาดใหญ่ เพื่อระบุว่ารายการหรือโฆษณานั้นคืออะไร ภาพจะถูกประทับเวลาเพื่อให้ทราบว่ากำลังเล่นอยู่เมื่อใด
ข้อมูล RPD
บันทึกช่องที่กล่องรับสัญญาณรับสัญญาณและเวลาที่มีการเปลี่ยนแปลงช่องสัญญาณ ข้อมูลดังกล่าวสามารถนำไปจับคู่กับตารางรายการทีวีเพื่อกำหนดรายการที่กำลังออกอากาศ ณ เวลานั้น และสามารถนำข้อมูลจากเซิร์ฟเวอร์โฆษณาของผู้ให้บริการหรือพันธมิตรมาคำนวณหาโฆษณาที่ครัวเรือนรับชมได้
ในทั้งสองกรณี ผู้ใช้ปลายทางอนุญาตให้รวบรวมข้อมูลบนอุปกรณ์ของตน ความร่วมมือค่อนข้างสูง เนื่องจากการรวบรวมข้อมูลไม่เพียงแต่ช่วยขับเคลื่อนการวัดผล แต่ยังรวมถึงฟีเจอร์ที่เป็นที่ต้องการอย่างมาก เช่น การกำหนดค่าของผู้ใช้และคำแนะนำเนื้อหา ชุดข้อมูล RPD หรือ ACR อาจครอบคลุมอุปกรณ์มากกว่า 30 ล้านเครื่อง
เหตุใดข้อมูลขนาดใหญ่จึงเป็นเรื่องใหญ่?

เคยมีช่วงเวลาหนึ่งที่ผู้คนมีช่องทางให้เลือกรับชมเพียงไม่กี่ช่อง เรตติ้งครัวเรือนตั้งแต่ 1 ขึ้นไปถึง 60 (เช่นตอนจบของ M*A*S*H ในปี 1983) หรือแม้แต่ 40 (เช่นตอนจบของ Seinfeld ในปี 1998) ถือเป็นสิ่งที่ยากจะเข้าใจสำหรับรายการที่มีบทพูดในปัจจุบัน เราอยู่ในโลกที่แตกแยกกันมากขึ้น มีตัวเลือกรายการยาวเหยียด
ซึ่งถือเป็นเรื่องดีสำหรับผู้ชมโทรทัศน์ แต่การวิจัยแบบกลุ่มตัวอย่างกลับมีความซับซ้อนมากขึ้น: ในกลุ่มตัวอย่างทั่วประเทศที่มีผู้ชม 101,000 คน รายการโทรทัศน์ที่มีเรตติ้ง 0.2 จะมีผู้ชมถึง 80 ครัวเรือน และอาจมีเพียงครัวเรือนเดียวในเขตเมืองแอตแลนตาหรือดัลลัส ด้วยอุปกรณ์หลายสิบล้านเครื่องที่อยู่ภายใต้การวัด บิ๊กดาต้าทำให้บริษัทวิจัยสามารถรายงานการใช้งานโทรทัศน์ได้อย่างละเอียดมากขึ้น ทำให้ครอบคลุมรายการต่างๆ ได้มากขึ้น โดยมีผู้ชมจำนวนน้อยและหลากหลายกลุ่ม แต่บิ๊กดาต้าเพียงอย่างเดียวไม่ได้มีไว้เพื่อการวัดผู้ชม
ความท้าทาย #1: ข้อมูลขนาดใหญ่ไม่ใช่ตัวแทน
เพื่อดำเนินการธุรกรรมด้วยความมั่นใจ ผู้ซื้อและผู้ขายสื่อต้องมีโซลูชันการวัดผลที่สะท้อนถึงประชากรในความหลากหลายทั้งหมด กลุ่มอายุ เชื้อชาติ กลุ่มชาติพันธุ์ และลักษณะทางประชากรและพฤติกรรมที่สำคัญอื่นๆ อีกมากมาย ต้องมีอยู่ในข้อมูลพื้นฐานและเป็นสัดส่วนกัน
แต่ขนาดไม่ได้รับประกันความเป็นตัวแทน เมื่อวิเคราะห์จำนวนการติดตั้งในแผง Nielsen National TV เราพบว่าบ้านที่มี RPD มีอายุมากกว่าและมีความหลากหลายทางเชื้อชาติน้อยกว่าประชากรทั่วไป ตัวอย่างเช่น ครัวเรือนชาวฮิสแปนิกมีจำนวนประชากร ต่ำ กว่า 30% และหัวหน้าครัวเรือนที่มีอายุต่ำกว่า 25 ปีแทบจะไม่มีอยู่ในชุดข้อมูล RPD ในทางกลับกัน ชุดข้อมูล ACR มีแนวโน้มอายุน้อยกว่าประชากรทั่วไปและมีสมาชิกในครัวเรือนมากกว่าด้วย การใช้การถ่วงน้ำหนักทางสถิติในข้อมูลขนาดใหญ่อาจปกปิดปัญหานี้ แต่ไม่สามารถชดเชยพฤติกรรมการรับชมที่ขาดหายไปและเป็นเอกลักษณ์เฉพาะตัวของผู้ชมที่ไม่ได้รับการสนับสนุนได้
ยิ่งไปกว่านั้น โซลูชันการวัดที่อาศัยข้อมูล RPD และ ACR เพียงอย่างเดียวจะทำให้พลาดครัวเรือนที่รับชมผ่านระบบไร้สาย 2 และแบบสตรีมมิ่งเท่านั้น ซึ่งเป็นส่วนสำคัญที่เพิ่มมากขึ้นเรื่อยๆ
ความท้าทาย #2: ข้อมูลขนาดใหญ่ไม่สามารถบันทึกพฤติกรรมการรับชมทั้งหมดได้
แม้ว่าจะมีครัวเรือนที่เป็นตัวแทนอยู่ แต่ชุดข้อมูล RPD และ ACR ก็ไม่ได้บันทึกการรับชมจากกล่องรับสัญญาณทุกกล่องในบ้าน หรือจากทีวีเครื่องอื่นๆ ในบ้านที่ไม่ใช่สมาร์ททีวี ทีวีเครื่องอื่นๆ เหล่านี้อาจเล่นรายการที่แตกต่างกันสำหรับสมาชิกในครอบครัวแต่ละคน (เช่น รายการทำอาหารในครัว หรือรายการเด็กในห้องเล่น) ดังนั้น ไม่เพียงแต่ครัวเรือนที่ใช้ข้อมูลขนาดใหญ่จะไม่ได้เป็นตัวแทนของประชากรเท่านั้น แต่ตัวข้อมูลขนาดใหญ่เองก็ไม่ได้เป็นตัวแทนของการรับชมทั้งหมดที่อาจเกิดขึ้นในบ้านเหล่านั้นด้วย

ปัญหาที่น่าหงุดหงิดสำหรับบริษัทวิจัยที่พึ่งพา RPD ก็คือกล่องรับสัญญาณมักจะยังคงเปิดอยู่แม้ทีวีที่เชื่อมต่ออยู่จะถูกปิด การปรับจูนแบบ "หลอก" นี้อาจทำให้ภาพการรับชมจริงเกินจริงถึง 145% ถึง 260% ขึ้นอยู่กับผู้ให้บริการ มีโมเดลที่สามารถนำไปปรับใช้เพื่อชดเชยปัญหานี้ได้ แต่หากไม่มีจุดอ้างอิง เช่น แผงรับสัญญาณที่ได้รับข้อมูลจากการรับชมจริง การพัฒนาฮิวริสติกที่ถูกต้องอาจเป็นเรื่องยาก
ACR ก็ไม่สามารถหลีกเลี่ยงปัญหาคุณภาพข้อมูลได้เช่นกัน แอปพลิเคชันสตรีมมิ่งสมาร์ททีวีบางตัวบล็อก ACR ไม่ให้บันทึกเนื้อหาบนหน้าจอขณะที่แอปกำลังใช้งานอยู่ ซึ่งอาจดูเหมือนว่าทีวีปิดอยู่ แต่ในความเป็นจริงเนื้อหาถูกบล็อกโดยแอป และผู้ให้บริการส่วนใหญ่ตรวจสอบเพียงส่วนเล็กๆ ของรายการทั้งหมดที่มีอยู่ จาก การวิเคราะห์ล่าสุด เราพบว่าผู้ให้บริการ ACR ตรวจสอบเพียง 31% ของสถานีทั้งหมดที่มีอยู่ และ 23% ของนาทีที่บันทึกไว้ยังคงมาจากสถานีที่ไม่ได้รับการตรวจสอบ เนื่องจากไม่มีลายนิ้วมืออ้างอิงเพื่อเปรียบเทียบ การรับชมดังกล่าวจึงไม่ได้รับการรายงาน
ความท้าทาย #3: ข้อมูลขนาดใหญ่ขาดข้อมูลประชากรผู้ชม
ผู้ให้บริการ RPD และ ACR รวบรวมข้อมูลการปรับแต่งจากอุปกรณ์หลายล้านเครื่อง แต่พวกเขาไม่ทราบว่าใครกำลังรับชม ซึ่งนั่นคือสิ่งที่ผู้โฆษณาต้องการในที่สุด
วิธีหนึ่งที่จะชดเชยข้อบกพร่องดังกล่าวคือการร่วมมือกับผู้ให้บริการข้อมูลประชากรบุคคลที่สาม บริษัทเหล่านี้มีบันทึกข้อมูลองค์ประกอบทางประชากรของทุกครัวเรือนในประเทศ และบริษัทวิจัยอาจพยายามสร้างแบบจำลองว่าใครกำลังรับชมอะไรอยู่ โดยอาศัยข้อมูลการปรับจูนทั้งหมดในครัวเรือนหนึ่งๆ และองค์ประกอบทางประชากรของครัวเรือนนั้นๆ
รายการเด็กเหรอ? นั่นต้องมาจากเด็กในบ้านแน่ๆ มวยปล้ำเหรอ? นั่นต้องมาจากผู้ชมชายแน่ๆ หากไม่มีจุดอ้างอิงในชีวิตจริงมาช่วยอัลกอริทึมการเรียนรู้ของเครื่อง คุณก็จะมองเห็นได้ง่ายๆ ว่าการสร้างแบบจำลองแบบนี้จะผิดพลาดตรงไหน ไม่น่าแปลกใจเลยที่ความน่าเชื่อถือจะลดลงเรื่อยๆ ตามขนาดครัวเรือน ซึ่งท้ายที่สุดแล้วส่งผลต่อความแม่นยำของข้อมูลสำหรับครอบครัวขนาดใหญ่ เช่น ครอบครัวที่มีลูก คนที่ไม่ใช่คนผิวขาว และผู้ชมที่อายุน้อยกว่า
ค่าคงอยู่ของข้อมูลแผง
สำหรับแบรนด์และบริษัทสื่อที่กำลังมองหาโซลูชันการวัดผลผู้ชมที่เสถียรและเชื่อถือได้ ความท้าทายที่ระบุไว้ข้างต้นไม่ใช่สิ่งที่ควรทำ ข้อมูลแบบ Panel มีความสำคัญอย่างยิ่งในการเอาชนะข้อจำกัดเหล่านั้น
ที่นีลเส็น เมื่อเราวิเคราะห์ข้อมูล RPD หรือ ACR เราสามารถระบุได้ว่าบ้านและอุปกรณ์ใดบ้างที่เป็นส่วนหนึ่งของแผงควบคุมของเรา และเปรียบเทียบข้อมูลการปรับจูนในบ้านเหล่านั้นกับพฤติกรรมการรับชมที่บันทึกโดยมิเตอร์ของเรา การใช้แผงควบคุมของเราเป็นแหล่งข้อมูลจริงในบ้านเหล่านั้น ช่วยให้เราระบุจุดที่ข้อมูลขนาดใหญ่เบี่ยงเบนไปจากความจริง และพัฒนาแบบจำลองที่แข็งแกร่งเพื่อปรับให้เข้ากับความผิดปกติเหล่านั้น
ตัวอย่างเช่น เราได้พัฒนาวิธีการเพื่อหาตำแหน่งของอุปกรณ์ภายในบ้านและจับคู่ข้อมูลการปรับจูนกับผู้ชมเฉพาะราย อีกโมเดลหนึ่งช่วยให้เราระบุได้ว่าทีวีปิดอยู่หรือไม่ในขณะที่กล่องรับสัญญาณเปิดอยู่ อีกโมเดลหนึ่งสามารถแยกแยะการอัปเดตอุปกรณ์ที่ลงทะเบียนเป็นการปรับจูนเพิ่มเติม รวมถึงสถานการณ์ที่อุปกรณ์ส่งกลับเหตุการณ์การปรับจูนมากกว่าหนึ่งรายการพร้อมกัน
ผู้คน ไม่ใช่อุปกรณ์

ท้ายที่สุดแล้ว การวิจัยผู้ชมจะเกี่ยวกับผู้คน ไม่ใช่เกี่ยวกับอุปกรณ์
ไม่ต้องสงสัยเลยว่าบิ๊กดาต้าคือส่วนเสริมที่ยอดเยี่ยมสำหรับคลังแสงของนักวิจัยด้านสื่อ มันเปิดประตูสู่การรายงานที่ละเอียดกว่าที่เคยเป็นมาในอดีต แต่โดยเนื้อแท้แล้ว บิ๊กดาต้ามีข้อบกพร่อง อคติ และที่สำคัญที่สุดคือขาดวิสัยทัศน์: บิ๊กดาต้าบันทึกข้อมูลเพื่อการปรับแต่ง ไม่ใช่ข้อมูลเพื่อการดู
เพื่อบรรลุศักยภาพสูงสุด จำเป็นต้องทำความสะอาด เติมเต็ม ปรับเทียบ และเสริมด้วยข้อมูลประชากรที่เกี่ยวข้อง นั่นคือที่มาของข้อมูลแบบแผงข้อมูล การเรียนรู้ของเครื่องจะทำงานได้ดีที่สุดเมื่อมีข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้องที่แข็งแกร่ง และไม่มีข้อมูลการฝึกอบรมใดในอุตสาหกรรมนี้ที่ดีไปกว่าข้อมูลแบบแผงข้อมูลระดับประเทศ ซึ่งเป็นหัวใจสำคัญของธุรกิจวิจัยสื่อในปัจจุบัน
บทความ Need to Know ของ Nielsen ทบทวนพื้นฐานของการวัดผลผู้ชม และไขข้อข้องใจเกี่ยวกับหัวข้อร้อนแรงที่สุดในอุตสาหกรรมสื่อ อ่านทุกบทความ ได้ที่ นี่
บันทึก
1 คะแนนครัวเรือนคือเปอร์เซ็นต์ของครัวเรือนทั้งหมดในประเทศที่รับชมรายการใดรายการหนึ่ง
2. รายการโทรทัศน์สามารถรับชมได้ผ่าน "สัญญาณ" จากเสาอากาศ การออกอากาศผ่านอากาศ (OTA) เป็นโทรทัศน์ประเภทแรกที่มีให้บริการ