本コンテンツへスキップ
インサイト>オーディエンス

サンプリングは、代表的な人物レベルの測定の鍵である

4分で読める|データサイエンス担当ディレクター ウチェ・オニェウ|2019年7月号

消費者一人ひとりの行動を把握することなく、企業が消費者行動を正確に測定できるのか、疑問に思ったことはありませんか?もしそうなら、それはあなただけではありません。実際、私たちは、ニールセンについて このような質問をよく目にします。米国には3億2,500万人以上の人々が住んでおり、一人ひとりの行動を把握せずにメディアへの関与やショッピングの習慣を測定できるのか、ニールセンについて 懐疑的になるのも無理はないでしょう。

多くの理由から、できるだけ多くの人と関わって消費者行動を測定しようとするのは現実的ではありませんし、必ずしも良いアイデアとは言えません。また、単純に実現不可能な場合もあります。中には、自分の意思で、あるいは事情があって、測定から外れることを選択する人もいます。その結果、参加する可能性の高いグループだけに焦点を当てたデータに歪みが生じる可能性があります。

良い知らせは、一人一人と個別に関わることなく、非常に大きな集団の行動を理解することが可能であるということです。 人レベルの測定には人が不可欠であり、より大きな集団を代表するように選ばれた主要な集団で構成されたパネルから、より大きな集団の行動に対するインサイト 。しかし、パネルに含まれる人数が、測定対象の大きなグループよりもはるかに少ない場合、具体的にどのようにすればそれが可能なのでしょうか。

インサイト 当社のパネルは、真の消費者行動に関する個人レベルの情報を提供するため、パネルや調査を通じて測定した人口がより多くの人口を正確に表すように、厳格なデータ科学と統計的サンプリング手法を使用しています。一般に、サンプリングとは、ある母集団を測定し、その測定値を拡大してより大きな母集団を正確に表現することを意図した統計的な手段です。しかし、測定と同様に、すべてのサンプリング方法が同じように作成されるわけではありません。

サンプリングの方法は、通常、確率ベースと非確率ベースの2つのカテゴリに分類されます。確率的サンプリングでは、母集団のすべての人が同じ確率で参加するように選ばれます。非確率的サンプリングでは、ある人が選ばれる確率が高くなったり低くなったりする可能性があります。したがって、均等な代表を確保するためには、何らかの形で確率に基づくサンプリングを使用しなければなりません。

しかし、サンプリングには、この2つの異なる方法のどちらかを選ぶだけでは不十分です。具体的には、サンプリングのプロセスは、その複雑さと実施方法が異なります。別の言い方をすれば、サンプリングを行うためのパラメータはかなり一般的であり、サンプルの完全性は、その準備がどれだけ徹底されていたかに依存します。ラジオ測定では、ポータブルピープルメーター(PPM)とオーディオダイアリーの測定サービスを実現する100以上の重要なプロセスを適用しています。これらのプロセスを毎日、毎週、毎月、四半期、年次で実施し、ニールセンが可能な限り代表的なサンプルを作成することを確実にしています。

では、全体的なプロセスはどのようなものでしょうか。まず、米国国勢調査のデータを活用して、測定対象者の人口統計(年齢、性別、人種、民族、言語嗜好など)および地理的構成を推定し、最終的にはニールセン製品のサンプリングターゲットを設定します。過去のデータと予測モデルに基づいて、無作為に抽出された世帯の人口構成と参加する可能性を予測します。これらのモデルは、小教区、市、郡といった細かな地理的レベルで実行され、代表的なサンプルを維持するためにこれらのモデルを常に監視し、必要に応じて更新しています。

パネルに参加する世帯を募集する際には、ニールセン全体として様々な募集方法を用います。例えば、ラジオ測定では、測定エリア内の潜在的なパネリストの主要な連絡先を確立するために、サンプルベンダーに連絡を取ります。これが最初のサンプルとなります。スターティング・サンプルの連絡先が確定したら、サンプル抽出のプロセスを開始し、最終的に様々なリクルート作業(例:募集資料の郵送、電話インタビュー、会員担当者による世帯訪問など)を行います。

調査プロセス全体を通じて、ある世帯がパネルや調査に参加する機会を与えられるかどうかを決定する要因は数多くあります。これらの要因は、私たちが測定する人口を代表するサンプルを達成する能力に直接関係しています。

確かに私たちは、テクノロジー、Cookie、リターンパス・データ、「いいね!」、プレイリスト・アルゴリズム、その他無数のデジタルマーカーが、私たちのオンライン生活のあらゆる場所に「足跡」を残す世界に生きています。しかし、そのデータの多くは完全ではありません。データの多くにはバイアスがかかっています。データの多くは、測定に使用されることを意図していません。しかし、個人レベルの情報は、真の計測のための決定的なソースであり続けています。そして、サンプリングは、個人レベルの代表的な計測を可能にする鍵なのです。

同じトピックを見続ける