稀にしか発生しない事象は何回観測すればいい?
低確率で発生する事象は、その稀にしか発生しないという性質上、それの発生確率を正確に知ろうとすると非常に多くの試行回数が必要です。低確率で発生しつつ、かつ、その発生確率を正確に知ることが重要なものとして、例えば、オンライン広告のクリック率(CTR)やコンバージョン率(CVR)などがあり、発生確率の正確な推定が重要な事が稀に良くあります。
例えば、事象の発生確率のときに回試行したときの平均を以下に示します。5回実行して試行回数が少ないとばらつきが大きい(平均値があてにならない)ことがよくわかると思います。また、1000回ほど試行しても収束しきってないことがわかります。
では、一体どのぐらいの試行回数の時にどのぐらいの信頼性で真の事象発生確率を推定できるのでしょうか? (どのぐらいのであれば上図の各実行のばらつきが小さくなり、安心して評価できる事象発生確率の推定値になるのでしょうか?)
簡単に計算できそうなのでやってみました。
確率で1が発生し、確率で0が発生するベルヌーイ試行を考えます。このとき、それの期待値は、分散はになります(ベルヌーイ分布 - Wikipedia)。この試行を回繰り返したとき、その期待値は、分散はとなります(第12講:大数の法則・中心極限定理 (.pdf))。
よって事象発生確率がの時に、ある信頼区間()が誤差(比率)に収まるためには試行回数は
となります。これをについて解くと
となり、試行回数はこれを満たす必要があります。
例えば真の事象発生確率がであるときに、95%信頼区間()が誤差10%に収まるためには、
となるので、7300回の試行が必要であることがわかります。そして、より正確な計測のために誤差を減らそうとすると、はの二乗に反比例するため非常に多くの試行が必要になることがわかります。
また、それにもかかわず、試行回数がぐらいしかなかった場合の誤差は上式をについて解いて代入すると
となり、60%の誤差がありうるような状態でしか事象発生確率を把握できない事がわかります。
オンライン広告の分野では可能な限り少ないインプレッション(試行回数)で正確にCTRやCVRを把握し、より効果的な広告を提供していくことが重要ですので、少ないインプレッションで正確にCTR/CVRを予測するための研究がなされています(Predicting Clicks: Estimating the Click-Through Rate for New Ads, WWW, 2007 / 日本語解説記事)。
- 作者: 永田靖
- 出版社/メーカー: 朝倉書店
- 発売日: 2003/09/28
- メディア: 単行本(ソフトカバー)
- 購入: 20人 クリック: 277回
- この商品を含むブログ (14件) を見る
アドテクノロジー プロフェッショナル養成読本 ~デジタルマーケティング時代の広告効果を最適化! (Software Design plus)
- 作者: 簗島亮次,佐藤裕介,松田佑樹,時吉啓司,石黒武士,小川卓
- 出版社/メーカー: 技術評論社
- 発売日: 2014/04/16
- メディア: 大型本
- この商品を含むブログ (4件) を見る