📝

調査の誤差に関する考え方について

2021/08/06に公開

以下の記事で行った調査の誤差に関する考え方を紹介します。
ローモバの話はほとんど出てきません。

https://zenn.dev/lm_mh/articles/46ff08b04f20f7
https://zenn.dev/lm_mh/articles/9e260e2dd1c4e1

誤差について

私が行っている2つの調査は、無限にある母集団の中から標本を取り出していく、標本調査(点推定)に相当します。箱を開け試行、魔獣を攻撃する試行は母集団から無作為[1]に行われるため、完全な無作為抽出となります。

標本調査の誤差には標本誤差と非標本誤差があります。今回の調査の場合、非標本誤差は画像からのデータ抽出時の抽出ミス等から生まれます。今回は完璧に行われていると仮定し、非標本誤差は0としています。標本誤差については、標準誤差による信頼区間の評価によって行われます。

確率の標準誤差と信頼区間

確率(割合)P[2]の標準誤差\sigma_Pは以下で定義されます。

\sigma_P = \sqrt{\frac{P(1-P)}{n}}

ここでnはサンプル数を表します。N個の箱を開け、資源がX回出現した場合、資源の割合の標準誤差は以下の通りとなります。
\sigma_P = \sqrt{\frac{X/N(1-X/N)}{N}}

例えばN=3204X=1490の場合、P=0.465\sigma_P=0.009となります。これにより、母集団の資源の割合の95%信頼区間は0.448〜0.482[3]となります。

期待値の標準誤差と信頼区間

例えば3204個の箱を開け、100ジェムが13箱、50ジェムが38箱、その他はジェム無しだったとします。この時、平均値(期待値)\muは以下の通りとなります。

\mu = 100 \times \frac{13}{3204} + 50 \times \frac{38}{3204} + 0 \times \frac{3153}{3204} = 0.9987...

この平均値の標準誤差\sigma_mは以下で算出されます。

\sigma_m = \frac{\sigma}{\sqrt{n}}

ここで、\sigmaは標本から算出される標準偏差[2:1]nはサンプル数を表します。例の場合のは\sigma=8.31...となり、標準誤差は\sigma_m=0.14...となりました。

以上から、ジェムの期待値の95%信頼区間は0.71〜1.29[3:1]となります。

信頼区間を狭くする

上の計算式の通り、信頼区間の幅は標準誤差に比例し、標準誤差はサンプル数の平方根に反比例しています。このため、信頼区間を狭めるためにはサンプル数を増やすしかありません。

どれだけ試行を繰り返しても、信頼区間は0にはなりません。どこかで折り合いをつける必要があります。魔獣を攻撃したときのドロップアイテムの場合は公式の提示があり、これと合致することの確認が目的のため、信頼区間が狭い(確率の高い)カテゴリについて、公式の値が信頼区間内に収まることを1つの基準とできそうです。

脚注
  1. 無作為と信じたいですが、イベントや時間帯によって偏りがあるような気がしてなりません。 ↩︎

  2. 定義では母集団の値(母平均、母分散)ですが、これらは未知なので、通常は標本数が十分大きい場合は標本から算出される値を使用します。 ↩︎ ↩︎

  3. 95%信頼区間は標準誤差の1.96倍です(標本が十分大きく、正規分布とみなせる場合)。99%信頼区間となると、標準誤差の2.58倍になります。 ↩︎ ↩︎

Discussion