📊

A/Bテスト理解のための統計学 〜 具体例から専門用語へ、段階的に理解する仮説検定

に公開

はじめに

弊社では、モバイルアプリの会員登録導線の中でA/Bテストを実施しています。
会員登録時の質問の順番を入れ替えることで、登録率に変化が出るのかを検証するためです。
A/Bテストの結果を見てみると、以下のような内容が表示されていました。

A/Bテストの結果

「結果が統計的に有意ではありません」

これは一体どのような状態なのか、テストの結果を正しく理解するためにも、仮説検定について改めて勉強してみました。
しかしいざ勉強を始めてみると、専門用語が多く、なかなかイメージがつかみにくいものだと感じました。また、自分の中では理解できても、他の人に伝えていくのが難しい内容だとも思いました。

そこで、具体例→専門用語→数式と、徐々に抽象度を上げながら理解する方法はないかと考え、本記事の執筆に至りました。本記事では、仮説検定の考え方そのものに焦点を当て、具体例をストーリー形式で紹介したのち、ストーリーに沿った専門用語の解説を行います。

知っていると読みやすくなる知識

仮説検定にまつわるストーリー

Aくんはコインを10回投げ、表が出た回数が多くなるほど得点が高くなるゲームに挑みました。
しかし結果は表が2回、裏が8回と惨敗。あきらめきれないAくんは、裏が出やすくなるようにコインに細工されていたのではないかと疑い始めます。

Aくんは最初に、表と裏が50%ずつの確率で出る普通のコインを使ったとして、今回のゲームの結果がどのくらいの確率で起こるものなのか計算してみました。
コインを10回投げたとき、表が出る回数が0〜2回になる確率を求めると、\frac{56}{1024} \approx 0.0547(約5.5%)となりました。

次にAくんは、専門家の意見を聞きに行きました。
約5.5%の確率でしか起こらない結果が1回のゲームで出てしまったので、コインに細工されていたのではないかと聞いてみたところ、次のような回答が返ってきました。
「私は5%より高い確率なら、偶然の範疇で起こることだと思っている。だから君が使ったコインに細工はされていなくて、君はとても運が悪かっただけの可能性が高い。もちろん、コインに細工されていた可能性はゼロではないけどね。」

専門用語の解説

仮説検定とは、帰無仮説を立て、その仮説のもとで得られた結果のP値を計算し、あらかじめ定めた有意水準と比較して、棄却するかどうかを判断する手法です。

ここからはそれぞれの専門用語について、上記のストーリーに沿った形で解説していきます。

仮説

「コインに細工されていた」という部分が仮説、特に対立仮説と呼ばれるものになります。ゲームの結果を見て、偶然ではないかもしれないと考え、この仮説が生まれたわけです。しかし、細工されていたことを証明するのは難しいため、背理法を使って「コインは細工されていない」という仮説のもとに話を進めます。これが帰無仮説と呼ばれるものです。

P値

コインに細工されていない前提で求めた「コインを10回投げたとき、表が出る回数が0~2回になる確率」の部分が、P値と呼ばれるものになります。今回のケースでは、P値は5.5%です。P値は実際に出た結果より極端な結果が出る確率を集計するため、表が2回になる確率ではなく表が0〜2回になる確率を求めることになります。

有意水準

専門家のセリフの中にある「5%」の部分が、有意水準と呼ばれるものになります。この有意水準とP値を比較して、仮説検定の結論を出します。

棄却

「君が使ったコインに細工はされていなくて、君はとても運が悪かっただけの可能性が高い」の部分が、棄却に関係するものになります。P値が有意水準の5%を上回っているため、偶然の範疇で起こることと判断され、「コインは細工されていない」という帰無仮説は棄却できないことになります。
ややこしい言い回しですが、仮説検定の結論は「コインが細工されていない可能性を否定するには証拠が不十分だった」ということです。

過誤

仮説検定で気をつけなければならないこととして、過誤があります。「コインに細工されていた可能性はゼロではない」の部分です。普通のコインを使っても偶然の範疇で起こる結果と判断されたものの、実際には裏が出やすいコインだった可能性が否定されたわけではありません。
仮説検定の結果は「細工されていない」だったのに、実際には「細工されていた」場合、真実を見逃したことになります。これは第2種の過誤と呼ばれるものです。逆に、仮説検定の結論が「細工されていた」だったのに、実際には「細工されていなかった」場合は、第1種の過誤と呼ばれます。
仮説検定はあくまでも確率に基づく手法であるため、絶対的な正しさを保証するものではない点には注意が必要です。以下に、真実と検定の結果の組み合わせによって過誤が発生するパターンをまとめます。

真実:細工あり 真実:細工なし
検定結果:細工あり 正しい判定 第1種の過誤
検定結果:細工なし 第2種の過誤 正しい判定

最後に

本記事では仮説検定の考え方について、具体例となるストーリーを軸に専門用語をピックアップし、解説していきました。この記事を読んだうえで専門書などを読むと、内容が理解しやすくなるのではないかと期待しています。

一方で、今回だけでは触れられていない部分もあります(片側検定と両側検定、正規分布を利用したP値の求め方、etc...)。数式もまだ出てきていません。冒頭で触れたように、A/Bテストの結果を理解できるようにするためには、まだまだ学ぶべきことが多そうです。
数式を交えたもう少し具体的な内容や、業務と関連した数学にまつわる他のテーマの記事も今後書いていきますので、よろしくお願いいたします。

参考

23-1. 検定とは | 統計学の時間 | 統計WEB
23-2. 検定で使う用語 | 統計学の時間 | 統計WEB
有意水準とは?基礎から応用までわかりやすく解説!

ASSIGN

Discussion