A/Bテストで「検定」を少しだけ実施してみた
こんにちは!
スペースマーケット エンジニアのreyです。
今回は、業務でA/Bテストを実施する機会があったのですが、
その際に、A/Bテストの有意性を判定するための「検定」を少しだけ実施したので、
こちらに記録したいと思います。
A/Bテスト とは?
A/Bテストとは、Webサイトやアプリケーションなどのデザインや機能を最適化するために実施するテストの1つです。
特定の要素を変更して、「A」と「B」のパターンを作成し、どちらの方がより優れているかを比較します。ユーザーにランダムで表示することで、どちらのバージョンがより効果的であるかを測定することができます。
例えば、宿泊サイトなどでA/Bテストを実施する場合、ボタンの色やデザイン、テキスト内容などを変更して、どのバージョンが最も予約率が高くなるかを比較したりします。
検定 とは?
A/Bテストの結果を検証する際に、「統計的仮説検定」が実施されることが多いです。
これは、AパターンとBパターンで実際に効果の差があるのか、それとも偶然の結果であるのかを判断するための1つの指標となります。
「検定」を行うことで、結果が偶然によるものではなく、ある程度の信頼性を持って差があると判断できます。
いくつかの検定手法があると思いますが、今回は「カイ二乗検定」を使用しました。
なぜ「検定」を実施したのか
例えば、ある宿泊サイトでA/Bテストを行い、次のような結果が得られたとします。
(どちらも、Aパターンに新しいデザイン、Bパターンに古いデザインを設定したとします)
<①: 宿泊サイトをカラフルなデザインに変えたA/Bテスト>
予約数 | 予約されていない数 | 合計数 | 予約率 | |
---|---|---|---|---|
Aパターン(新しいデザイン) | 2件 | 150件 | 152件 | 1.3% |
Bパターン(古いデザイン) | 3件 | 400件 | 403件 | 0.7% |
<②: 宿泊サイトをシンプルなデザインに変えたA/Bテスト>
予約数 | 予約されていない数 | 合計数 | 予約率 | |
---|---|---|---|---|
Aパターン(新しいデザイン) | 100件 | 10000件 | 10100件 | 0.9% |
Bパターン(古いデザイン) | 80件 | 13000件 | 13080件 | 0.6% |
一見すると、①・②ともに、Aパターンの方が予約率が高く見えますが、本当にAの方が予約率が高くなるのでしょうか? こちらの有意差を検定してみましょう。
「カイ二乗検定」を実施すると、「p値」という設定した仮説が正しいかを判定するための基準となる値を出すことができます。(英語の「peach」ではないです。もちろん、マリオに出てくる「姫」でもないです...!)
計算をすると、p値は下記の結果になりました。
p値 | |
---|---|
① | 0.52 |
② | 0.001 |
p値を判定する基準として、「有意水準」があります。
有意水準とは、仮説が正しいかどうかを判断する基準のことです。
A/Bテストの有意水準には、0.05(5%)が用いられることが多いため、こちらと比較すると、
①は、0.52 > 0.05のため、あまり有意性が高くなく、
②は、0.001 < 0.05のため、有意性が高い、と判断できると思います。
まとめると、①の結果は信憑性が低いけれども、②は結果に信憑性があるため、②のシンプルなデザインは、古いデザインよりも良い可能性が高いと判断できます。
差が出る要因は、A/Bテストの内容や実施環境など色々あると思いますが、今回のケースでは、①のサンプル数(計測数)が少ないのが関係していると考えられます。
カイ二乗検定の概要
カイ二乗検定は、「ボタンをクリックしたか、していないか」という2つの選択肢で表されるものや、5段階の顧客満足度の結果といった、値が連続していない変数同士に関連があるかどうかを調べるために用いる検定手法となっています。
計算方法については、今回の記事では紹介しないですが、GoogleスプレッドシートやExcelには、カイ二乗検定用の関数も用意されています。
終わりに
A/Bテストを実施すると同時に「検定」も行うことで、実施されたA/Bテストの結果の違いが実際に意味があるものかどうかを判断することができます。そのため、より正しい改善策を選択し、テストによって得られた効果を最適化することができます。
A/Bテストによって、よりユーザーにとって使いやすいサービスになれば良いと思っております。
最後に
スペースマーケットでは一緒に働く仲間を募集しています!
カジュアルに話を聞きたいだけという方でも大歓迎ですので、ちょっとでも興味があれば
こちらからご応募をお待ちしております!
▼SRE/インフラエンジニア
▼バックエンドエンジニア
▼Androidエンジニア(iOSも大歓迎です!)
▼エンジニア採用ページ(迷ったらこちらからどうぞ!)
スペースを簡単に貸し借りできるサービス「スペースマーケット」のエンジニアによる公式ブログです。 弊社採用技術スタックはこちら -> whatweuse.dev/company/spacemarket
Discussion