相関関係 vs 因果関係:その違いを理解してプロダクトに活かす
この記事は、以下サイトの機械翻訳です。
因果関係と相関関係は同時に存在しますが、相関関係は因果関係を意味しません。
相関関係と因果関係は、一見すると似ているように見えます。しかし、その違いを認識することで、価値の低い機能に労力を費やすか、お客様が絶賛するようなプロダクトを作るかの分かれ道となります。
この記事では、相関関係と因果関係について、特にデジタルプロダクトの構築とユーザー行動の理解に関連する部分に焦点を当てていきます。プロダクトマネージャー、データサイエンティスト、アナリストの方々には、ある機能がユーザーリテンションやエンゲージメントに影響を与えるかどうかなど、プロダクトの成長のために適切なインサイトを活用する際に役立つ内容となっています。
この記事を読むと、以下のことがわかります。
- 相関関係と因果関係の主な違いを知る
- 相関関係と因果関係の主な違い
- 因果関係を検証するために使用できる2つの強力なソリューション
相関関係と因果関係の違いは何でしょうか?
因果関係と相関関係は同時に存在しますが、相関関係は因果関係を意味するものではありません。因果関係は、行動Aが結果Bを引き起こす場合に明示的に適用される。一方、相関関係は単なる関係である。 行動Aは行動Bと関係しているが、一方の事象が他方の事象を引き起こすとは限らない。
相関関係と因果関係が混同されやすいのは、人間の心理として、パターンが存在しない場合でもパターンを見つけたがるからです。2つの変数が密接に関連していて、一方が他方に依存しているように見える場合、私たちはしばしばこのようなパターンを作ります。これは、依存する事象が独立した事象の結果であるという因果関係を意味します。
しかし、目の前で2つの事象が一緒に起こっているように見えても、単純に因果関係を仮定することはできません。1つには、私たちの観察はあくまでも経験的なものであること。2つ目は、関連性のある可能性が他にもたくさんあることです。
- その逆もまた然り:Bは実際にAを引き起こします。
- この2つは相関しているが、それだけではない:AとBは相関していますが、実際にはCによって引き起こされています。
- もう一つの変数が関係しています:Dが起こる限り、AはBを引き起こす。
- 連鎖反応が起きています:AがEを引き起こし、EがBを引き起こす(しかし、あなたはAがBを引き起こすことを自分の目でしか見ていない)。
プロダクト分析における相関関係と因果関係の例
プロダクトの中には、ユーザーの特定の行動や振る舞いが特定の結果をもたらすような因果関係があると思うかもしれません。
例えば、モバイルアプリの新バージョンをリリースしたばかりの時のことです。あなたは、プロダクトのユーザーリテンションがアプリ内でのソーシャル行動と関連しているという重要な賭けをしました。ユーザーが「コミュニティ」に参加できる新機能の開発をチームに依頼します。
新しいコミュニティ機能をリリースして発表してから1ヶ月後、コミュニティの導入率は全ユーザーの約20%にとどまっています。コミュニティがユーザーの定着率に影響を与えているかどうか気になったあなたは、無作為に選ばれたユーザーで同じ大きさの2つのコホートを作りました。1つはコミュニティに参加したユーザー、もう1つはコミュニティに参加しなかったユーザーです。
分析の結果、衝撃的な発見がありました。少なくとも1つのコミュニティに参加したユーザーは、平均的なユーザーよりもはるかに高い割合でリテンションされていたのです。
1日目にコミュニティに参加した人の90%近くが残っているのに対し、そうでない人は50%。7日目には、コミュニティに参加した人は60%、参加しなかった人は約18%の定着率となっています。これは大成功だと思います。
- 別の大規模な研究では、携帯電話ががんを引き起こすという証拠はないとされています。WHOは何を考えていたのでしょうか?
- 私は、彼らが逆になってしまったのだと思います。
- ハァッ?
- まあ、見てください。
UNITED STATES:米国
TOTAL CANCER INCIDENCE:総がん罹患率
CELL PHONE USER:携帯電話利用者
- そんな...それには多くの問題があります。
- 念のため、もっと多くのデータを見るまでは、がんは携帯電話が原因だと考えることにします。
しかし、ちょっと待ってください。理性的なあなたは、コミュニティに参加することで定着率が向上するかどうかを結論づけるには十分な情報がないことを知っています。あなたが知っているのは、この2つには相関関係があるということだけです。
プロダクトの因果関係を検証する方法
因果関係は偶然に起こるものではありません。
2つの変数を「原因と結果」として関連付けたいと思うかもしれません。しかし、しっかりとした分析で因果関係を確認せずにそれを行うと、因果関係があるように見えても実際にはないという偽陽性になってしまいます。これは、従属変数と独立変数の関係を広範囲に渡って検証していない場合に起こります。
誤検出は、プロダクトのインサイトを生成する際に、重要な結果とユーザーの行動の関連性を理解していると誤解させる可能性があるため、問題となります。例えば、どのキー・アクティベーション・イベントが長期的なユーザーリテンションにつながるかを理解しているつもりでも、厳密なテストを行わなければ、誤ったユーザー行動に基づいて重要なプロダクト決定を行ってしまう危険性があります。
因果関係を明らかにするための実験を行う
相関関係が判明したら、"他の変数をコントロールしてその差を測定する"実験を行うことで、因果関係を検証することができます。
プロダクトとの因果関係を明らかにするために使用できる2つの実験や分析があります。
- 仮説検証
- A/B/n実験
1. 仮説検証
最も基本的な仮説検証では、H0(帰無仮説) とH1(第一次仮説) を設定します。また、第二次仮説、第三次仮説などを設定することもできます。
帰無仮説とは、第一次仮説の反対の仮説です。 なぜでしょうか?なぜなら、第一次仮説を100%の確実性で証明することはできませんが(最も近いのは99%)、帰無仮説を反証することはできるからです。
一次仮説 は、研究している因果関係を指し、独立変数と従属変数を特定する必要があります。
最初にH1を作成し、次にその反対のH0を特定し、それをH0に使用するのが最善です。H1では、独立変数と従属変数の間に期待される関係を明らかにする必要があります。前述の「アプリ内ソーシャル機能がリテンションに与える影響」の例で言えば、独立変数は「コミュニティへの参加」、従属変数は「リテンション」ということになります。つまり、仮説は次のようになります。
次に、H1を否定して、帰無仮説を作ります。
目的は、異なる仮説の間に実際の違いがあるかどうかを観察することです。帰無仮説を統計的に有意に(理想的には95%以上の信頼度で)棄却できれば、独立変数と従属変数の関係を理解することに近づきます。上の例では、(結果に影響を与える交絡変数を調整した上で)コミュニティに参加すると継続率が高くなるという帰無仮説を棄却できれば、コミュニティとユーザーの継続率には何らかの関係があると結論づけることができるでしょう。
この仮説を検証するには、予想される原因(独立変数)と効果(結果変数)の関係を正確に反映した方程式を作成します。モデルに暴露変数の値を入力して、実際に観測されたデータを反映した結果が一貫して得られるのであれば、何かを掴んだと言えるでしょう。
仮説検証を使用する場合:
仮説検定は、2つの変数の間に実際に関係があるかどうかを確認する際に、経験則ではなく役に立つものです。過去のデータを見て、時系列的な変化を調べる縦断的な分析を行いたい場合などです。例えば、プロダクトの発売時に最初に採用した人が最大のプロモーターであるかどうかを調べることができます。紹介のパターンを調べたり、プロダクトの発売との関係を時系列で比較したりすることができます。
あるいは、データのスナップショットを分析するクロスセクション分析を行うこともできます。これは、一定期間の傾向の変化ではなく、特定の露出や結果の影響を調べる場合に役立ちます。例えば、ホリデーシーズン特有のプロモーションと売上の関係を調べることができます。
2. A/B/n実験
また、A/B/nテストは、相関関係から因果関係へと導くことができます。それぞれの変数を見て、1つを変えて何が起こるかを見てみましょう。結果が一貫して(同じ傾向で)変化していれば、違いを生み出す変数を見つけたことになります。
Andrew Chenはこのように言っています、「自分に合ったモデルを見つけたら、次はそれをA/Bテストしてみましょう。入力変数に優先順位をつけ、他のものを犠牲にしてでも入力変数を増やすようなことをするのです。" その結果、そのユーザーがより成功するかどうかを確認してください。その結果、そのユーザーがより成功するかどうかを確認してください。もしそうでなければ、それはあまり良いモデルではないかもしれません」。
コミュニティへの参加が継続率の向上につながることを証明するためには、結果に影響を与える可能性のある他のすべての変数を排除する必要があります。例えば、ユーザーが別の道を歩み、それが結果的にリテンションに影響を与えた可能性もある。
因果関係があるかどうかを検証するには、ユーザーがコミュニティに参加することと、アプリを長期的に利用することの間に直接的な関連性を見出す必要があります。
まずは、オンボーディングのフローから始めましょう。次に登録した1,000人のユーザーを2つのグループに分けます。半分は登録時に強制的にコミュニティに参加させ、もう半分は参加させないようにします。
この実験を30日間行った後、2つのグループのリテンションレートを比較します。
もし、強制的にコミュニティに参加させられたグループの方が、相対的に定着率が高いことがわかったら、コミュニティへの参加と定着率の間に因果関係があることを確認するための証拠が得られたことになります。この関係は、コミュニティがリテンションを促進する理由を理解するために、さらに掘り下げる価値があるでしょう。
このような実験をしてみないと、関係性を確信することはできません。
A/B/nテストを使用する場合:
A/B/nテスト(スプリットテスト)は、異なるバリエーション(キャンペーン、プロダクト機能、コンテンツ戦略など)の影響を比較する場合に最適です。例えば、プロダクトのオンボーディングフローのスプリットテストでは、以下のような特定の特徴に基づいて、異なる戦略がどのように機能するかを比較します。
- コピーのバリエーション
- グラフィックの違い
- サードパーティのアプリを使って、ユーザーの名前と会社を自動的に認識する
- サインアップフォームがある場合は、フィールド数を減らす
複数のプロダクトオンボーディングのバリエーションを実行した後は、その結果を見て、ドロップオフレート、コンバージョン、さらにはリテンションなどの指標を比較することができます。
プロダクトの持続的な成長のために、正しい相関関係に基づいて行動する
私たちは常に身の回りのパターンを探しているので、見たものを説明できるようになりたいと思っています。しかし、因果関係がはっきりしない限り、相関関係を見ているに過ぎないと考えるべきです。
常識的にはつながっているように見える出来事でも、はっきりとした直接的なつながりを証明できなければ、因果関係があるとは言えないのです。また、因果関係と相関関係は同時に存在しますが、相関関係=因果関係ではありません。
プロダクト内の真の相関関係を見極める能力が高ければ高いほど、ユーザーのエンゲージメントとリテンションに向けた取り組みの優先順位を高めることができます。
Twitter始めました🐣
LINEで「海外プロダクトマネジメント情報を機械翻訳」の新着投稿を受け取れます📬
Discussion