📑

【 データ分析の決定版 】多変量解析について、まとめ

2024/01/05に公開

多変量解析とは?

複数の変数に関するデータをもとに、これらの変数間の相互関連を分析する統計的技法の総称です。
特定の分析方法を指すものではありません。

多変量解析を行うことで、以下のことが可能になります。

  • 複数の変数間の関連性や因果関係を明らかにする
  • データの特徴を要約し、理解を深める
  • 将来の傾向を予測する

多変量解析の種類

多変量解析には、以下のようなものがあります。

  1. 重回帰分析
  2. ロジスティック回帰分析
  3. クラスター分析
  4. ベイズ判別分析
  5. 主成分分析

重回帰分析について

ある結果(目的変数)を説明する際に、関連する複数の要因(説明変数)のうち、どの変数がどの程度、結果を左右しているのかを関数の形で数値化し両者の関係を表し、それを元にして将来の予測を行う統計手法のことです。
単回帰分析の拡張版であり、説明変数が2つ以上ある場合に使用します。
説明変数と目的変数は、数値型の値をとります。

重回帰分析では、目的変数と説明変数の間には線形の関係があると仮定します。
そして、その線形関係を示す式(重回帰式)を推定します。
重回帰式は、次のとおりです。

目的変数 = 説明変数1 * 係数1 + 説明変数2 * 係数2 + ... + 説明変数n * 係数n

この式において、説明変数1、説明変数2、...、説明変数nは、目的変数に影響を与えると考えられる変数です。
係数1、係数2、...、係数nは、各説明変数が目的変数に与える影響を示す係数です。

ロジスティック回帰分析について

目的変数が0か1の2値データである場合に、説明変数を用いてその値が1になる確率を予測する統計手法のことです。

ロジスティック回帰分析では、説明変数と目的変数の間には非線形の関係があると仮定します。
そして、その非線形関係を示す式(ロジット関数)を推定します。
ロジット関数は、次のとおりです。

ロジット = 説明変数1 * 係数1 + 説明変数2 * 係数2 + ... + 説明変数n * 係数n

この式において、ロジットは、目的変数(0か1)が起こる確率を表す変数です。
係数1、係数2、...、係数nは、各説明変数が目的変数の確率に与える影響を示す係数です。

クラスター分析について

データ全体から似たもの同士をグループ分けする統計手法のことです。
クラスター分析では、グルーピングされたデータの集まりをクラスター(集団)と表現します。
クラスターの数に決まりはなく、必要に応じて任意の数のクラスターにグループ分けすることが可能です。

クラスター分析は、教師あり学習ではなく、教師なし学習と呼ばれる手法です。
教師なし学習とは、データにラベルが付いていないものに対して、データの特徴を分析して、データのグループ分けを行う手法です。

ベイズ判別分析について

統計学における分類問題を解決するための統計手法のことです。
ベイズの定理に基づいて、データから観測された特徴量の値をもとにして、そのデータがどのクラスに属する可能性が高いかを推定するものです。

ベイズ判別分析では、まず、各クラスの特徴量の分布を推定します。
これは、事前分布と呼ばれるものです。
事前分布は、データの分布に関する事前知識を反映したものであり、データが十分にない場合には、等確率分布や指数分布などの代表的な分布を事前分布として用います。

主成分分析について

多次元データの情報を損なわずに低次元空間に縮約する統計手法のことです。
具体的には、複数の説明変数を、より少ない指標や合成変数に要約します。
この要約は「次元の縮約」とも呼ばれます。
要約した合成変数のことを「主成分」と呼びます。

主成分分析は、データの次元を削減するために用いられます。
データの次元が大きい場合、データの理解や分析が困難になる可能性があります。
主成分分析を用いることで、データの次元を減らすことで、データの理解や分析を容易にすることができます。

さいごに

👋 主にFlutter使ってるエンジニアの pomm(ぽむ)です! Flutterやエンジニアリングについて、業務や趣味の中で気づいたTipsなどをまとめてます。

いいね・フォローしてくれると喜びます!

この記事が1人でも多くの方へ参考になっていれば嬉しいです。

株式会社フライヤー Tech Blog

Discussion