〰️
[Excel] Ch.3 データ分析(T-test、回帰、クラスタリング、ダッシュボード)
[!abstract] 概要
- T-test : 2022年、2023年の売上データ
- 回帰分析 : トヨタ中古車データ
- 群集分析 : 百貨店の購買情報、顧客情報データ
- エクセルダッシュボード
[!note] 感想
- T-test
- 統計検定2級を取ってから久しぶりにt検定に触れたが、感慨深い。
- やっぱり日本語より韓国語で説明を聞く方が頭にすっと入ってくるようだ。
- 回帰分析
- 分析を行う上で多重共線性が重要。
エクセルでダミーデータの扱い方を初めて知った。- 群集分析
エクセルの解の検索機能が新鮮だった。- ダッシュボード
Power BIの授業が楽しみである。
エクセルは重すぎる気がする。
データ検定
T検定
#t-テスト
[!info] T-test
- 母集団の標準偏差が不明な場合、正規分布の母集団から集めたサンプルの平均値に対する仮説検定。
- ==標本二つの集団が統計的に同じか、違うか比較==するテスト
- 種類
対応標本:標本集団1つを特定の値と比較する。
対応標本(双体) : 1つの集団の実験前後を比較する。
独立標本:二つの標本集団を比較する。- 両側検定と片側検定
実習:プロモーション効果分析
データ探索と前処理
[!note]
- 売上上位20ブランド
ピボットテーブル -> 行ラベル -> 値フィルター -> トップ10 -> 20に変更する- 昨年と重複する顧客を見つける
COUNTIF($T$7:$T$3810,P7)
。
T-testの実施と検定結果の分析
[!NOTE] T-test
- t- 検定:双体比較
- t-独立標本
- f- 検定 : 分散に対する二つの集団
- 等分散なのか、二分散なのか。
- t- 検定 : 二分散 or 等分散を仮定した二つの集団
回帰分析
実習:自動車価格予測
データの紹介と共線性/可変数
#多重共線性 #ダミー変数
[!NOTE]
- 多重共線性 Multicollinearity
マルチコリニアリティ- 変数 Dummy variables : 数値でない変数の場合
- タイプが3個の場合、ダミーは2個だけ作ってもよい。
データの前処理と回帰分析の実施
#excel/regression
[!NOTE]
- データ前処理
- 相関分析を通じた共線性が生じる可能性を確認。
下記の場合、年式とDiff_First Drive Yearが多く重なる。- ==回帰分析
- データ -> データ分析 -> 回帰分析 > - !
- MET COLORとDOORS変数を除去して再分析する。
- MSE, RMSE
群集分析
K-means クラスタリング 소개
#k-手段
[!NOTE] K-means Clustering
プロセス
実習:高級品購入顧客分析
群集化実施
[!NOTE] Clustering
- Tiny Data化 -> Ref追加 -> 各変数の平均と標準偏差を求める -> 標準化 -> 標準化
適切な中心点設定 -> 群集分割 -> 解を探す(制限条件設定) -> 解法オプション設定 -> 解を探す
アクセルダッシュボード
[!NOTE]
実習:リテールダッシュボード作成
[!NOTE]
- ==スライサー==
挿入 -> スライサー- 細かいフォーマットまで指定可能
- 列も修正可能
- レポートの接続:他のピボットテーブルとスライサーの共有
グラフ -> データラベルを追加
カメラ:テーブル自体はカメラで
Discussion