🙌
[Excel] Ch.2 EDA(Tiny Data, EDA, Query, 相関分析)
Tiny Data : ローデータ管理
[!info] Tiny Dataとは?
- データ前処理にかかる時間を最小限に抑えるための標準化されたデータ形式です。
- 一から始める必要のないデータ
[!tip]必要条件
- 列には個別変数1個
- 行には観測値
- 各表は 1 つの観測基準によって組織化される
探索的データ分析(Exploratory Data Analysis, EDA)
#EDA
[!info] EDA
- 数値要約と可視化を使用してデータを探索し、変数間の潜在的な関係(インサイト)
変数間の潜在的な関係(インサイト)を見つけるプロセス。
(インサイト)[!example] EDA
- データ特性の理解
- データ変動のパターン発見
異常値発見 >>- 異常値発見- モデリング戦略の策定、方向性の設定
分析結果の発見 >>- 分析結果の発見
[!quote]
' 間違った質問 ' に対する ' 確かな答え ' は結論が確実かもしれないが、
'正しい質問' ==に対する'おおよその答え' ==の方が良い場合もある。
- John Tukey、アメリカの数学者、コンピュータ科学者。
実習:世界人口データ分析
データの紹介と前処理
#excel/query
[!note] クエリを利用したTiny Data化
- データ -> テーブル/範囲から -> クエリエディタ -> 変換 -> 列のピボット解除
データの探索と可視化
#excel/graph/combo
[!note] 可視化
- コンボグラフ
- 伸び率計算式の貼り付けのヒント
- IF関数を利用した他の大陸間の計算を防止する
実習:アメリカの都市別House Priceデータ分析
データの紹介と探索
[!note]
- トレンドの探索:棒グラフ、分散グラフ、ボックスグラフ。
- Pivot table 列のグループ化
相関分析と可視化
#excel/correlation
[!note] 相関分析
- データ分析の追加
ファイル - > - オプション - > アドオン - > 分析ツールパック- 値に応じてセルの背景を表示する
ホーム -> 条件付き書式 -> ルールの管理 -> 新しいルール -> セルの値を基準にすべてのセルの書式設定
新規ルール[!example] 結果
実習:オンラインショッピングモールデータ分析
データ紹介
データ探索と前処理
#excel/text #excel/search #excel/isnumber
[!note]
- テキストを日付形式に変更する
- データ -> テキストの分割 -> 3段階の列データフォーマット -> 日付の選択
- 日付を曜日に変更する
- 複数のドメインのアドレスを統合する
IF(ISNUMBER(SEARCH("google",K2)),"google",K2)
>- `IF(ISNUMBER(SEARCH("google",K2))- Pivotテーブルの列の合計比率で表示する。
- ピボットテーブルフィールド -> 値 -> 値フィールドの設定 -> 値の表示形式 -> 列の合計比率
Discussion