🙌

[Excel] Ch.2 EDA(Tiny Data, EDA, Query, 相関分析)

2023/09/27に公開

Tiny Data : ローデータ管理

[!info] Tiny Dataとは?

  • データ前処理にかかる時間を最小限に抑えるための標準化されたデータ形式です。
  • 一から始める必要のないデータ

[!tip]必要条件

  • 列には個別変数1個
  • 行には観測値
  • 各表は 1 つの観測基準によって組織化される

探索的データ分析(Exploratory Data Analysis, EDA)

#EDA

[!info] EDA

  • 数値要約と可視化を使用してデータを探索し、変数間の潜在的な関係(インサイト)
    変数間の潜在的な関係(インサイト)を見つけるプロセス。
    (インサイト)

[!example] EDA

  • データ特性の理解
  • データ変動のパターン発見
    異常値発見 >>- 異常値発見
  • モデリング戦略の策定、方向性の設定
    分析結果の発見 >>- 分析結果の発見

[!quote]
' 間違った質問 ' に対する ' 確かな答え ' は結論が確実かもしれないが、
'正しい質問' ==に対する'おおよその答え' ==の方が良い場合もある。
- John Tukey、アメリカの数学者、コンピュータ科学者。


実習:世界人口データ分析

データの紹介と前処理

#excel/query

[!note] クエリを利用したTiny Data化

  • データ -> テーブル/範囲から -> クエリエディタ -> 変換 -> 列のピボット解除

データの探索と可視化

#excel/graph/combo

[!note] 可視化

  • コンボグラフ
  • 伸び率計算式の貼り付けのヒント
  • IF関数を利用した他の大陸間の計算を防止する

実習:アメリカの都市別House Priceデータ分析

データの紹介と探索

[!note]

  • トレンドの探索:棒グラフ、分散グラフ、ボックスグラフ。
  • Pivot table 列のグループ化

相関分析と可視化

#excel/correlation

[!note] 相関分析

  • データ分析の追加
    ファイル - > - オプション - > アドオン - > 分析ツールパック
  • 値に応じてセルの背景を表示する
    ホーム -> 条件付き書式 -> ルールの管理 -> 新しいルール -> セルの値を基準にすべてのセルの書式設定
    新規ルール

[!example] 結果


実習:オンラインショッピングモールデータ分析

データ紹介

データ探索と前処理

#excel/text #excel/search #excel/isnumber

[!note]

  • テキストを日付形式に変更する
    • データ -> テキストの分割 -> 3段階の列データフォーマット -> 日付の選択
  • 日付を曜日に変更する
  • 複数のドメインのアドレスを統合する
    • IF(ISNUMBER(SEARCH("google",K2)),"google",K2) >- `IF(ISNUMBER(SEARCH("google",K2))
  • Pivotテーブルの列の合計比率で表示する。
    • ピボットテーブルフィールド -> 値 -> 値フィールドの設定 -> 値の表示形式 -> 列の合計比率

カート相関分析

Discussion