💽
データサイエンス入門
データサイエンス入門
[!Important]+ Goals
実務で使用するデータや統計の概念と用語を理解した状態。
ビジネスに役立つデータの扱い方を理解した状態。
データ分析のアプローチがイメージできる状態。
[!info]+ Subject
- 日常的にデータ分析の結果を目にするけど、その概念がよくわからない方。
DXやデータサイエンスについて基礎から体系的に学びたい方。
データリテラシーを高めたい方
[!abstract]+ Curriculum
1.データサイエンスとは?
2.データの基礎とデータ分析の基礎
3.データ分析の実践
4.データ活用の注意点
データサイエンスとは?
Intro
-
データサイエンス:データを利用して価値を生み出す科学。
- 数学、統計学、機械学習、データベースなどを利用する。
-
データサイエンティストに必要な能力|実際のプロジェクト構成例
- ビジネス能力** : ビジネス課題を整理して解決する|マーケターなど
- データサイエンス能力** : 様々なデータ分析の手法を理解し、利用する|データサイエンティスト
- データエンジニアリング能力** : データ活用が可能な環境を整備し、実装・運用可能|データエンジニア
データサイエンスが注目される背景
- ビッグデータの収集が容易になる by デバイス・センサーの普及
- ICT : Information & Communication Tech.
- IoT : Internet of Things
- データが多ければ多いほど、精度の高い分析が可能
AIとデータサイエンス
- 定義:人間の知能・知的行動を模倣すること。
- 汎用AI(強いAI):自ら複数の問題やタスクを処理、想定外の問題に対応可能。
- まだ実現不可能
- 特化AI**(弱いAI):特定のタスクや領域に特化し、想定外の問題に対応不可能
- ビジネスに幅広く使用:画像処理、自然言語処理など。
- 汎用AI(強いAI):自ら複数の問題やタスクを処理、想定外の問題に対応可能。
- なぜデータ活用と関係があるのか
- AI はデータを使って規則性や関係性を見つける(モデル)。
- AI はデータサイエンスの手法の一つ。
AIと機械学習
- 機械学習:人間が認識していないルールを見つけ出す
- 教師学習, 比較学習, 強化学習
- 教師あり学習
- 学習:データの規則性を見つけてモデル化
- 最近はノーコードプログラミングもある
- 推論:学習されたモデルで予測する
- 学習:データの規則性を見つけてモデル化
生活の中のデータサイエンス
- 家計簿アプリ
- 商品推薦
- Personalization:データで個人に合わせた情報サービスを提供する技術
ビジネスの中のデータサイエンス
- 実施例
- ECサイトのクーポン配布
- メーカーの購買行動分析
- コピー機のメンテナンス
- 効果的なデータ活用が可能なところ:人の勘や経験で判断してきたこと。
---データ活用が可能なところ
データの基礎とデータ分析の基礎
データの種類
形式による分類
- デジタル、アナログ
構造による分類
- 構造化データ:加工・計算が容易。
- 非構造化データ:分析が難しい。最近増えている
- テキスト、映像・写真、音声、センサーログなど。
- 半構造化データ
- HTML、XML、JSONなど
値による分類
- 定性データ
- 定量的データ
データ保管
- データベース:階層型、ネットワーク型、リレーショナルデータベース
- Relationalデータベース : 表形式で管理、現在主流
- 表はtable、行はrecord、列はcolumn。
- Relationalデータベース : 表形式で管理、現在主流
- データベース管理システム
- Relational database management sys:Oracle Database, MS SQL Sever
- SQL言語:データの追加、削除、更新
- select, delete
- SQL言語:データの追加、削除、更新
- Relational database management sys:Oracle Database, MS SQL Sever
~~統計の基礎
データの罠
- データを誤って解釈する危険性がある
- 平均の落とし穴、グラフ尺度の問題
データ分析の実践
データ活用のプロセス
1.課題に気づく : 分析課題・方向性の設定
- 分析目的を明確にする
2.データ収集・構造化:どのようなデータが必要か?
3.探索的データ分析(Exploratory Data Analysis, EDA):可視化・基本統計量
- 詳細な仮説を立てる
4.統計分析 : 検定・多変量分析
- 原因をより深く把握する
5.分析結果の解釈・検証:結果から対策を考案する。
- 例:ホテルサービスの改善
STEP1 : 課題に気づく
- 注意点:課題をデータから始めてしまうこと
- 課題の把握、データ分析の目的設定、分析方針の明確化
- ビジネス/エンジニアお互いに重要
STEP2 : データ収集・構造化
- データ収集
- 読者調査:アンケート、ログデータ取得(IoTセンサー、保管の問題、データ処理の必要性)、ウェブスクレイピング(ノーコードで簡単、使用に注意)
- 公開情報 : e-Stat、Googleトレンド
- データ構造化:行と列で整形及び整理する。
STEP3 : 探索的データ分析 : データ集計と可視化
- 単純集計 : 一つの変数に対して数や比率を集計する
- クロス集計 : 複数の変数に対して集計
- データ理解 = 単純集計 or クロス集計 + 可視化
STEP3 : 探索的データ分析データの相関関係
- 確認方法:散布図、相関関係数
- 注意点
- 直線的な関係でなければ、相関係数で定量化できない。
- 相関係数が同じでも散布図の形は異なる場合がある。
STEP4 : 統計分析仮説検定
- 仮説検定:母集団の特徴や性質を分析する。
- 対立仮説が不成立 → 証明したい仮説が成立
- 対立仮説:証明したい仮説
- 帰無仮説:反対の仮説
| P 値|帰無仮説|対立仮説||P値||対立仮説||P値
------- | -------- | --------
| 5% 以下 | 破棄 | 採用
| 5% 超過|採用|破棄|破棄
- 新薬効果測定、工業製品品質管理
- 仮説検定の各手法
- 2標本t検定:二つの集団を比較
- 男性と女性の満足度の平均値の差など。
- 独立性検定:クロス集計表を利用
- 性別と個人またはグループで旅行に来たかなど
- この他にも多数存在
- 2標本t検定:二つの集団を比較
STEP4 : 統計分析 多変量解析 1
- 多変量解析:複数のデータの関連性を分析して要約・予測する方法。
- 目的とデータに適した分析手法を選択
- 回帰分析:説明変数、目的変数。データ間の関連性を明確にしたり、予測を行う。
- 回帰直線
- 単回帰分析、重回帰分析
STEP4 : 統計分析 多変量解析 2
-
主成分分析:次元縮小に使用。変換後の変数の意味は人が決める。
- 利点 : データの可視化、データ量の削減。
- 注意点:次元縮小前後で、データが異なる可能性。
- 累積寄与率 : 原データを表現できるかどうかを定量的に確認。約70-80%程度
-
クラスタリング : データの類似性でグループ分け
- 階層的クラスタリング : サンプル数が少ないときに有効。
- 非階層的クラスタリング:データが多い場合に有効。
- 結果に基づいて人間が判断・解釈する
STEP5 : 分析結果の解釈
- レポート作成 : 目的、背景、分析結果、Next action
- 目的 : 目的を失うことなく分析結果を見ることができるように促す。
- 背景:問題解決の必要性、現状、補足知識。間違った結論を防ぐ。
- 分析結果:動機、手口の説明、考察。相手によって調整が必要。
- Next action : 結果に基づいて何をすべきか。
データ活用の注意事項
データ活用の注意事項
- 自覚のない鳥に不適切に活用されてしまう。
データに関する法律
- セキュリティ : ISO/IEC 27000
- 機密性 : 情報が漏れないように管理し、許可された人だけが情報にアクセス可能。
- パソコン自体 : 鍵で入室制限、許可された人だけが入室できる。
- インターネット : アクセス権限の制限、ファイルパスワード、データ暗号化
- 完全性 : 情報が正確かつ最新の状態を維持している。
- UIの改善、誤入力検知、アクセスや操作履歴の取得
- 可用性 : 許可された人が必要な時に確実に情報にアクセス可能。
- 機密性 : 情報が漏れないように管理し、許可された人だけが情報にアクセス可能。
- プライバシー:個人情報+個人や家庭内の生活、秘密について他人から干渉または侵害を受けない権利。
- プライバシー8原則(OECD)
- 収集制限の原則:同意
- データ内容の原則:正確・完全・最新であること。
- 目的明確化の原則:目的を明確にする
- 利用制限の原則:開示・使用、その他の活用をしてはならない。
- 安全保護の原則 : 合理的なセキュリティによる安全措置。
- 公開の原則:方針を公開する
- 個人参加の原則 : 内容の確認、異議申し立て
- 責任の原則:7つの原則を遵守する。
- プライバシー8原則(OECD)
最後に
- データ収集、データ保管・処理、データ分析、専門知識、統計学など、それぞれの専門家がチームを組む。
- 本講義の内容はどの分野でも必須
Discussion