💽

データサイエンス入門

2023/05/07に公開

データサイエンス入門

[!Important]+ Goals
実務で使用するデータや統計の概念と用語を理解した状態。
ビジネスに役立つデータの扱い方を理解した状態。
データ分析のアプローチがイメージできる状態。

[!info]+ Subject

  • 日常的にデータ分析の結果を目にするけど、その概念がよくわからない方。
    DXやデータサイエンスについて基礎から体系的に学びたい方。
    データリテラシーを高めたい方

[!abstract]+ Curriculum
1.データサイエンスとは?
2.データの基礎とデータ分析の基礎
3.データ分析の実践
4.データ活用の注意点


データサイエンスとは?

Intro

  • データサイエンス:データを利用して価値を生み出す科学

    • 数学、統計学、機械学習、データベースなどを利用する。
  • データサイエンティストに必要な能力|実際のプロジェクト構成例

    • ビジネス能力** : ビジネス課題を整理して解決する|マーケターなど
    • データサイエンス能力** : 様々なデータ分析の手法を理解し、利用する|データサイエンティスト
    • データエンジニアリング能力** : データ活用が可能な環境を整備し、実装・運用可能|データエンジニア

データサイエンスが注目される背景

  • ビッグデータの収集が容易になる by デバイス・センサーの普及
    • ICT : Information & Communication Tech.
    • IoT : Internet of Things
  • データが多ければ多いほど、精度の高い分析が可能

AIとデータサイエンス

  • 定義:人間の知能・知的行動を模倣すること。
    • 汎用AI(強いAI):自ら複数の問題やタスクを処理、想定外の問題に対応可能。
      • まだ実現不可能
    • 特化AI**(弱いAI):特定のタスクや領域に特化し、想定外の問題に対応不可能
      • ビジネスに幅広く使用:画像処理、自然言語処理など。
  • なぜデータ活用と関係があるのか
    • AI はデータを使って規則性や関係性を見つける(モデル)。
  • AI はデータサイエンスの手法の一つ。

AIと機械学習

  • 機械学習:人間が認識していないルールを見つけ出す
    • 教師学習, 比較学習, 強化学習
  • 教師あり学習
    • 学習:データの規則性を見つけてモデル化
      • 最近はノーコードプログラミングもある
    • 推論:学習されたモデルで予測する

生活の中のデータサイエンス

  • 家計簿アプリ
  • 商品推薦
    • Personalization:データで個人に合わせた情報サービスを提供する技術

ビジネスの中のデータサイエンス

  • 実施例
    • ECサイトのクーポン配布
    • メーカーの購買行動分析
    • コピー機のメンテナンス
  • 効果的なデータ活用が可能なところ:人の勘や経験で判断してきたこと。
    ---データ活用が可能なところ

データの基礎とデータ分析の基礎

データの種類

形式による分類

  • デジタル、アナログ

構造による分類

  • 構造化データ:加工・計算が容易。
  • 非構造化データ:分析が難しい。最近増えている
    • テキスト、映像・写真、音声、センサーログなど。
  • 半構造化データ
    • HTML、XML、JSONなど

値による分類

  • 定性データ
  • 定量的データ

データ保管

  • データベース:階層型、ネットワーク型、リレーショナルデータベース
    • Relationalデータベース : 表形式で管理、現在主流
      • 表はtable、行はrecord、列はcolumn。
  • データベース管理システム
    • Relational database management sys:Oracle Database, MS SQL Sever
      • SQL言語:データの追加、削除、更新
        • select, delete

~~統計の基礎

データの罠

  • データを誤って解釈する危険性がある
    • 平均の落とし穴、グラフ尺度の問題

データ分析の実践

データ活用のプロセス

1.課題に気づく : 分析課題・方向性の設定
- 分析目的を明確にする
2.データ収集・構造化:どのようなデータが必要か?
3.探索的データ分析(Exploratory Data Analysis, EDA):可視化・基本統計量
- 詳細な仮説を立てる
4.統計分析 : 検定・多変量分析
- 原因をより深く把握する
5.分析結果の解釈・検証:結果から対策を考案する。

  • 例:ホテルサービスの改善

STEP1 : 課題に気づく

  • 注意点:課題をデータから始めてしまうこと
  • 課題の把握、データ分析の目的設定、分析方針の明確化
    • ビジネス/エンジニアお互いに重要

STEP2 : データ収集・構造化

  • データ収集
    • 読者調査:アンケート、ログデータ取得(IoTセンサー、保管の問題、データ処理の必要性)、ウェブスクレイピング(ノーコードで簡単、使用に注意)
    • 公開情報 : e-Stat、Googleトレンド
  • データ構造化:行と列で整形及び整理する。

STEP3 : 探索的データ分析 : データ集計と可視化

  • 単純集計 : 一つの変数に対して数や比率を集計する
  • クロス集計 : 複数の変数に対して集計
  • データ理解 = 単純集計 or クロス集計 + 可視化

STEP3 : 探索的データ分析データの相関関係

  • 確認方法:散布図、相関関係数
  • 注意点
    • 直線的な関係でなければ、相関係数で定量化できない。
    • 相関係数が同じでも散布図の形は異なる場合がある。

STEP4 : 統計分析仮説検定

  • 仮説検定:母集団の特徴や性質を分析する。
  • 対立仮説が不成立 → 証明したい仮説が成立
    • 対立仮説:証明したい仮説
    • 帰無仮説:反対の仮説

| P 値|帰無仮説|対立仮説||P値||対立仮説||P値
------- | -------- | --------
| 5% 以下 | 破棄 | 採用
| 5% 超過|採用|破棄|破棄

  • 新薬効果測定、工業製品品質管理
  • 仮説検定の各手法
    • 2標本t検定:二つの集団を比較
      • 男性と女性の満足度の平均値の差など。
    • 独立性検定:クロス集計表を利用
      • 性別と個人またはグループで旅行に来たかなど
    • この他にも多数存在

STEP4 : 統計分析 多変量解析 1

  • 多変量解析:複数のデータの関連性を分析して要約・予測する方法。
    • 目的とデータに適した分析手法を選択
  • 回帰分析:説明変数、目的変数。データ間の関連性を明確にしたり、予測を行う。
    • 回帰直線
    • 単回帰分析、重回帰分析

STEP4 : 統計分析 多変量解析 2

  • 主成分分析:次元縮小に使用。変換後の変数の意味は人が決める。

    • 利点 : データの可視化、データ量の削減。
    • 注意点:次元縮小前後で、データが異なる可能性。
      • 累積寄与率 : 原データを表現できるかどうかを定量的に確認。約70-80%程度
  • クラスタリング : データの類似性でグループ分け

    • 階層的クラスタリング : サンプル数が少ないときに有効。
    • 非階層的クラスタリング:データが多い場合に有効。
    • 結果に基づいて人間が判断・解釈する

STEP5 : 分析結果の解釈

  • レポート作成 : 目的、背景、分析結果、Next action
    • 目的 : 目的を失うことなく分析結果を見ることができるように促す。
    • 背景:問題解決の必要性、現状、補足知識。間違った結論を防ぐ。
    • 分析結果:動機、手口の説明、考察。相手によって調整が必要。
    • Next action : 結果に基づいて何をすべきか。

データ活用の注意事項

データ活用の注意事項

  • 自覚のない鳥に不適切に活用されてしまう。

データに関する法律

  • セキュリティ : ISO/IEC 27000
    • 機密性 : 情報が漏れないように管理し、許可された人だけが情報にアクセス可能。
      • パソコン自体 : 鍵で入室制限、許可された人だけが入室できる。
      • インターネット : アクセス権限の制限、ファイルパスワード、データ暗号化
    • 完全性 : 情報が正確かつ最新の状態を維持している。
      • UIの改善、誤入力検知、アクセスや操作履歴の取得
    • 可用性 : 許可された人が必要な時に確実に情報にアクセス可能。
  • プライバシー:個人情報+個人や家庭内の生活、秘密について他人から干渉または侵害を受けない権利。
    • プライバシー8原則(OECD)
      • 収集制限の原則:同意
      • データ内容の原則:正確・完全・最新であること。
      • 目的明確化の原則:目的を明確にする
      • 利用制限の原則:開示・使用、その他の活用をしてはならない。
      • 安全保護の原則 : 合理的なセキュリティによる安全措置。
      • 公開の原則:方針を公開する
      • 個人参加の原則 : 内容の確認、異議申し立て
      • 責任の原則:7つの原則を遵守する。

最後に

  • データ収集、データ保管・処理、データ分析、専門知識、統計学など、それぞれの専門家がチームを組む。
  • 本講義の内容はどの分野でも必須

Discussion