🐹

機械学習モデル作成シリーズ Step1 データの種類

2024/03/06に公開

このシリーズでは、機械学習モデルを作成するまでの流れをstepに分けて解説していきます。
それでは始めましょう!

1 データの種類

最初のステップは、モデルの学習に使用するデータの理解です。データの質は、機械学習モデルの精度に最も影響を及ぼす要素の一つです。

初めに一般的に利用されるデータの保存形式について考えましょう。

1.1 テキストデータ

  • テキスト(.txt)
    一般的なテキストデータです。自然言語処理のタスクでよく利用されます。
    # .txt
    こんにちは。私はジョンです
    
  • CSV(.csv)
    カンマで区切られたテキストデータです。一番上の行が列名の表となります。人間にも読みやすいですが大規模、複雑なデータの保存には不向きです。
    # .csv
    day,place,weather
    1,New York,Sunny
    2,Los Angeles,Cloudy
    

1.2 テーブルデータ

  • CSV(.csv)
    表形式で保存するため、2次元のテーブルデータとして扱うことができます。任意で最初の行に列名を持ちます。
    [[day,place,weather]
    ,[1,New York,Sunny]
    ,[2,Los Angeles,Cloudy]]
    
  • Excel(.xlsx, .xls)
    エクセルで使用される表データ形式です。複数のシートを含むこともできます。読み込みの際に列名となる行を指定することができます。
  • SQL
    データはSQLデータベースに保存されています。基本的に2次元のテーブルデータですが、テーブルを関連づけることで多次元データとして扱うこともできます。スキーマにより列名とデータ型が指定されます。
    膨大なデータを保存することができ、SQLクエリを使用して直接データの処理を行うことができます。
  • Parquet(.parquet)
    バイナリ形式で保存されるデータです。大量のデータ効率的に保存、抽出でき、2次元ビッグデータの処理と分析に適しています。基本的に列名を持ちます。
    ※以前にも解説しています。
    # .parquet
    [[0.0 , 5.0, 0.],
    [0.01, 5.0, 0.30901699],
    [0.02, 5.0, 0.58778525],
    [0.03, 5.0, 0.80901699],
    [0.04, 5.0, 0.95105652]]
    [[0.05, 5.0, 1.0],
    [0.06, 5.0, 0.95105652],
    [0.07, 5.0, 0.80901699],
    [0.08, 5.0, 0.58778525],
    [0.09, 5.0, 0.30901699]]
    
  • HDF5(.h5)
    階層的データ形式で、大量の数値データを保存するのに適しています。科学研究データや複雑なデータセットの保存に使用されます。任意で列名を持ちます。
    # .h5
    # 多次元データのため形状を示す
    shape(100000, 256, 256, 4)
    

1.3 画像データ

  • JPEG(.jpg,.jpeg), PNG(.png), TIFF(.tiff)等
    一般的な画像データで、画像認識や画像処理のタスクに使用されます。2次元(縦、横)の単一データとして扱います。

1.4 音声データ

  • WAV(.wav), MP3(.mp3)等
    一般的な音声データで、音声認識や音声生成のタスクに使用されます。1次元(音の強さ)の配列データとして扱います。

1.5 動画データ

  • MP4(.mp4), AVI(.avi)等
    一般的な動画データで、動画処理や動画生成のタスクに使用されます。3次元(縦、横、時間)の単一データとして扱います。

まとめ

今回はデータの種類について解説しました。
次回はデータのロードについて解説する予定です。

Discussion