🐹
機械学習モデル作成シリーズ Step1 データの種類
このシリーズでは、機械学習モデルを作成するまでの流れをstepに分けて解説していきます。
それでは始めましょう!
1 データの種類
最初のステップは、モデルの学習に使用するデータの理解です。データの質は、機械学習モデルの精度に最も影響を及ぼす要素の一つです。
初めに一般的に利用されるデータの保存形式について考えましょう。
1.1 テキストデータ
- テキスト(.txt)
一般的なテキストデータです。自然言語処理のタスクでよく利用されます。# .txt こんにちは。私はジョンです
- CSV(.csv)
カンマで区切られたテキストデータです。一番上の行が列名の表となります。人間にも読みやすいですが大規模、複雑なデータの保存には不向きです。# .csv day,place,weather 1,New York,Sunny 2,Los Angeles,Cloudy
1.2 テーブルデータ
- CSV(.csv)
表形式で保存するため、2次元のテーブルデータとして扱うことができます。任意で最初の行に列名を持ちます。[[day,place,weather] ,[1,New York,Sunny] ,[2,Los Angeles,Cloudy]]
- Excel(.xlsx, .xls)
エクセルで使用される表データ形式です。複数のシートを含むこともできます。読み込みの際に列名となる行を指定することができます。 - SQL
データはSQLデータベースに保存されています。基本的に2次元のテーブルデータですが、テーブルを関連づけることで多次元データとして扱うこともできます。スキーマにより列名とデータ型が指定されます。
膨大なデータを保存することができ、SQLクエリを使用して直接データの処理を行うことができます。 - Parquet(.parquet)
バイナリ形式で保存されるデータです。大量のデータ効率的に保存、抽出でき、2次元ビッグデータの処理と分析に適しています。基本的に列名を持ちます。
※以前にも解説しています。# .parquet [[0.0 , 5.0, 0.], [0.01, 5.0, 0.30901699], [0.02, 5.0, 0.58778525], [0.03, 5.0, 0.80901699], [0.04, 5.0, 0.95105652]] [[0.05, 5.0, 1.0], [0.06, 5.0, 0.95105652], [0.07, 5.0, 0.80901699], [0.08, 5.0, 0.58778525], [0.09, 5.0, 0.30901699]]
- HDF5(.h5)
階層的データ形式で、大量の数値データを保存するのに適しています。科学研究データや複雑なデータセットの保存に使用されます。任意で列名を持ちます。# .h5 # 多次元データのため形状を示す shape(100000, 256, 256, 4)
1.3 画像データ
- JPEG(.jpg,.jpeg), PNG(.png), TIFF(.tiff)等
一般的な画像データで、画像認識や画像処理のタスクに使用されます。2次元(縦、横)の単一データとして扱います。
1.4 音声データ
- WAV(.wav), MP3(.mp3)等
一般的な音声データで、音声認識や音声生成のタスクに使用されます。1次元(音の強さ)の配列データとして扱います。
1.5 動画データ
- MP4(.mp4), AVI(.avi)等
一般的な動画データで、動画処理や動画生成のタスクに使用されます。3次元(縦、横、時間)の単一データとして扱います。
まとめ
今回はデータの種類について解説しました。
次回はデータのロードについて解説する予定です。
Discussion