🐮

機械学習モデル作成シリーズ step2 データのロード

2024/03/07に公開

機械学習モデル作成のStep2です。前回はデータの種類について扱いました。
今回はデータのロードについて解説します。

2 データのロード

各種形式で保存されたデータは、プログラム上にロードしてから処理されます。
データのロードはpythonの組み込み関数や、さまざまなライブラリでサポートされています。

以下に、それぞれのファイル形式に対応するロード方法を紹介します。

2.1 テキスト(.txt)

pythonの組み込み関数'open()'で読み込むことができます。

with open('file.txt', 'r') as file:
    content = file.read()

2.2 CSV(.csv)

pandasライブラリの'read_csv()'を利用して読み込むことができます。

import pandas as pd
df = pd.read_csv('file.csv')

2.3 Excel(.xlsx, .xls)

pandasライブラリの'read_excel()'を利用して読み込むことができます。

import pandas as pd
df = pd.read_excel('file.xlsx')

2.4 SQL

SQLクエリを使用して直接データの処理を行います。
メモリに収まるデータセットであれば、pandasで扱うこともできます。

# SQL
SELECT * FROM your_table
# pandas
import pandas as pd
import sqlalchemy

# データベース接続を作成
engine = sqlalchemy.create_engine('sqlite:///your_database.db')

# SQLクエリを実行し、結果をDataFrameとして読み込む
df = pd.read_sql("SELECT * FROM your_table", engine)

2.5 Parquet(.parquet)

pandasライブラリの'read_parquet()'を利用して読み込むことができます。

import pandas as pd
df = pd.read_parquet('file.parquet')

2.6 HDF5(.h5)

h5pyライブラリの'File()'、Pandasライブラリの'read_hdf()'を使用して読み込むことができます。
h5pyはより低レイヤへのアクセスを行い、ファイル内のデータを直接操作できます。
pandasはDataFrameとしてロードするため、詳細なデータ分析の用途に適しています。

# h5py
import h5py
with h5py.File('file.h5', 'r') as file:
    data = file['dataset_name'][:]
# pandas
import pandas as pd
df = pd.read_hdf('file.h5', 'key')

2.7 NPY(.npy)

NumPyの'load()'を使用して読み込むことができます。

import numpy as np
array = np.load('file.npy')

2.8 Pickle(.pkl)

pythonのpickleモジュールを使用して読み込むことができます。

import pickle
with open('file.pkl', 'rb') as file:
    object = pickle.load(file)

Step2まとめ

保存されたデータは、基本的にはpandas(numpy, pythonのモジュール)を使用してロードすることができます。
次のStep3では、ロードしたデータを扱うための様々なデータ形式について見ていきましょう。

Discussion