🐮
機械学習モデル作成シリーズ step2 データのロード
機械学習モデル作成のStep2です。前回はデータの種類について扱いました。
今回はデータのロードについて解説します。
2 データのロード
各種形式で保存されたデータは、プログラム上にロードしてから処理されます。
データのロードはpythonの組み込み関数や、さまざまなライブラリでサポートされています。
以下に、それぞれのファイル形式に対応するロード方法を紹介します。
2.1 テキスト(.txt)
pythonの組み込み関数'open()'で読み込むことができます。
with open('file.txt', 'r') as file:
content = file.read()
2.2 CSV(.csv)
pandasライブラリの'read_csv()'を利用して読み込むことができます。
import pandas as pd
df = pd.read_csv('file.csv')
2.3 Excel(.xlsx, .xls)
pandasライブラリの'read_excel()'を利用して読み込むことができます。
import pandas as pd
df = pd.read_excel('file.xlsx')
2.4 SQL
SQLクエリを使用して直接データの処理を行います。
メモリに収まるデータセットであれば、pandasで扱うこともできます。
# SQL
SELECT * FROM your_table
# pandas
import pandas as pd
import sqlalchemy
# データベース接続を作成
engine = sqlalchemy.create_engine('sqlite:///your_database.db')
# SQLクエリを実行し、結果をDataFrameとして読み込む
df = pd.read_sql("SELECT * FROM your_table", engine)
2.5 Parquet(.parquet)
pandasライブラリの'read_parquet()'を利用して読み込むことができます。
import pandas as pd
df = pd.read_parquet('file.parquet')
2.6 HDF5(.h5)
h5pyライブラリの'File()'、Pandasライブラリの'read_hdf()'を使用して読み込むことができます。
h5pyはより低レイヤへのアクセスを行い、ファイル内のデータを直接操作できます。
pandasはDataFrameとしてロードするため、詳細なデータ分析の用途に適しています。
# h5py
import h5py
with h5py.File('file.h5', 'r') as file:
data = file['dataset_name'][:]
# pandas
import pandas as pd
df = pd.read_hdf('file.h5', 'key')
2.7 NPY(.npy)
NumPyの'load()'を使用して読み込むことができます。
import numpy as np
array = np.load('file.npy')
2.8 Pickle(.pkl)
pythonのpickleモジュールを使用して読み込むことができます。
import pickle
with open('file.pkl', 'rb') as file:
object = pickle.load(file)
Step2まとめ
保存されたデータは、基本的にはpandas(numpy, pythonのモジュール)を使用してロードすることができます。
次のStep3では、ロードしたデータを扱うための様々なデータ形式について見ていきましょう。
Discussion