🙂

Pandasで、日付データを特徴量に変換するためのコード

2024/01/06に公開

Pandasで、日付データを機械学習モデルのための有効な特徴量に変換する方法をメモしておきます。

サンプルデータ

まずサンプルデータを作ります。

# サンプルデータの作成
data = """
date
2023-01-01
2023-02-14
2023-03-20
2023-04-25
2023-05-15
2023-06-10
2023-07-22
2023-08-30
2023-09-15
2023-10-28
2023-11-19
2023-12-05
"""

pandasを使って、日付データから特徴量を抽出

import pandas as pd

# 文字列データをpandasのDataFrameに読み込む
train_df = pd.read_csv(StringIO(data), parse_dates=['date'])

# 日付データから特徴量を抽出
train_df['year'] = train_df['date'].dt.year
train_df['month'] = train_df['date'].dt.month
train_df['day'] = train_df['date'].dt.day
train_df['day_of_year'] = train_df['date'].dt.dayofyear
train_df['day_of_month'] = train_df['date'].dt.day
train_df['day_of_week'] = train_df['date'].dt.dayofweek

# 更新されたDataFrameを表示
print(train_df)

感想・備忘録

年をまたぐ時系列データを扱う場合、年ごとに変化がみられる場合には、年を特徴量として含めることは大事だと感じました。年を特徴量としてモデルに含めることで、時間とともに変化するパターンや傾向をモデルが認識しやすくなり、予測精度を高めることができます。

Discussion