🎃

Pythonで日付関連の処理を行う時に、重宝するコード

2024/01/17に公開

Pythonを使った日付関連のデータ処理を行う際に、ちょこちょこ使うコードをまとめました。エラー解決などに役立ちます。

pandasライブラリを使用するため、最初に下記を加えてからコードをいれていきます。

import pandas as pd

サンプルデータとして train_df データフレームを使用し、日付情報は date カラムに格納されていると仮定します。

データ型確認

データフレーム内の各カラムのデータ型を確認します。

train_df.dtypes

カラム確認

データフレーム内のカラム名のリストを取得します。

train_df.columns

データフレームの概要確認

各カラムのデータ型、非欠損値の数、メモリ使用量などが含まれます。

train_df.info()

インデックス化

指定したカラムをデータフレームのインデックスに設定します。これにより、そのカラムに基づいてデータをより効率的にアクセスできるようになります。

train_df.set_index('date', inplace=True)

インデックス化解除

データフレームのインデックスを解除し、通常のカラムに戻します。この操作により、インデックスが通常のカラムになり、新しい整数ベースのインデックスが作成されます。

train_df.reset_index(inplace=True)

日付にデータ型を変換

指定したカラムのデータ型を日付型(datetime)に変換します。これにより、日付として扱うことができ、日付に関連する操作が可能になります。

train_df['date'] = pd.to_datetime(train_df['date'])

文字列にデータ型を変換

データフレームのインデックスのデータ型を文字列型(str)に変換します。これにより、インデックスを文字列として扱うことができます。

train_df.index = train_df.index.astype(str)

欠損値の確認

データフレーム内の各カラムの欠損値の数を確認します。これにより、データの品質を評価し、欠損値の処理が必要かどうかを判断できます。

train_df.isna().sum()

ユニーク値の確認

指定したカラムのユニーク値のリストと、それぞれの値がデータフレーム内に現れる回数を確認します。これにより、カテゴリカルなデータの分布を理解できます。

train_df['column_name'].value_counts()

再インデックス化

データフレームのカラムを指定した順序で再インデックス化します。この操作は、特定のカラムの順序を変更したい場合や、特定のカラムが含まれていることを保証したい場合に役立ちます。

future_df = future_df.reindex(columns=['id',  'date', 'store' ...(カラム名を指定)])

Discussion