Pythonで日付関連の処理を行う時に、重宝するコード
Pythonを使った日付関連のデータ処理を行う際に、ちょこちょこ使うコードをまとめました。エラー解決などに役立ちます。
pandasライブラリを使用するため、最初に下記を加えてからコードをいれていきます。
import pandas as pd
サンプルデータとして train_df データフレームを使用し、日付情報は date カラムに格納されていると仮定します。
データ型確認
データフレーム内の各カラムのデータ型を確認します。
train_df.dtypes
カラム確認
データフレーム内のカラム名のリストを取得します。
train_df.columns
データフレームの概要確認
各カラムのデータ型、非欠損値の数、メモリ使用量などが含まれます。
train_df.info()
インデックス化
指定したカラムをデータフレームのインデックスに設定します。これにより、そのカラムに基づいてデータをより効率的にアクセスできるようになります。
train_df.set_index('date', inplace=True)
インデックス化解除
データフレームのインデックスを解除し、通常のカラムに戻します。この操作により、インデックスが通常のカラムになり、新しい整数ベースのインデックスが作成されます。
train_df.reset_index(inplace=True)
日付にデータ型を変換
指定したカラムのデータ型を日付型(datetime)に変換します。これにより、日付として扱うことができ、日付に関連する操作が可能になります。
train_df['date'] = pd.to_datetime(train_df['date'])
文字列にデータ型を変換
データフレームのインデックスのデータ型を文字列型(str)に変換します。これにより、インデックスを文字列として扱うことができます。
train_df.index = train_df.index.astype(str)
欠損値の確認
データフレーム内の各カラムの欠損値の数を確認します。これにより、データの品質を評価し、欠損値の処理が必要かどうかを判断できます。
train_df.isna().sum()
ユニーク値の確認
指定したカラムのユニーク値のリストと、それぞれの値がデータフレーム内に現れる回数を確認します。これにより、カテゴリカルなデータの分布を理解できます。
train_df['column_name'].value_counts()
再インデックス化
データフレームのカラムを指定した順序で再インデックス化します。この操作は、特定のカラムの順序を変更したい場合や、特定のカラムが含まれていることを保証したい場合に役立ちます。
future_df = future_df.reindex(columns=['id', 'date', 'store' ...(カラム名を指定)])
Discussion