Open14
pandas備忘録
csvデータを読み込み、df(データフレーム)型に変換する。
df = pd.read_csv('PATH')
複数のdfをユニオン(縦に結合)する
df = pd.concat([df1, df2], ignore_index=True)
argument | description |
---|---|
ignore_index |
Trueにすると、結合後のdfでindexが新たに振り直される。 |
複数のdfをジョイン(横に結合)する
df = pd.merge(base_df, target_df, on='KEY_COLUMN', how='METHOD')
argument | description |
---|---|
on | ジョインキー(2つのdfで共通しているカラム) |
how | ジョイン方法(left or right) |
pandasのdfでのカラム指定方法
df[['column1', 'column2']].head()
- 入れ子の配列で表現する
新しくカラムを作成する方法
- dict型のような形式で代入が可能
df['new_column'] = df['key1'] * df['key2']
特定のカラムの全セルの合計値を出す方法
df['column_name'].sum()
特定のdfのセルのうち、nullであるセルにはTrue, nullでないセルにはFalseを入れたdfを生成する方法
df.isnull()
df.isnull()
とdf.sum()
を組み合わせれば、特定のdfに存在する全カラムのnull数を算出することができる。
df.isnull().sum()
特定のdfの各種統計量を算出する方法
df.describe()
算出される統計量は以下の通り。
- データ件数(count)
- 平均値(mead)
- 標準誤差(std)
- 最小値(min)
- 四分位数(25%, 75%)
- 中央値(50%)
- 最大値(max)
dfの特定のカラムのうち、最小値と最大値を求める方法
# min
df['column_name'].min()
# max
df['column_name'].max()
特定のdfにおける各カラムのデータ型の確認方法
df.dtypes
dfの特定のカラムのデータ型を変換する方法
➞ 以下の例ではdatetime型に変換
df['column_name'] = pd.to_datetime(df['column_name'])
dfの特定のカラムの集約方法
df.groupby('column_name').METHOD
2つ以上のカラムで集約することも可能
df.groupby(['column1', 'column2']).METHOD
- 合計:
METHOD=sum()
- 平均:
METHOD=mean()
- データ個数:
METHOD=count()
pivot_table
でわかりやすくテーブル表記することが可能
pd.pivot_table(df, index='column1', columns='column2', values=['column3', 'column4'], aggfunc=METHOD)
- 合計:
METHOD='sum'
- 平均:
METHOD='meam'
- データ個数:
METHOD='count'