Open14

pandas備忘録

でんちゅーでんちゅー

csvデータを読み込み、df(データフレーム)型に変換する。

df = pd.read_csv('PATH')
でんちゅーでんちゅー

複数のdfをユニオン(縦に結合)する

df = pd.concat([df1, df2], ignore_index=True)
argument description
ignore_index Trueにすると、結合後のdfでindexが新たに振り直される。
でんちゅーでんちゅー

複数のdfをジョイン(横に結合)する

df = pd.merge(base_df, target_df, on='KEY_COLUMN', how='METHOD')
argument description
on ジョインキー(2つのdfで共通しているカラム)
how ジョイン方法(left or right)
でんちゅーでんちゅー

新しくカラムを作成する方法

  • dict型のような形式で代入が可能
df['new_column'] = df['key1'] * df['key2']
でんちゅーでんちゅー

特定のdfのセルのうち、nullであるセルにはTrue, nullでないセルにはFalseを入れたdfを生成する方法

df.isnull()
でんちゅーでんちゅー

df.isnull()df.sum()を組み合わせれば、特定のdfに存在する全カラムのnull数を算出することができる。

df.isnull().sum()
でんちゅーでんちゅー

特定のdfの各種統計量を算出する方法

df.describe()

算出される統計量は以下の通り。

  • データ件数(count)
  • 平均値(mead)
  • 標準誤差(std)
  • 最小値(min)
  • 四分位数(25%, 75%)
  • 中央値(50%)
  • 最大値(max)
でんちゅーでんちゅー

dfの特定のカラムのうち、最小値と最大値を求める方法

# min
df['column_name'].min()
# max
df['column_name'].max()
でんちゅーでんちゅー

dfの特定のカラムのデータ型を変換する方法
➞ 以下の例ではdatetime型に変換

df['column_name'] = pd.to_datetime(df['column_name'])
でんちゅーでんちゅー

dfの特定のカラムの集約方法

df.groupby('column_name').METHOD

2つ以上のカラムで集約することも可能

df.groupby(['column1', 'column2']).METHOD
  • 合計:METHOD=sum()
  • 平均:METHOD=mean()
  • データ個数:METHOD=count()
でんちゅーでんちゅー

pivot_tableでわかりやすくテーブル表記することが可能

pd.pivot_table(df, index='column1', columns='column2', values=['column3', 'column4'], aggfunc=METHOD)
  • 合計:METHOD='sum'
  • 平均:METHOD='meam'
  • データ個数:METHOD='count'