📓

Python-pandasについて

に公開

pandasを学ぶ1(超基礎)

今回はpandasについて、学んでいきます。
pythonのライブラリの中でも主要なものなので、
しっかり身に着けていきます!!

pandasとは

pandasはデータの集計・加工に使用されるライブラリ。

  • データの読み込み
  • データの表示
  • データの集計
  • データの整形
  • データの状態の確認
  • データの書き出し
    以上のことができる!難しそう、、
    CSVやXLSのデータを加工してくれるようです。

データの読み込み・表示

import pandas as pd
data = pd.read_csv('ファイル名')

data.tail()

上記コードは
import pandas … ライブラリを利用できるようにする
pd.read_csv … 読み込む
data.tail() … データを確認する

他にも
data.shapeでデータの行・列数を確認できる
data.indexでデータのindex(行)を取得できる
data.columsでデータのcolums1(列)を取得できる
data.locは行列の中身を指定して取得できる

data.loc[:,'c']

「:」はすべてを意味する。
ので、上のコードはC列の全てを指している!

データの整形

data.sort_values() … 値を参照にして並び替える
data.sort_index() … インデックスを参照にして並び替える
data.dropna() … 欠損値を削除することができる
data.fillna(値) … 欠損値に値を入れることができる

データ型によって使用できるメソッドが異なるため
.to ●●()
を使用することで、データ形式を変更できる

to_csvでpython上で加工したデータを書き出すことが可能!

よく使うメソッド

pandasはよく使うメソッドがとてもたくさんあるようで、
書ききれないのでピックアップしてまとめます!

  • head()
    DataFrameの先頭からN行を表示する

  • tail()
    DataFrameの後ろからN行を表示する

  • nunique()
    各カラムのユニーク(一意)のデータ数を確認する

  • info()
    DataFrameの情報を要約して出力する(列数や行数や型など)

  • concat()
    別々に読み込んだDataFrameを連結する

  • sum()
    DataFrameの行や列の値を加算する

  • mean()
    DataFrameの行や列の値の平均値を出力する

  • duplicated()
    データが重複しているか確認する

  • isnull()
    データがNoneかどうか判定。

所感

主要3大ライブラリの1つpandasを学習しました。
データを整理したりするライブラリでrubyにはなかったものだと思いました。
まだまだ簡単な部分だけしか学習してないですが、
使えるイメージがついてきたのはよかったです!!

Discussion