Python-pandasについて
pandasを学ぶ1(超基礎)
今回はpandasについて、学んでいきます。
pythonのライブラリの中でも主要なものなので、
しっかり身に着けていきます!!
pandasとは
pandasはデータの集計・加工に使用されるライブラリ。
- データの読み込み
- データの表示
- データの集計
- データの整形
- データの状態の確認
- データの書き出し
以上のことができる!難しそう、、
CSVやXLSのデータを加工してくれるようです。
データの読み込み・表示
import pandas as pd
data = pd.read_csv('ファイル名')
data.tail()
上記コードは
import pandas … ライブラリを利用できるようにする
pd.read_csv … 読み込む
data.tail() … データを確認する
他にも
data.shapeでデータの行・列数を確認できる
data.indexでデータのindex(行)を取得できる
data.columsでデータのcolums1(列)を取得できる
data.locは行列の中身を指定して取得できる
data.loc[:,'c']
「:」はすべてを意味する。
ので、上のコードはC列の全てを指している!
データの整形
data.sort_values() … 値を参照にして並び替える
data.sort_index() … インデックスを参照にして並び替える
data.dropna() … 欠損値を削除することができる
data.fillna(値) … 欠損値に値を入れることができる
データ型によって使用できるメソッドが異なるため
.to ●●()
を使用することで、データ形式を変更できる
to_csvでpython上で加工したデータを書き出すことが可能!
よく使うメソッド
pandasはよく使うメソッドがとてもたくさんあるようで、
書ききれないのでピックアップしてまとめます!
-
head()
DataFrameの先頭からN行を表示する -
tail()
DataFrameの後ろからN行を表示する -
nunique()
各カラムのユニーク(一意)のデータ数を確認する -
info()
DataFrameの情報を要約して出力する(列数や行数や型など) -
concat()
別々に読み込んだDataFrameを連結する -
sum()
DataFrameの行や列の値を加算する -
mean()
DataFrameの行や列の値の平均値を出力する -
duplicated()
データが重複しているか確認する -
isnull()
データがNoneかどうか判定。
所感
主要3大ライブラリの1つpandasを学習しました。
データを整理したりするライブラリでrubyにはなかったものだと思いました。
まだまだ簡単な部分だけしか学習してないですが、
使えるイメージがついてきたのはよかったです!!
Discussion