Closed2

pandas に入門するぜ

タピオカタピオカ

チュートリアル

What kind of data does pandas handle?

  • import pandas as pd でパッケージをインポートする
  • 表形式のデータは pandas の DataFrame として格納される
  • DataFrame の各列を Series と呼ぶ
  • DataFrameSeries にメソッドを適用して何かをすることができる

How do I read and write tabular data?

  • read_* メソッドを使用して様々なファイルフォーマットやデータソースからデータを取り込むことができる
  • to_* メソッドを使用して pandas のデータを書き出すことができる
  • head/tail/info メソッドと dtypes 属性は最初のチェックに便利

How do I select a subset of a DataFrame?

  • データの部分集合を選択するには [] を使用する
  • 括弧の中には単一の列/行ラベル、列/行ラベルのリスト、列/行ラベルのスライス、条件式、またはコロンを使用することができる
  • 行と列の名前を使うとき、loc を使って特定の行や列を選択することができる
  • 表中のいちを利用するとき、iloc を使用して特定の行や列を選択することができる
  • loc/iloc に基づいて選択項目に新しい値を割り当てることができる

How do I create plots in pandas

  • .plot.* メソッドは DataFrame と Series の両方に適用できる
  • デフォルトでは各列は異なる要素としてプロットされる
  • pandas が作成するプロットはすべて Matplotlib オブジェクト

How to create new columns derived from existing columns?

  • 新しい列名を [] に指定して DataFrame の出力を代入すると新しい列を作ることができる
  • 操作は要素ごとに行われるため行をループする必要はない
  • リネームのための辞書や関数を指定して rename を使用することで行や列をリネームできる

How to calculate summary statistics?

  • 集計統計は列や行全体に対して計算できる
  • groupby は split-apply-combine パターンの力を発揮する
  • value_counts は変数の各カテゴリーの項目数を数えるのに便利なショートカット

How to reshape the layout of tables?

  • sort_values を使用して列によるソートができる
  • pivot は純粋にデータの再構築だが、pivot_table は集計をサポートする
  • pivot (long → wide)の逆が melt (wide → long)

How to combine data from multiple tables?

  • concat 関数を使用して複数のテーブルを連結することができる
  • データベースのようなテーブルのマージ/ジョインには merge 関数を使用する

How to handle time series data with ease?

  • 日付文字列は to_datetime 関数などで datetime オブジェクトに変換できる
  • datetime オブジェクトは dt アクセサを使用して計算や日付関連プロパティにアクセスできる
  • DatetimeIndex は便利
  • resample は時系列データの頻度を変更するのに強力

How to manipulate textual data?

  • 文字列のメソッドは str アクセサを使用して利用できる
  • 文字列メソッドは要素単位で動作し、条件付きインデックスに使用することができる
  • replace メソッドは与えられた辞書に従って値を変換するのに便利
このスクラップは25日前にクローズされました