Closed2
pandas に入門するぜ
チュートリアル
What kind of data does pandas handle?
-
import pandas as pd
でパッケージをインポートする - 表形式のデータは pandas の
DataFrame
として格納される -
DataFrame
の各列をSeries
と呼ぶ -
DataFrame
やSeries
にメソッドを適用して何かをすることができる
How do I read and write tabular data?
-
read_*
メソッドを使用して様々なファイルフォーマットやデータソースからデータを取り込むことができる -
to_*
メソッドを使用して pandas のデータを書き出すことができる -
head
/tail
/info
メソッドとdtypes
属性は最初のチェックに便利
How do I select a subset of a DataFrame?
- データの部分集合を選択するには
[]
を使用する - 括弧の中には単一の列/行ラベル、列/行ラベルのリスト、列/行ラベルのスライス、条件式、またはコロンを使用することができる
- 行と列の名前を使うとき、
loc
を使って特定の行や列を選択することができる - 表中のいちを利用するとき、
iloc
を使用して特定の行や列を選択することができる -
loc
/iloc
に基づいて選択項目に新しい値を割り当てることができる
How do I create plots in pandas
-
.plot.*
メソッドは DataFrame と Series の両方に適用できる - デフォルトでは各列は異なる要素としてプロットされる
- pandas が作成するプロットはすべて Matplotlib オブジェクト
How to create new columns derived from existing columns?
- 新しい列名を
[]
に指定して DataFrame の出力を代入すると新しい列を作ることができる - 操作は要素ごとに行われるため行をループする必要はない
- リネームのための辞書や関数を指定して
rename
を使用することで行や列をリネームできる
How to calculate summary statistics?
- 集計統計は列や行全体に対して計算できる
-
groupby
は split-apply-combine パターンの力を発揮する -
value_counts
は変数の各カテゴリーの項目数を数えるのに便利なショートカット
How to reshape the layout of tables?
-
sort_values
を使用して列によるソートができる -
pivot
は純粋にデータの再構築だが、pivot_table
は集計をサポートする -
pivot
(long → wide)の逆がmelt
(wide → long)
How to combine data from multiple tables?
-
concat
関数を使用して複数のテーブルを連結することができる - データベースのようなテーブルのマージ/ジョインには
merge
関数を使用する
How to handle time series data with ease?
- 日付文字列は
to_datetime
関数などで datetime オブジェクトに変換できる - datetime オブジェクトは
dt
アクセサを使用して計算や日付関連プロパティにアクセスできる -
DatetimeIndex
は便利 -
resample
は時系列データの頻度を変更するのに強力
How to manipulate textual data?
- 文字列のメソッドは
str
アクセサを使用して利用できる - 文字列メソッドは要素単位で動作し、条件付きインデックスに使用することができる
-
replace
メソッドは与えられた辞書に従って値を変換するのに便利
このスクラップは2024/04/07にクローズされました