【Google Colabで学ぶpandas入門】データ分析の基本
pandasはPythonでデータ分析を行うための強力なライブラリです。データの読み込みや加工、統計分析、可視化までを一貫して行うことができ、特にデータの探索や機械学習の前処理に非常に役立ちます。Google Colabを使用すれば、環境構築なしでpandasを活用したデータ分析を始められます。
本記事では、pandasの基本的な使い方とデータ分析の方法を詳しく解説します。2回に分けて説明し、今回は「基本編」を紹介します。
🔎 基本編:データ分析の基礎
✅ pandasとは?
pandasは、データ操作と分析を簡単に行えるPythonライブラリです。特に以下の作業に便利です。
✅ データの読み込みと保存(CSV, Excel など)
✅ データの集計やフィルタリング
✅ 欠損値の処理やデータのクリーニング
✅ データの可視化(matplotlib, seaborn などと併用)
🚀 データ分析の流れ
データ分析では、次のステップを踏むことが一般的です。
- データの準備
- データの確認
- データのクリーニング
- データの分析・可視化
- データの保存
📊 1️⃣ データの準備
Google Colabを使用してpandasをインポートし、データフレームを作成します。
# pandasのインポート
import pandas as pd
data = {
'名前': ['太郎', '花子', '次郎', '三郎'],
'年齢': [28, 34, 22, 19],
'得点': [88, 92, 76, 81]
}
# データフレームの作成
df = pd.DataFrame(data)
df
🖥️ 実行結果
名前 年齢 得点
0 太郎 28 88
1 花子 34 92
2 次郎 22 76
3 三郎 19 81
🔍 2️⃣ データの確認
データの基本情報を確認し、データの構造や特徴を把握します。
✅ データの確認方法
df.info() # データの行数とカラム数、各カラムの型や欠損値の有無を確認できます
df.describe() # 数値データの統計情報(平均値、標準偏差など)を確認できます
🖥️ 実行結果(df.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 名前 4 non-null object
1 年齢 4 non-null int64
2 得点 4 non-null int64
dtypes: int64(2), object(1)
memory usage: 228.0+ bytes
🖥️ 実行結果(df.describe())
年齢 得点
count 4.000000 4.000000
mean 25.750000 84.250000
std 6.652067 7.135592
min 19.000000 76.000000
25% 21.250000 79.750000
50% 25.000000 84.500000
75% 29.500000 89.000000
max 34.000000 92.000000
🧹 3️⃣ データのクリーニング
欠損値の処理やデータの変換を行います。
✅ 欠損値の確認と処理方法
# 欠損値(NaN)の数を列ごとにカウント
df.isnull().sum()
# 欠損値の補完 (例: 平均値で補完)
df['年齢'].fillna(df['年齢'].mean(), inplace=True)
# 欠損値の削除
df.dropna(inplace=True)
🖥️ 実行結果
名前 0
年齢 0
得点 0
✅ データがきれいなことが確認できます。
📈 4️⃣ データの分析・可視化
データの分析や視覚的な要約を行います。
✅ 条件に合うデータの抽出
# 条件に合うデータの抽出(例: 得点が80以上)
print(df[df['得点'] > 80])
# query()メソッドを使用したデータ抽出
print(df.query('得点 > 80'))
🖥️ 実行結果
名前 年齢 得点
0 太郎 28 88
1 花子 34 92
3 三郎 19 81
💾 5️⃣ データの保存
pandasを使えば、加工したデータをファイルに保存できます。
df.to_csv('データ.csv', index=False)
🖥️ 実行結果
(ファイル「データ.csv」が保存されます)
🚀 応用編:データ分析の実践テクニック
次回は、以下の応用テクニックを紹介します。
✅ グループ化と集計
✅ データの結合と結合処理
✅ 高度な可視化テクニック(matplotlib、seabornなど)
データ分析をさらに深く学ぶための内容ですので、お楽しみに!
株式会社ONE WEDGE
【Serverlessで世の中をもっと楽しく】 ONE WEDGEはServerlessシステム開発を中核技術としてWeb系システム開発、AWS/GCPを利用した業務システム・サービス開発、PWAを用いたモバイル開発、Alexaスキル開発など、元気と技術力を武器にお客様に真摯に向き合う価値創造企業です。
Discussion