Zenn
🦍

【Google Colabで学ぶpandas入門】データ分析の基本

2025/03/17に公開

pandasはPythonでデータ分析を行うための強力なライブラリです。データの読み込みや加工、統計分析、可視化までを一貫して行うことができ、特にデータの探索や機械学習の前処理に非常に役立ちます。Google Colabを使用すれば、環境構築なしでpandasを活用したデータ分析を始められます。
本記事では、pandasの基本的な使い方とデータ分析の方法を詳しく解説します。2回に分けて説明し、今回は「基本編」を紹介します。

🔎 基本編:データ分析の基礎

✅ pandasとは?

pandasは、データ操作と分析を簡単に行えるPythonライブラリです。特に以下の作業に便利です。
✅ データの読み込みと保存(CSV, Excel など)
✅ データの集計やフィルタリング
✅ 欠損値の処理やデータのクリーニング
✅ データの可視化(matplotlib, seaborn などと併用)


🚀 データ分析の流れ

データ分析では、次のステップを踏むことが一般的です。

  1. データの準備
  2. データの確認
  3. データのクリーニング
  4. データの分析・可視化
  5. データの保存

📊 1️⃣ データの準備

Google Colabを使用してpandasをインポートし、データフレームを作成します。

# pandasのインポート
import pandas as pd
data = {
    '名前': ['太郎', '花子', '次郎', '三郎'],
    '年齢': [28, 34, 22, 19],
    '得点': [88, 92, 76, 81]
}
# データフレームの作成
df = pd.DataFrame(data)
df

🖥️ 実行結果

    名前  年齢  得点
0   太郎   28   88
1   花子   34   92
2   次郎   22   76
3   三郎   19   81

🔍 2️⃣ データの確認

データの基本情報を確認し、データの構造や特徴を把握します。

✅ データの確認方法

df.info()  # データの行数とカラム数、各カラムの型や欠損値の有無を確認できます
df.describe()  # 数値データの統計情報(平均値、標準偏差など)を確認できます

🖥️ 実行結果(df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   名前      4 non-null      object
 1   年齢      4 non-null      int64 
 2   得点      4 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 228.0+ bytes

🖥️ 実行結果(df.describe()

            年齢        得点
count  4.000000   4.000000
mean  25.750000  84.250000
std    6.652067   7.135592
min   19.000000  76.000000
25%   21.250000  79.750000
50%   25.000000  84.500000
75%   29.500000  89.000000
max   34.000000  92.000000

🧹 3️⃣ データのクリーニング

欠損値の処理やデータの変換を行います。

✅ 欠損値の確認と処理方法

# 欠損値(NaN)の数を列ごとにカウント
df.isnull().sum()
# 欠損値の補完 (例: 平均値で補完)
df['年齢'].fillna(df['年齢'].mean(), inplace=True)
# 欠損値の削除
df.dropna(inplace=True)

🖥️ 実行結果

名前    0
年齢    0
得点    0

✅ データがきれいなことが確認できます。

📈 4️⃣ データの分析・可視化

データの分析や視覚的な要約を行います。

✅ 条件に合うデータの抽出

# 条件に合うデータの抽出(例: 得点が80以上)
print(df[df['得点'] > 80])
# query()メソッドを使用したデータ抽出
print(df.query('得点 > 80'))

🖥️ 実行結果

    名前  年齢  得点
0   太郎   28   88
1   花子   34   92
3   三郎   19   81

💾 5️⃣ データの保存

pandasを使えば、加工したデータをファイルに保存できます。

df.to_csv('データ.csv', index=False)

🖥️ 実行結果

(ファイル「データ.csv」が保存されます)

🚀 応用編:データ分析の実践テクニック

次回は、以下の応用テクニックを紹介します。
✅ グループ化と集計
✅ データの結合と結合処理
✅ 高度な可視化テクニック(matplotlib、seabornなど)

データ分析をさらに深く学ぶための内容ですので、お楽しみに!


株式会社ONE WEDGE

【Serverlessで世の中をもっと楽しく】 ONE WEDGEはServerlessシステム開発を中核技術としてWeb系システム開発、AWS/GCPを利用した業務システム・サービス開発、PWAを用いたモバイル開発、Alexaスキル開発など、元気と技術力を武器にお客様に真摯に向き合う価値創造企業です。
https://onewedge.co.jp/

Discussion

ログインするとコメントできます