初心者にオススメのKaggleコンペ5選
はじめまして、まつのです!
機械学習や生成AIの受託開発・AI学習サービス「aipass」の運営をしている株式会社dotConfという会社で、代表をしております!

この記事ではデータサイエンティストの腕試しの場であるKaggleにおいて、初心者でも取り組みやすいオススメのコンペを5つ紹介します。
Kaggleとは?
Kaggle(カグル)とは、Googleが運営する データサイエンスや機械学習のコンペティション・プラットフォーム です。企業や研究機関が提供する実データを使って、世界中の参加者が予測モデルや分析手法を競い合います。
初心者にオススメのコンペ5選
| コンペ名 | リンク | 詳細 | データセット | 難易度 |
|---|---|---|---|---|
| Titanic - Machine Learning from Disaster | Titanic | 乗客の属性から「生存したか」を分類するKaggle定番の入門編 | 乗客の年齢・性別・乗船クラスなどの表形式データ | 初級 |
| House Prices - Advanced Regression Techniques | House Prices | Ames住宅データから販売価格を回帰予測。前処理・特徴量エンジニアリングの練習に最適 | 住宅の79項目の説明変数(表形式) | 初〜中級 |
| Digit Recognizer (MNIST) | Digit Recognizer | 手書き数字画像を0〜9に分類。画像前処理や初歩のCV手法を学べる | 28×28ピクセルのグレースケール画像(MNIST) | 初級 |
| Spaceship Titanic | Spaceship Titanic | 架空データで「異次元に転送されたか」を分類。前処理と特徴量工夫がカギ | 乗客の支出や客室などのカテゴリ+数値データ(表形式) | 初〜中級 |
| Playground Series S5E8 — Binary Classification with a Bank Dataset | Playground S5E8 | 銀行データを使った二値分類で腕試しに最適 | 銀行顧客の属性などの表形式 | 初〜中級 |
Titanic - Machine Learning from Disaster
このコンペは、タイタニックの生存者を予測する2クラス分類モデルのコンペです。カテゴリーデータやテキストデータの扱いや欠損値処理などの前処理が必要で、基本的な前処理の手法が一通り学習できるので、最初にトライするならこのコンペです。
House Prices - Advanced Regression Techniques
アメリカ・Ames市の住宅データを使い、住宅の販売価格を回帰問題として予測します。データの前処理や特徴量エンジニアリングが大きな鍵で、機械学習の中核的なスキルを身につけるのに役立ちます。
Digit Recognizer (MNIST)
手書き数字画像(0〜9)を分類するコンペ。28×28ピクセルのグレースケール画像を用いたシンプルな画像分類で、ディープラーニングや基本的なCV(コンピュータビジョン)技術に触れるのに最適です。Scikit-learnの学習が終わり、PytorchやTensorflowの学習を始めた人におすすめのコンペ。
Spaceship Titanic
SFをテーマにした架空データで「乗客が異次元に転送されたか」を分類します。
カテゴリ+数値データを組み合わせた前処理と特徴量工夫の練習に良く、Titanicより少し発展的な内容です。
Playground Series S5E8 — Binary Classification with a Bank Dataset
銀行顧客データを用いた2クラス分類問題で、「ある顧客が特定のサービスを利用するか/しないか」などを予測するコンペです。他のコンペと同様、機械学習、データサイエンスの基本とデータの前処理を学習できます。
データサイエンティストを目指す人へ
Pythonを活用してAI学習を目指す方へ👇
Pythonを体系的に学び、プロの指導のもとで実践的なAIスキルを習得したい方、
キャリアの幅を広げたい方や複業を目指す方は、ぜひこちらからお問い合わせください。
Discussion