👾

【Kaggle】Kaggleで学習する機械学習

2024/02/13に公開

はじめに

どうも、都内の大学で情報系の学科を専攻している千代丸と申します。

この記事はKaggleに参加して機械学習を勉強しよう!というものの超入門記事になっています。

私は普段から機械学習や生成AIなどの文献を読み漁っており、ハンズオン形式でもっと深く理解したいという思いから最近Kaggleに参加しました。

この記事を読んで欲しい人

  • 「Kaggle」もしくは「機械学習」という言葉を聞いたことがある人・興味がある人
  • AI系、データサイエンスに興味がある人
  • 機械学習、データサイエンスなどを始めたいが何から始めればいいかわからない人

Kaggleって何?

Kaggle(呼び方:カグル)は、世界中の機械学習・データサイエンスに携わっている40万人越えの人が集まるコミュニティのことです。企業や政府などの組織と、データ分析のプロであるデータサイエンティストや機械学習エンジニアをつなげるプラットフォームとしての役割も担っています。
Kaggleに参加している人のことをKaggler(呼び方:カグラー)と呼びます。
ちなみに、Kaggle社は2017年にGoogle社に買収されました。

何ができるの?

Competition

Kaggleの最大の特徴の一つとしてCompetitionがあり、これは企業や政府が競争形式で課題を提示して、賞金と引き換えに最も高い分析モデルを買い取るといった形式です。今まで参加している企業や政府機関の例としては、アメリカ国土安全保障省や日本からはメルカリ社やリクルート社など。参加費は無料で、Kaggleに無料会員登録した人なら誰でも参加できます。もし、参加したら、モデルをトレーニングするデータセットとテストセットをもらえ、それらを使って自分のモデルの訓練と評価を行うことができます。
⇩Competitions一覧(獲得可能な賞金なども記載されている)

その他の機能

Competition以外にもNotebooks(かつてはKernelといった名前)といった機能があり、初学者はこの機能を用いて、上級データサイエンティストが作った予測モデルを閲覧して学習することができます。
また、Discussionsという機能では世界中のデータサイエンティストや機械学習エンジニアとコミュニケーションをとることができます。
LearnというところではpythonやMLの基礎などを学習できるコンテンツが配信されています。
全ての表記は英語なので、苦手な人はchromeのGoogleの翻訳機能でも使って読み解くのがおすすめです。モデルを作成するにあたってチュートリアルの記事なども存在するので参考にしながら作ることができます。
⇩LearnのCources

Competitionに参加しよう!

まずは各Competitionへの利用規約への同意を行って、データセットのダウンロードを行います。競プロと違ってリアルタイムで競うのではなく、ある程度の期間が設定されており、その期間内でモデルを作成します。もし予測モデルを完成することができたら、提出ファイルの形式(例:csv形式など)を確認して提出を行うとリアルタイムで評価が行われます。ちなみに予測データの投稿は1日につき5回までという制限があります。正しく提出でき、予測データが投稿できると、Leaderboardというボードにスコアとともに掲載されます。このボードを確認することで自分が掲載した予測モデルやデータがどれくらい優れているかが確認できます。企業などの主催者は最終的に上位1~3位に賞金を支払い、上位者に金・銀・銅のメダルを付与します。Kaggleでのこれらの成績は、世界的なデータサイエンティストの能力の指標になっているそうです。

上級データサイエンティスト・機械学習エンジニアまでのロードマップ

自身も含め、初学者はまずはひたすらNotebooksで上級者の書いたコードを読んで、見様見真似でモデルを作ってみることが最初だと思っております。
また、Discussionに参加してみて、いろんな方と議論を交わすことも大事かなと。Stack overflowと同様雑な質問も投稿されているみたいなので、質問しにくい理由が言語という壁のみならば、気にせずどんどんお話ししていきたいです。

おわりに

Kaggleに参加することで、最先端・最前線のデータサイエンティストや機械学習の世界に触れ合うことができます。
NotebooksやCompetition以外にも幅広い機能が提供されているので、是非参加してどんどん情報共有していきましょう!
次回は、KaggleのNotebooksで学習したことやモデルを構築してみた流れなどを書いていきたいます。

参考文献

GitHubで編集を提案
DELTAテックブログ

Discussion