エムシーデジタル様主催の生成AI Kaggleコンペに参加しました
はじめに
こんにちは。ミスミグループ本社Gateway推進本部のはたはたとjwskiです。
2024年12月13日、エムシーデジタル株式会社様[1]主催のデータサイエンスコンペに参加し、私たちが参加したチームが優勝しました。
どんなコンペだったのか当日の様子を含めてご紹介します。ただし、問題の内容や解法は非公開のお約束のため、本記事では触れません(公開のお許しが出ましたら改めて解法編をしたためようと思います)。
ミスミの検索/AIエンジニアの戦いの一コマとして、よろしければおつきあいください。
今回のコンペについて、エムシーデジタル様の開催報告はこちらでご確認できます。
私たちは参加していませんが、昨年の様子はこちら。
コンペ概要
エムシーデジタル様が主催したこのコンペティションは、Kaggle上でCommunity Competitionsとして実施されました。
オープンデータを用いた独自の問題が用意されており、生成AIを活用して解く内容でした。
参加メンバーとしては様々な企業から約60名のデータサイエンティストなどがエムシーデジタル様のオフィスに集結し、3〜5人のチームに分かれて競い合いました。6時間の短期集中型のイベントであり、参加者には昼食や終了後の懇親会も提供され、一日を通じて没頭できる環境が整えられていました。
参加の経緯
私たちミスミからは、はたはたとjwskiの2名が参加しました。DTダイナミクス株式会社とのつながりを通じてコンペの存在を上司から教えて頂き、是非参加したいと私たちは手を挙げました。一般業務がある中、丸一日空けるというのは簡単なことではないですが、貴重な機会だと思い後先考えず参加しました。
余談として、当日この経緯をチームメンバーに話したところ、フッ軽さに驚かれました。
当日の様子
12月13日の金曜日、東京ミッドタウン日比谷のオシャレなオフィスに集合。ずらっと並んだデュアルディスプレイに朝から大はしゃぎする我々。
私たち含めて3社から参加した5名の混成チームで戦います。
普段のお仕事はバラバラ、Kaggle初心者から経験者まで、多様性に富んだチームでした。
a.m.
開会式で運営者様から諸注意をいただいた後、チームごとに分かれました。
問題が公開され、取りうるアプローチをチームみんなで議論します。まず精度向上に効きそうな要素が大きく2つあると考えました。その各要素に取り組む人、2要素を結合するコードを用意する人、初心者メンバーをフォローする人というように、各メンバーの得意分野と興味にしたがって分担して取り組みました。この分担のおかげで効率的に実験を進められました。はたはたは得意な要素Aに取り組みました。jwskiはよく知っている要素Bを試そうとするも、Kaggle初心者のため、電話番号認証しないとpipもGPUも使えないと教えてもらうまでエラーと四苦八苦していました。
他のチームは車座になって議論したり、もくもくと画面に向かって作業したり、ホワイトボードに何か書きながら議論したりと、取り組み方にも個性が出ていたような気がします。
ひとまず全員コードを動かせるようになり、お昼を食べながら作戦会議です。オシャレでおいしいお弁当を提供していただき、午前の疲れが吹き飛びました。
p.m.
他社のメンバーが2つの処理を組み合わせ、またエラーを減らす工夫を取り入れることで着々とスコアが伸びていきました。
はたはたは午前に取り組んでいた手法に見切りをつけ、別の手法を導入します。すると、一気にスコアが上昇し、リーダーボードのトップへ。
その後は、みんなで手分けして実験と修正を回してスコアを伸ばし、publicスコアでの1位をキープし続けました。
という感じで概略だけ見ると、やったらできたように見えますが、実際は、データや結果を1個ずつ見て、間違いをつぶしたり、手法や結果の良し悪しを判断したりと地道なことも結構やりました。単によさそうなモデルを試しただけでなく、きちんとデータを観察したのが安定したスコアにつながったのだと思っています。
1日という限られた時間はあっという間で、締切後にはもう一日あればあれも試したかったなどとワイワイ話が尽きませんでした。
結果
さて、閉会式で全チームが集まったところで結果発表です。
私たちのチームは、privateセットに対するスコアが、publicセットのときより約3ポイント下がったものの首位を守り切りました。他のチームは最終的に順位の入れ替えがあった中、優勝です。
エムシーデジタル様など昨年も参加されたメンバーの活躍もあり、また今回のテーマが私たちの普段の業務と関係の深いものだったのが有利に働きましたが、私たちとしては初参加にして初優勝は胸を張っていいのではと思っています。
問題を作った運営者様より講評や想定解の解説もありました。私たちのアプローチもいい線行っていたものの、やりきれなかったこと、知らなかったこともあり大変勉強になりました。
懇親会では他のチームの方々とどういう手法を試したかなどの情報交換もできました。
学びと感想
今回のコンペに参加し、様々な企業の方との共同作業という点や、Kaggleのようなコンペという点で、初めてのことが多く、新鮮で学びが多かったです。
jwski:普段の業務で他のデータサイエンティストやエンジニアと一緒に開発することがないので、共同でのモデルづくりや試行錯誤が新鮮で楽しかったです。
丸一日チームで密着して作業を進めていくので、他のメンバーの進め方や考え方がよく見えました。作業の分担や集約のしかた、コミュニケーションの取り方、データ分析の姿勢など、他のみなさまの動き方から多くのことを学ばせていただきました。
また情報交換や議論の中でお互いに知らないことを補完するので、知識も広がりました。jwskiは口ばかりで手はあまり進まなかったですが、何かしら役立てていたら幸いです。
はたはた:チームでのコンペ参加は初めてで、チームメンバーの方々がそれぞれの得意分野を活かしながら協力するということの強みや楽しさを存分に感じることができました。
私たちお互いが感じたこととして、はたはたとjwskiは別部署なので普段の業務では接点が少なく、今回のように長時間一緒に何かに取り組むというのは新鮮でした。社内でも同じ仕事を丸一日共同でするということはほとんどないので、このコンペのような取組みはメンバーの交流を深めて技術を高めあうことができると感じました(おそらくミスミ以外の会社様も同様なのではと想像します)。
今回、貴重な場をご提供いただき非常に感謝しており、今後もこのような機会あればまた参加したいと思います。また、ミスミでもこのようなイベントを開催できたら楽しそうなので、企画していきたいです。
-
エムシーデジタル株式会社様は三菱商事100%出資のテクノロジー子会社です。 ↩︎
Discussion