第一回関東Kaggler会参加メモ
関東Kaggler会、現地参加勢による参加メモです。基本的には勉強になったな〜ということをまとめています。ただ、雰囲気を伝えるために、他の方のTwitterをたくさん引用させていただいています。ここは違う意図などあればご指摘ください🙇♂
資料などは以下にまとまっています。
招待講演
招待講演1: IMC 2023 振り返り & コードコンペの戦い方(smlyさん)
発表者:https://www.kaggle.com/confirm
概要:Image matchingコンペについての話と、Submit効率化についての話でした。
Image matchingについてはコンペ全体の振り返りでした。個人的には、エラーの例からどう改善につなげていったかと思考過程を現地で直接聞けたのがよかったですね。
Submit効率化はVSCode+DevContainer+Github Coplilotで行っているとのこと。
ローカルでの開発に比べると、Kaggle notebook使いづらいことあるよね。。
招待講演2: (n=1の)テーブルデータコンペの取り組み方(Makotuさん)
発表者: https://www.kaggle.com/mhyodo
資料: https://speakerdeck.com/makotu/n-equals-1no-teburudetakonpenoqu-rizu-mifang
概要:テーブルデータでの取り組み方に関する話でした。技術的な話がメインでありつつ、メンタル的な話も入れててお話が上手かった。。余談と書きつつ、メンタル的なところがみんなにささっていた印象。
あとは「「探索的」データ分析は探索する明確な目的がないと時間の無駄」もささってる人が多かったですね。
招待講演3: Benetechコンペ参戦記(ゆめねこさん)
発表者:https://www.kaggle.com/kashiwaba
資料:https://speakerdeck.com/yumeneko/benetechkonpecan-zhan-ji
概要:Benetechコンペ(画像系コンペ)の参戦記。
マニュアルアノテーションを500枚+1万枚したようで会場が震えてました。
他にもデータのカテゴリにエポック数が異なることを発見するなど、1位のすごさはやはり別格と思わされます😇
招待講演4: 中国kaggler会&Post GMの振り返り(senkin さん)
発表者:https://www.kaggle.com/senkin13
資料:https://speakerdeck.com/senkin13/kanto-kaggler-senkin13
概要:中国のKaggler会の事情と、過去コンペの振り返り。中国は機械学習コンペでテレビ番組が作られたりしているようで、スケールでけえな...と思っていました。
Multimodal Single-Cell Integrationコンペ
数万次元予測しなければならないため、PCAで1000次元に落として予測、そのあと逆変換したらしい。これは他のコンペでも使えそうなテク。
レコメンドコンペについて
... Two-Stage Recommendation Systemというものがあり、ステージ1で候補を絞り、ステージ2でランキング付けをするらしい。また、協調フィルタリングなどの基礎的なことについても言及しているのであまりレコメンドさわったことない自分にも勉強になりました。
このあとのLTでもレコメンドコンペについて述べられている方がおり、H&Mはかなり良いコンペだったことが伺えます。今度senkinさんのコード見てみよう。
招待講演5: Kaggleへの取り組み方 ~validation編~ (charm さん)
発表者:https://www.kaggle.com/charmq
資料:https://docs.google.com/presentation/d/1cjZTtvBDiHci1Hlc33UH9LVJXyj2t5Hh9ZiHnp3BgVk/edit?usp=sharing
概要:過去コンペにおいてのValidationに関する振り返り。面白く、かつタメになる話でした。基本的にはTrust CVなんだけど、グラマス4人集まってTrust CVできなかった例や、ノイズが大きくてTrust CVしなかった例など色々ありましたね。
ミニバッチのうちlossが大きい数個のデータは(ラベルミスによると思われるため)無視するなど、テクい話も出てました。あと、この流れでTrust methodology(手法を信じる)という言葉も出ていましたが、人類には難しい...というも思いつつ参考になりました。
スポンサーセッション
日経さん(時間調整考えて内容を短めにするu++さん神)
Turingさん(天下一品の話が面白かったです;最終的には以下の紹介だったので以下貼っておきます)
LayerXさん(GCPに10万円使える話が羨ましかったです;リクルート目的だったと思うので資料の代わりに以下貼っておきます)
会場について
KDDI DIGITAL GATEさんでした。会場綺麗でよかったです。基本的欲求のWifiも爆速。
LT
発表者、資料はこちらを参照:https://connpass.com/event/290248/
コンペの話から効率化の話、モチベの話まで、多様な感じのLTでした。次回はLT側でも参加したい〜
- 近年のレコメンドコンペについて(tetsuro731 さん)
- yukiCup 2023 Summer開催報告(yuki さん)
- WandB を活用して Kaggle に挑戦する!(schwalbe10 さん)
- データ分析コンペとの向き合い方(takaito さん)
- CatBoost on GPU のひみつ(Tawara さん)
- OSSのコード生成型AutoMLを使って、20件のPlaygroundを全自動で解いてみた(ya9do さん)
全体的なメモ&感想
-
技術面
-
特に強Kaggleは予測が失敗している例から仮説を生み出している例が多かった(例:smlyさん、ゆめねこさん、charmさん)。エラー例の分析大事。
-
Upvote多いCodeとかDiscussionを読むのはオススメされている。しかし、強Kagglerは基本自分で全部実装してる。
- 「自分のやっていることを理解していないことがリスク」みたいな話は何度か出てきました。
-
近年のコンペ振り返り集が多いが、その中でもレコメンドコンペについての話が多かった印象。
→ 自分のように最近はKaggleやれてない...みたいな人の方にも刺激は多い会でした
-
-
モチベ面
- 語る人が多かったのが印象的。モチベ関連だと、MakotuさんやTakaitoさんのお話がよかったです。
- 自分が何人かと話した限りでも、回りでKaggleやってる人は少ないという話は聞こえてきた。Kaggleはやはりハードルが高いということだと思うので、この辺りもっと力を尽くしていきたい所存...!
https://speakerdeck.com/makotu/n-equals-1no-teburudetakonpenoqu-rizu-mifang?slide=10
- 全体
- 参加前はどんな人がいるのかな...と不安でしたが、実際参加してみたら楽しかった以外いいようがない。みな優しく、Kaggleへのモチベ爆上がり会でした。主催の皆様(いのいちさん、カレーちゃんさん、upuraさん、shimacosさん、ころんびあさん)、スポンサーの方々、参加者の皆様、本当にありがとうございました...!!
参加後のみんなの声
ひたすら楽しかった+Kaggleモチベがあがる会でしたね。一部ですが声を載せておきます。
リンク
- たかいとさんの参加記録
Discussion