🤗

第一回関東Kaggler会参加メモ

2023/09/25に公開

関東Kaggler会、現地参加勢による参加メモです。基本的には勉強になったな〜ということをまとめています。ただ、雰囲気を伝えるために、他の方のTwitterをたくさん引用させていただいています。ここは違う意図などあればご指摘ください🙇‍♂

資料などは以下にまとまっています。

https://connpass.com/event/290248/

招待講演

招待講演1: IMC 2023 振り返り & コードコンペの戦い方(smlyさん)

発表者:https://www.kaggle.com/confirm

概要:Image matchingコンペについての話と、Submit効率化についての話でした。

https://www.kaggle.com/competitions/image-matching-challenge-2023

Image matchingについてはコンペ全体の振り返りでした。個人的には、エラーの例からどう改善につなげていったかと思考過程を現地で直接聞けたのがよかったですね。

https://twitter.com/inoichan/status/1705463060377530821

Submit効率化はVSCode+DevContainer+Github Coplilotで行っているとのこと。

https://twitter.com/MLBear2/status/1705438440647807239

ローカルでの開発に比べると、Kaggle notebook使いづらいことあるよね。。

https://twitter.com/amaebin/status/1705438818109915542


招待講演2: (n=1の)テーブルデータコンペの取り組み方(Makotuさん)

発表者: https://www.kaggle.com/mhyodo

資料: https://speakerdeck.com/makotu/n-equals-1no-teburudetakonpenoqu-rizu-mifang

概要:テーブルデータでの取り組み方に関する話でした。技術的な話がメインでありつつ、メンタル的な話も入れててお話が上手かった。。余談と書きつつ、メンタル的なところがみんなにささっていた印象。

https://speakerdeck.com/makotu/n-equals-1no-teburudetakonpenoqu-rizu-mifang?slide=10

あとは「「探索的」データ分析は探索する明確な目的がないと時間の無駄」もささってる人が多かったですね。

https://twitter.com/blue0620/status/1705446582618103925

https://twitter.com/MLBear2/status/1705446415101759982


招待講演3: Benetechコンペ参戦記(ゆめねこさん)

発表者:https://www.kaggle.com/kashiwaba

資料:https://speakerdeck.com/yumeneko/benetechkonpecan-zhan-ji

概要:Benetechコンペ(画像系コンペ)の参戦記。

https://www.kaggle.com/competitions/benetech-making-graphs-accessible

マニュアルアノテーションを500枚+1万枚したようで会場が震えてました。

https://twitter.com/tetsuro731/status/1705467105909579804

他にもデータのカテゴリにエポック数が異なることを発見するなど、1位のすごさはやはり別格と思わされます😇

https://twitter.com/634kami/status/1705467813027282949


招待講演4: 中国kaggler会&Post GMの振り返り(senkin さん)

発表者:https://www.kaggle.com/senkin13

資料:https://speakerdeck.com/senkin13/kanto-kaggler-senkin13

概要:中国のKaggler会の事情と、過去コンペの振り返り。中国は機械学習コンペでテレビ番組が作られたりしているようで、スケールでけえな...と思っていました。

Multimodal Single-Cell Integrationコンペ

https://www.kaggle.com/competitions/open-problems-multimodal/overview

数万次元予測しなければならないため、PCAで1000次元に落として予測、そのあと逆変換したらしい。これは他のコンペでも使えそうなテク。

https://twitter.com/colum2131/status/1705474100020572602

レコメンドコンペについて

... Two-Stage Recommendation Systemというものがあり、ステージ1で候補を絞り、ステージ2でランキング付けをするらしい。また、協調フィルタリングなどの基礎的なことについても言及しているのであまりレコメンドさわったことない自分にも勉強になりました。

このあとのLTでもレコメンドコンペについて述べられている方がおり、H&Mはかなり良いコンペだったことが伺えます。今度senkinさんのコード見てみよう。

https://speakerdeck.com/tetsuro731/20230923-jin-nian-norekomendokonpenituite-at-tetsuro731

https://twitter.com/chimuichimu1/status/1705477220909891961


招待講演5: Kaggleへの取り組み方 ~validation編~ (charm さん)

発表者:https://www.kaggle.com/charmq

資料:https://docs.google.com/presentation/d/1cjZTtvBDiHci1Hlc33UH9LVJXyj2t5Hh9ZiHnp3BgVk/edit?usp=sharing

概要:過去コンペにおいてのValidationに関する振り返り。面白く、かつタメになる話でした。基本的にはTrust CVなんだけど、グラマス4人集まってTrust CVできなかった例や、ノイズが大きくてTrust CVしなかった例など色々ありましたね。

ミニバッチのうちlossが大きい数個のデータは(ラベルミスによると思われるため)無視するなど、テクい話も出てました。あと、この流れでTrust methodology(手法を信じる)という言葉も出ていましたが、人類には難しい...というも思いつつ参考になりました。

https://twitter.com/smly/status/1705487454227296723


スポンサーセッション

日経さん(時間調整考えて内容を短めにするu++さん神)

https://speakerdeck.com/upura/230923-kanto-kaggler-sponsor

Turingさん(天下一品の話が面白かったです;最終的には以下の紹介だったので以下貼っておきます)

https://turing.connpass.com/event/296604/

LayerXさん(GCPに10万円使える話が羨ましかったです;リクルート目的だったと思うので資料の代わりに以下貼っておきます)

https://jobs.layerx.co.jp/f52b32539b254cffbca6af0713406449

会場について

KDDI DIGITAL GATEさんでした。会場綺麗でよかったです。基本的欲求のWifiも爆速。

https://twitter.com/chizu_potato/status/1705444408911671769


LT

発表者、資料はこちらを参照:https://connpass.com/event/290248/

コンペの話から効率化の話、モチベの話まで、多様な感じのLTでした。次回はLT側でも参加したい〜

  • 近年のレコメンドコンペについて(tetsuro731 さん)
  • yukiCup 2023 Summer開催報告(yuki さん)
  • WandB を活用して Kaggle に挑戦する!(schwalbe10 さん)
  • データ分析コンペとの向き合い方(takaito さん)
  • CatBoost on GPU のひみつ(Tawara さん)
  • OSSのコード生成型AutoMLを使って、20件のPlaygroundを全自動で解いてみた(ya9do さん)

全体的なメモ&感想

  • 技術面

    • 特に強Kaggleは予測が失敗している例から仮説を生み出している例が多かった(例:smlyさん、ゆめねこさん、charmさん)。エラー例の分析大事。

    • Upvote多いCodeとかDiscussionを読むのはオススメされている。しかし、強Kagglerは基本自分で全部実装してる。

      • 「自分のやっていることを理解していないことがリスク」みたいな話は何度か出てきました。
    • 近年のコンペ振り返り集が多いが、その中でもレコメンドコンペについての話が多かった印象。
      → 自分のように最近はKaggleやれてない...みたいな人の方にも刺激は多い会でした

  • モチベ面

    • 語る人が多かったのが印象的。モチベ関連だと、MakotuさんやTakaitoさんのお話がよかったです。
    • 自分が何人かと話した限りでも、回りでKaggleやってる人は少ないという話は聞こえてきた。Kaggleはやはりハードルが高いということだと思うので、この辺りもっと力を尽くしていきたい所存...!
      https://speakerdeck.com/makotu/n-equals-1no-teburudetakonpenoqu-rizu-mifang?slide=10

https://speakerdeck.com/takaito/di-1hui-guan-dong-kagglerhui-lt4-detafen-xi-konpetonoxiang-kihe-ifang

参加後のみんなの声

ひたすら楽しかった+Kaggleモチベがあがる会でしたね。一部ですが声を載せておきます。

https://twitter.com/M_Murata_ds/status/1705919990262845916

https://twitter.com/tawatawara/status/1705712756346032283

https://twitter.com/nt_4o54/status/1705603668261933493

https://twitter.com/ITF_BC/status/1705547974775058915

https://twitter.com/r01k12/status/1705588022350348637

リンク

  • たかいとさんの参加記録

https://takaito0423.hatenablog.com/entry/2023/09/24/181940

Discussion