【マナビDX Quest】Challenge Mission 攻略会を開催してみた感想
はじめに
毎年の恒例行事になっているのですが、社会人のスキルアップ課外活動として『マナビDX Quest』というものがあります。元はAI実装を目的としたAI Questだったのですが、DX推進までスコープが広がり、より実践に近いスキルを養うとのことで名称が変更になりました。現在はコンサルティング色の強い、経営企画や事業開発クエスト的な感じになっていますが、基礎的なAI開発スキルを身に付けることもできます。以下、簡単な説明となります。
『マナビDX Quest』は、経済産業省が推進するデジタル人材育成プログラムです。地域企業・産業のDXを加速させることを目的とし、企業データを活用したケーススタディ教育と中小企業との協働による実践型プログラムで構成され、ビジネス現場の課題解決を通じてデジタルスキルを磨くことができます。毎年、数千名が受講し、数十の中小企業と協働し、参加者から高い評価を得ています。Quest期間中はslack内での受講生同士の自主的な学び合いも推奨され、「Challenge Mission 攻略会」はその一環としての取り組みとなります。
Challenge Mission 攻略会とは?
期間中はSIGNATE社の提供している学習コンテンツ『SIGNATE Cloud』を無料で利用することができます。その中にあるゼロからAI開発に挑む「QUEST」と言うコンテンツが利用可能で、多数の産業領域のプロジェクト演習を通じて、業務で実践可能なレベルでのスキル定着を図ることができます。その各演習の最後に、探索的分析から始め予測モデル構築し、一定以上のAIスコアを競う「Challenge Mission」があります。こちらの攻略は初学者~中級者には解説が必要なものもあり、参加者同士の基礎知識や攻略方法の共有を通して攻略率を上げることを目的に定期的に攻略会を開催しました。
【マナビDXクエスト版】SIGNATE Cloudで学べること
SIGNATE CloudのQUESTの内容は次の通りですが、コンペなどで使用する『SIGNATE』にも同じ内容のQuestや類似のコンテンツがいくつかあります。表の右側に関連の箇所を記載しておきました。
テーマ | 学習内容 | Signate Quest |
Signate その他登場箇所 |
---|---|---|---|
食品ロス削減 | 重回帰 テーブル 回帰問題 | 有料 | 練習問題 |
金融機関におけるテレマーケティングの効率化 | テーブル 決定木 分類問題 | 有料 | 練習問題 |
鋳造製品の欠陥検出 | 画像 画像認識 DEEPLEARNING 分類問題 | 有料 | 練習問題 |
自動車環境性能の改善 | テーブル 重回帰 回帰問題 | 一部 無料 |
練習問題 |
スポーツのチケット価格の最適化 | データ前処理 テーブル 重回帰 回帰問題 | 有料 | 練習問題 |
株価を予測せよ | 時系列 DEEPLEARNING 分類問題 | 完全 無料 |
練習問題 |
債務不履行リスクの低減 | 不均衡データ ダウンサンプリング テーブル 分類問題 ロジスティック回帰 | 有料 | ー |
宿泊予約サービスにおける価格推定の適正化 | テーブル 重回帰 回帰問題 | 一部 無料 |
ー |
健康経営のための疾患リスク予測 | テーブル ロジスティック回帰 分類問題 | 有料 | ー |
衛星画像の分類 | 画像認識 不均衡データ DEEPLEARNING 分類問題 | 有料 | SOTA |
賃貸物件の家賃推定 | テーブル RANDOM FOREST 回帰問題 | 有料 | SOTA |
ECサイトにおける購買率の最適化 | テーブル GBDT 分類問題 | 有料 | SOTA |
雲画像の未来予測 | 画像 時系列 DEEPLEARNING LSTM 画像生成 | 有料 | SOTA |
工場設備の予知保全 | 音源 不均衡データ 分類問題 | 有料 | ー |
新入社員の配属先割り当ての工数削減 | テーブル 最適化 | 有料 | ー |
※自然言語系がないのが唯一の欠点(こちらはまた別の機会に)
SOTAは「State-of-the-Art Challenge」の略称のことですが、知見を共有することを目的とし、過去に終了済みだが再び参加することが可能な、終わりのないコンペのこととなります。また、こちらに上げたコンテンツ以外も充実しており、次のような内容を個別に学び、トレーニングすることができます。
- EXCELやPythonのデータ分析における基礎的な使い方やEDAについて学べる
- マーケティング、統計学、DeepLearning、評価関数などの基礎を学べる
- ソフトウェア開発の入門的な学習やプログラミングのトレーニングができる
Challenge Missionで使用できる機能は?
SIGNATEの提供するブラウザベースのコード実行環境で使用できる主なパッケージは以下の通りです。
詳細はログイン後プラットフォームにて、!pip list
で確認することが出来ます。基本的なものは入っており、PyCaretなどAutoMLのようなライブラリを追加で入れることは出来ない仕様だったと思います。
!pip list
- 機械学習/深層学習関連
-
tensorflow
,keras
,torch
,lightgbm
,optuna
,scikit-learn
,xgboost
-
huggingface-hub
,datasets
(TransformersやRAG関連) -
gensim
(トピックモデルやワードベクトル関連)
- データ処理/可視化
-
pandas
,numpy
,scipy
,matplotlib
,seaborn
,plotly
-
networkx
(グラフ解析)、folium
(地理データ可視化)
- 自然言語処理(NLP)
-
nltk
,transformers
,mecab-python3
,cabocha-python
- 画像処理
-
opencv-python
,Pillow
,albumentations
,imageio
,efficientnet
- 分散処理/並列処理
-
dask
,multiprocess
,joblib
- その他ユーティリティ
-
tqdm
,requests
,beautifulsoup4
,lxml
,scipy
,pyyaml
,PuLP
2024年の攻略会で盛り上がった話題3選
初学者の方は、段々何言ってるのか分からなくなって来たり、敷居が高そうだなと思っている頃だと思いますが、今やChatGPTなどの生成AIもあり、比較的容易なものから取り組めば、他の先輩受講生の助けも借りながら、短期間で以下のような話題についていけるようになります。上級者は暖かい目で見守るなり、アドバイスいただけますと幸いですが、以下のような感じで期間中は盛り上がっていました。
(1) 鋳造製品の欠陥検出 2024年9月頃
マナビDXクエストのケーススタディ教育プログラムに製造業の不良個所自動検出があり、そちらの事前学習に最適な、このChallenge Missionはとても有意義でした。
≪基本的な攻略方法≫
-1. ResNetを転移学習し、ベースラインを作成
-2. オーギュメンテーション、欠陥データのバリエーションを増やす
-3. CNN・ViTなどを試し、タスクに最適なモデルを選定
-4. 転移学習を再度活用し、適切な損失関数・学習率調整で最適化
-5. アンサンブルで精度向上し、Kaggleや論文から最新技術を取り入れる
丁度この頃、#17 [初心者歓迎] atmaCupで「衣服のレビュー情報をもとにして、その洋服をレビュワーがおすすめするか?」を予測するコンペが開催されており、画像でも自然言語でも最短3行で使えるAutoGluonが話題に上がりましたが、実はこの攻略会内で先行して話題になったものでした。
(2) 賃貸物件の家賃推定 2024年11月頃
第1回 国土交通省 地理空間情報データチャレンジ ~国土数値情報編~ がはじまった頃だったのもあるのか、攻略会がとても盛り上がりました。攻略会で基本的な攻略法を学んで、コンペなどで活用できると一気にレベルアップすることができます。2019年のStudent Cupでかなり攻略されているようなので、攻略会で勉強した後や他の同種のコンペ攻略時にあわせて参考にしてみると良いと思います。
≪不動産賃料予測の基本攻略法≫
-1. データ前処理と変数設定
・目的変数:単位面積あたり賃料(または対数変換値)
・主要説明変数:立地、建物特性、間取り、築年数など
・カテゴリ変数:ラベルエンコーディング(ツリーモデル向け)
・欠損値と異常値:適切な補完と除去
-2. モデリングアプローチ
・効果的アルゴリズム:ランダムフォレスト、勾配ブースティング
(XGBoost、CatBoost、LightGBM、HGBなど)
・検証手法:k分割交差検証とアンサンブル
・特徴量重要度分析と変数選択の最適化
・分布変換:非正規分布の正規化(Box-Cox、yeo-johnsonなど ※Q-Qプロットで正規性確認)
-3. 精度向上テクニック
・派生特徴量:比率変数や地理的特性の数値化
・地域別分析:エリア固有の価格傾向を考慮
・ハイパーパラメータ調整:学習率・木の深さなど
・予測誤差マップによる弱点エリア特定と対策
(3) 資料作成の効率化 Marp
CanvaなどAI機能搭載の資料作成ツールが増えてきましたが、Visual Studio Codeの拡張機能Marp for VS Codeを使うことで、Markdown記法でスライド作成を行うことができると言う話題があがりました。Markdownでグラフを作成できるダイアグラムツールMermaidなどもあるので、生成AIと組み合わせて、爆速で一定程度のクオリティの資料を作成できるようになりました。資料自動生成のGammaはまだ癖っぽいので、Marpでひな形をつくっておけば、資料作成効率化に大きく役立ちます。
やってみた感想
Challenge Mission 攻略会を定期的に開催することによって、強制的にすべてのQUESTを学習することが出来ました (笑) が、基本的な型が分かったので学習が進めやすくなりました。実務や研究で使えることが重要なので、あまりにも基礎から過ぎず、議論が各論過ぎずと言った丁度良いレベル観からはじめることができ、体系的に理解ができたので良かったです。また先輩受講生や上級生にいつでも聞いて教えて貰えるので、生の現場の声も含めて教材以上のことを学ぶことができますので、また来年も参加したいと思います。それまでは無理のない範囲で、コンペなどを通じてさらに理解を深めたいです。
今は環境設定の手間の少ないGoogle ColabやChatGPTなどの生成AIもあるので、カジュアルに始められる環境が整っていて良いタイミングだと思います。データ分析や予測の型がある程度出来ていると言うことは、自動化出来ると言うことでもありますが、画像や音声も含めたマルチモーダルなLLMで(既にClaude.aiなどである程度できますが)一定程度の精度であれば、AIエージェントで実務的に処理していくのも目前かもしれません。その仕組みを理解することで、適切な指示をAIに与えられるようになり、実務レベルでの活用が可能になると思いますので、是非やりやすいところから始めてみてはいかがでしょうか?
≪コンペティション情報≫
Discussion