AWS ML Enablement Workshop 参加レポート|学校向け生成AI SaaSをエンジニア視点で考える
スタディポケット株式会社でエンジニアをしているstdです。
先日、AWSが主催するML Enablement Workshopに参加してきました。Day1が実践編、Day2が改善編という構成です。学校向け生成AIチャットSaaSを作っている自分たちの文脈でどう使えたか、やってみて感じたことを書きます。
ML Enablement Workshopについて
AmazonがやっているWorking Backwards、顧客価値から逆算して開発するプロセスをベースにしたワークショップです。生成AIを使ってPR/FAQから発明、テスト設計まで短時間で一気に回す。実際の0-1でも使えるような実践寄りの内容でした。
Day0で事前準備、Day1でWorking Backwardsを一周して複数案を出し、Day2で実ユーザーのフィードバックをもとに改善と意思決定をする、という流れです。
参加メンバーと前提
PM 1名、エンジニア3名の計4名。PM含め全員が普段からエディタでAIコーディングをしているので、PMが全体の整理と判断を担い、4人がそれぞれの環境でコーディングエージェントを動かしながら並列に検討しました。
Day2ではAIのDefineの内容がしっくりきた私のコーディングエージェントをみんなで見るという形に変更しました。
テーマは学校向け生成AIチャットSaaSの新機能です。ユーザーは中学生。部活との両立で学習時間が限られていて、一度つまずくとそこで学習が止まりやすいという学校利用ならではの課題があります。
こんな感じでワークショップを行いました↓↓

Day0 事前準備で定義したこと
ペインは2つ。AIの応答が難しすぎること、知らない知識や前提が突然出てきて学習が止まること。大人やエンジニアには当たり前の説明でも、教科書でまだ習っていない概念が混ざると、中学生はそこで完全に止まってしまう。このパターンが多いと考えています。
ゴールは、自分一人でもつまずかずに学習を最後までやりきれること、苦手をピンポイントで潰せること。成績向上や効率の最大化ではなく、途中で諦めない、部活と両立できるという現実的な完走を目指しました。
技術的にはAWS AgentCoreを使ったマルチエージェント構成を想定しました。何でも答える1体のAIではなく、教科別や文脈に特化したエージェントを使い分け、会話内容に応じて切り替わりながら学習を段階的に進める設計です。
Day1 実践編
ワークショップの進め方
コーディングエージェントは自由に選べたので、使い慣れているClaude CodeとCursorを使いました。リポジトリの設定がKiro向けだったので、その場でClaude Code用に書き換えて作業しています。
4名がそれぞれ別のコーディングエージェントで作業した結果、簡潔にまとまった案もあれば発想の広い案もあり、アウトプットの個性がはっきり分かれました。並列に考えを走らせて生成AIにぶつける面白さがあった一方、共有は別リポジトリのGitHubだったので、お互いの内容を見る時間が足りなかったです。
ChatGPTのグループチャットのコーディングエージェントがあれば共有しやすいと思いました(別途開発意欲が湧きました)
Listenフェーズで起きたズレ
Listenの最初、生成AIが出してきたのは完全に一般消費者向けの提案でした。原因ははっきりしていて、customer.pngとsolutions.mdに学校向け、中学生向けという文脈を十分に書ききれていなかったからです。
結局、学校向けであること、中学生であることをかなり細かく伝え直してListenをやり直しました。この経験で、customer.pngとsolutions.mdの解像度がワークショップ全体の質をほぼ決めると痛感しています。抽象的なまま進めると精度が出ない(今考えれば当然ですが。。)。
モック作成をスキップした話
Top3のアイデアを共有するタイミングで、事前にAmazon Bedrock AgentCoreの勉強を兼ねて作っていたサンプルを見せました。教科別エージェント構成、数学ならグラフ描画をしたり、図解した方がユーザーが理解しやすい質問の場合はGPT Image 1.5での図解生成を含むものです。
実は、最終的に作りたかったものがほぼこのサンプルそのものでした。なので、ワークショップ中に生成AIが出した案に教科別エージェントの構想を後から手動で入れ込む形になり、すでに動くものがある以上、改めてモックを作る必要はないと判断してスキップしました。
今回はスキップしましたが、モックは後日あらためて個人で試しています。
Day1の学び
生成AIが整理してきたペインや行動の分析には、スタディポケット for STUDENTの改善にそのまま使えそうなものが多かったです。「なぜ〇〇せずに□□ができないのか」「なぜ○○と○○は同時にできないのか」という切り口は、そのまま採用はできなくても既存プロダクトを見直すきっかけになります。
スタディポケットでは2025年夏頃からスタディポケット 教育AIイノベーションラボ、通称AIラボの新規開発を始めて、いくつかのサービスを実際にリリースしています。振り返ると、PR/FAQに近い流れですでに開発していました。今回のワークショップで、その方向性は大きくズレていなかったこと、ただしゼロから新しい価値を生む部分はまだ伸びしろがあること、その両方を確認できたのが収穫でした。
Day2 改善編
Day1から約1ヶ月後にDay2を実施しました。冬休みと重なって先生や生徒の都合がつかず、フィードバックが取れるタイミングまで待った形です。
4名の方(1名 x 4回)のお時間を頂戴してフィードバックをしていただきました。ご協力くださりありがとうございました。
Day2の目的
モックテストで得た定量・定性データをもとにPR/FAQとプロダクトを改善するフェーズです。前半2時間でワーキングバックワードを顧客の声を反映してやり直し、後半1時間でタスク整理。最終的に、今後1〜3ヶ月以内のマイルストーンを決めるところがゴールでした。
顧客インタビューで見えたこと
正直に言うと、モックのセットアップが中途半端で、深いところまで掘れなかった反省があります。
顧客課題についてはチーム内で共通認識を持てました。ただ、エージェンティックなチャットのユースケースが先生にも自分たちにもはっきり見えていなかった反省があります。エージェンティックなチャットでハルシネーションのリスクが減ったところで「それで何が変わるの?」というのが想像しづらい状態でした。
既存事業の顧客にインタビューする難しさも感じました。営業を受けているような期待を持たれてししまいます。また新しい技術を使った体験は想像力が必要ですし、顧客自身が答えを持っていないことも多いです。
議論の中で見えてきたこと
いくつか気づきがありました。
発達段階に応じた出力の調整が、初等中等教育ではまだ個別に最適化されていない。科目ごとにチューニングするよりも、過去の履歴やメモリー機能のほうがユーザーに刺さりそうだということ。
それと、スタディポケットの強みの1つは解き方を教えることなのに、エージェンティックなチャットでは正確な答えを出すだけになってしまっていました。メモリ機能がなければChatGPTやGeminiで十分だと流れてしまう現実がある。
メモリ機能と図解機能、この2つがあればユーザーに変化を感じてもらえるMVPになりそうだ、という手ごたえが出てきました。
ブレークスルーになったメンターレンズ
ここで大きな転換がありました。
DefineでAIが出してくれた問い「なぜ自分の情報を教えずにパーソナライズされないのか?」
というところから発想を得て、メンターレンズ(AIが作った仮称の機能名)という構想ができました。
内容は後日のプレスリリースで発表すると思います。
実装の方向性
実装の難易度はインパクトの割にかなり低いです。ユーザーテーブルにカラムを足して、画面が3枚ほどです。エージェントコアは必須ではなくなり、既存チャットでも作れます。
当初想定していた新製品ではなく、スタディポケット for Studentsの新機能として出す方針になりました。プロトタイプはDay2の時点ですでにClaude Codeが実装して動くものが出来上がっていました。
AIコーディングは仕様が決まるとほんと早いですね。
リリースとマイルストーン
タイムラインも決まりました。
小規模校や特別支援課など、個別対応が必要な学校を優先してターゲットにします。サイレントリリースではなくプレスリリースを打って差別化を狙う方針です。
マイルストーンは3段階。まず5校以上の先生から肯定的なフィードバックを取ってコンセプトの共感度を測る。次に先行利用者の声を含めたプレスリリースを作る。最終検証は10月頃で、利用率、NPS、新規商談等での反応を見ます。手ごたえがあればメモリー機能など個別最適化の開発を進め、そうでなければこの新機能の現状維持か縮小という判断をしようと思います。
Day2の学び
Day1のときは正直、やってみたけど何が残ったんだろう、という感覚がありました。
Day2を経て、問いを立てること、ワーキングバックワードに沿って進めることの手ごたえがつかめました。これをどうチームの仕組みに落とすか、具体的に想像できるようになったのが一番の収穫です。
ふりかえり
ML Enablement Workshopを通じて、新しいアイデアを出すだけでなく、既存プロダクトを別の角度から見直す整理ができました。
customer.pngとsolutions.mdに何を書くかで全体の質が決まること、ListenとDefineの精度がすべてを左右すること、テーマが決まった瞬間に開発が一気に動き出すこと。この3つが強く残っています。
Day2で生まれた新機能は教育現場に特化したコンセプトです。汎用のAIプラットフォームとは違う軸で勝負できそうな手ごたえがあります。
このような場を設けてくださったAWSの皆さまに感謝します。ここでの学びを、実際のプロダクトにきちんと反映していきます。
参考リンク
Discussion