AVILEN 1weekインターンのAIシステム開発コンペで優勝した話
概要
2025年3月10日から14日にかけて5日間、AI/DXコンサルティングやAIシステム開発、デジタル組織開発を手掛けているAVILENのインターンシップに参加してきました。内容は実際にあった案件をもとにしたコンペ形式で、要件定義からプロトタイプ開発、報告(提案)プレゼンテーションまで1週間のスケジュールに落とし込まれています。1チーム2人がセッティングされ最終的なプレゼン発表時点の完成度で競います。そして今回、私と大学4年生のチームが優勝することができました。そんな内容を公開できる範囲でまとめてみました。
プレゼンの様子
課題とアプローチ、5日間の流れ
チームで実際にプレゼンした内容をもとにダイジェスト版を構成してみます。
取り組んだ課題のテーマ
顧客した受領した図面からパーツの型番や個数などの必要情報を確認し、見積もりシステムに手入力していたとある製造業の現場で、AIでいい感じにできないかな? という要望を解決することが今回取り組んだテーマです。
そもそも何でAIを使わないといけないのか?
目的はAIを使うことではなく、業務を効率化することです。顕在化された事象として、人間が手入力しているので時間がかかることとスキルが属人化していることです。
AIを使ず大規模な見積もりシステムを作って顧客に使ってもらおうとしても、断られてしまったら無用の長物になってしまいます。そこでAIを使って人間の仕事を一部代替し、自社で問題を解決しましょうと提案を持ちかけます。
LLMに何を解かせるのか?
OpenAIのGPTシリーズをはじめとするLLMは非常に優秀です。退屈なことはLLMにやらせよう的な時代の流れもあります。最終的にはAI(LLM)が全部自動でやってくれたら嬉しいですが、普通、そう単純にはいきません。そこでまず図面を認識して、必要情報の抽出&構造化がLLMでできれば、あとはシステムのUI/UXで解決できそうな気がします。プロトタイプ開発で私は主にバックエンドの開発をしました。LLMによる図面解析と解析結果からの自動検索システムです。
技術的ポイント
LLMによる自動解析で何ができるか?
私の十八番です。 ちょうど春休みにSemantics and Deep Learningという本を読んでいました。この本ではDeep Learningで自然言語解釈の中心となる推論(Textual Inference)・構成性(Compositionality)・設置(Grounding: Language and Vision)の概念について評価されています。そこでVisual question answeringやImage captioningなどのタスクが紹介されています。詳しくはSemantics and Deep Learningを読んで欲しいのですが、4.2 Evaluation of Vision-and-Language Modelsによれば、大雑把に説明すると A⊂B と A⊃B みたいな論理(テキスト)と画像を設置させることができるらしい。具体的に引用されている論文はこちら
そこで、今回のタスクで与えられた図面の例に手書き修正の加わったものがありました。間違った箇所に斜線が引かれていて上に正しい情報が記載されている。もしやこれ、ある程度の設置ができているとすると、VLMを使えば修正された後の正しい情報を抽出&構造化できるのでは?と思い実験したら、ビンゴ。 初めはOCRの研究をいくつか漁って学習モデルなしで実現できないか検討しました。しかし手書き文字とプリント文字のクラスタリングはできるのですが、どこが誤りで修正を挿入すべきかを「検出することは」、単純なComputer Visionだけだと難しそうだったのでパスしました。念のため、One-shotで手書き修正された図面例と正解の抽出例を渡し、あとはGPT-4oがIn-contextで頑張ってくれたので高い精度で手書き修正対応を実現できました。
L. Abzianidze, L. Bylinina, and D. Paperno, Semantics and Deep Learning. Cambridge: Cambridge University Press, 2025.
引用T. Thrush, R. Jiang, M. Bartolo, A. Singh, A. Williams, D. Kiela, and C. Ross, "Winoground: Probing vision and language models for visio-linguistic compositionality," arXiv, Apr. 2022. [Online]. Available: https://arxiv.org/abs/2204.03162.
フロントのUI/UXで解決
図面には情報があまりに多かったり解像度が荒かったりするので、前処理をした方が精度が出ます。特徴量抽出を頑張れば前処理の完全自動化もできるはずですが、1週間でできそうなアイデアがチームで出てきませんでした。そこで人間が前処理(クロッピング)を簡単に行えるようなUIをチームの相方が開発してくれました。(ありがとうございます)
物は言いよう
私は普段、比較的基礎研究を中心に研究生活を送っているので、どうしても技術的に鮮やかなことをしたい衝動に駆られます。今回、製品検索にRAGを使いたかったのですが、DBが巨大すぎて現実的ではありませんでした。仕方なくベクトルサーチを諦めて、正規表現のパターンマッチングによる検索でプロトタイプを作りました。精度を上げるためにはRAGを使いたかったのですが、使えなかったので言い訳するしかありません。 チームとしてとった戦略は、最小限のルールで構成された検索システムをMVP(Minimum Viable Product)として素早く導入し、検索に溢れて人間が対応したパターンを解析してルールを追加することで長期運用と共に改善。トレーニングモデルと違い変更が簡単なのでメンテナンスも簡単といった方向性でアピールしました。訴求の仕方で技術の障壁を解決できて、良い意味で物は言いようだなと思いました。楽しいです。
見積もりは失敗する
そんなこんなで要件定義も明確になりプロトタイプができて、「あとはプレゼンだけ」と行けば良いのですが、現実は甘くありませんでした。私たちのチームはDay3の朝の時点で比較的早くプロトタイプが完成したので、トントン拍子に上手くいくと思っていた、時期が私にもありました。どう売り込むかを決めていなかったのです。
一度骨子を作って、訴求方法を練りました。不安が残るのでフィードバックをいただきに社員の方々のもとへ行くのですが詰めが甘く、モノが良くてもちゃんと伝わらない状態でした。タイムリミットが刻々と迫ってくるので、骨子が少し甘い状態でプレゼンを作り始めました。ボヤッとしているのにフィルターを1枚噛ませて更にボヤけるように、結局はDay4の夜にツケが回ってきます。チームの相方と各駅停車の鈍行列車で帰り、座りながらパソコンカタカタ、横は酔っ払いが寄りかかってくるといったシチュエーションの中スライドの作成を進めたのが良い思い出です。
現実でも「ドラクエの発売延期」のように見積もりが外れてしまうケースが多々あるような気がします。今回で言えば「これくらい時間があればできるだろう」の能力的な見積もりが甘かったのかなと思っています。それもそのはず、私はビジネス提案のプレゼン経験に乏しいので、最初からそんな上手く行くわけがありません。「Day3・Day4の2日もあればできるだろう」という気持ちが各駅停車コースにつながったのかもしれません。 正しい見積もりの第一歩は自分を正しく把握することなのかなと思いました。
まとめ
そんな流れで4日間の準備を終え、いざプレゼン。緊張して呂律がまわなくなりましたが、概ね伝え切って終えました。結果、チームは優勝することができて達成感に包まれました。今回は社員の方々にたくさんのフィードバックをいただいて形にすることができたので、完全に実力と言い切れないところがあります。(研究論文ならスライド資料の担当者欄に、フィードバックをいただいた社員の方々の名前を筆頭著者として並べなくてはなりません) この経験を活かして自立してできるようになることと、自分の技術の腕を磨くことが今後の目標です。
株式会社AVILENの皆様、1週間お世話になりました。
Discussion