会議🤖:AI会議アシスタントの開発について
みなさん、こんにちは!Japan AIで音声認識MLモデルの製品開発に携わっているCalvin Leungです。先日、次世代の働き方を革新する製品のアイデアを競う社内ハッカソンに参加し、私の開発した「会議🤖」がベストプロダクト賞を受賞しました!今回は、この製品のアイデアと開発背景、そして直面した課題についてご紹介させていただきます。
ポイント
- Japan AIでの日常業務から生まれたアイデア
- リアルタイムAI会議支援
- 社内ハッカソンでの実証実験に成功
- 現在、会議🤖 1号への進化を目指しています
開発の背景
日々の業務の中で、会議中により多くのコンテキストが必要だと感じることが多々ありました。お客様との打ち合わせでも、社内の会議でも、対面でもオンラインでも、会議の時間は非常に貴重です。このリアルタイムのコラボレーションやアイデアの交換は、他では得られない価値があります。そのため、会議の効率を最大限に高めることが重要だと考え、以下のような製品を構想するに至りました。
会議中のAIアシスタント!
以下のような機能を持つアシスタントがあれば理想的です:
- 関連する財務レポートや過去の議事録を表示し、より深い議論を可能に
- 業界用語の即時説明
- 急な離席時(配達や家族からの事態など)ために、今までの会議を要約生成する
人間のアシスタントがいれば理想的ですが、現実的には多くの方にとってコスト面で難しいでしょう。しかし、機械学習の最近の進歩により、コンピューターを使って同様の支援が可能になってきています。
会議🤖の構成
アシスタントの機能を3つの主要コンポーネントに分解して考えました:
- 聴く&見る:コンテンツの取得
- 思考:分析
-
判断&行動:次のステップの実行
現在のML技術の発展により、各コンポーネントに適したツールがあります: - 聴く&見る
- オンライン会議用の音声文字起こし:JapanAI SpeechやOpenAI Whisper
- マルチモーダルLLM(GPT-4、Claude)による画像・動画のテキスト化
- 思考&行動(AIエージェント)
- LLMによる理解と意思決定
- GraphRAGなどを用いた検索機能
- 出力
- 音声合成
- テキスト生成
これらのコンポーネントを適切に組み合わせることで、基本的なAIアシスタントの作成が可能だと思いました。
ハッカソンでのプロトタイプ開発
限られた時間の中で、最小限の機能を備えたプロトタイプの開発に取り組みました。主な実装内容は以下の通りです:
- オンライン会議の音声入力を10秒間隔で取得するボットの実装
- GPT-4o AIエージェントによる会議内容の分析
- 用意されましたの過去の議事録データと組み合わせ、リアルタイムでのインサイト生成
- 生成されたインサイトの会議チャットへの自動投稿
最小限ですが、AIエージェントが会議の進行に合わせてリアルタイムで情報を提供し、さらに既存の知識ベースと組み合わせた有益な支援が可能であることを実証することでした。
直面した技術的課題:プロンプトエンジニアリング
開発の中で最も苦心したのは、以下のような課題への対応でした:
- 会議の文脈維持
- トークン数の制限がある中での効果的な情報圧縮
- 解決策:直近の対話内容と要約を組み合わせた最適なコンテキスト管理の実現
- 適切な情報提供のタイミング
- 過度な情報提供によるユーザー体験の低下を防止
- 対策:プロンプトにインサイトの方向をヒントする
GitHubでコード全体を公開しています:
今後の展望:会議🤖 1号
このアイデアが多くの方々から反響をいただき大変嬉しく思います。ハッカソンでの経験を活かし、以下の課題に取り組んでいきます:
-
長時間の会議や大量の知識処理時のAIパフォーマンス向上
- より効率的なメモリ管理
- コンテキスト圧縮の最適化
-
文字起こしの精度向上
- ノイズ除去の改善
- 専門用語の認識精度向上
-
レイテンシーの改善
- 現在の30-60秒から5-10秒への短縮
- 処理のパイプライン最適化
これらの課題により即座の実用化は困難ですが、適切なタイミングで、皆様の会議体験を変革する完全な機能を備えた会議🤖 1号をお届けできることを楽しみにしています。
最後までお読みいただき、ありがとうございました!
Discussion