🚀

Fullstack Al Dev & Raycast Summit イベントレポート トークセッション2(2024-11-23開催)

2025/01/30に公開

2024年11月23日(土)、東京・大崎にあるファインディ株式会社様のイベントスペースにて「Fullstack AI Dev & Raycast Summit feat. Satoshi Nakajima」を開催いたしました。本記事ではトークセッション2 および スポンサートークについて紹介いたします。

イベントレポートのメイン記事はこちらです。

1. 宮田大督氏 / AI旅行記事生成PJから学んだマルチエージェントの本質と可能性 ~旅行スタートアップの生成AI開発ナレッジシェア~

1.1. 登壇概要 (Claude による要約をベースに登壇資料抜粋および編集)

1.1.1. プロジェクトの背景と目的

令和トラベルは、旅行予約サービス「NEWT(ニュート)」を展開する企業で、2024年4月にLLMを活用したプロジェクトを開始しました。主な課題は、世界中の旅行先に関する記事を人力で作成することの限界でした。この課題を解決するため、AIを活用した記事生成システムの開発に着手しました。

1.1.2. マルチエージェントへの段階的アプローチ

当初は単純なプロンプトによる記事生成から始めましたが、品質の安定性に課題がありました。そこで Dify というノーコードツールと出会い、記事作成プロセスを複数のステップに分割することで、大きな成果を上げることができました。具体的には人の介入を最小限にすることができ、CoT(Chain of Thought) によるクオリティ向上にも寄与しました。

1.1.3. マルチエージェントシステムの発見

プロジェクトを進める中で、意図せずに結果的にマルチエージェントシステムを構築しておりました。各ステップがエージェントとして自律的に動作し、人間の介入を最小限に抑えながら、高品質な記事を生成できるようになりました。

  • 自律性:人間の確認なしで自律的に動作 / 独自の判断で行動を選択
  • 目的思考:自ら特定のゴールを認識 / 戦略的に行動を計画

1.1.4. 共通言語としてのXML形式の活用

システムの重要な特徴として、エージェント間のコミュニケーションにXML形式の構造化された文章を採用しました。構造化された文章を採用することで、人間・LLM・プログラム間の連携がシームレスかつ高速になりました。なお、XML形式に慣れていない人向けに、自然言語から構造化された文書へのコンバートエージェントを用意しました。

  1. 人間の読みやすさ/書きやすさ
  2. LLMでのクオリティ向上
  3. プログラムでの解読の容易さ

1.1.5. 今後の展望

現在は同期的に接続されたマルチエージェントシステムですが、今後は非同期での連携を強化していく予定です。また、プロフェッショナル向けのシステムだけでなく、一般ユーザー向けの旅行相談AIシステムなども検討しています。

1.1.6. 結論

このプロジェクトから得られた重要な教訓は、マルチエージェントシステムは必ずしも最初から設計する必要はなく、実務上の課題を解決していく過程で自然に形成される可能性があるということです。また、エージェント間の共通言語の設計が、システムの成功において重要な役割を果たすことも明らかになりました。

https://www.youtube.com/live/sPTnyuO9OCA?si=yw5qbPAb3Cw0OUrG&t=5944

1.3. 登壇資料

2. 山室友樹氏 / LLMとPlaywrightで実現する非定型なデータの収集

2.1. 登壇概要 (Claude による要約をベースに登壇資料抜粋および編集)

2.1.1. 背景と課題

Macbee Planetは広告代理店として、アフィリエイトを主要な商材として扱っています。広告主を新たに掲載していただいたり獲得強化施策を実施していただきながら広告主のKPIを達成できるように努力しています。MOps(Marketing Operations) グループではデータ分析(ユーザー属性、行動データ、環境データ)を行っており、今回は環境データ取得に関してお話しします。

主な課題は、比較サイト内での広告主の掲載順位データの取得でした。Google検索などと異なり、比較サイト内でのランキング情報は既存のツールでは取得が困難でした。また、数百に及ぶウェブサイトの手動調査は現実的ではなく、HTMLの構造が各サイトで異なることから、従来のスクレイピング手法も適用が難しい状況でした。

2.1.2. 解決策の実装

この課題に対し、LLMとPlaywrightを組み合わせたソリューションを開発しました。主な特徴は以下の通りです:

  1. Cloud Run上で動作する自動化システムの構築
  2. Playwrightを使用したスクリーンショットとHTML取得
  3. Geminiによる3段階の処理
    • ランキングサイトの判定
    • ページ内ランキングの抽出
    • 名寄せ

実装にあたっては、以下の3点を重視しました:

  • LLMOpsが回せるような構成にする
  • エンジニアでなくても 触れる最小構成を目指す
  • 定常的な利用費用が発生しないこと

特に運用面では、Google Spread Sheets を採用し、型の制約や使い勝手の良さを活かしながら、直感的に操作できる環境を実現しました。

2.1.3. LLMでのPoC開発(Gemini)のTIPS

Gemini APIの利用において、以下の重要な知見が得られました:

  1. 請求金額には気をつけよう

    • Gemini ProとFlashの価格差を考慮した適切な選択
    • 業務効率化目的の場合はFlashからの開始を推奨
    • Flash を利用すると100サイトのクローリングで約300円程度の運用コスト
  2. Gemini APIと VertexAIなどそれぞれ違った制約がある

    • Gemini APIとVertex AI経由での利用の違いを考慮
    • Rate Limit に対する適切なリトライ処理の実装
    • UTF-8コードポイントベースの課金体系による違い
  3. 画像の大きさに制限はないが圧縮される

    • Gemini だとWebサイトのような縦長の画像だと圧縮されてしまい文字の読み取り精度低下
    • Vertex AIによる自動的な画像分割・最適化の活用
    • スクリーンショット処理の効率化

2.1.4. まとめ

本プロジェクトを通じて、LLMを活用した非定型データ収集の実現可能性が確認されました。初期のPoCではGemini APIの無料枠の活用が有効である一方、本格的な運用時にはVertex AIの採用が推奨されます。また、リトライ処理の実装は必須であり、安定的な運用のためにはプロビジョンドスループットの検討も必要です。

https://www.youtube.com/live/sPTnyuO9OCA?si=7pwmLScSAGDotjiQ&t=6961

2.3. 登壇資料

3. 株式会社ドール様 / もったいないバナナ / 「オフィス・デ・ドール」の紹介

3.1. 登壇概要 (Claude による要約をベースに登壇資料抜粋および編集)

3.1.1. 会社概要と事業内容

株式会社ドールは、フィリピンやタイに生産拠点を持ち、約150年にわたりフルーツの生産・販売を行っている企業です。日本市場においては、バナナで20-25%のシェアを占めており、パイナップル、アボカド、キウイなども取り扱っています。同社は「フルーツでスマイルを。」をメッセージとして掲げ、商品の特徴として「おいしさ」「エシカル」「健康と美容」の3点を重視しています。

3.1.2. エンジニアの方々をサポートするバナナの効能

(参考: 外部リンク) 中島聡さんインタビュー|伝説のエンジニアはバナナをどう食べているのか?

3.1.3. 環境への取り組み:もったいないプロジェクト

気候変動の影響により、規格外品の増加が課題となっている中、約3年前から「もったいないプロジェクト」を開始しました。このプロジェクトは以下の特徴を持ちます:

  1. 食品ロス削減
    規格外品や廃棄予定のバナナをジュースや加工食品に利活用し、廃棄される食材を減らす。

  2. 企業間連携の推進
    加工食品メーカーや小売業者と連携し、商品開発や販路拡大を図ることで活動を広げている。

  3. オフィス向けサービス「オフィス・デ・ドール」の導入
    賛同企業へフードロス削減の機会を提供、もったいないバナナプロジェクトの理解を高める。

もったいないバナナの詳しい情報はこちら
(参考: 外部リンク) 「オフィス・デ・ドール」について

https://www.youtube.com/live/sPTnyuO9OCA?feature=shared&t=8050

GitHubで編集を提案

Discussion