💭

ラップバトルAIエージェント「RhymeFlow」で即興バトルに挑む!

に公開

はじめに

日々進化する生成AI技術 & ラップ業界における課題に注目し、私たちは満を持してAIと人間が即興で言葉をぶつけ合う「ラップバトル AIエージェント」の構築 に挑戦しました。

本記事では、私たちが開発したラップバトルAIエージェント「RhymeFlow」の概要から、そのユニークな機能、そしてGoogle Cloudのサービスをどのように活用して実現したかをご紹介します。


プロジェクトの概要

RhymeFlow:AIと即興ラップでスキルを磨く、新時代のバーチャルバトルトレーナー

私たちのプロジェクト「RhymeFlow」は、以下のようなユーザーと課題を対象としています。

  • 対象ユーザー像:

    • ラップやHIP HOP文化に興味があるが、即興ラップの経験がない、あるいは自信がない初心者
    • ラッパーとしてのスキルアップを目指したいが、練習相手が見つからないアーティスト
  • ユーザー/業界が抱える課題:

    • 即興ラップは敷居が高く、気軽に試せる環境が少ない。特に、フリースタイルラップの練習は実践的な経験が不可欠でありながら、安全で建設的な練習相手を見つけることが難しいという課題があります。実際の練習では、相手との相性、評価へのプレッシャー、あるいは単純に練習に付き合ってくれる友人を見つけること自体が障壁となり得ます。RhymeFlowは、こうした心理的・物理的ハードルを取り除き、誰でも気軽に、何度でも練習できる環境を提供します。
    • ラップ業界では、特にキャリア初期のアーティストが、自身のスキルを磨き、フィードバックを得る機会が限られているという社会課題が存在します。プロのラッパーとの接点や、オープンマイクイベントへの参加も、ハードルが高いと感じる人が少なくありません。RhymeFlowは、彼らが安全な環境で自身の「フロウ」を磨き、表現力を高めるための「仮想の練習相手」となり得ます。これにより、才能あるアーティストが埋もれることなく、スキルアップできる機会を増やし、業界全体の活性化にも貢献できると考えています。
  • 課題へのソリューションとRhymeFlowの特徴:

    • 「RhymeFlow」は、AIが韻を踏み、フロウに乗ったラップをするAIエージェントです。
    • ユーザーは以下3つのモードで、自分の好きなタイミング/好きな場所からAIラップバトルを始めることができます。この手軽さが、即興ラップの裾野を広げ、多くの人々がこの文化に触れるきっかけとなるでしょう。
      • シンプルバトルモード:与えられたテーマに対して、2つのLLMがリリック生成しバトルするモード
      • マルチエージェントモード:リリック生成エージェント、コンプライアンスエージェントなど、複数のAIエージェントが一つのラップバトルを全てを行うモード
      • 人間 VS AIバトルモード:その名の通り、人対AIでラップバトルを行うモード
    • このソリューションの核となるのは、AIがまるで人間のように、状況を理解し、創造的に言葉を紡ぎ出す能力です。相手の発言内容や感情、文脈を深く理解し、それに基づいた機知に富んだ、時にはユーモラスな、あるいは挑発的なラップを生成します。これにより、生きた対話としてのラップバトルが実現します。

システムアーキテクチャ

現在、RhymeFlowはまだ旅の途中(開発の途中)であり、3つのモードそれぞれ別々に開発を進めています。「シンプルバトルモード」と「人間 VS AIバトルモード」はDemoレベルまでは完成しており、それぞれ以下のアーキテクチャ/技術スタックで開発しています。

「シンプルバトルモード」のアーキテクチャ・技術スタック

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│   Frontend  │────▶│ API Gateway │────▶│   Backend   │
│  (Next.js)  │     │ (WebSocket) │     │ (Cloud Run) │
└─────────────┘     └─────────────┘     └─────────────┘
                                               │
                    ┌──────────────────────────┼──────────────────────────┐
                    │                          │                          │
              ┌─────▼─────┐            ┌───────▼────────┐         ┌───────▼────────┐
              │ Vertex AI │            │   Firestore    │         │ Text-to-Speech │
              │  Agents   │            │   Database     │         │      API       │
              └───────────┘            └────────────────┘         └────────────────┘
  • Frontend: Next.js 14, React 18, TypeScript, Tailwind CSS, Framer Motion
  • Backend: Node.js, Express, Socket.io, TypeScript
  • AI/ML: Google Vertex AI (Gemini Flash & Pro models)
  • Database: Firestore, Redis
  • Infrastructure: Google Cloud Run, Firebase Hosting
  • Monitoring: Cloud Logging, Cloud Trace, Cloud Profiler

「人間 VS AIバトルモード」のアーキテクチャ・技術スタック

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│   Frontend  │────▶│   Backend   │────▶│ Dialogflow  │
│  (React)    │     │ (FastAPI)   │     │     CX      │
└─────────────┘     └─────────────┘     └─────────────┘
                           │
                    ┌───────┼───────┐
                    │       │       │
              ┌─────▼─────┐ │ ┌─────▼─────┐
              │ Speech-to │ │ │ Text-to-  │
              │   Text    │ │ │  Speech   │
              └───────────┘ │ └───────────┘
                           │
                    ┌───────▼───────┐
                    │ Google Cloud  │
                    │   Services    │
                    └───────────────┘
  • Frontend: React 18, TypeScript, Tailwind CSS, Lucide React, Nginx
  • Backend: FastAPI, Uvicorn
  • AI/ML: Google Cloud Dialogflow CX, Google Cloud Speech-to-Text, Google Cloud Text-to-Speech (こちらはimportしているが使えてはいない)
  • Infrastructure: Google Cloud Run

上記に示すように、RhymeFlowは主にGoogle Cloudサービスとツールを連携させて構築されています。特に今回の実装でポイントとなったのは以下サービスです。

  • AI Applications / Vertex AI Agent Builder(Conversation Agents):

    • RhymeFlowの核となるリリック生成AIエージェントは、Vertex AI Agent BuilderのAI Application機能とConversation Agents機能を用いて構築しました。これにより、ユーザーの入力意図を正確に解釈し、適切な応答を生成する、高度な会話フローを設計できました。例えば、ユーザーが特定のテーマについてラップしてほしいと依頼した場合、AIはそれを理解し、そのテーマに沿った韻を踏んだリリックを生成します。
    • 特に、複雑な会話ロジックや多段階のインタラクションを効率的に実装できる点が、Vertex AI Agent Builderの大きなメリットです。対話の途中でユーザーが話題を変えたり、質問を投げかけたりしても、Agent Builderの柔軟な設計により、会話の流れをスムーズに維持できます。迅速なプロトタイピングと反復開発を可能にし、私たちのアイデアを短期間で形にする上で、費用対効果の高いソリューションとなりました。API連携の容易さも特筆すべき点で、将来的には外部の韻辞書サービスや音楽生成サービスとの連携も視野に入れています。

デモンストレーション

RhymeFlowが実際にどのように機能するか、ぜひこちらのデモ動画でご覧ください!デモは「シンプルバトルモード(LLM同士のバトル)」でのラップバトルです。

https://youtu.be/Kc3Q08Eb5DE

動画では、AIが韻を踏みながらユーモラスなラップを返したり、ときには挑発的なフレーズを繰り出す様子を確認できます。AIが持つ即興性と創造性が、いかにラップバトルの面白さを引き出しているか、ぜひご注目ください。特に、ユーザーが指定したテーマに対して、AIがいかに柔軟かつ創造的に対応しているかを見ていただけると、RhymeFlowの真価が伝わるでしょう。


成果と今後の展望

今回の取り組みを通じて、私たちはGoogle CloudのVertex AI Agent BuilderとGeminiの強力な連携を肌で感じることができました。特に、複雑なAIエージェントの構築がこれほど容易に、そして高速に実現できることに驚きと大きな可能性を感じています。これらのサービスは、AI開発における障壁を大幅に下げ、開発者がより創造的な側面に集中できる環境を提供してくれました。

主要な成果

  • ラップバトルAIエージェントの実現: 与えられたテーマに対して、リリック生成/韻を踏んだラップで返答するAIエージェントを構築し、新しいラップバトル体験を実現しました。これは、単なるテキストベースのチャットボットを超えた、新しいエンターテイメントAIの形を示唆しています。
  • 新しいエンターテイメントの創出: AIを活用したラップバトルという、これまでにないエンターテイメント体験の第一歩を踏み出せました。これは、AIが人間の創造性を刺激し、新たな文化を生み出す可能性を秘めていることを示しています。

今後の展望

RhymeFlowはまだ旅の途中です。今回の取り組みで得た知見と経験を活かし、さらなる機能拡張と挑戦を考えています。

  • ユーザーの個性認識とパーソナライズ: ユーザーの話し方やラップのスタイルを学習し、よりパーソナルなラップを提供できるようにします。例えば、ユーザーが好む韻のパターンや、よく使う単語、感情表現などをAIが学習し、それに合わせたラップを生成することで、より深くユーザーの心に響く対話が生まれるでしょう。これにより、RhymeFlowは単なるツールではなく、ユーザーの成長をサポートするパートナーのような存在になり得ます。
  • 音楽的要素の統合と感情表現の強化: 生成されたラップに自動でビートを付加する機能や、AIのラップに感情のトーン(怒り、喜び、皮肉など)を反映させることで、より表現力豊かなラップバトルを実現します。これにより、単なる言葉遊びを超え、音楽としての完成度を高めます。

Discussion