🔁
Gemini API で画像生成や Deep Research するアプリを n8n で作って民主化しよう！

syucream
2025/12/13に公開
!この記事は [Ubie Tech Advent Calendar 2025]

(https://adventar.org/calendars/12070) の13日目の記事です。
Ubie ソフトウェアエンジニアの syu_cream です。最近は社内生成AI活用周辺においてなんでもやるマンをやっています。今回の記事では、最近発展が目覚ましい Gemini API を n8n のワークフローから活用する事例について紹介します。

 Gemini API についてGemini API では、「Gemini でチャットできる」以上のさまざまな機能が搭載されています。目立った例としては Nano Banana Pro(Gemini 3 Pro Preview) による画像の生成・編集です。 Gemini アプリでもできるこの操作が、 API でも非常に手軽に実行することができます！
他にも、音声生成や動画生成など機能は多岐に渡り、今日において実務で利用できるクオリティまでに近づいていると思います。
さらに！ちょうど一昨日には統合的な Interactions API とともに Gemini Deep Research の機能提供 も発表されました！Gemini のパワーと多機能性を、ほんの 10 数行の Python コードから実行できるのは末恐ろしいものがありますね！

 n8n についてそれとは別の話ですが、筆者が所属する Ubie では、最近 AI ワークフローシステムとして n8n の導入を進めています。詳しくは以下の記事で紹介しています。
https://zenn.dev/ubie_dev/articles/ccd18a2f911706
n8n は AI 統合において十分な機能を保持しつつも、ワークフローシステムとしての多機能さや拡張性がウリです。n8n を導入している目的の一つとして、その十分な機能性とそこから来る「社内での開発の民主化」「クリエイター的魂の発露による発明の実現」です。早くも社内では、「難しい文章を、 Slack のリアクションを契機に Nano Banana Pro に図解させる」というユースケースも登場しています。

https://note.com/3284/n/n430661904db8
このような事例から見ても、 Gemini API と組み合わせることで「Gemini のさまざまな機能をローコードで実現できる」ことと「n8n でシステム間インテグレーションして使えるものにしつつ遊びを設ける」ことが達成できる期待が持てます。
本記事では Ubie で試している 3 つの Gemini API X n8n 掛け合わせ事例について紹介いたします。

 Gemini API X n8n 組み合わせ3選
 Nano Banana Pro X n8n最初の事例は弊社 3284 による Nano Banana Pro を用いた図解の事例です。コアの部分を 2 個のワークフローに分けて実行しています。
まずは Slack 上のイベントから受け取った「図解リクエスト」を解釈・整理して Nano Banana Pro 画像生成サブワークフローに投げて、その結果の画像ファイルを受け取り、 Slack でレスとして送信します。
プロンプトは「図解をしたい」というユースケースのため固定のものを踏まえつつ、ユーザリクエストをその後に挿入する形になっています。
{{ "ユーザーにわかりやすく伝えるために、情報を適切に整理し、イラスト、アイコンなど視覚的に伝わる要素を適切に活用し、日本語でグラフィックデザインされた画像を作って" + $('トリガー合流').item.json.text }}
画像生成サブワークフローは以下のような形になります。インプットに画像があるかないかで分岐して、「生成」をするか「編集」をするかを分岐させます。
画像の生成・編集は以下の API を呼び出す HTTP Request ノードを実行するだけです。
https://ai.google.dev/gemini-api/docs/image-generation?hl=ja
HTTP のリクエストボディは以下のようにしています。
{
    "contents": [{
      "parts": [
        {"text": "ALWAYS generate an image with following prompts." },
        {"text": {{ JSON.stringify($('When Executed by Another Workflow').item.json.prompt) }} }
      ]
    }],
    "tools": [{"googleSearch": {}}],
    "generationConfig": {
        "responseModalities": ["Image"],
        "imageConfig": {
          "aspectRatio": "16:9",
          "imageSize": "4K"
      }
    }
  }
たったこれだけで社内でメンバーが熱狂する図解ワークフローを実装できるのは素晴らしいです。特に画像生成・編集という難しそうな処理に対してやるべきことは Gemini API 呼び出しと前後の調整くらいなのは大変助かります！

 Deep Research X n8n一昨日の Interactions API の発表に伴って、 Gemini Deep Research が API 越しに実行できるようになりました！以下の API を実行するだけで Deep Research を開始できます。
https://ai.google.dev/gemini-api/docs/deep-research?hl=ja
注意点として Deep Research は他の操作と比べて時間がかかります。基本的に非同期処理として送り込んでおき結果をポーリングして確認・受け取りするか、ストリーミングで少しずつ受け取るかの工夫も必要です。
まずは Slack から Deep Research を開始する手順ですが、ここは特に目立った工夫はありません。ロングランの処理になるのであらかじめ処理開始前に「時間がかかるから待っててね」というフィードバックを Slack 上で返している程度です。
Deep Research を実行しているのはこのようなサブワークフローになります。
このようなリクエストを送り Deep Research を開始します。
{
    "input": {{ JSON.stringify($json.query) }},
    "agent": "deep-research-pro-preview-12-2025",
    "background": true
}
処理開始するのはそれで良いですが、結果を待ち受けなければなりません。

これを上手く実現するために、「Wait ノードによるポーリングインターバル」と「ループ」を組み合わせています。ポーリングリクエストを送った際は、 Gemini API 側から返るステータス情報を Switch ノードで分岐させ、成功したら Slack でその内容を返信します。
この一連のワークフローによって、このように「社内で誰でも Slack で問い掛ければ Deep Research ができ、シームレスに結果をみんなで共有できる」ような体験が構築できます。

 TTS で自動ポッドキャスト X n8nGemini では、かなり人間っぽい成功な発音をしてくれる TTS(Text-To-Speech) 機能も内包しています。2025/12 現在、日本語の発音もかなり自然に感じるクオリティです。複数話者の対話のような音声も生成できるので、さながらポッドキャストを自動生成するような真似事もできます。 NotebookLM の音声概要に近しい感覚のクオリティで仕上がります。
https://ai.google.dev/gemini-api/docs/speech-generation?hl=ja
まずは Slack からポッドキャスト生成のためのリクエストを受け付けます。ここで、 Gemini API にリクエストする際のプロンプトとして「すでに完成された台本」の形にしておきたいので、与えられたお題やテーマに従ってポッドキャストの台本を AI に書き起こさせます。台本ができたら TTS サブワークフローに処理を投げます。
ポッドキャスト風の音声を生成するのも基本的に HTTP Request ノードで Gemini API をコールするのが中心です！
以下のようなリクエストを投げて、複数話者による TTS を実行します。 API から帰ってくるのは PCM のバイナリデータのようで、取り回しや Slack への投稿の利便性を考えて WAV に包んで返しています。この辺の処理は生成 AI に出力させた JavaScript のコードをコードノードで実行させています。
{
        "contents": [{
          "parts":[
            {
              "text": "TTS the following conversation between {{ $json.speaker1 }} and {{ $json.speaker2 }}:"
            },
            {
              "text": {{ JSON.stringify($json.prompt) }}
            }
          ]
        }],
        "generationConfig": {
          "responseModalities": ["AUDIO"],
          "speechConfig": {
            "multiSpeakerVoiceConfig": {
              "speakerVoiceConfigs": [
                {
                  "speaker": "{{ $json.speaker1 }}",
                  "voiceConfig": {
                    "prebuiltVoiceConfig": {
                      "voiceName": "Kore"
                    }
                  }
                },
                {
                  "speaker": "{{ $json.speaker2 }}",
                  "voiceConfig": {
                    "prebuiltVoiceConfig": {
                      "voiceName": "Puck"
                    }
                  }
                }
              ]
            }
          }
        },
        "model": "{{ $json.model }}"
    }
早速これを、社内で注目度が高い全社の方向性を決めるミーティングでの議論内容をお昼のラジオ的に仕立てて活用される事例も出てきています。
Gemini の活用だと「画像」や「Deep Research」が目立って TTS はやや日陰の存在に思えますが、精巧な合成音声が手に入ると活用の幅が広がるのではないかと思っています！例えば散歩中・通勤中の片手間に、子育ての最中に、シャワーを浴びてる時に...「ながら勉強」的な活用シーンが生まれる可能性を秘めているでしょう！今回紹介したポッドキャスト風音声生成も 3 つの中で一番地味に思えるのですが、育てる価値はあるかなと感じています。

 おわりにGemini API の多機能さとクオリティには驚かされます。まだまだポテンシャルを最大活用して業務効率化や新たな価値の創出が十分されていないと感じており、さらに掘り下げたいところです。また、 n8n のようなツールで開発の敷居が下がることでエンジニア以外のメンバーも含めて協業できるシーンも増えると思います。今回の記事が、そうした社内活用・浸透を進めたい方の参考になれば幸いです。

 宣伝； インターンで生成AI活用事例をブチ上げてみませんか！Ubie の社内生成 AI 活用を支える開発チームで、インターンを募集することになりました！「生成AIを活用した先進的事例を創出したい！」「技術的な挑戦を果敢にしてみたい！」という方をお待ちしております！！この求人が気になる方は、以下のリンクから、あるいはわたしにご連絡いただければと思います！
https://herp.careers/v1/ubiehr/9QxaWhCu--oj
正社員・業務委託ポジションも絶賛募集中ですので、ぜひこちらも合わせてご検討ください！！
https://herp.careers/v1/ubiehr/_oeH0lYReImI
https://herp.careers/v1/ubiehr/DjGST3OSPJqD