💨

【Vibe Sliding AI】AIと対話して高品質なスライド作成 (継続学習機能付き)

に公開1

https://youtu.be/GwRj38sH4zM

背景・課題

世はコンサルティング業界最盛期。

2010年代後半から、日本のコンサルティング業界の市場規模はうなぎのぼりで、2024年時点で2兆3,422億円と推定されており、市場拡大に伴い、コンサルティング案件の数や提案・報告の機会も増え、成果物として作成されるスライドの総量は年々増加しています。


※ 出典:コンサルのあんなこと、こんなこと「日本国内のコンサルティング市場規模は2兆3,422億円|コンサル市場規模2025年版~前半~

総合コンサルティングファームに約3年間在籍している私の体感では、業務時間の 20% ほどがスライド作成に費やされています。ラフに見積もると、国内だけでも4,684億円分の工数がスライド作成に使われている計算になります。

では、なぜこれほどまでにスライド作成に時間がかかっているのでしょうか。

コンサルティングファームにおける膨大なスライド作成工数

コンサルティングファームでは、提案資料や各種報告資料など、プロジェクト開始前から終了まで、あらゆる場面でPowerPointによるスライド作成が行われます。多くの場合、スライドは契約上の成果物の一部として位置づけられており、数千万円以上のフィーを支払っているクライアントは、その品質を非常に厳しく評価します。

そのため、ジュニアメンバーが作成したスライドがそのままクライアントに提出されることはほとんどなく、上長のレビューを通じて何度も修正が発生します。結果として、特に月次報告や最終報告前はスライド作成に多くの時間が費やされ、私を含めて「今日、スライドしか作っていないな……」という状況が生まれます。

また、スライド作成の負荷はジュニア層に限りません。
管理職以上のシニアメンバーも、案件獲得のための営業活動において大量のスライドを作成しています。特に、クライアントの予算策定時期には営業活動が集中し、日中は現場責任者としてプロジェクトを管理しつつ、夜間に一人で数十枚のスライドを作成することもあります。

これまでコンサルタントは、品質担保や案件獲得のために、徹夜して気合で乗り切ることで、この膨大なスライド作成を何とかこなしてきました。

働き方改革によって顕在化した課題

しかし近年の働き方改革により、長時間労働を前提とした品質担保が課題として顕在化してきました。
この状況を解決するには、従来のやり方を続けるのではなく、

AI活用を前提としてスライド作成プロセスそのものを見直し、効率化を図ることが不可欠です。

今回開発した Vibe Sliding AI は、AIを前提にスライド作成プロセスを見直すことで、手作業による大量のスライド作成や、レビューに伴う修正の手戻りを減らし、品質を担保したまま効率的にスライドを作成することを目的としたプロダクトです。

Vibe Sliding AIの主な機能

Vibe Sliding AI (以下、本システム)は、コンサルティング業務におけるスライド作成を、AIを前提としたプロセスに再設計することで、ストーリー設計からスライドの生成・編集、ナレッジの蓄積までを一気通貫で支援するプロダクトです。スライド作成の初期段階でメッセージや構成、イメージを素早く可視化することで、レビューに伴う手戻りを減らし、品質を保ったまま大量のスライド作成を可能にします。

機能1:ストーリー・メッセージ設計からスライド生成までのAI支援

スライドを作成する際には、いきなりPowerPointを開くのではなく、事前に整理しておくべき情報がいくつか存在します。一般的には、以下のような要素を整理した上でスライド作成に入るのが、コンサルタントの基本的なお作法です。

  • スライド作成の目的
  • スライド全体のメインメッセージ
  • スライドのページ数
  • 各スライドを一言で表した要点
  • 各スライドのタイトル
  • 各スライドのリード文
  • 各スライドのボディ
  • 各スライドのレイアウト

タイトルはオレンジ領域、リード文は水色領域、ボディは緑領域です。

本機能では、実際にはスライド上に直接は載らない前提情報を最初に整理した上でスライドを作成するというコンサルタントのお作法に基づき、目的やメインメッセージといった大枠から、リード文・ボディといった詳細へと流れるようにストーリーを設計するプロセスをAIが支援します。

まず、ユーザーは資料作成の目的、スライド全体のメインメッセージ、想定するスライド枚数についてAIとの対話を行います。AIはユーザーの入力内容を解釈し、確認を挟みながら意図を明確化していきます。ここで確定した前提情報は、後続のストーリー設計や、タイトル・リード文・ボディの提案時に活用されます。

前提情報が確定すると、AIが各スライドで最も伝えたいポイントを「要点メモ」として提案します。要点メモ自体はスライドに直接記載されるものではありませんが、後段でタイトルやリード文、ボディを提案する際に、AIの提案が大きく外れないようにするための重要な中間生成物として位置づけています。

続いて、各スライドについてタイトル、リード文、ボディの順にストーリーの詳細を詰めていきます。特にリード文やボディはスライドの完成度を大きく左右する要素であるため、AIは提案を行う前に内容を内部で定義した評価基準に基づいてチェックします。十分に具体化されていないと判断された場合には、提案を行わず、評価結果をもとに追加でユーザーへのヒアリングを行う設計としています。

十分に具体化されていないとAIが判断し、追加ヒアリングしたパターン

ボディまで設計が完了すると、スライドのストーリーは完成です。ここからは参考スライドの選定に移ります。スライド全体のメッセージや各スライドのリード文・ボディをもとに、AIはユーザーが過去に作成・蓄積したスライドを参照しながら(※事前に過去スライドをシステムへアップロードする必要があります)、各スライドに対して親和性の高いレイアウト候補を1位から10位までランキング形式で提示します。

ユーザーはその中からスライド生成のベースとする参考スライドを選択し、前段で整理したリード文、ボディ、参考スライドなどをもとに、nano banana pro を用いてスライドが画像として生成されます。

今回は1位のレイアウト候補を選択しスライドを生成しました。

生成されたスライドはその場で確認でき、必要に応じて修正を加えることが可能です。

全ページのスライドを確定すると(スライド右上のチェックボタンを押すと)、PowerPoint変換ボタンが有効になり、このボタンを押して機能1は終了です。

このように、思考整理から画像ベースのスライド生成までを一連の流れとして支援することで、ユーザーの意図を正確に反映したスライドを迅速に作成できます。私自身が実際に使用した体感としても、メッセージが頭の中である程度固まっている場合には、1枚あたり3〜5分程度でスライドのドラフトを作成することが可能です。

機能2:画像のスライドをPowerPointに変換する機能

本機能では、機能1で生成された画像ベースのスライドを、編集可能なPowerPoint形式に変換します。単純に画像を貼り付けるのではなく、テキストや図形を再構成し、「後から手直しできるスライド」として出力することを目的としています。

変換処理は複数のパイプラインで構成されています。まず、スライド画像に対して Vision AI(OCR)を用いた文字検出を行い、文字内容に加えて、文字位置・文字色・フォントサイズを推定する独自のアルゴリズムによって文字関連情報を取得します。次に、UI上でOCR結果を人間の目で確認し、必要に応じて修正を行います。

修正前

修正後

修正観点は、下記3点です。

  • バウンディングボックス内のテキストが正しく検出されているか
    • 誤検出されている場合は、画面中央上のテキスト欄で修正
  • 図形オブジェクトにしたい箇所がテキストとして検出されていないか
    • 図形オブジェクトがテキスト検出されている場合は、バウンディングボックスを削除
  • PowerPoint上で同じテキストボックスにしたいテキストがバウンディングボックス上で統合されているか
    • バウンディングボックスが統合されていない場合は統合

なお、この段階でヒューマンフィードバックを挟む理由はいくつかありますが、最大の理由は、テキスト検出が不正確なことにより人の手では再現が難しい複雑な図形オブジェクトが壊れてしまうことを防ぐためです。
例えば、ロゴ内に含まれる文字は本来図形オブジェクトとして扱いたいにもかかわらず、OCRによって一部がテキストとして検出されてしまうケースや、矢印・箇条書きの点など、図形として扱うべきかテキストとして扱うべきか判断が難しい要素がすべてテキストとして検出され、元の画像のレイアウトとかけ離れてしまうケースが存在します。こうした問題に対応するため、テキスト検出後のタイミングでヒューマンフィードバックを挟む設計としています。

画像に対するOCR結果(ロゴの中のAIがテキストとして認識されている)

PowerPoint変換後(ロゴの中の文字がテキストになりレイアウトが崩れてしまっている)

これぐらいなら、手動で手直しできますが、複雑なロゴの上にテキストがあり、ロゴが崩れてしまうと手直しが難しくなります。

ヒューマンフィードバックによる修正が完了したら、画面右上の「PowerPoint生成」ボタンを押して、数分待ち、PowerPointがダウンロードされます。

「PowerPoint生成」ボタンを押した後、バックエンドではテキスト領域のバウンディングボックスを白抜きした画像を作成し、その白抜き部分を周囲と自然に整合させるよう nano banana pro に指示して画像を再生成します。これは、nano banana⇒nano banana proへのアップデートでできるようになった画像の一部分のみを編集できる機能を活用した処理です。

オリジナル画像

テキストを白抜きした結果

nano banana proに白抜きした場所を復元させた結果

再生成された図形オブジェクトのみの画像は Vectorizer AI によって SVG に変換され、さらに独自のアルゴリズムを用いて PowerPoint 上に配置可能な図形オブジェクトへと変換されます。最後に、テキストと図形オブジェクトを統合し、編集可能な PowerPoint ファイルを作成します。これらの処理により、作成されたスライドは単なる画像ではなく、コンサルタントが普段扱っている PowerPoint と同様に編集可能になります。

機能1、機能2を使用して生成したPowerPoint資料(PPTXダウンロード)

機能3:機密情報を自動除去するスライドテンプレ作成機能

本機能では、過去に作成されたPDFやPowerPoint資料をもとに、スライドのレイアウトやユースケース情報を抽出し、再利用可能なナレッジライブラリとして整備します。本ナレッジは、機能1における参考スライド提案に使用され、nano banana proによる高精度なスライド画像生成に寄与します。

一方で、過去資料にはクライアントの機密情報が含まれていることが一般的であり、それらをそのままシステムに保管することは、クライアントとの契約上・情報セキュリティ上の観点から問題となります。そのため本機能では、ユーザが過去資料をアップロードしたタイミングで、資料内の機密情報を自動的に除去する仕組みを組み込んでいます。

まずユーザは、過去案件で作成したPDFまたはPowerPointファイルを「+ファイル追加」ボタンからアップロードします。アップロード後、各ページが解析され、スライドごとのレイアウト構造や「どのようなメッセージを伝える場面で使われるレイアウトか」といったユースケース情報がAIによって抽出されます。同時に、OCRを用いてテキスト領域を検出・除去し、機能2と同様に nano banana pro を用いて図形オブジェクト部分を補完します。 これにより、クライアントの機密情報を含まない形で、スライドをテンプレート化することが可能になります。

機密情報の除去前

機密情報の除去後

ビジネス領域におけるAI活用では、機密情報の取り扱いが常に課題となります。nano banana proを応用し、テキストとレイアウトからレイアウトのみ残すことは他のAIサービス開発においても適用する価値のあるケースは多いのではないでしょうか。

なお、スライドをインプットとしてユースケース詳細を生成する過程では、ユースケース詳細に機密情報が残る恐れがあります。技術的には、プロンプトでの指示や temperature・seed値で出力を確定的にすることで、機密情報が含まれにくい出力に制御することはできますが、機密情報が完全に除かれるとは言い切れません。そのため本機能では、ナレッジの更新箇所をハイライト表示し、確認ボタンを設けることで、機密情報が残っていないかを人の目で定期的に棚卸できるUI設計としています。

ユースケース詳細の更新箇所を黄色ハイライト

確認ボタンを押すと黄色ハイライトが消える

AIシステムにおける情報セキュリティ管理については、国際的なガイドラインが策定途上であり、明確な正解が存在しない状況です。本機能ではその前提に立ち、既存のセキュリティ認証(ISMS認証など)で問題なく審査員に説明できるような設計を採用しています。

このようにして整備されたナレッジライブラリは、機能1における参考スライド提案のためのAIへのインプットとして活用されます。機密情報を含まない形でスライドのレイアウトや使いどころを蓄積することで、組織内のスライド作成ノウハウを安全かつ継続的に活用できる基盤を実現しています。

機能4:参考スライド選択履歴を活用したAIの継続学習機能

本機能では、ユーザーが「どのようなメッセージ」に対して「どの参考スライド(レイアウト)」を選択したかという履歴をもとに、機能3でご紹介したナレッジライブラリを更新し、以降のスライド提案精度を継続的に向上させます。なお、本記事の継続学習の「学習」とはIncontext Learningのことを指し、モデルの重みを更新することを指していません。

スライド提案の精度が重要である理由は、nano banana pro でスライドを生成した後の修正コストにあります。修正を行う際には、再度 nano banana pro に対して指示を与える必要がありますが、指示が曖昧だと思った通りに修正されないことが少なくありません。また、1回の生成におよそ1-3分程度かかる(429エラーが発生するとさらに時間を要する)ため、意図しない結果が続くとUXが大きく損なわれます。そのため、効率的に理想のスライドを生成するには、最初に提案されるベースのスライドが、ユーザーのイメージにできるだけ近いことが重要になります。

本機能では、ユーザーがOCR結果を確認している間、裏側ではAIが各スライドについて、ユーザーが選択したレイアウトと、その際のリード文・ボディといったメッセージ情報を基に、「どのようなメッセージに対して、そのレイアウトが選ばれたのか」をユースケースとして整理・蓄積します。

AIによるユースケースの追加例(ex_001はナレッジライブラリにファイルをアップした際に作成され、ex_002はユーザの参考スライドの選択履歴に基づいてユースケースが作成されています)

こうして蓄積されたナレッジは、参考スライド提案時に活用され、AIが過去のユースケースを鑑みてレイアウトを提示するようになります。一方で、ナレッジが増え続けることによるコンテキスト爆発を防ぐため、一定数を超えたユースケース情報については自動的に統合・削除を行い、情報量を一定に保つ設計としています。削除の判断には、各ターンでAIが「参考になったユースケース」に対して投票(グッド)行っており、評価の低いユースケースが優先的に削除されます。なお、詳細は技術的特徴にて後述します。

投票行動の例(Page7のテンプレートは同じようなユースケースで3回使用されており、その都度AIがグッドボタンを押しています。なお、グッドボタンを押すのはAIのみで人間はグッドボタンは押せません)

このように、ユーザーの選択行動を改善のためのデータとして活用することで、使えば使うほど参考スライドの提案が洗練されていく循環を実現しています。初期設定や手動チューニングに依存せず、実務に即したスライド提案を行える点が、本機能の大きな特徴です。

ユースケース:思考と作業を分離したスライド作成プロセス

本システムの特徴として、スライド作成における「頭を使う部分」と「作業的な部分」を明確に分解できる点が挙げられます。機能1でストーリーやメッセージを検討し、画像ベースのスライドを作成するところまでが「頭を使う部分」であり、それ以降の PowerPoint に変換する工程が「作業的な部分」となります。

ユースケース①:ジュニアメンバーによるスライド作成と上長レビュー

ジュニアメンバーがスライドを作成する際、本システムでAIとチャットしながら、まず資料作成の目的や全体メッセージを整理した上で、各スライドの要点、タイトル、リード文、ボディ、nano banana proを用いたスライドドラフトを作成します。この段階では PowerPoint 形式には変換せず、「どのようなストーリー・メッセージ・見た目のスライドを作りたいのか」を視覚的に表現することに専念します。

スライドドラフトや、要点メモ・リード文・ボディなどは、そのまま上長に共有され、レビューが行われます。ここでのレビューの目的は細かな体裁調整ではなく、全体ストーリーが妥当か、リード文やボディの内容は妥当か、レイアウトの方向性に認識齟齬がないかといったレベルでのすり合わせです。スライドが画像として可視化されており、要点メモやリード文やボディが表形式で整理されているため、上長は「全体ストーリーが違う」「このスライドのリード文が弱い」「レイアウトがズレている」といった形で、どのレイヤーに問題があるのかを明確に切り分けた形でフィードバックできます。

そのフィードバックをもとに、全体ストーリーやリード文・ボディの見直し、参考スライドに存在するレイアウトで修正可能か、それとも新たにレイアウトを設計する必要があるかを含めて修正方針を決定し、再度スライド生成を行います。このプロセスを通じて上長と合意が取れたスライドのみを対象に、OCR チェックを行い、最終的に編集可能な PowerPoint 形式へと変換します。これにより、手戻りを大幅に削減することができます。


※ Nano Banana Proで作成

ユースケース②:シニアメンバーによる構想整理と作業の委譲

シニアメンバーが本システムを利用する場合も、基本的な流れは同様です。まずシニア自身が AIとチャットしながらスライド生成までを行い、「だいたいこのようなスライドを作りたい」という構想を画像として生成します。

その後、生成されたスライドと細かな修正方針をジュニアメンバーに共有し、OCR 確認や PowerPoint 化、細かな調整作業を委譲します。これにより、シニアは本来注力すべき思考に集中しつつ、作業的な工程は単価の低いジュニアメンバーに任せることが可能になります。結果として、役職や経験年数に応じた適切な役割分担が行われ、チーム全体としての生産性向上につながります。


※ Nano Banana Proで作成

このように本システムは、スライド作成における思考と作業を分離し、従来より効率的なスライド作成プロセスを実現します。PowerPoint 化はあくまで最終工程として位置づけられ、スライド作成の本質である「何をどう伝えるか」に集中できる環境を提供します。

競合AIスライド作成ツールとの比較(編集可能な PPTX 出力に限定)

本章では、世界最先端のスライド作成支援AIツールを提供しているClaude Code、Genspark、および本システム(Vibe Sliding AI)を対象に、編集可能な PowerPoint(PPTX)形式で出力できるスライド生成機能に限定した比較を行います。

なお、Gensparkにおいては nano banana pro を用いた画像ベースのスライド生成機能を提供していますが、2026年2月15日現在、出力結果が編集不可であり、本システムと競合しないと判断し、比較対象から除外しています。

同一条件での出力結果比較

以下では、Claude Code、Genspark、本システムに対して、同一のプロンプトおよび同一のスライドテンプレートを入力し、編集可能な PPTX として出力した結果を比較します。なお、本システムはAI側から人間に確認をとる仕様ですが、可能な限り同一条件での比較とするために本システムでスライドを作成する際、前提情報以外はすべてOKを選択し、参考スライドは1位のもの選ぶようにして、人間による修正を可能な限り排除しています。ただ、OCR結果の確認については、人間の確認があることを前提としたシステム設計のため、最小限の修正を加えています。

使用したプロンプト

  • 本記事の本節(競合AIスライド作成ツールとの比較)を除いたテキスト全文
  • スライドテンプレート、各テンプレートのユースケースなど10枚分
    プロンプトをダウンロード

出力結果:Claude Codeが作成した資料

出力結果:Gensparkが作成した資料

出力結果:本システム(Vibe Sliding AI)が作成した資料

比較結果の所感

前提として、今回比較対象としたClaude CodeおよびGensparkは、日頃から活用させていただいている優れたサービスであり、いずれも高い完成度を持つプロダクトです。その点を十分に尊重したうえで、あくまで個人の所感として述べさせていただきます。

今回の検証では、コンサルティング業界で一般的に求められるデザインテイストに最も近いアウトプットを生成できていたのは、本システムであると感じました。一方で、全サービスに共通していた課題として、ストーリー構成やメッセージ設計の精度には改善の余地があると感じました。

今回は比較のため、事前の綿密なストーリー設計やメッセージすり合わせを行わず、ノンストップでAIに資料生成を依頼しました。仮に事前にストーリーやメッセージが十分にAIにインプットされた状態であれば、本システムのアウトプットは体感として7〜8割程度の完成度には到達するのではないかと考えています。

その上で、自社フォーマットへの適用や、レイアウト崩れなど一部オブジェクトの微調整を行えば、実務提出可能な水準まで短時間で仕上げることができる印象です。なお、フォーマット調整や軽微な修正といった定型作業については、Claude Codeのようなツールと組み合わせて活用するなど、それぞれの強みを生かした使い分けも有効であると感じました。

技術的特徴:本システムにおけるエージェンティックな処理

本システムでは、本ハッカソンの主題である「エージェンティックな処理」が二か所で実装されています。一つはスライドのストーリー設計における品質制御、もう一つはスライド選択履歴を用いたナレッジの自動整備です。

ストーリー設計におけるエージェンティックな品質制御

ストーリー設計では、全体の流れはあらかじめ定義されたワークフローに基づいて進行しますが、その中でも特にスライドの品質への影響が大きい「リード文」と「ボディ」の生成において、エージェンティックな処理を組み込んでいます。

具体的には、AIがリード文およびボディを提案する際、AIはこれまでのユーザーとの会話履歴や前提情報をもとにドラフトを生成します。その後、このドラフトをそのままユーザーに提示するのではなく、事前に定義した評価基準に基づいて評価AIが点数評価を行います。評価結果が閾値を下回る場合、AIは「情報が不足している」と判断し、追加ヒアリングした上でドラフトの再生成を行います。このドラフト生成と評価のループを経て、点数が閾値を超えた場合のみ、リード文およびボディの案をユーザーに提示する設計としています。


※ Nano Banana Proで作成

このように、AIが自ら生成物の妥当性を評価し、必要に応じて行動(質問/提案)を切り替えることで、品質の低い提案がユーザーに提示されることを防ぎ、スライドの品質を安定させています。なお、この処理をストーリー設計全体に適用せず、リード文とボディに限定しているのは、これらの要素がスライドの完成度を最も大きく左右することに加え、クライアント固有の文脈や業界特有の前提など、AIがあらかじめ持ち得ないドメイン知識をユーザーから与えた上で作成する必要があるためです。品質への影響度が高く、かつ提案の難易度が高い箇所にのみエージェンティックな制御を組み込むことで、AIが執拗に質問し続けることを避けつつ、実務に耐えうる品質を確保しています。

ナレッジ自動整備におけるエージェンティックなコンテキスト管理

スライド生成後のナレッジ整備では、Agentic Context Engineering(ACE)というコンテキスト管理手法の設計思想を取り入れ、ナレッジが自動的に更新・整理される仕組みを構築しています。まず、ユーザが全ページのスライドを確定させたのち「PowerPoint変換」ボタンを押すと、各ページごとの要点メモ、タイトル、リード文、ボディ、またユーザが選択した参考スライドがAIに渡され、社名・製品名・具体的な数値目標などの機密情報を除去しつつ、一般化されたユースケース情報へと変換します。

この処理の裏でナレッジを整備しています。

次に、当該スライドに既存のユースケース例が存在するか、内部で定義した類似度評価基準を基に類似度を算出します。類似度が閾値を超えた場合は既存ユースケースと同一と判定し、当該ユースケースが有用なものと判定して高評価を付ける処理を行います。一方、類似する例が存在しない場合は、新たなユースケースとして追加します。

類似度評価を行い類似している場合は、当該ユースケースが有用なものと判定してグッドボタン(helpful++)が押され、類似していない場合はユースケースを追加します。


ただし、各スライドが保持できるユースケース例は最大5件までに制限しています。この上限に達した場合には、整理処理が自動的に実行されます。AIは各ユースケースを比較し、グッド数の低い例の削除や、意味的に近い例の統合を行います。これにより、ナレッジの量を抑制しつつ、実際に使われた情報が優先的に残る構造となっています。

コンテキスト圧縮とリフレクション(反省)の扱いに関する設計上の工夫

一般に外部メモリを用いたコンテキスト管理における課題として、一括要約処理によって本来必要な情報まで過度に圧縮されてしまうことや、古い情報など不要な情報が削除されず残ってしまうこと(「コンテキスト腐敗」と呼ばれます)が挙げられます。ACEでは、情報を箇条書き形式で保持し、毎ターン段階的に有用な情報を評価、不要な情報を削除、類似する情報を統合する設計を採用しているため、コンテキスト腐敗のリスクを低減できます。なお、情報同士に意味的なつながりがあり、単純に箇条書き形式で情報を管理できない場合にはACEは適していませんが、今回はユースケースを整理する用途であり、ユースケース間の意味的な結びつきが弱いため、この手法を採用しています。

また、ACEの特徴の一つとしてリフレクション(反省)が精度向上に寄与する点が挙げられます。コンテキストを蓄積するにあたり、次回以降の改善につなげるために今回の実行結果やユーザ操作を基にAI自身が反省するのですが、本システムではこの反省の扱いをあえて限定しています。ユーザーが参考スライドを選択した履歴はAIにとっての正解値として機能するものの、「なぜその参考スライドを選んだのか」を推論させることは、ユーザーの嗜好が混在するため、必ずしもロジカルな反省につながりません。そのため本システムでは、AIに反省を行わせるのではなく、「そのレイアウトが、どのようなメッセージを表現する際に使われたか」をユースケースとして整理するに留めています。これにより、的外れな反省によってコンテキストが汚染されることを防ぎつつ、実務上有用なナレッジを蓄積する設計としています。


※ Nano Banana Proで作成

まとめ・今後の展望

本システムのビジネス的な価値について、AI がストーリー設計を支援する機能や自然言語ベースで高品質なスライドを作成する機能は、長期的にはGoogleやMicrosoftによって代替される可能性が高いと推察しています。一方、コンサルタントが高速かつ高品質にスライドを作成できるのは、「どの文脈で、どのフォーマットを使うか」という判断基準を実務を通じて暗黙的に蓄積しているためであり、本システムの価値はこの判断基準をナレッジライブラリとして形式知化し、組織のナレッジとして蓄積・活用できる点にあると考えています。そのため、今後は、コンサルティングファームにおいて本システム導入し、ナレッジを継続的に蓄積することを最重視したいと考えています。

参考

システムアーキテクチャ

使用技術一覧

種別 使用技術
Frontend Next.js 16, React 19, TypeScript, Tailwind CSS, ag-Grid
Backend FastAPI, Python 3.12, uv
AI / ML Vertex AI(Gemini 2.5 Flash), Gemini API(画像生成・編集)
Google APIs Speech-to-Text V2(Chirp 3)
External APIs Vectorizer.AI(SVG変換)
Authentication Firebase Auth
Hosting Firebase Hosting(Frontend), Cloud Run(Backend)
Storage Cloud Storage(GCS)
Container Docker + LibreOffice, Artifact Registry
Deploy deploy.ps1(手動スクリプト)
Secrets Google Secret Manager
IaC Terraform(モジュール構成)
画像処理 OpenCV, Pillow, python-pptx, pypdfium2, vtracer

設計思想と具体的判断

# 思想 具体的な判断
1 最小コスト(従量課金優先) Cloud Run(scale-to-zero)+ Firebase Hosting。ハッカソン用のため固定費を避ける
2 ユーザー単位のデータ分離 GCS にユーザー別ディレクトリを作成 → Firebase Auth で認証フローを設計
3 レート制限回避 gemini-3-pro-image-preview のみ Vertex AI から Gemini API に切り替え(Vertex AI は 429エラー が頻発し実用困難だったため)
4 音声入力で Vibe 感向上 Speech-to-Text(Chirp 3)で音声対話を実装し、AIとの対話体験を強化

Discussion

norixnorix

【2026/2/19 追記(ハッカソン審査対象外コメント)】

※本追記は記事本文の一部訂正ですが、審査対象には含めない前提での訂正となります。

本記事の「機能2:画像のスライドをPowerPointに変換する機能」において、nano banana pro を用いた inpaint 処理について以下のように記載しておりました。

「nano banana ⇒ nano banana pro へのアップデートで可能になった、画像の一部分のみを編集できる機能を活用した処理です。」

しかしながら、その後の検証により、テキスト情報を除いた画像の一部分を編集する inpaint 機能自体は nano banana pro 以前から Google が提供している他のモデル(Imagen 3等)でも実現可能であることが判明いたしました。(※テキストが含まれているinpaint処理はnano banana proが必要と思料)

そのため、本記事で紹介しておりましたinpaint処理において nano banana pro を使用することは、結果としてオーバースペックであり、モデルの適切な使い分けという観点で誤解を招きかねない内容でした。

適切でない使い方を紹介してしまいましたことをお詫び申し上げます。

なお、本記事はハッカソン提出物としてすでに提出済みであり、規定によりハッカソン終了までは本文の修正ができません。ハッカソン終了後に該当箇所を修正予定です。