💸

固定売上×変動コストの落とし穴：AI時代のSaaSが直面する課題と解決策

2025/02/03に公開

※ こちらは note に書いた記事の転載です

 1. 生成AIベンダーが抱えるコスト構造の深刻さ生成AIは、チャットボットや文章生成、データ解析など、多くのビジネスシーンで革新的な価値をもたらしています。しかし、その急速な普及の一方で、ユーザーの利用が増えるほど膨れ上がる運用コストという深刻な課題を抱えていることが明らかになってきています

 膨大なインフラ負荷と収益のアンバランス大規模GPU/TPUの投資

高性能なAIモデルを運用するには、膨大な演算資源が必要です。ユーザー数が増加するほど、データセンターの設備投資や保守費用が跳ね上がります
電力消費の急増

GPUをフル稼働させる推論処理は電力コストも高騰します。ユーザーが増えるほど、これらのランニングコストが指数的に増える可能性があります
代表的な例として、週あたり3億人以上が利用するとされるOpenAI の ChatGPT の苦悩があげられます
ユーザー規模は純粋な生成AI企業の中では最大
業界内で最も低い解約率を持つ
Paid User のうち 70% が 6ヶ月後も継続している

(6ヶ月 Churn rate が 30% 程度ということ)
CEO Sam Altman wrote, “Insane thing: we are currently losing money on OpenAI pro subscriptions! People use it much more than we expected.” (Pro subscriptions cost $200 a month.)
https://martech.org/ai-powered-martech-news-and-releases-janua
"$200/month の Pro Plan で o1 を使い放題にしちゃったら想像以上に使われちゃってる、やばい！" ってことだと思います
この、ユーザーには固定額で(使い放題で)提供し、コスト側は利用量に応じて従量でかかってしまっているというのが、ポイントのひとつです
かつての、Spotify や Uber でもサービス初期の頃は売上に対して販管費を含むコストが大きく赤字続きだったということもありますが、基本的に彼らのそれはマーケティング費用などが圧迫要因だったため、サービスが軌道にのりそれらを削減することで黒字化を果たしています
しかし、利用が拡大したあと広告費を削減して黒字化するモデルとは異なり、生成AIではユーザーあたりの利用拡大がコスト増に直結するというのが構造上のネックとなっているわけです。OpenAI の昨年の売上 37億ドルに対して、50億ドルのコストを計上しており、さすがにいまの OpenAI がマーケティングに 13億ドル費やしているとは考えにくいため、この推測は的を外していないでしょう

 2. SaaSにおける「固定収益 vs. 変動コスト」のギャップこうした構造的問題は、私たちのようなSaaS事業にも当てはまります。SaaS の収益はたいてい月額・年額のサブスク（固定）がメインですが、AIベンダーへの支払いは利用量に応じた変動費になりがちなためです
売上サイドは「固定」
コストサイドは「変動」
このねじれによって、ユーザー数や利用量が増えて売上が伸びても、AIの従量課金コストもほぼ同等以上に増え、収益性が大幅に圧迫されるリスクが生じます

 2階建てプライシングという選択肢そこで考えられる対策が、「SaaS利用料（固定）＋AI利用量（従量）」の2階建てプライシングです
基本機能は固定料金に含む

顧客管理やレポーティング、一般的なマーケティング機能など、AI依存度の低い部分
高度なAI機能は利用量ベースの追加料金

大規模言語モデルでの生成や推論を大量に行う場合は、その分を別途従量課金でカバー
こうすることで、サービス提供者は利用拡大を歓迎しつつも、コスト爆発を回避できる仕組みを作れます

 3. コスト最適化による差別化──技術×ビジネスモデルしかし、2階建てプライシングで解決できているのは事業会社側の課題で、それをユーザー課金に転嫁しているに過ぎません。そのため、どれだけ上手にコストを最適化し、ユーザー側の負担を減らせるか、または、自社の利益を残せるかが差別化要因（Moat）としてまだ残されています。コスト削減にはいくつかの手段があります

 (A) 小さなモデル＆Fine-Tuneの活用OpenAIが公式で示している 「モデル選択ガイド」 でも述べられているように、まず、精度 First ということで、コストを下げるために精度を犠牲にはしない、ということは前提です。そのうえで、過剰に大きなモデルを使わなくても十分な精度が得られるケースは多々あります


via https://platform.openai.com/docs/guides/model-selection

小さめのモデルで十分な精度を出す

「4o-mini」クラスのライトなモデルでも、文章生成や要約などライトなタスクには十分な場合が多い

Fine-Tune（ファインチューニング）で精度強化

事前学習済みの小型モデルを、自社のドメインデータや実際の問い合わせログなどで学習し直すことで、必要十分な精度に達することが可能。

→ 大きなモデルを使わずに済むため、結果的に推論時のリソース消費が減る
例えば、4o と 4o-mini では実に 16倍のコストの違いがあります。このあたりが要件に落とし込まれていない PoC では往々にして、エンジニアはなんとなくデフォルトっぽい 4o を使ってしまいます
デフォルトっぽい 4o を思考停止で使ってしまう
精度が出る
コスト試算なども単発で行い、(例) 80件のデータを処理するのに約 2000円くらいでいけます
ビジネスサイドも「そのくらいなら許容できるか…」 みたいな意思決定をしてしまう
こういう流れではコストのガバナンスが効きにくいです。しかし、幸運にもビジネスが拡大すると、ここは掛け算で伸びていき、また、ユーザーもヘビーユーザーが増えていくと、利益率を毀損していきます。同じ精度が出せるなら 1/16 のコストですむモデル(この例では 4o-mini)を使うべきなのは自明です
Fine-Tune も一歩目は簡単に試せると思います
高性能なモデルでまずは運用する
良い結果に対して人間がフラグ立てする(アノテーション)
データが溜まったらそれを教師データとして学習させる
それで Fine-Tune された小さなモデルで精度のテストをする
まとめると、モデル選択は利益率に、つまりEBITDAに直結します。そう思えば全員の意識も高まると思います

 (B) Batch API や Cache(AI文脈) を使うこちらも OpenAI の公式ドキュメントを見ていただくとわかるのですが、Batch API であれば、同じモデルでも 50% の割引が受けられます。AI を使っているタスクのなかで、リアルタイムに処理しなくてよいものも結構あることと思います。こういうときには Batch API の利用を検討するのも良いと思います。チュートリアルなどではリアルタイムレスポンスの API を使う例が多いため、これも PoC では思考停止的に使われてしまうことがあると思います。
同様に、リアルタイムレスポンスが必要なケースでも、Cache された Token であればこちらも 50% の割引が受けられます。ここは、アプリケーションサイドの実装の工夫によって、Cache ヒット率をあげていくことは可能です
そんなに複雑なことをしているわけではないので、例を見せてしまいますが、定型的な Prompt と繰り返し部分を分けて、定型的なところを先に与えてキャッシュさせるというシンプルな工夫です
これによって、計算上は 90% の Token がキャッシュから賄われ、それが 50% のコスト削減となり、全体で 45% のコスト削減となります。(input と output で token/$ が異なり、cache されるのは input のほうであるため、実コストは 35% の削減にとどまっています)
金額ベースだと、 $0.0003252 → $0.0002099 ととても小さな削減に見えますが、これが掛け算で効いてくることを忘れてはいけません
このあたりも、エンジニアリングが EBITDA に明確に寄与できるポイントです

 (C) 運用・設計レベルでのコストコントロール3つ目は、AI 側というよりそれをとりまく環境にあたる部分です
キャッシュ戦略

同じリクエストを何度も処理しないようにし、APIコールやトークン消費を抑える
バッチ処理の導入

リアルタイム性の低いタスクは、まとめて低負荷帯で実行する
APIコールのモニタリング

不要なリクエストや異常にトークンを消費しているプロセスを早期に発見し、改善策を実装する
これらの取り組みによって、SaaS全体のコスト構造を最適化し、顧客満足度と収益性を両立させることが可能になります

 まとめ：落とし穴を回避し、次の成長へ課題: 売上サイドのプライシングモデルと、コストサイドの変化の仕方のねじれ
打開策: 上記の課題自体は2階建てプライシングなどで解決可能
成長へのポイント:

・ コストサイドを圧縮する工夫で、高い利益率を引き続き維持する

・ 顧客への課金を小さくし、利益率を維持したまま、価格面での競合優位を築ける
生成AIの波はビジネスのあり方を変えるほどのインパクトを持っていますが、コスト管理の視点を怠ると「利用が増えたのに利益が出ない」という深刻な事態に陥りかねません。だからこそ、売上とコストのねじれをどう埋めるかをいまのうちに真剣に考え、技術やプライシングを含めた包括的な戦略を設計することが、AI時代の SaaS ビジネスを成功へ導くカギだと感じています

 参考AI-powered martech news and releases: January 16 | MarTech

https://martech.org/ai-powered-martech-news-and-releases-january-16/
OpenAI Official Docs: Model Selection

https://platform.openai.com/docs/guides/model-selection

1. 生成AIベンダーが抱えるコスト構造の深刻さ

膨大なインフラ負荷と収益のアンバランス

2. SaaSにおける「固定収益 vs. 変動コスト」のギャップ

2階建てプライシングという選択肢

3. コスト最適化による差別化──技術×ビジネスモデル

(A) 小さなモデル＆Fine-Tuneの活用

(B) Batch API や Cache(AI文脈) を使う

(C) 運用・設計レベルでのコストコントロール

まとめ：落とし穴を回避し、次の成長へ

参考

Discussion