LLMアプリの観測性ツール7選を比較した結果、私がLangfuseを選んだ理由
LLMアプリは「動いている」だけでは足りない
LLMアプリ開発を始めて、最初に直面する壁があります。
HTTPステータス200が返っていても、回答がデタラメかもしれません。
従来のWeb APIなら、レスポンスタイムとステータスコードを見ていれば健康状態はおおよそわかりました。しかしLLMを組み込んだAPIには、従来のAPIにはない3つの特性があります。
- 非決定的な出力 ── 同じリクエストでも毎回違う回答が返ります。200 OKでも中身は保証されません。
- 見えないコスト ── トークン課金は1リクエストごとは小さくても、月末に「えっ、こんなに?」が起こります。
- 変動するレイテンシ ── プロンプトの長さやモデルの負荷で応答時間が大きく揺れます。
Webエンジニアなら Datadog や Sentry でアプリを監視した経験があるでしょう。LLMアプリにも同じ「観測性(Observability)」が必要ですが、LLM特有のメトリクス──使用トークン数、コスト、プロンプトと応答の中身──を追跡するには、専用のツールが求められます。
2024〜2025年にかけて、この領域のツールは爆発的に増えました。選択肢が多すぎて「結局どれを使えばいいのか」がわかりにくい状況です。
本記事では、主要な7つのツールを比較した上で、私がなぜLangfuseを選んだのかを整理します。
主要ツール7選:一覧と特徴
まず全体像を俯瞰しましょう。各ツールの立ち位置を一言で表すと以下の通りです。
| ツール | 一言で言うと | OSS |
|---|---|---|
| Langfuse | LLM観測のスイスアーミーナイフ | Yes(MIT) |
| LangSmith | LangChain公式の専用ツール | No |
| Arize Phoenix | OpenTelemetryネイティブの実験特化型 | Yes(Apache 2.0) |
| Helicone | URLを変えるだけの最速導入ゲートウェイ | Yes |
| Portkey | マルチLLMプロバイダの経路制御+観測 | 一部Yes |
| Braintrust | 評価・A/Bテスト特化型 | 一部Yes |
| Datadog LLM Observability | 既存インフラ監視へのLLMアドオン | No |
以下、それぞれ掘り下げていきます。
1. Langfuse ── 観測・評価・プロンプト管理のオールインワン
Langfuseの最大の特徴は、1つのプラットフォームで3つの機能が揃うことです。
- トレース: 各APIコールの入出力、処理時間、使用トークン数、コストを自動記録
- 評価: LLM-as-a-Judgeや人手評価のスコアリング
- プロンプト管理: バージョン管理、UIからのデプロイなしでの切り替え
Webエンジニアへの類推で言えば、Datadog(APM)+ LaunchDarkly(Feature Flag)+ テストダッシュボードが1つになったようなものです。
from langfuse.decorators import observe
@observe()
def handle_question(question: str) -> str:
context = retrieve_documents(question) # RAG検索
prompt = build_prompt(question, context) # プロンプト構築
response = call_llm(prompt) # LLM呼び出し
return response
@observe() デコレータを付けるだけで、関数の入出力・実行時間・トークン数が自動でLangfuseに送信されます。LangChain、LlamaIndex、OpenAI SDK、Vercel AI SDK、あるいは独自実装──何を使っていても統合できるフレームワーク非依存設計がポイントです。
向いているケース:
- フレームワークに縛られない独自パイプライン構成
- トレースからプロンプト管理まで一元管理したい
- OSSでセルフホストも視野に入れたい(Cloud版の無料プランもあり)
注意点:
- セルフホストにはClickhouse + Redis + S3が必要で、構成がやや重めです
2. LangSmith ── LangChainユーザーの第一選択肢
LangChainを作っている会社が提供する公式ツールです。環境変数を1つ設定するだけで、LangChain/LangGraphのすべてのステップが自動トレースされます。
export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=your-key
# これだけ。コード変更ゼロ。
パフォーマンスオーバーヘッドも極めて小さく、LangChainで開発しているなら導入のハードルは最も低いです。
向いているケース:
- LangChain/LangGraphで開発しており、最速で観測性を手に入れたい
注意点:
- クローズドソースです。LangChainエコシステムへの依存度が高くなっています
- LangChain以外のフレームワークとの統合は手間がかかります
- ベンダーロックインのリスクがあります
3. Arize Phoenix ── OpenTelemetry時代の実験プラットフォーム
OpenTelemetry(OTLP)にネイティブ対応したオープンソースツールです。既にDatadogやJaegerでOTel基盤を構築しているチームなら、既存のパイプラインにそのまま乗せられます。
最大の魅力はセルフホストの手軽さです。Dockerコンテナ1つで起動できます。Langfuseのセルフホストが「Clickhouse + Redis + S3」を要求するのに対し、Phoenixは圧倒的に軽いです。
向いているケース:
- OpenTelemetry基盤が既にある
- セルフホストを最小構成で始めたい
- 実験・開発フェーズの分析に注力したい
注意点:
- プロンプト管理機能がありません
- 本番環境でのコスト監視・使用量モニタリングは弱めです
4. Helicone ── コード1行で始める最速導入
Heliconeのアプローチは他と根本的に違います。SDKを組み込むのではなく、LLM APIのベースURLをHeliconeのプロキシURLに差し替えるだけで導入が完了します。
# Before
client = OpenAI(api_key="sk-...")
# After(これだけ)
client = OpenAI(
api_key="sk-...",
base_url="https://oai.helicone.ai/v1"
)
プロキシとして動作するため、レスポンスキャッシュやプロバイダフォールバックといったゲートウェイ機能も使えます。「まず最小コストで観測性を入れたい」というケースに強いです。
向いているケース:
- 今すぐ、最小の変更でログを取り始めたい
- コスト追跡・キャッシュ・フォールバックもまとめて欲しい
注意点:
- リクエストがHeliconeを経由するため、レイテンシが増える可能性があります
- 評価・プロンプト管理の深さではLangfuseに劣ります
5. Portkey ── マルチプロバイダ時代のAIゲートウェイ
「OpenAIとAnthropicとGeminiを使い分けている」──そんなチームにはPortkeyが刺さります。1,600以上のLLMプロバイダに対応し、ルーティング・フォールバック・ロードバランシングを一元管理できるAIゲートウェイです。
観測性はゲートウェイの付随機能として提供されます。リクエスト/レスポンスの40以上の詳細メトリクスを自動記録し、APIキーのVault管理やガードレール機能も内蔵されています。
向いているケース:
- 複数のLLMプロバイダを使い分けており、経路制御が必要
- ゲートウェイ+観測を1つのツールで済ませたい
注意点:
- 観測・評価の深さでは専業のLangfuseに劣ります
- ゲートウェイが主目的なので、観測だけが目的なら過剰な場合があります
6. Braintrust ── 評価とA/Bテストに振り切ったプラットフォーム
「モデルAとモデルBで、どちらのプロンプトがより良い結果を出すか?」──この問いに最も直接的に答えてくれるのがBraintrustです。実験管理・モデル比較・A/Bテストに特化しており、CI/CDパイプラインへの組み込みも容易です。
向いているケース:
- プロンプトやモデルの比較実験を頻繁に行う
- 評価をCI/CDに組み込みたい
注意点:
- トレース機能は付随的です。本番監視にはLangfuseなど別ツールとの併用が必要な場合があります
7. Datadog LLM Observability ── 既存の監視基盤にLLMを追加
チームが既にDatadogでインフラ・APMを運用しているなら、LLMの監視も同じダッシュボードに統合できます。新しいツールを導入する学習コスト・運用コストがゼロになるのは大きなメリットです。
向いているケース:
- 既にDatadogで運用監視しており、ダッシュボードを統一したい
- エンタープライズ規模のスケーラビリティが必要
注意点:
- LLM専用設計ではないため、プロンプト管理・LLM特有の評価機能は弱めです
- 料金がエンタープライズ寄りです。個人や小規模チームには向きません
選び方の早見表
| あなたの状況 | おすすめ | 理由 |
|---|---|---|
| LangChainで開発中、最速で入れたい | LangSmith | 環境変数1つ、オーバーヘッド最小 |
| フレームワーク非依存で本番運用まで | Langfuse | 観測+評価+プロンプト管理がオールインワン |
| OTel基盤あり、軽量セルフホスト希望 | Arize Phoenix | Dockerコンテナ1つで起動 |
| 今すぐ最小変更でログを取りたい | Helicone | APIベースURL変更だけ |
| 複数LLMプロバイダの経路制御が必要 | Portkey | ルーティング・フォールバック込み |
| 評価・実験比較に注力したい | Braintrust | A/Bテスト・CI/CD統合が得意 |
| 既にDatadogで運用監視している | Datadog | 既存ダッシュボードに統合可能 |
私がLangfuseを選んだ理由
ここまで客観的に各ツールを比較してきました。ここからは私個人の選択理由を書きます。
理由1: フレームワークに縛られたくなかった
私のプロジェクトはFastAPI + 独自RAGパイプラインという構成です。LangChainは使っていません。この時点でLangSmithは候補から外れます。
Langfuseは @observe() デコレータやPython SDKで、どんなコードにも後付けで統合できます。フレームワークの選択がツールの選択を制約しません。これは「モデルもフレームワークも頻繁に変わるLLM開発」において、想像以上に重要です。
理由2: 「観測 → 評価 → プロンプト管理」を1ツールで回せる
開発初期はトレースだけあれば十分でした。しかしプロジェクトが進むにつれて、「この回答は本当に正しいのか?」(評価)、「プロンプトを変えたい」(プロンプト管理)というニーズが必ず出てきます。
Langfuseなら、ツールを乗り換えることなく段階的に機能を使い始められます。ツールの乗り換えコストはゼロです。
別の記事でも書きましたが、プロンプトをコードにハードコードするのは悪手です。Langfuseのプロンプト管理を使えば、エンジニア以外のメンバーもGUI上でプロンプトを修正・テストできます。デプロイなしで本番の振る舞いを変えられるのは、チーム開発では計り知れないメリットになります。
理由3: OSSであること
LLMの観測データには、ユーザーの質問内容やAIの回答が含まれます。つまり機密性の高いデータです。
Langfuseはオープンソース(MIT License)なので、必要に応じてセルフホストに移行し、データを自社管理下に置けます。Cloud版の無料プランで気軽に始めて、プロジェクトが大きくなったらセルフホストに切り替える──この段階的な移行パスがあるのは安心感があります。
理由4: コミュニティと開発の活発さ
GitHub Stars 6,000超、LangChain・LlamaIndex・OpenAI SDKとの公式インテグレーション、活発なDiscordコミュニティ。OSSプロジェクトの持続性を判断する上で、このエコシステムの厚みは重要です。
まとめ:「とりあえずLangfuse」で始めて問題ない
正直なところ、LLM観測性ツールの選定に正解はありません。プロジェクトの規模、使っているフレームワーク、チームの既存ツールスタックによって最適解は変わります。
しかし、迷っているならLangfuseから始めるのが最も安全な選択ですと私は考えます。理由は明快で:
- フレームワークを問わない
- 無料で始められる
- 必要に応じて機能を段階的に使える
- OSSなので逃げ道がある
LangChainを使っているならLangSmith、既にDatadogがあるならDatadog、とにかく最速で入れたいならHelicone──それぞれ「こっちの方が良い」ケースは確かにあります。
しかし、「今はまだ決めきれない」「将来どうなるかわからない」という状況なら、汎用性とオールインワンのバランスが最も良いLangfuseが、後悔の少ない選択になるはずです。
LLMアプリの設計論については、こちらの記事も参考にしてみてください:
LLMアプリ開発で死なないための設計思想 - Langfuse時代の実務ベストプラクティス
Discussion