Closed2ヶ月前にクローズ5

Clineに使わせる安いモデルを模索

Gemini 2.5 proの性能はいいがお金がかかる
Claude 3.5ぐらいの性能でいいので安価に使えるAPIはないのか

こういうのはChatGPTのDeep Researchに実施させるのがよい。

了解した。これから、Clineで利用実績があり、かつClaude 3.5以上の性能を持つ、コーディング・推論性能重視で安価なLLM APIを調査する。無料枠は考慮せず、個人利用可能なものを探す。完了したらまとめて共有する。

 Clineで利用可能なより安価なLLM APIの候補以下の表に、現在利用中のGoogle Gemini 2.5 Proよりも安価で、コーディングおよび推論性能に優れたLLM APIをまとめます。各モデルの性能概要には推論力・コーディング適性・日本語対応状況を記載し、価格はAPI利用時の主な料金体系を示しています。


モデル名
提供元
性能概要
価格
Cline利用実績
公式リンク


Claude 3.7 Sonnet
Anthropic
Anthropic社の最新モデル。高度な推論・コーディング能力を備え、200Kトークンの巨大なコンテキスト対応。日本語を含む多言語で高い精度の応答が可能。
入力$3/100万トークン、出力$15/100万トークン

あり（Anthropic APIとしてCline連携可能。Cline公式でもコード用途に推奨）
Anthropic API公式

GPT-4 (GPT-4o)
OpenAI
OpenAIのGPT-4シリーズのモデル。高度な論理推論とコード生成能力を持ち、マルチタスク性能が非常に高い。日本語を含む多言語でも極めて流暢に応答可能。
入力$5/100万トークン、出力$15/100万トークン 
（GPT-4oの場合。従来GPT-4の約半額のコスト）

あり（OpenAI APIキーを設定して利用可能）
OpenAI APIドキュメント

Mistral Large 24.11
Mistral AI
仏Mistral AI社の大規模モデル（1230億パラメータ）。長文コンテキストに強く、高度な推論力と知識推論・コード理解能力を備える。日本語は主に英語訓練だが一定の対応可。
Vertex AIやAWS Bedrock経由の従量課金制（公式価格非公開。クラウド利用料に準拠）

限定的（ClineからAWS/GCPエンドポイント設定で利用可能）
Mistralモデル概要

Mistral Codestral 25.01
Mistral AI
Mistral Largeをベースにしたコード特化モデル。80以上のプログラミング言語をサポートし、コード補完や挿入（FIM）に最適化。コード生成速度が高速（前世代比2.5倍）で、大規模コードにも対応（256Kコンテキスト）。日本語での指示も可能だが会話能力は英語中心。
Vertex AI経由の従量課金制（クラウド上での実行コストに準拠）

限定的（同上、カスタムエンドポイントで利用可能）
Mistralモデル概要

DeepSeek R1 Distill (70B)
DeepSeek (OSS)
オープンソースの最先端モデル。Llama2 70Bを強化し、大規模強化学習で推論力を高めたもの。数学・コード・推論タスクでOpenAIの最上位モデルに匹敵する性能を実現。日本語はある程度理解可能だが、主に英語データで学習。
約$2/100万トークン（入力+出力合計） 
（※Together API利用時の例。非常に低コスト）

あり（Clineで「DeepSeek Chat」として提供実績）
DeepSeekモデルカード

Perplexity Sonar Pro
Perplexity AI
Perplexity社提供の生成AI検索API「Sonar」の上位モデル。リアルタイムのウェブ検索結果を組み合わせ、複雑な質問に詳細な回答を生成可能。内部で高性能モデル（DeepSeek R1のCoT版）を使用し、推論力・正確性が向上。日本語での検索回答も可能だが、主に英語情報源に最適。
基本料金: $5/1000検索 + 入力$3/75万語 (≈100万トークン) + 出力$15/75万語 
（検索回数に応じ追加課金）

不明（直接のCline統合例は無し）
Perplexity API概要


オープンソースLLM各種 
(例: Code Llama 34B, WizardCoder 34B等)

Replicate社（APIホスティング）
複数のOSSモデルをAPI経由で利用可能。モデルによるが、コード専門モデルでは中～大型モデル(30-70B)がGPT-3.5相当の性能を発揮。HumanEvalで50%前後のコード問題正解率を達成したものもあり、コーディング支援に実用可能。日本語は学習データ量に依存し、簡単な指示なら対応可。
モデル実行時間に応じた課金（秒単位）。
参考: Llama-3 70Bの場合 入力$0.65/100万トークン、出力$2.75/100万トークン

不明（直接の実績情報なし。REST APIとしてキー設定により利用可能）
Replicate公式

Llama 4 Maverick (17B×128)
Groq (独自推論API)
Meta社のオープンモデルをGroq社の高速チップ上で大規模Mixture-of-Experts化したモデル。17Bモデル128機を組み合わせることで、高度な推論・コーディング性能を達成（GPT-4クラスに肉薄）。応答速度も高速。日本語対応は学習コーパス由来で一定可能。
入力$0.20/100万トークン、出力$0.60/100万トークン 
（非常に低廉な従量課金）

不明（専用API。Clineからの直接利用例は未確認）
Groq API概要


Together APIのOSSモデル 
(例: Llama 3.3 70Bなど)

Together AI
Together社が提供するオープンモデル群の統合API。300以上のOSSモデルに対応。Llama 3系やMixtral(MoE)など高性能モデルをサーバレスで利用可能。たとえばLlama-3 70Bは高い対話性能を示し、GPT-4oより大幅低コストで利用可能。日本語もモデル次第で対応（多言語学習モデルを選択可能）。
従量課金（トークン数計算）。
参考: Llama 4 Maverick $0.27/100万入力・$0.85/100万出力、DeepSeek-R1 Distill 70B $2.00/100万トークンなど非常に安価。

不明（直接の実績情報なし。OpenAI互換APIでCline設定可能）
Together公式

補足: 上記の価格は記事掲載時点の情報に基づきます（2025年4月）。実際の料金や提供状況は各サービスの最新ドキュメントをご確認ください。またClineでの利用に際しては、各モデルのAPIキー取得やエンドポイント設定が必要です。ClineはAnthropicやOpenAI、各クラウド（AWS/GCP）等のAPIキーを設定する機能があるため、表中「利用実績」が明示されていないモデルも、適切にAPI設定を行えば使用可能な場合があります。各モデルの公式リンク先に詳細なAPI利用方法が記載されています。

OSS系は安いなという結果になった。Groq怪しいのでtogether.aiに手を出してみたい。
Qwen2.5よりQwen3が安い…

 お試し案

 Deepseek R1 Distill

 Deepseek V3 ... Claude 3.5には及ばないが使えそうとの評価があるので試す

 Qwen2.5
https://api.together.ai/models/Qwen/Qwen2.5-Coder-32B-Instruct


 Qwen3
https://api.together.ai/models/Qwen/Qwen3-235B-A22B-fp8-tput
235B-A22B-fp8-tput:  235 billionで学習したモデルでMoEアーキテクチャで22Bが有効、fp8

他にも何か分かれば追記する。

 Deepseek R1 Distilltogether.aiからDeepseek R1 Distillを使ってClineを動かしてみたが、今のところ使えない
memory bankを何度も読む要求をしてきたりで、まともに動かない
これはモデルがMCPのようなツール使用を学習してないことが原因に思われる。また、Free版はtoken数が8000程度に抑えられているため、実質使用不可能。

 Deepseek V3TBD

 Qwen2.5TBD

 Qwen3レスポンスが遅い

結局最近はgemini 2.5 flash をつかって済ませている

このスクラップは2ヶ月前にクローズされました