Closed5
Clineに使わせる安いモデルを模索

- Gemini 2.5 proの性能はいいがお金がかかる
- Claude 3.5ぐらいの性能でいいので安価に使えるAPIはないのか
こういうのはChatGPTのDeep Researchに実施させるのがよい。

了解した。これから、Clineで利用実績があり、かつClaude 3.5以上の性能を持つ、コーディング・推論性能重視で安価なLLM APIを調査する。無料枠は考慮せず、個人利用可能なものを探す。完了したらまとめて共有する。
Clineで利用可能なより安価なLLM APIの候補
以下の表に、現在利用中のGoogle Gemini 2.5 Proよりも安価で、コーディングおよび推論性能に優れたLLM APIをまとめます。各モデルの性能概要には推論力・コーディング適性・日本語対応状況を記載し、価格はAPI利用時の主な料金体系を示しています。
モデル名 | 提供元 | 性能概要 | 価格 | Cline利用実績 | 公式リンク |
---|---|---|---|---|---|
Claude 3.7 Sonnet | Anthropic | Anthropic社の最新モデル。高度な推論・コーディング能力を備え、200Kトークンの巨大なコンテキスト対応。日本語を含む多言語で高い精度の応答が可能。 | 入力$3/100万トークン、出力$15/100万トークン | あり(Anthropic APIとしてCline連携可能。Cline公式でもコード用途に推奨) | Anthropic API公式 |
GPT-4 (GPT-4o) | OpenAI | OpenAIのGPT-4シリーズのモデル。高度な論理推論とコード生成能力を持ち、マルチタスク性能が非常に高い。日本語を含む多言語でも極めて流暢に応答可能。 | 入力$5/100万トークン、出力$15/100万トークン (GPT-4oの場合。従来GPT-4の約半額のコスト) |
あり(OpenAI APIキーを設定して利用可能) | OpenAI APIドキュメント |
Mistral Large 24.11 | Mistral AI | 仏Mistral AI社の大規模モデル(1230億パラメータ)。長文コンテキストに強く、高度な推論力と知識推論・コード理解能力を備える。日本語は主に英語訓練だが一定の対応可。 | Vertex AIやAWS Bedrock経由の従量課金制(公式価格非公開。クラウド利用料に準拠) | 限定的(ClineからAWS/GCPエンドポイント設定で利用可能) | Mistralモデル概要 |
Mistral Codestral 25.01 | Mistral AI | Mistral Largeをベースにしたコード特化モデル。80以上のプログラミング言語をサポートし、コード補完や挿入(FIM)に最適化。コード生成速度が高速(前世代比2.5倍)で、大規模コードにも対応(256Kコンテキスト)。日本語での指示も可能だが会話能力は英語中心。 | Vertex AI経由の従量課金制(クラウド上での実行コストに準拠) | 限定的(同上、カスタムエンドポイントで利用可能) | Mistralモデル概要 |
DeepSeek R1 Distill (70B) | DeepSeek (OSS) | オープンソースの最先端モデル。Llama2 70Bを強化し、大規模強化学習で推論力を高めたもの。数学・コード・推論タスクでOpenAIの最上位モデルに匹敵する性能を実現。日本語はある程度理解可能だが、主に英語データで学習。 | 約$2/100万トークン(入力+出力合計) (※Together API利用時の例。非常に低コスト) |
あり(Clineで「DeepSeek Chat」として提供実績) | DeepSeekモデルカード |
Perplexity Sonar Pro | Perplexity AI | Perplexity社提供の生成AI検索API「Sonar」の上位モデル。リアルタイムのウェブ検索結果を組み合わせ、複雑な質問に詳細な回答を生成可能。内部で高性能モデル(DeepSeek R1のCoT版)を使用し、推論力・正確性が向上。日本語での検索回答も可能だが、主に英語情報源に最適。 | 基本料金: $5/1000検索 + 入力$3/75万語 (≈100万トークン) + 出力$15/75万語 (検索回数に応じ追加課金) |
不明(直接のCline統合例は無し) | Perplexity API概要 |
オープンソースLLM各種 (例: Code Llama 34B, WizardCoder 34B等) |
Replicate社(APIホスティング) | 複数のOSSモデルをAPI経由で利用可能。モデルによるが、コード専門モデルでは中~大型モデル(30-70B)がGPT-3.5相当の性能を発揮。HumanEvalで50%前後のコード問題正解率を達成したものもあり、コーディング支援に実用可能。日本語は学習データ量に依存し、簡単な指示なら対応可。 | モデル実行時間に応じた課金(秒単位)。 参考: Llama-3 70Bの場合 入力$0.65/100万トークン、出力$2.75/100万トークン |
不明(直接の実績情報なし。REST APIとしてキー設定により利用可能) | Replicate公式 |
Llama 4 Maverick (17B×128) | Groq (独自推論API) | Meta社のオープンモデルをGroq社の高速チップ上で大規模Mixture-of-Experts化したモデル。17Bモデル128機を組み合わせることで、高度な推論・コーディング性能を達成(GPT-4クラスに肉薄)。応答速度も高速。日本語対応は学習コーパス由来で一定可能。 | 入力$0.20/100万トークン、出力$0.60/100万トークン (非常に低廉な従量課金) |
不明(専用API。Clineからの直接利用例は未確認) | Groq API概要 |
Together APIのOSSモデル (例: Llama 3.3 70Bなど) |
Together AI | Together社が提供するオープンモデル群の統合API。300以上のOSSモデルに対応。Llama 3系やMixtral(MoE)など高性能モデルをサーバレスで利用可能。たとえばLlama-3 70Bは高い対話性能を示し、GPT-4oより大幅低コストで利用可能。日本語もモデル次第で対応(多言語学習モデルを選択可能)。 | 従量課金(トークン数計算)。 参考: Llama 4 Maverick $0.27/100万入力・$0.85/100万出力、DeepSeek-R1 Distill 70B $2.00/100万トークンなど非常に安価。 |
不明(直接の実績情報なし。OpenAI互換APIでCline設定可能) | Together公式 |
補足: 上記の価格は記事掲載時点の情報に基づきます(2025年4月)。実際の料金や提供状況は各サービスの最新ドキュメントをご確認ください。またClineでの利用に際しては、各モデルのAPIキー取得やエンドポイント設定が必要です。ClineはAnthropicやOpenAI、各クラウド(AWS/GCP)等のAPIキーを設定する機能があるため、表中「利用実績」が明示されていないモデルも、適切にAPI設定を行えば使用可能な場合があります。各モデルの公式リンク先に詳細なAPI利用方法が記載されています。

- OSS系は安いなという結果になった。Groq怪しいのでtogether.aiに手を出してみたい。
- Qwen2.5よりQwen3が安い…

お試し
案
- Deepseek R1 Distill
- Deepseek V3 ... Claude 3.5には及ばないが使えそうとの評価があるので試す
- Qwen2.5
-
Qwen3
- https://api.together.ai/models/Qwen/Qwen3-235B-A22B-fp8-tput
- 235B-A22B-fp8-tput: 235 billionで学習したモデルでMoEアーキテクチャで22Bが有効、fp8
他にも何か分かれば追記する。
Deepseek R1 Distill
- together.aiからDeepseek R1 Distillを使ってClineを動かしてみたが、今のところ使えない
- memory bankを何度も読む要求をしてきたりで、まともに動かない
- これはモデルがMCPのようなツール使用を学習してないことが原因に思われる。また、Free版はtoken数が8000程度に抑えられているため、実質使用不可能。
Deepseek V3
TBD
Qwen2.5
TBD
Qwen3
- レスポンスが遅い

結局最近はgemini 2.5 flash をつかって済ませている
このスクラップは2ヶ月前にクローズされました