Closed5

Clineに使わせる安いモデルを模索

hangedmanhangedman
  • Gemini 2.5 proの性能はいいがお金がかかる
  • Claude 3.5ぐらいの性能でいいので安価に使えるAPIはないのか

こういうのはChatGPTのDeep Researchに実施させるのがよい。

hangedmanhangedman

了解した。これから、Clineで利用実績があり、かつClaude 3.5以上の性能を持つ、コーディング・推論性能重視で安価なLLM APIを調査する。無料枠は考慮せず、個人利用可能なものを探す。完了したらまとめて共有する。

Clineで利用可能なより安価なLLM APIの候補

以下の表に、現在利用中のGoogle Gemini 2.5 Proよりも安価で、コーディングおよび推論性能に優れたLLM APIをまとめます。各モデルの性能概要には推論力・コーディング適性・日本語対応状況を記載し、価格はAPI利用時の主な料金体系を示しています。

モデル名 提供元 性能概要 価格 Cline利用実績 公式リンク
Claude 3.7 Sonnet Anthropic Anthropic社の最新モデル。高度な推論・コーディング能力を備え、200Kトークンの巨大なコンテキスト対応。日本語を含む多言語で高い精度の応答が可能。 入力$3/100万トークン、出力$15/100万トークン あり(Anthropic APIとしてCline連携可能。Cline公式でもコード用途に推奨) Anthropic API公式
GPT-4 (GPT-4o) OpenAI OpenAIのGPT-4シリーズのモデル。高度な論理推論とコード生成能力を持ち、マルチタスク性能が非常に高い。日本語を含む多言語でも極めて流暢に応答可能。 入力$5/100万トークン、出力$15/100万トークン
GPT-4oの場合。従来GPT-4の約半額のコスト
あり(OpenAI APIキーを設定して利用可能) OpenAI APIドキュメント
Mistral Large 24.11 Mistral AI 仏Mistral AI社の大規模モデル(1230億パラメータ)。長文コンテキストに強く、高度な推論力と知識推論・コード理解能力を備える。日本語は主に英語訓練だが一定の対応可。 Vertex AIやAWS Bedrock経由の従量課金制(公式価格非公開。クラウド利用料に準拠) 限定的(ClineからAWS/GCPエンドポイント設定で利用可能) Mistralモデル概要
Mistral Codestral 25.01 Mistral AI Mistral Largeをベースにしたコード特化モデル。80以上のプログラミング言語をサポートし、コード補完や挿入(FIM)に最適化。コード生成速度が高速(前世代比2.5倍)で、大規模コードにも対応(256Kコンテキスト)。日本語での指示も可能だが会話能力は英語中心。 Vertex AI経由の従量課金制(クラウド上での実行コストに準拠) 限定的(同上、カスタムエンドポイントで利用可能) Mistralモデル概要
DeepSeek R1 Distill (70B) DeepSeek (OSS) オープンソースの最先端モデル。Llama2 70Bを強化し、大規模強化学習で推論力を高めたもの。数学・コード・推論タスクでOpenAIの最上位モデルに匹敵する性能を実現。日本語はある程度理解可能だが、主に英語データで学習。 約$2/100万トークン(入力+出力合計)
(※Together API利用時の例。非常に低コスト)
あり(Clineで「DeepSeek Chat」として提供実績) DeepSeekモデルカード
Perplexity Sonar Pro Perplexity AI Perplexity社提供の生成AI検索API「Sonar」の上位モデル。リアルタイムのウェブ検索結果を組み合わせ、複雑な質問に詳細な回答を生成可能。内部で高性能モデル(DeepSeek R1のCoT版)を使用し、推論力・正確性が向上。日本語での検索回答も可能だが、主に英語情報源に最適。 基本料金: $5/1000検索 + 入力$3/75万語 (≈100万トークン) + 出力$15/75万語
(検索回数に応じ追加課金)
不明(直接のCline統合例は無し) Perplexity API概要
オープンソースLLM各種
(例: Code Llama 34B, WizardCoder 34B等)
Replicate社(APIホスティング) 複数のOSSモデルをAPI経由で利用可能。モデルによるが、コード専門モデルでは中~大型モデル(30-70B)がGPT-3.5相当の性能を発揮。HumanEvalで50%前後のコード問題正解率を達成したものもあり、コーディング支援に実用可能。日本語は学習データ量に依存し、簡単な指示なら対応可。 モデル実行時間に応じた課金(秒単位)。
参考: Llama-3 70Bの場合 入力$0.65/100万トークン、出力$2.75/100万トークン
不明(直接の実績情報なし。REST APIとしてキー設定により利用可能) Replicate公式
Llama 4 Maverick (17B×128) Groq (独自推論API) Meta社のオープンモデルをGroq社の高速チップ上で大規模Mixture-of-Experts化したモデル。17Bモデル128機を組み合わせることで、高度な推論・コーディング性能を達成(GPT-4クラスに肉薄)。応答速度も高速。日本語対応は学習コーパス由来で一定可能。 入力$0.20/100万トークン、出力$0.60/100万トークン
(非常に低廉な従量課金)
不明(専用API。Clineからの直接利用例は未確認) Groq API概要
Together APIのOSSモデル
(例: Llama 3.3 70Bなど)
Together AI Together社が提供するオープンモデル群の統合API。300以上のOSSモデルに対応。Llama 3系やMixtral(MoE)など高性能モデルをサーバレスで利用可能。たとえばLlama-3 70Bは高い対話性能を示し、GPT-4oより大幅低コストで利用可能。日本語もモデル次第で対応(多言語学習モデルを選択可能)。 従量課金(トークン数計算)。
参考: Llama 4 Maverick $0.27/100万入力・$0.85/100万出力、DeepSeek-R1 Distill 70B $2.00/100万トークンなど非常に安価。
不明(直接の実績情報なし。OpenAI互換APIでCline設定可能) Together公式

補足: 上記の価格は記事掲載時点の情報に基づきます(2025年4月)。実際の料金や提供状況は各サービスの最新ドキュメントをご確認ください。またClineでの利用に際しては、各モデルのAPIキー取得やエンドポイント設定が必要です。ClineはAnthropicやOpenAI、各クラウド(AWS/GCP)等のAPIキーを設定する機能があるため、表中「利用実績」が明示されていないモデルも、適切にAPI設定を行えば使用可能な場合があります。各モデルの公式リンク先に詳細なAPI利用方法が記載されています。

hangedmanhangedman
  • OSS系は安いなという結果になった。Groq怪しいのでtogether.aiに手を出してみたい。
  • Qwen2.5よりQwen3が安い…

hangedmanhangedman

お試し

他にも何か分かれば追記する。

Deepseek R1 Distill

  • together.aiからDeepseek R1 Distillを使ってClineを動かしてみたが、今のところ使えない
  • memory bankを何度も読む要求をしてきたりで、まともに動かない
  • これはモデルがMCPのようなツール使用を学習してないことが原因に思われる。また、Free版はtoken数が8000程度に抑えられているため、実質使用不可能。

Deepseek V3

TBD

Qwen2.5

TBD

Qwen3

  • レスポンスが遅い
hangedmanhangedman

結局最近はgemini 2.5 flash をつかって済ませている

このスクラップは2ヶ月前にクローズされました