OpenCode + Qwen3-Coder + 5060ti(16GB)でローカルコーディング環境整えるメモ(とりあえずは動くが...)
ローカルで 2026/01 時点でボリュームゾーンの GPU でもそこそこいい感じのコーディングエージェント動かしたい
- OpenCode https://opencode.ai/
- 5070Ti(16GB)
- llama.cpp server + CUDA build(sm120)
- Qwen3-Coder-30B-A3B-Instruct https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF
UD(Unsloth dynamic)量子化版つかった.
Q3_K_XL(14GB くらいのやつ)
- context 長 40000,
- q4 KV
あたりでなんとか 16 GB VRAM には収まり動きました.
opencode のシステムプロンプトだけで 1 万 tokens くらいあるので, 4 万 context というのは結構ギリギリ. repo 全体のコードをレビューとか, セッション長くやるとか少し複雑なことをすると足りなくなる.
速度は全部 GPU に収まればまあまあ許容(少し前の Opus 4 くらいのレスポンス). 35 toks/sec. 一部 CPU オフロードだと厳しい感じである(3 tok/sec くらい).
とりあえずはちょこっとしたビルド修正とかコード解析(TODO 抜き出してまとめてとか)には使える感じでしょうか
Q2_K_XL(11GB)
- 128K context
- q4 KV
で GPU fit
15 toks/sec くらい.
Haiku 4.5 くらいカナというレベルだけど, OpenCode のシステムプロンプトのせいか出力が冗長になったり, 作業を結構重複して行ったりする
あと git diff を色つけして出してくれない(これは OpenCode の設定のせいか?)
さらなる高みへ
--override-kv あたりでいけないか試す.
sglang, vllm あたりでうまく長コンテキスト扱えないか試す.
Claude code などの代わりとして本格的に使う場合は, Qwen3-Coder は 256K context なので, 5~6 倍のメモリがあれば安心と思います.
RTX 6000 96GB や, 128GB+ Mac studio などであれば余裕であろうか.
あとは multi-gpu でいけるかどうか(PCI-ex 帯域周りがどうなるか)
OpenCode
使い勝手は claude code と同じ(かそれよりもいいかも)いい感じである.
Known issue
ただ途中で途切れたりとかする. model の問題なのか cli の問題なのか...
I need to check the current state of the implementation to see what next steps to take. Let me examine
the files that were identified as critical for generator implementation.
<function=todoread>
</function>
</tool_call>
<function=read>
<parameter=filePath>
/home/syoyo/work/lightjs/include/ast.h
</parameter>
</function>
</tool_call>
<function=read>
<parameter=filePath>
/home/syoyo/work/lightjs/src/interpreter.cc
</parameter>
</function>
</tool_call>
<function=read>
<parameter=filePath>
/home/syoyo/work/lightjs/include/value.h
</parameter>
</function>
```
とか出たりする. そのうち改善されるかもしれません.
Discussion