Qwen3.5-27B-Q4 をローカルで動かしてみた
Qwen3.5の27Bをローカルで動かしてみた
最近32GBメモリのM2のMacBook Proを買ったので、ローカルLLMを動かしてみようと思い、数日前にリリースされたQwen3.5を動かしてみました。
ローカルLLM自体あまり触ったことがなかったので、ダウンロードして実行してみただけの記録です。Claude Codeに手伝ってもらいながらやりました。
環境
- MacBook Pro(Apple M2 Pro / 32GB RAM)
- macOS、Homebrewインストール済み
- Claude Code
ollamaで動かなかった話
最初はollamaで動かそうとしたのですが、Qwen3.5-27Bはollamaの公式ライブラリにまだ登録されていないみたいでした(GitHub issue)。
HuggingFaceからGGUFをダウンロードして強制的に追加してみたのですが、エラーで動かず。現時点では対応していないみたいでした。
ということでllama.cppを使ってみることにしました。
ツールのインストール
# HuggingFace CLI(モデルダウンロード用)
brew install huggingface-cli
# llama.cpp(モデル実行用)
brew install llama.cpp
モデルについて
Qwen3.5は2026/02/16にリリースされたモデルで、いくつかサイズがあるのですが、その中の27Bが自分のMacでも動くという話を見かけたので、今回はそれを動かしてみることにしました。
ただ、公式が公開している元モデル(Qwen/Qwen3.5-27B)はそのままだと約54GBあり、llama.cppで動かすには量子化(圧縮)されたGGUFという形式のファイルが必要らしいです(ローカルLLM触ってなさすぎて無知)
公式のモデルページにQuantizationsという欄があり、そこにコミュニティの人たちが量子化してGGUF形式で公開してくれたものがリンクされていました。

今回はその中からunslothというコミュニティのものを使いました。
量子化のレベルによってファイルサイズが変わっていて、だいたいこんな感じの名前で出ていました。
| ファイル名 | サイズ |
|---|---|
Qwen3.5-27B-Q2_K.gguf |
10.5GB |
Qwen3.5-27B-Q4_K_M.gguf |
16.7GB |
Qwen3.5-27B-Q5_K_M.gguf |
19.6GB |
Qwen3.5-27B-Q6_K.gguf |
22.5GB |
Qwen3.5-27B-Q8_0.gguf |
28.6GB |
今回は4ビット量子化のQ4_K_M(16.7GB)が32GBのRAMで動きそうだったので、これを選びました。
ダウンロード
mkdir -p ~/models/qwen3.5-27b
hf download unsloth/Qwen3.5-27B-GGUF \
Qwen3.5-27B-Q4_K_M.gguf \
--local-dir ~/models/qwen3.5-27b
実行
llama-cli \
-m ~/models/qwen3.5-27b/Qwen3.5-27B-Q4_K_M.gguf \
--conversation \
-n -1
llama.cppは今回初めて使ったのですが、起動するとGPUの情報やモデルの情報が表示されて、>のプロンプトが出たら質問を入力できます。

試しに「あなたの名前はなんですか?」と聞いてみました。

回答が返ってくるとPrompt: 25.4 t/sとかGeneration: 6.5 t/sみたいな表示が出て、プロンプトの読み込みが何トークン/秒で、生成が何トークン/秒で出ているのかがわかるようになっていました。
おわりに
ローカルLLMはあまり触ってこなかったのですが、最近は精度がかなり上がってきているという話も聞きますし、新しいPCを買ったこともあるので、いろいろ触ってみようかなと思っています。
新しいモデルが出たときに実際に触ってみると、公式のリリース情報とかを読んで「このスペックだったらこれくらい動くんだな」とか「今のローカルLLMの現在地はこのへんなんだな」みたいなことがわかってくるので、その辺は触りながら理解していきたいなと思います。
Discussion