🐙

Qwen3.5-27B-Q4 をローカルで動かしてみた

に公開

Qwen3.5の27Bをローカルで動かしてみた

最近32GBメモリのM2のMacBook Proを買ったので、ローカルLLMを動かしてみようと思い、数日前にリリースされたQwen3.5を動かしてみました。

ローカルLLM自体あまり触ったことがなかったので、ダウンロードして実行してみただけの記録です。Claude Codeに手伝ってもらいながらやりました。

環境

  • MacBook Pro(Apple M2 Pro / 32GB RAM)
  • macOS、Homebrewインストール済み
  • Claude Code

ollamaで動かなかった話

最初はollamaで動かそうとしたのですが、Qwen3.5-27Bはollamaの公式ライブラリにまだ登録されていないみたいでした(GitHub issue)。

HuggingFaceからGGUFをダウンロードして強制的に追加してみたのですが、エラーで動かず。現時点では対応していないみたいでした。

ということでllama.cppを使ってみることにしました。

ツールのインストール

# HuggingFace CLI(モデルダウンロード用)
brew install huggingface-cli

# llama.cpp(モデル実行用)
brew install llama.cpp

モデルについて

Qwen3.5は2026/02/16にリリースされたモデルで、いくつかサイズがあるのですが、その中の27Bが自分のMacでも動くという話を見かけたので、今回はそれを動かしてみることにしました。

ただ、公式が公開している元モデル(Qwen/Qwen3.5-27B)はそのままだと約54GBあり、llama.cppで動かすには量子化(圧縮)されたGGUFという形式のファイルが必要らしいです(ローカルLLM触ってなさすぎて無知)

公式のモデルページにQuantizationsという欄があり、そこにコミュニティの人たちが量子化してGGUF形式で公開してくれたものがリンクされていました。

式モデルページのQuantizations欄

今回はその中からunslothというコミュニティのものを使いました。

量子化のレベルによってファイルサイズが変わっていて、だいたいこんな感じの名前で出ていました。

ファイル名 サイズ
Qwen3.5-27B-Q2_K.gguf 10.5GB
Qwen3.5-27B-Q4_K_M.gguf 16.7GB
Qwen3.5-27B-Q5_K_M.gguf 19.6GB
Qwen3.5-27B-Q6_K.gguf 22.5GB
Qwen3.5-27B-Q8_0.gguf 28.6GB

今回は4ビット量子化のQ4_K_M(16.7GB)が32GBのRAMで動きそうだったので、これを選びました。

ダウンロード

mkdir -p ~/models/qwen3.5-27b

hf download unsloth/Qwen3.5-27B-GGUF \
  Qwen3.5-27B-Q4_K_M.gguf \
  --local-dir ~/models/qwen3.5-27b

実行

llama-cli \
  -m ~/models/qwen3.5-27b/Qwen3.5-27B-Q4_K_M.gguf \
  --conversation \
  -n -1

llama.cppは今回初めて使ったのですが、起動するとGPUの情報やモデルの情報が表示されて、>のプロンプトが出たら質問を入力できます。

llama.cpp起動画面

試しに「あなたの名前はなんですか?」と聞いてみました。

プロンプト送信結果

回答が返ってくるとPrompt: 25.4 t/sとかGeneration: 6.5 t/sみたいな表示が出て、プロンプトの読み込みが何トークン/秒で、生成が何トークン/秒で出ているのかがわかるようになっていました。

おわりに

ローカルLLMはあまり触ってこなかったのですが、最近は精度がかなり上がってきているという話も聞きますし、新しいPCを買ったこともあるので、いろいろ触ってみようかなと思っています。

新しいモデルが出たときに実際に触ってみると、公式のリリース情報とかを読んで「このスペックだったらこれくらい動くんだな」とか「今のローカルLLMの現在地はこのへんなんだな」みたいなことがわかってくるので、その辺は触りながら理解していきたいなと思います。

参考リンク

Discussion