Jetson Orin NX 16GBでエッジ生成AI(LLMを動かす)
基本的なセットアップ
Seeed reComputer(Jetson Orin NX 16GB)でLLMを動かす方法です。あらかじめ以下の記事に従って、基本的なセットアップと特にDockerのセットアップを実施してある前提です。
LLMのセットアップ
Ollamaのインストール
Ollamaは公式にある通り、Jetson Containersを使います(素のOllamaではうまく動きませんでした)。以下コマンドでインストールします。
$ cd && git clone https://github.com/dusty-nv/jetson-containers
$ bash jetson-containers/install.sh
Jetson ContainersからOllamaを使います。
$ jetson-containers run --name ollama $(autotag ollama)
LLMを動かす
コンテナ内で、以下コマンドを実行します。
# ollama run 7shi/tanuki-dpo-v1.0:8b-q6_K
動作中。結構速いです。
以下コマンドだと一発で動かせるはずなのですが、動いたり動かなかったりします(よくわからないので確認中)。
$ jetson-containers run $(autotag ollama) /bin/ollama run 7shi/tanuki-dpo-v1.0:8b-q6_K
参考:Error "timed out waiting for llama runner to start: " on larger models. #4131
Dockerを再起動したいときは、以下コマンドを実行することで再起動できます。
$ sudo systemctl restart docker
ネイティブなOllamaについて
コンテナを使わない、素の(ネイティブな)Ollamaは、以下コマンドでインストールできますが、自分の環境ではうまく動きませんでした。
$ curl -fsSL https://ollama.com/install.sh | sh
入れたままにしておくと、コンテナで動くOllamaと干渉してエラーになるので、こちらを参考にアンインストールしましょう。
使用できるLLM
動いたLLMを列挙します。やっぱりDeepSeek R1がよいでしょうか。ただ、やはりモデルサイズがそれほど大きくないので、コーディング用途だと、実用性はまだ低いです。
ollama run huggingface.co/roleplaiapp/DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf-Q4_K_M-GGUF:latest
ollama run deepseek-r1:14b
ollama run deepseek-r1:8b
ollama run deepseek-coder:6.7b-instruct
ollama run deepseek-coder-v2:16b-lite-instruct-q2_K
ollama run deepseek-coder-v2:latest
ollama run deepseek-coder-v2:16b
ollama run phi4:latest
使用できない(動かない)LLM
自分の環境では動かなかったモデルです。
ollama run deepseek-r1:32b
以下のように黒画で動かなかったりします。
まとめ
Jetson Orin NXでのLLMの動かし方について書きました。まだまだ使いどころが難しいという印象ですが、今後どんどん優秀なLLMが出てくるとまた状況は変わってきそうですね。
こういったエッジ生成AIは、ネットワーク不要、セキュア、エコ(学習、推論のリソースが少なくなるので環境に優しい)といったメリットもあるので、うまく活用できると良いなと思っています。
参考リンク
関連記事
Discussion