🎺

【ローカルLLM】選択肢が広がるLLM実行環境

2024/12/20に公開

ｽﾀｯｸﾁｬﾝ

AITuber

ローカル LLM

記事投稿コンテスト「今年の最も大きなチャレンジ」

tech

!🎄この記事は、LLM・LLM活用 Advent Calendar 2024 に参加してます。

https://qiita.com/advent-calendar/2024/large-language-model

 【自己紹介】初めまして、A-Utaと申します。AI ｽﾀｯｸﾁｬﾝ ミニマルという、カプセルトイサイズでお話しができるAIエージェントロボを目指して制作中者です。現時点までの作り方はこちらに公開していますので、興味あるからは、ぜひ召喚してマスターになって上げてくださいな！

https://github.com/A-Uta/AI_StackChan_Minimal

 【背景：LLM実行環境の2つの流れ】2023年3月にOpenAIのAPIが公開され、Cloud上のLLM:ChatGPTと自由に会話ができるようになりました。が、ソースコードが明かされていないクローズドなLLMでどんな技術で動いているのか分からないまま、新しい機能や精度向上のニュースが世間を騒がせていました。また”巨大なLLMを実行(学習/推論)するためには膨大な電力が必要になる”ということで、巨大LLMモデルを持つIT各社が原子力発電所を調達するニュースも流れて来ました。

一方その流れに対抗するかのように、2023年7月にMetaがオープンソース※のLlama2を発表。巨大IT企業以外の環境でも”中身の見えるLLMを実行できるという別な流れ”ができ、後半から「個人のPCに強力なGPUを複数搭載して動かす人たち」をブログで見かけるようになりました。さらに2024年12現在「M5Stack Module LLMというマイコンオプションの電池で動くシングルボード上で動作するLLM」を見て、来年2025年は手元で動くローカルAIエージェントの時代が来るとひしひしと感じたため、この2番目流れの”非力な処理環境でも実行できるオープンソースのLLM実行環境”について記載します。

※何がオープンソースなのか？という議論は今も続いているようですが、中身は見えるようになりました

 流れ1. 巨大IT企業の超高速環境で実行されるクローズドLLMモデルhttps://note.com/pogohopper8/n/n48c045618ed4

https://xtech.nikkei.com/atcl/nxt/column/18/02951/091300001/

https://www.asahi.com/articles/ASRDF4F37RDFUHBI00S.html

 流れ2. 非力な処理環境でも実行可能なオープンソースのLLMモデルhttps://ainow.ai/2023/11/28/275290/

https://pc.watch.impress.co.jp/docs/news/1629937.html

 【本題：非力な処理環境でLLMを動かそう】ようやく、ここから本題です。CloudにあるLLMではなく、自身のローカル環境でLLM動かすにはどうすれよいか？について、調べてみると、複数の方法があることが分かりました。私が現時点で試した3つの環境についてシェアします。

 A.個人PCでLLMを動かす
 参考：大量のメモリが必要なモデルを、マルチGPU環境を構成して実行するローカルLLMの記事として最初に読んだのが以下のブログで、自身のPCでLLMを動かせるようになったと言っても、かなり特殊な環境を作らなければ難しいなぁと感じていました。しかしこのような高級？環境以外でもLLMは動かせるような記事を見て、やってみようと決意！

https://tech-blog.cloud-config.jp/2023-12-23-mulit-gpu-pc-for-llm

・抜粋：13Bぐらいまでのサイズのモデルはよく公開されるのですが、bfloat16のサイズで動かそうと思うと必要メモリ量が26GBとなります。生成速度を考えるとGPUに乗せ切りたいですが、一般向けのGPUとしてはGeforceのRTX 3090やRTX 4090でもVRAMが24GBとなっており、1枚では乗せ切ることができません。新しく出たモデルを気軽に試せないのは悲しいので、16GBのGPUを2枚積んで、合計32GBにすることで13Bのモデルを動かせるようにしました。また、LLMに限らずGPGPUのコードを書きたいのもあるので、マルチGPU環境を持っててもいいかなぁというのもありました。

 参考：CPU推論への道https://qiita.com/sald_ra/items/24b571ea2b9c0fa04c56

・抜粋：ローカルLLMは楽しいが、参入のハードルが高い「貴族の遊び」と思われている。実際はそんなことなく、参入自体は皆が思っているより容易。ただし情報は少ない。参入する人、広めたい人ともに気合がまだまだ必要

 参考：マルチGPU構成で注意すべきポイントたくさんポイントがありますね。これを踏まえてどう構成すれば良いか。。

・抜粋：「1.マザーボードのPCIeスロット数とスロット間のスペース」「2.ケース内部の大きさ」「3.電源容量」「4.冷却システム」

https://cacc-lab.net/2024/09/14/マルチgpuでローカルllm構築を成功させるための最適/

 実施：ミニPCに外部GPUを複数接続して、マルチGPU環境を構成して実行する通常、マルチGPU環境は数十万円のデスクトップPCを購入してGPUを複数指して構成しているようですが、そんな覚悟（もお金も）がない私はコスパも考えて「ミニPC＋外部GPU(OCulink)環境」を作って、ollamaでLLM、ついでにVML(Qwen2-VL)も動かすことが出来ました。

https://x.com/UtaAoya/status/1851477828539466160

 実験：VMLもミニPC-N100 + 外部GPUで動作できた！https://x.com/UtaAoya/status/1858763976588296604

 作品：マイコンと個人PCのLLMを組合わせ、AIエージェントとして会話するLLMのAPI呼び出しも設定し終わったので、AI ｽﾀｯｸﾁｬﾝ ミニマルを変更。LLM：ChatGPT→ollama gemma2:2Bに切替え、音声合成：Web版 VOICEVOX→ローカルVOICEVOX Engineに切替えて、個人で管理しているローカルネットワーク上の機能だけお話しできるようになりました。

https://x.com/UtaAoya/status/1865544875787370974

 B.スマホにLLMをDLして動かすローカルPCを構築している間にも、技術はどんどん進化して行きました。余裕がないので横目で見ながらも、簡単に実行する方法を公開しているブログを見つけて自身でもやってみました。数世代前のiPhoneでもちゃんと動くところがすごい！残念ながらAPIで接続する方法は見つけられなかったため、ミニマルには接続できませんでしたが、公開されれば、スマホLLM環境が最有力だと感じました（普及率の点で）

 参考：必要なもの・・・iPhoneのみhttps://note.com/izai/n/ncd3315f87534

 実施：iPhone12 Pro(6GB) にLLMFarmアプリ経由でLLMモデルをDLして実行https://x.com/UtaAoya/status/1853419749746638964

 C.乾電池で動作するシングルボードでLLMを動かすこちらもローカルPC環境を構築している間に発売されました！このスピード感がすごい！残念ながら購入して電池ボックスで起動するまでしか確認できておりませんが、先行野良探究者の方々が進めている足跡を追いながら試してみる予定です。

 参考：M5Stack社：Module LLMhttps://youtu.be/QQV3Qlf5SnU?si=Djzjmdt_KvgUPmIn

https://x.com/ksasao/status/1854157588247806342

 実施：乾電池モジュールで、マイコンからシングルボードのLLM(Qwen2.5-0.5B)を動かすhttps://x.com/UtaAoya/status/1857562750459039941

 ADC：画像認識モデルも含め、多くの事例が紹介されていますhttps://qiita.com/advent-calendar/2024/m5stack_module_llm

 【最後に】まとめきれていませんが、時間切れということで、これにて公開させていただきます。お伝えしたかったのは「LLM実行環境の選択肢は確実に広がっており、来年はさらに加速する」ということです。

 個人的希望としては「来年2025は"ローカルLLMやっている人≒個人のAIエージェントを持ち歩いてお話ししている人”という未来になればいいなー」と妄想しています。またAI ｽﾀｯｸﾁｬﾝ ミニマルに人格と記憶を設定し、物理・デジタルという空間の違いを越えた”AITuber※のキャラクターの方々とコラボレーションをやってみたい”と考えています。楽しそうですよね！https://x.com/UtaAoya/status/1868786499866792279

※AITuberとの違いは、3Dデジタルキャラクターと物理ロボットの違いで背後にあるコミュニケーション機能（音声認識/LLM/音声合成)は、ほぼ同じだと考えています。

【自己紹介】

【背景：LLM実行環境の2つの流れ】

流れ1. 巨大IT企業の超高速環境で実行されるクローズドLLMモデル

流れ2. 非力な処理環境でも実行可能なオープンソースのLLMモデル

【本題：非力な処理環境でLLMを動かそう】

A.個人PCでLLMを動かす

参考：大量のメモリが必要なモデルを、マルチGPU環境を構成して実行する

参考：CPU推論への道

参考：マルチGPU構成で注意すべきポイント

実施：ミニPCに外部GPUを複数接続して、マルチGPU環境を構成して実行する

実験：VMLもミニPC-N100 + 外部GPUで動作できた！

作品：マイコンと個人PCのLLMを組合わせ、AIエージェントとして会話する

B.スマホにLLMをDLして動かす

参考：必要なもの・・・iPhoneのみ

実施：iPhone12 Pro(6GB) にLLMFarmアプリ経由でLLMモデルをDLして実行

C.乾電池で動作するシングルボードでLLMを動かす

参考：M5Stack社：Module LLM

実施：乾電池モジュールで、マイコンからシングルボードのLLM(Qwen2.5-0.5B)を動かす

ADC：画像認識モデルも含め、多くの事例が紹介されています

【最後に】

Discussion