💻

【ollama / Phi-3】ニュースで話題のLLMをローカルPC上で動かしてみる

2024/04/28に公開

LLM

Ollama

Phi-3

tech

この記事では、ローカルLLMの実行ツール「ollama」を活用して、Microsoftが開発した軽量言語モデル「Phi-3」をMac上で実行する手順を紹介します。

実行例

はじめに

2024年4月、スマートフォン単体でも実行できる軽量な言語モデルの「Phi-3」がMicrosoft社より発表されました。

このほかにも、Meta社の「Llama3」など、ローカル環境でも実行可能なLLMの選択肢が増えてきています。

そこで今回は、これらのLLMがどのような性能を発揮するのか、手元のMacBook Airで試してみることにしました。

この記事では、ローカルLLMの基礎知識や、実行までの手順を簡潔にまとめます。

（あくまで体感での性能確認にとどめており、定量的なベンチマークなどは行なっていません。）

環境

今回、ローカルLLMを実行した環境は以下のとおりです。おそらく、現在MacBookをお使いの方は、これと同等以上のスペックをお持ちかと思います。

実行環境

PC：MacBook Air (M1, 2020)
OS：Sonoma 14.4.1
チップ：Apple M1
メモリ：8 GB

LLM

LLM実行ツール：ollama 0.1.32
LLM：Phi-3 (3.8B), Llama3 (8B)

ローカルLLMの知識

ローカルPC上でLLMを実行する「ローカルLLM」では、オンラインでLLMを実行できるChatGPTなどとは異なる、独特の用語やツールが登場します。

今回の実行にあたって調べた内容を簡単にまとめておきます。（ローカルLLMについては初心者なので、もし間違っている内容があればご指摘ください🙏）

用語	詳細
LLM	大規模言語モデル（LLM：Large language Models）のこと。具体的なモデル名として、OpenAI社のGPT-4や、Anthropic社のClaude3などがある。
Llama	Meta社が公開したオープンソースのLLM。このため、日本語で追加学習させたり、ローカルPC上で実行させたりできる。2024年4月に最新版のLlama3が発表された
Phi-3	Microsoft社が2024年4月に発表した小規模言語モデル（SLM）。スマートフォン単体でも実行が可能なほど軽量。
パラメーター数	LLMを構成するニューラルネットワークの状態を表す数値。数値が高いほど高度のデータ処理が可能となるが、モデルの容量も大きくなる。ローカルLLMではパラメーター数の小さなモデルを利用する。
量子化	LLMのパラメーターを少ないビット数で表現することで、モデルのデータ量を少なくすること。パラメーター数が小さなモデルをさらに量子化することで、モデルのサイズがローカルPCで実行可能な容量（2~5GB程度）になる。
Hugging Face	AIや機械学習に特化したGitHub的なサービス。LLMの実体はここからDLして利用することが多い。（今回の方法の場合、利用は必須ではない）
llama.cpp	LlamaをPC上で実行するための実行環境。実行のためにはソースをDLしてビルドする必要があり、手順がやや面倒。Llama以外のモデルも実行可能
ollama	これもローカルLLMの実行環境。バックエンドでllama.cppを利用している。インストールや実行が簡単なので、今回はこちらを利用。

ここでは、目的や性能の異なるモデルが各社から発表されており、そのモデルの中でもパラメーター数や量子化手法によるバリエーションがあることを覚えておくと良いと思います。

今回は、ollamaをローカルPCにインストールして、Llama3やPhi-3などのモデルを実行することになります。

ollamaをインストールする

ここからは、ollamaを用いてローカルLLMを実行する手順をまとめます。
ollamaは以下の公式ページからダウンロードできます。

https://ollama.com/

利用中のOSを選択してダウンロードします。

ダウンロード画面

macOSの場合、インストールしたアプリを「アプリケーション」フォルダに移動してから起動し、画面の指示にしたがって「ollama」コマンドを実行可能にしてください。

ターミナルを開き、以下のようにollamaのバージョンが確認できたら準備完了です。

ターミナル

$ ollama --version
ollama version is 0.1.32

なお、Homebrewを利用している場合は、以下のコマンドでインストールすることも可能です。

ターミナル

$ brew install ollama

ollamaでローカルLLMを実行する

次に、モデルをダウンロードしてチャット画面を起動します。以下のコマンドを実行すれば、すべて自動で行なってくれます。ここではモデルにPhi-3を指定しています。

ターミナル

$ ollama run phi3

初回のみ、モデルのダウンロードが行われます。数分程度で完了し、チャット入力を受け付ける画面に切り替わります。

「Hello!」と入力すると応答が表示されました。

モデルをダウンロードして実行した様子

ちなみに、Phi-3のサイズはたったの2.3GBです。この中に人類の叡智が保存されていると思うとロマンがありますね。

ダウンロード可能なモデルの一覧

デフォルトでダウンロード可能なモデルは、以下のページにまとめられています。

比較用に、ollama run llama3でLlama3の8Bモデルをダウンロードしておきます。

モデルの削除方法

モデルをダウンロードしすぎるとPCのストレージを圧迫する可能性があるので、モデルの削除方法もメモしておきます。

以下のように、listオプションでダウンロードしたモデルを確認し、rmオプションで削除します。

$ ollama list    
NAME         	ID          	SIZE  	MODIFIED      
llama3:latest	a6990ed6be41	4.7 GB	4 days ago   	
phi3:latest  	a2c89ceaed85	2.3 GB	7 minutes ago	

$ ollama rm  phi3
deleted 'phi3'