📝

MacでローカルLLMデビューしてみた

2025/01/22に公開

Daily Blogging32日目

ついに手を出してみましたローカルLLM
AI界隈の動向そんなに詳しくないけど、ローカルで動かせるLLMでも結構性能が上がってきているらしいのでちょっと試してみる。

ローカルLLMってなんなの??

ローカルって言ってるくらいなので、クラウド版も当然ある
違いはChatGPTにまとめてもらった

項目 クラウドLLM ローカルLLM
実行環境 サードパーティのクラウドサービス上 ユーザーのローカル環境(PC、サーバー)
インターネット接続 必須 不要(完全オフラインで動作可能)
プライバシー データがクラウドに送信される可能性がある データはローカル環境に留まるためプライバシー性が高い
コスト サブスクリプションや従量課金が発生 初期のハードウェア購入費用と維持費が必要
導入の容易さ 容易(APIキー取得後すぐ利用可能) 難易度が高い(環境構築やモデルのインストールが必要)
モデル選択肢 サービス提供者が用意したモデルに限定される 好きなオープンソースモデルやカスタムモデルを選択可能
応答速度 サーバー遅延がある場合がある 遅延が少ない(ローカルで処理が完結)
主な用途 一般的なユースケース(汎用性の高いタスク) 特定用途向け(社内ツール、オフライン環境など)

情報漏洩の心配がないのがありがたいっ

でも性能低いんでしょう??

所詮はローカルで動くような低性能なモデルなんでしょう
と思いきや最近は小型のモデル(SLM)の性能も結構上がってきているらしい
https://www.sbbit.jp/article/cont1/149481

googleが開発した「Gemma」はあの「GPT-3.5」の性能を超える力を発揮したらしい
すごいっ
「GPT-3.5」よりも高性能なモデルをローカルで動かせちゃうんだ

とりあえず使ってみる

ローカルLLMを使う時の問題の1つは、「モデルによってインストール方法が異なるのでセットアップが面倒臭い」ということらしい
そんな問題を解決してくれるのがこちら
ollama
→ローカル環境でAIモデルを実行するためのツール

手順

  • ollamaをダウンロード
  • モデルのダウンロード
    • $ ollama pull <モデル名>
    • 今回はgemma2:2bを使う
    • $ ollama pull gemma2:2b
  • 起動してみる
    • $ ollama run gemma2:2b

これでターミナルでgemma2:2bが使えるようになる
簡単だねっ

レスポンスはそんなに遅くはなさそう
回答の出力は結構早い

gemma2:2b以外にも使えるモデルはあって、モデルはここから確認できる

apiも使えるよ

https://github.com/ollama/ollama/blob/main/docs/api.md#generate-a-completion

ローカルでollamaを起動させておくと、ollamaに対してapiを投げることもできる
ちなみにollamaを起動させるだけのコマンドはこっち

$ ollama serve

apiの例

$ curl http://localhost:11434/api/generate -d '{
"model": "gemma2:2b",
"prompt": "Why is the sky blue?",
"stream": false
}'

Discussion