Ollama + Open WebUIを使ってみる

ここに書いていたやり方でollamaをローカルで動かしてみる

一部docker-compose.ymlは修正して、こんな感じ

network_mode: host を外した

services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    volumes:
      - ollama:/root/.ollama
    ports:
      - "11434:11434"
    restart: always  

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    volumes:
      - open-webui:/app/backend/data
    ports:
      - "8080:8080"
    environment:
      - OLLAMA_BASE_URL=http://127.0.0.1:11434
    restart: always
    depends_on:
      ollama:
        condition: service_started

volumes:
  ollama:
  open-webui:

そしたら issue with open-webui not listing the models of ollama[solved] #4376 で言及されるようにopen-webui が ollama のモデルを一覧に表示しない問題が発生した

hangedman

原因は単にollamaのホスト名が127.0.0.1ではないために、にopen-webui --> ollamaへの通信ができていないからだった。下記の修正で起動。

services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    volumes:
      - ollama:/root/.ollama
    ports:
      - "11434:11434"
    restart: always  

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    volumes:
      - open-webui:/app/backend/data
    ports:
      - "8080:8080"
    environment:
-      - OLLAMA_BASE_URL=http://127.0.0.1:11434
+      - OLLAMA_BASE_URL=http://ollama:11434
    restart: always
    depends_on:
      ollama:
        condition: service_started

volumes:
  ollama:
  open-webui:

一応起動する前にollamaのdocker containerのシェルに入ってモデルをダウンロードしていた。モデルのファイルサイズは2GBぐらい。

# ollama pull gemma2:2b

hangedman

 お試しコーナーちょっと前のローカルLLMはまともに日本語も使えないことが多かったが、最近のLLMは進化がすごい。
使用時のメモリやCPUの使用量について記録しておく。

dockerを起動しただけでシステム全体で30GB程度メモリを使っていた。

 gemma2:2bCPU: 回答に3秒ぐらいかかる、10秒ぐらいRyzen 5 3600のCPU使用量が100%になる
メモリ: モデルをロードした後のメモリ使用量は30GB + 2GBぐらい。

 gemma2CPU: 回答に30秒ぐらいかかる、Ryzen 5 3600のCPU使用量が100%になる
メモリ: モデルをロードした後のメモリ使用量は30GB + 3GBぐらい

hangedman

ollamaでGPUを使った挙動を確認したかったが、どうもGPUが使えない場合はCPUにオフロードされるらしく、よくわからなかった。エンドユーザーとしては動いているからヨシっであるが…

参考: https://github.com/ollama/ollama/issues/6008

このスクラップは2025/01/03にクローズされました