🦁

Ollamaで使える環境変数

に公開

Ollamaで使える環境変数

変数名 意味
OLLAMA_DEBUG 追加のデバッグ情報を表示する(例:OLLAMA_DEBUG=1)
OLLAMA_FLASH_ATTENTION フラッシュ・アテンションを有効
OLLAMA_KV_CACHE_TYPE K/Vキャッシュの量子化タイプ(デフォルト:f16)
OLLAMA_GPU_OVERHEAD GPUごとにVRAMの一部を予約する(バイト)
OLLAMA_HOST ollamaサーバーのIPアドレス(デフォルト127.0.0.1:11434)
OLLAMA_KEEP_ALIVE モデルがメモリにロードされる時間。
OLLAMA_LLM_LIBRARY 自動検出をバイパスするようにLLMライブラリを設定する
OLLAMA_LOAD_TIMEOUT モデルをロードするときのタイムアウト時間 (デフォルト:5分)
OLLAMA_MAX_LOADED_MODELS GPUあたりの最大搭載モデル数
OLLAMA_MAX_QUEUE キューに入れられたリクエストの最大数
OLLAMA_MODELS モデルディレクトリへのパス
OLLAMA_NOHISTORY リードラインの履歴を保存しない
OLLAMA_NOPRUNE 起動時にモデルのブロブを刈り込まない
OLLAMA_NUM_PARALLEL 最大並列リクエスト数
OLLAMA_ORIGINS 許可される起源のカンマ区切りリスト
OLLAMA_SCHED_SPREAD 常にすべてのGPUにモデルをスケジューリングする
OLLAMA_MULTIUSER_CACHE マルチユーザーシナリオのためのプロンプトキャッシュの最適化
OLLAMA_CONTEXT_LENGTH 特に指定がない場合に使用するコンテキスト長(デフォルト:4096)
OLLAMA_NEW_ENGINE 新しいOllamaエンジンを有効にする
OLLAMA_NEW_ESTIMATES 新しいメモリ推定ロジックを有効にする
以下は、Mac以外
CUDA_VISIBLE_DEVICES どのNVIDIAデバイスを表示するかを設定する
HIP_VISIBLE_DEVICES どのAMDデバイスを表示するかを数値IDで設定する
ROCR_VISIBLE_DEVICES UUIDまたは数値IDによって、どのAMDデバイスを表示するかを設定します。
GPU_DEVICE_ORDINAL どのAMDデバイスを表示するかを数値IDで設定する
HSA_OVERRIDE_GFX_VERSION 検出されたすべてのAMD GPUに使用されるgfxを上書きする
OLLAMA_INTEL_GPU 実験的なインテルGPU検出を有効にする

参考

https://github.com/ollama/ollama/blob/main/envconfig/config.go#L254-L300

Discussion