🦁
Ollamaで使える環境変数
Ollamaで使える環境変数
| 変数名 | 意味 |
|---|---|
| OLLAMA_DEBUG | 追加のデバッグ情報を表示する(例:OLLAMA_DEBUG=1) |
| OLLAMA_FLASH_ATTENTION | フラッシュ・アテンションを有効 |
| OLLAMA_KV_CACHE_TYPE | K/Vキャッシュの量子化タイプ(デフォルト:f16) |
| OLLAMA_GPU_OVERHEAD | GPUごとにVRAMの一部を予約する(バイト) |
| OLLAMA_HOST | ollamaサーバーのIPアドレス(デフォルト127.0.0.1:11434) |
| OLLAMA_KEEP_ALIVE | モデルがメモリにロードされる時間。 |
| OLLAMA_LLM_LIBRARY | 自動検出をバイパスするようにLLMライブラリを設定する |
| OLLAMA_LOAD_TIMEOUT | モデルをロードするときのタイムアウト時間 (デフォルト:5分) |
| OLLAMA_MAX_LOADED_MODELS | GPUあたりの最大搭載モデル数 |
| OLLAMA_MAX_QUEUE | キューに入れられたリクエストの最大数 |
| OLLAMA_MODELS | モデルディレクトリへのパス |
| OLLAMA_NOHISTORY | リードラインの履歴を保存しない |
| OLLAMA_NOPRUNE | 起動時にモデルのブロブを刈り込まない |
| OLLAMA_NUM_PARALLEL | 最大並列リクエスト数 |
| OLLAMA_ORIGINS | 許可される起源のカンマ区切りリスト |
| OLLAMA_SCHED_SPREAD | 常にすべてのGPUにモデルをスケジューリングする |
| OLLAMA_MULTIUSER_CACHE | マルチユーザーシナリオのためのプロンプトキャッシュの最適化 |
| OLLAMA_CONTEXT_LENGTH | 特に指定がない場合に使用するコンテキスト長(デフォルト:4096) |
| OLLAMA_NEW_ENGINE | 新しいOllamaエンジンを有効にする |
| OLLAMA_NEW_ESTIMATES | 新しいメモリ推定ロジックを有効にする |
| 以下は、Mac以外 | |
| CUDA_VISIBLE_DEVICES | どのNVIDIAデバイスを表示するかを設定する |
| HIP_VISIBLE_DEVICES | どのAMDデバイスを表示するかを数値IDで設定する |
| ROCR_VISIBLE_DEVICES | UUIDまたは数値IDによって、どのAMDデバイスを表示するかを設定します。 |
| GPU_DEVICE_ORDINAL | どのAMDデバイスを表示するかを数値IDで設定する |
| HSA_OVERRIDE_GFX_VERSION | 検出されたすべてのAMD GPUに使用されるgfxを上書きする |
| OLLAMA_INTEL_GPU | 実験的なインテルGPU検出を有効にする |
参考
Discussion