💬
text-generation-webuiでloraを利用してみた。
text-generation-webuiとは
text-generation-webuiは簡単にLLMのためのchatやAPIをWebUI形式で利用することができるOSSです。
いつも通常のモデルや4bitのものをよく利用していたので、もう一つの省メモリの手段であるloraの利用手順について試したいと思います。
リンク
準備
Google Colabを開き、メニューから「ランタイム→ランタイムのタイプを変更」でランタイムを「GPU」に変更します。
環境構築
インストール手順です。
!git clone https://github.com/oobabooga/text-generation-webui
%cd text-generation-webui
!pip install -r requirements.txt
推論
Llama 7bのloraを利用します。
(1)モデルのダウンロード
# download lora model
!python download-model.py tloen/alpaca-lora-7b
# download base model
!python download-model.py decapoda-research/llama-7b-hf
(2) WebUIの起動
起動の手順は以下の通りです。
%cd /content/text-generation-webui/
!python server.py --model decapoda-research_llama-7b-hf --lora tloen_alpaca-lora-7b --auto-devices --chat --share
会話している感じはこんな感じです。
最後に
今回はLLMのfinetuningの形であるLoraのモデルをtext-generation-webuiで利用するためのTipsを紹介しました。
google colabで利用するには少しコマンドに工夫が入りますが使えそうなのでよかったです。Loraモデルもガンガン試していきたいですね。
今後ともLLM, Diffusion model, Image Analysis, 3Dに関連する試した記事を投稿していく予定なのでよろしくお願いします。
Discussion