ローカルLLM動作確認メモ(まとめ中)
無料で読める本
先駆者の方々のおかげで、ローカルLLMを動かしてみるのはそこまで難しいものではなくなっている印象です。しかし、1つモデルを試してみると、今度は他のモデルと比較してみたいと思うのが人の性ではないでしょうか。様々なアーキテクチャがある中で、なるべく統一的に比較できる方法を模索しています。ローカルLLMとしては量子化の一種であるGGUFモデルが限られたPCスペックでも効率的に運用できそうです。 したがって様々なモデルを量子化して、あとはGGUFファイルを切り替えるだけで済む状況に持ち込みたいです。またGGUFモデルを使った推論も様々な方法がありますが、柔軟なアプリ開発を視野に入れて、LangChainには慣れておく必要がありそうです。 しかし、すぐにいくつかの問題に直面しました。 Llama.cpp公式の変換スクリプトでは量子化がうまくいかないモデルがあります。 独自のプロンプトをもつモデルでは、チャットテンプレートを考慮する必要があります。 LangChainのようなライブラリは開発が盛んに進んでいます。0.1.0以降はブラッシュアップされた反面、モデルの種類によってはメソッドがまだまだ未実装のために、簡単にはいかない場合があります。 遭遇した問題や動作確認したコードを不定期にまとめていきます。
Chapters
open-calm-1b/3b/7b
ELYZA-japanese-Llama-2-7b
japanese-stablelm-gamma-7b
nekomata-7b/14b
karasu-7b
Author
Topics