Closed2024/01/08にクローズ4

Huggingface Inference Endpoints を触る

HTTP API 経由で HuggingFace 上に上がっている Transformers とか Diffusers モデルを推論できるサービス。自動でスケーリングもできる。
CUDA 入った Linux サーバーを用意して～とかしなくていいので、本当に推論だけしたい場合は便利そうな感じ.

テキスト生成には text-generation-inference が使われる。

llama.cpp とかは動かないけど、text-generation-inference が対応している量子化 (AWQ, Bitsandbytes, AutoGPTQ ) は一応できる。

Plat

Inference Endpoints のダッシュボードページ

https://ui.endpoints.huggingface.co

(アカウント設定から支払い方法を設定してないと使えない)

Plat

エンドポイントの作成画面。

現状 GPU が使えるのは AWS だけなので GPU 使いたい場合は AWS を選ぶ。軽いモデルで CPU でもいいなら Azure も選べる。

HuggingFace 上のモデルを選択できる。

ここで、 safetensors に対応していないモデルを選ぶと、 text-generation-inference の仕様(?)でエラーを吐かれて死んでしまう^[1]ので、safetensors 対応のを選ぶか自分で変換(transformersで読み込んでそのままアップでOK)しておく必要がある。