Open1
高速な、テキスト埋込モデル用推論サーバ「text-embeddings-inference」を試す
Text Embeddings Inference
テキスト埋め込みモデルのための超高速推論ソリューション。
Nvidia A10でシーケンス長512トークンのBAAI/bge-base-en-v1.5のベンチマーク:
refered from https://github.com/huggingface/text-embeddings-inference
refered from https://github.com/huggingface/text-embeddings-inference
refered from https://github.com/huggingface/text-embeddings-inference
refered from https://github.com/huggingface/text-embeddings-inference
Text Embeddings Inference (TEI) は、オープンソースのテキスト埋め込みおよびシーケンス分類モデルを展開し、提供するためのツールキットです。TEI を使用すると、FlagEmbedding、Ember、GTE、E5 など、最も人気の高いモデルの高性能抽出が可能になります。TEI は、以下のような多くの機能を備えています。
- モデルグラフのコンパイルステップなし
- Macでのローカル実行のためのメタルサポート
- 小さなDockerイメージと高速な起動時間。真のサーバーレスの準備は万端です!
- トークンベースの動的バッチ処理
- Flash Attention、Candle、cuBLASLtを使用した推論のための最適化されたトランスフォーマーコード
- Safetensorsによる重み付け
- 実稼働環境向け(Open Telemetryによる分散トレース、Prometheusメトリクス