Open1

高速な、テキスト埋込モデル用推論サーバ「text-embeddings-inference」を試す

kun432kun432

https://github.com/huggingface/text-embeddings-inference

Text Embeddings Inference

テキスト埋め込みモデルのための超高速推論ソリューション。

Nvidia A10でシーケンス長512トークンのBAAI/bge-base-en-v1.5のベンチマーク:


refered from https://github.com/huggingface/text-embeddings-inference


refered from https://github.com/huggingface/text-embeddings-inference


refered from https://github.com/huggingface/text-embeddings-inference


refered from https://github.com/huggingface/text-embeddings-inference

Text Embeddings Inference (TEI) は、オープンソースのテキスト埋め込みおよびシーケンス分類モデルを展開し、提供するためのツールキットです。TEI を使用すると、FlagEmbedding、Ember、GTE、E5 など、最も人気の高いモデルの高性能抽出が可能になります。TEI は、以下のような多くの機能を備えています。

  • モデルグラフのコンパイルステップなし
  • Macでのローカル実行のためのメタルサポート
  • 小さなDockerイメージと高速な起動時間。真のサーバーレスの準備は万端です!
  • トークンベースの動的バッチ処理
  • Flash AttentionCandlecuBLASLtを使用した推論のための最適化されたトランスフォーマーコード
  • Safetensorsによる重み付け
  • 実稼働環境向け(Open Telemetryによる分散トレース、Prometheusメトリクス