🦁
Transformer言語モデルの強化学習ライブラリまとめ
情報は2023年6月30日時点のもの。transformersのモデルを雑に使いたいならtrlかtrlxを使うのが安定そう。
ライブラリ名 | 対応アルゴリズム | 対応モデル | スター | メモ | 参考 |
---|---|---|---|---|---|
palm-rlhf-pytorch | PPO | Palm | 7.1K | ライブラリの中で実装されたPalmを使うことを前提にしてそう | |
trl | PPO | Causal Seq2Seq |
3.9K | transformersのモデルに広めに対応 | |
trlx | PPO ILQL |
Causal T5(Seq2Seq?) |
3.6K | transformersのモデルに広めに対応。パラメータ20B以下のモデルはaccelerate、それより大きいモデルはNeMoベースで実装されている | npakaさんのnote |
textrl | PPO | Causal Seq2Seq |
456 | transformersのモデルに広めに対応。 |
Discussion