🦁

Transformer言語モデルの強化学習ライブラリまとめ

2023/06/30に公開

情報は2023年6月30日時点のもの。transformersのモデルを雑に使いたいならtrlかtrlxを使うのが安定そう。

ライブラリ名 対応アルゴリズム 対応モデル スター メモ 参考
palm-rlhf-pytorch PPO Palm 7.1K ライブラリの中で実装されたPalmを使うことを前提にしてそう
trl PPO Causal
Seq2Seq
3.9K transformersのモデルに広めに対応
trlx PPO
ILQL
Causal
T5(Seq2Seq?)
3.6K transformersのモデルに広めに対応。パラメータ20B以下のモデルはaccelerate、それより大きいモデルはNeMoベースで実装されている npakaさんのnote
textrl PPO Causal
Seq2Seq
456 transformersのモデルに広めに対応。

Discussion