Open3
LLM関連の技術を知りたい
ピン留めされたアイテム
LLM初心者なので間違ったことあるかもしれない
Chat Vector
モデルのマージ技術。モデルAとそれをFTしたモデルA'から差分をとって、同じ系統のモデルBにその差分を当てはめることでモデルA'の能力を引き継ぐというもの。実装自体も簡単で、
chat_vector = model_a'.k - model_a.k
model_b' = model_b + chat_vector
みたいな感じ
論文より
MoE (Mixture of Experts)
複数モデル(Experts)から、よさそうなものを選んで回答させようというもの。
- モデルのスコアを判別する
gate()
関数を用意 -
gate()
で得たスコアの高い順に重み付けして出力
といった感じ、gate関数の実装方法はいろいろあるらしい