Open3

LLM関連の技術を知りたい

ピン留めされたアイテム
fkunn1326fkunn1326

LLM初心者なので間違ったことあるかもしれない

fkunn1326fkunn1326

Chat Vector

モデルのマージ技術。モデルAとそれをFTしたモデルA'から差分をとって、同じ系統のモデルBにその差分を当てはめることでモデルA'の能力を引き継ぐというもの。実装自体も簡単で、

chat_vector = model_a'.k - model_a.k
model_b' = model_b + chat_vector

みたいな感じ


論文より

fkunn1326fkunn1326

MoE (Mixture of Experts)

複数モデル(Experts)から、よさそうなものを選んで回答させようというもの。

  1. モデルのスコアを判別するgate()関数を用意
  2. gate()で得たスコアの高い順に重み付けして出力

といった感じ、gate関数の実装方法はいろいろあるらしい