💬

論文紹介 : Evolutionary Optimization of Model Merging Recipes

2024/03/31に公開

概要

SakanaAIのEvolutionary Optimization of Model Merging Recipesという論文を読んだのでメモとして残しておきます。
https://arxiv.org/abs/2403.13187

提案手法はファインチューニングではなく、モデルマージによって高性能なモデルを進化的アルゴリズムで自動的に作ります。Open LLM Leaderboardの上位がマージモデルで支配されているところから、モデルマージが重要であると主張しています。
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

手法について

こちらの論文は詳しい解説記事が複数あるようなので、詳細はそちらをよんでもらったほうがいいです。

解説記事1
https://www.docswell.com/s/DeepLearning2023/K38X6L-2024-03-29-113227

解説記事2
https://speakerdeck.com/fuyu_quant0/evolutionary-optimization-of-model-merging-recipes

モデルのライセンス

利用する側としてはモデルのライセンスが気になるところです。githubのページからHFの学習済みモデルへのリンクがあり、ここにライセンスも記載されています。
https://github.com/SakanaAI/evolutionary-model-merge

EvoLLM-JP-v1-7BとEvoLLM-JP-v1-10BはMicrosoft Research Licenseで商用利用は不可。EvoLLM-JP-A-v1-7BとEvoVLM-JP-v1-7BはApache 2.0なので商用利用可能です。これはうれしいですね。EvoVLM-JP-v1-7BはLLaVA-1.6-Mistral-7Bの日本語版に相当するので、かなり使えそうです。

考察

一般的な用途のLLMは高性能な日本語モデルが登場していますが、専門的な用途となると英語以外では性能が下がってしまうモデルがほとんどです。論文では数学用のLLMを日本語LLMとマージして日本語の数学の問題を解けるLLMを生成しています。このように英語ベースの専門的なモデルの日本語化がファインチューニングなしで生成できるようになるのは夢が広がりますね。

当初はVLMとLLMをマージしているのは不思議な気もしましたが、論文を読むとVLMのビジョンエンコーダーと投影ネットワークを固定して、LLMコンポーネントのみを対象にマージしているようです。

論文の議論のところにAutomergeと呼ばれるツールが紹介されていました。提案手法とほぼ同じ時期に発表されたようです。こちらはOpen LLM Leaderboardの上位20モデルからランダムなモデルを2つ選んで新しいモデルを作るようです。
https://twitter.com/maximelabonne/status/1767124527551549860
同じ時期に似たツールが登場しているのも面白いと思いました。

Discussion