🐤
SOLAR 10.7B (Depth Up-Scaling)
論文:SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling
SOLAR 10.7Bは"Depth Up-Scaling"(DUSと略称する)という技術を採用して、伝統的な混合専門家(MoE)方法と比べ、訓練と推理に複雑な変更を加える必要がない。
論文Scaling Large Language Models with Simple yet Effective Depth Up-Scalingで、研究チームはDUSの作動原理を詳しく紹介した。要するにLLamaの2つの大きなモデルを1つの首切り(前の8層を切り取る),1つの尾切り(後の8層を切り取る),2つの24層を縫い合わせ,1つ目のモデルである24層目と2つ目のモデルである9層目をつなぎ合わせ,新たな48層10.7B大きなモデルであるSOLAR 10.7Bとした。
従来のディープラーニングモデルとは異なり、DUSはトレーニング中に複雑な最適化を行う必要はありません。代わりに、単にレイヤーを追加するだけで、モデルを拡張することで、DUSは大規模な言語モデルを簡単かつ効率的に拡張する方法となります。
比較評価では、SOLAR 10.7B は Llama2 や Mistral 7B などの既存のオープンソースのプリトレーニング LLM を上回っています。また、SOLAR 10.7B-InstructはMixtral-8x7Bより性能が優れているという点も提示した。
Discussion