🐤

SOLAR 10.7B (Depth Up-Scaling)

シンウフム

2024/11/25に公開

論文：SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

SOLAR 10.7Bは"Depth Up-Scaling"（DUSと略称する）という技術を採用して、伝統的な混合専門家（MoE）方法と比べ、訓練と推理に複雑な変更を加える必要がない。
論文Scaling Large Language Models with Simple yet Effective Depth Up-Scalingで、研究チームはDUSの作動原理を詳しく紹介した。要するにLLamaの2つの大きなモデルを1つの首切り（前の8層を切り取る），1つの尾切り（後の8層を切り取る），2つの24層を縫い合わせ，1つ目のモデルである24層目と2つ目のモデルである9層目をつなぎ合わせ，新たな48層10.7B大きなモデルであるSOLAR 10.7Bとした。

従来のディープラーニングモデルとは異なり、DUSはトレーニング中に複雑な最適化を行う必要はありません。代わりに、単にレイヤーを追加するだけで、モデルを拡張することで、DUSは大規模な言語モデルを簡単かつ効率的に拡張する方法となります。

比較評価では、SOLAR 10.7B は Llama2 や Mistral 7B などの既存のオープンソースのプリトレーニング LLM を上回っています。また、SOLAR 10.7B-InstructはMixtral-8x7Bより性能が優れているという点も提示した。

Fusic 技術ブログPublication

さまざまな個性を受け入れて有機的につなぐ社内環境を整える。あらゆる事業機会の創出と実現を繰り返し、世の中に対する視点を絶えず増やして成長していく。あっと驚くような角度から発展できるポイントを見つけ、そこにいい感じにフィットする形でテクノロジーを組み込んで、世の中をちょっとずつ、時には大胆にアップデートしつづけていく。

Discussion