😎
やばいSLMを見つけてしまった
その名も「Doge」...
ポイント1. 怪しい
挿絵が怪しい。
関連論文著者の連絡先がGmailというのも怪しい。
ポイント2. モデルサイズ
モデルが小さすぎる。
重みファイルがBF16で100MBほどしかない。
あのQwen3-0.6Bやapple/FastVLM-0.5Bですら、BF16で1.5GBぐらいのサイズである。
unslothがQwen3-0.6Bの4bit量子化を頑張っているが500MBのサイズ感であり、裸足で逃げ出すレベルである。
またHuggingFaceが超小型モデルを頑張っているのだが、それでも250MBちょっとはある。
ポイント3. 注目されていない
月間DL 150ぐらい。。
unslothのQwen3-0.6B 4bit量子化版というニッチモデルでも10,000ほどある。
ポイント4. ちゃんと動く
通常のSLMを量子化などで削っていくと、このサイズ帯になる頃には言語能力皆無になっているのが常なのだが、それらしい回答をもらえる。
prompt = "What is the capital of Japan?"
response = "Japan is a country located in Southeast Asia, and it has a long history dating back thousands of years. The capital of Japan is Tokyo, which is the capital of Japan's capital city, Kyoto. Tokyo is also known as the Imperial Capital of Japan, and it's the largest city in Japan."
prompt = "Who is the first president of the United States?"
response = "George Washington is the first president of the United States. He was born on December 18, 1787, in Philadelphia, Pennsylvania, and was the son of Benjamin Franklin and Mary Jane Grey. Washington was a diplomat, diplomat, and a statesman. He was the first president of the United States, and he was known for his leadership skills and his ability to influence the political system."
ポイント5. もっと小さいモデルもある
モデルサイズがさらに半分の50MBぐらいの20M版もある。しかし、私の環境で動作が確認できなかった。
終わりに
大規模資本でもなさそう?な野良の研究者と思わしき技術者集団がこれを生み出したということに衝撃を受けている。
Discussion
かの有名なかぼすちゃんですね…
とうとうこの世界にまで入ってきていることに感動しました
入ってきているというか勝手に使われてるというか。。