🕵️
AIモデルの命名規則ってどうなってるの?
Hugging Faceのモデル一覧で「???🤗💦」ってなっちゃう人向けの簡単な説明
ざっくり構造
[組織名 or 作者] / [シリーズ名]-[サイズ]-[追加情報]
よく出てくる略語
サイズに関する略語
-
bもしくはB: 10億パラメーター(7Bで70億) -
int4: ビット数
タスクに関する略語
-
it:Instruction Tuned(命令形式に強い) -
chat:チャット最適化
その他
-
hf:Hugging Face互換 -
v1, v0.2:バージョン情報 -
ft:ファインチューン済み -
pt:事前学習済み
例
google/gemma-7b-it
googleが作った、gemmaシリーズの、70億パラメーターの、命令形式に強いモデル
meta-llama/Llama-2-7b-chat-hf
meta-llamaが作った、Lllamaシリーズの第2世代の、70億パラメーターの、チャット最適化された、Hugging Face互換モデル
ByteDance-Seed/BAGEL-7B-MoT
ByteDance-Seedが作った、BAGELシリーズの、70億パラメーターの、Mixture of Thoughts(というアーキテクチャ)を使ったモデル
mistralai/Devstral-Small-2505
mistralaiが作った、Devstralシリーズの、Smallサイズの、2025年5月にリリースされたモデル
google/gemma-3n-E4B-it-litert-preview
googleが作った、gemmaシリーズの3nバージョンの、Effective 4B(実行パラメータが4B)の、命令形式に強い、LiteRT(軽量なリアルタイム推論向けの形式)の、preview(正式なリリース前の試験的提供)モデル
まとめ
[組織名 or 作者] / [シリーズ名]以外は規則があるようなないような、でもふわっと中身を想像するには役に立つ、それがモデル名!😃💥✊
Discussion