🕵️

AIモデルの命名規則ってどうなってるの？

2025/05/26に公開

Hugging Faceのモデル一覧で「？？？🤗💦」ってなっちゃう人向けの簡単な説明

 ざっくり構造[組織名 or 作者] / [シリーズ名]-[サイズ]-[追加情報]

 よく出てくる略語
 サイズに関する略語
bもしくはB: 10億パラメーター(7Bで70億)

int4: ビット数

 タスクに関する略語
it：Instruction Tuned（命令形式に強い）

chat：チャット最適化

 その他
hf：Hugging Face互換

v1, v0.2：バージョン情報

ft：ファインチューン済み

pt：事前学習済み

 例
 google/gemma-7b-itgoogleが作った、gemmaシリーズの、70億パラメーターの、命令形式に強いモデル

 meta-llama/Llama-2-7b-chat-hfmeta-llamaが作った、Lllamaシリーズの第2世代の、70億パラメーターの、チャット最適化された、Hugging Face互換モデル

 ByteDance-Seed/BAGEL-7B-MoTByteDance-Seedが作った、BAGELシリーズの、70億パラメーターの、Mixture of Thoughts(というアーキテクチャ)を使ったモデル

 mistralai/Devstral-Small-2505mistralaiが作った、Devstralシリーズの、Smallサイズの、2025年5月にリリースされたモデル

 google/gemma-3n-E4B-it-litert-previewgoogleが作った、gemmaシリーズの3nバージョンの、Effective 4B（実行パラメータが4B）の、命令形式に強い、LiteRT（軽量なリアルタイム推論向けの形式）の、preview(正式なリリース前の試験的提供)モデル

 まとめ[組織名 or 作者] / [シリーズ名]以外は規則があるようなないような、でもふわっと中身を想像するには役に立つ、それがモデル名！😃💥✊

ざっくり構造

よく出てくる略語

サイズに関する略語

タスクに関する略語

その他

例

google/gemma-7b-it

meta-llama/Llama-2-7b-chat-hf

ByteDance-Seed/BAGEL-7B-MoT

mistralai/Devstral-Small-2505

google/gemma-3n-E4B-it-litert-preview

まとめ

Discussion