🕵️
AIモデルの命名規則ってどうなってるの?
Hugging Faceのモデル一覧で「???🤗💦」ってなっちゃう人向けの簡単な説明
ざっくり構造
[組織名 or 作者] / [シリーズ名]-[サイズ]-[追加情報]
よく出てくる略語
サイズに関する略語
-
b
もしくはB
: 10億パラメーター(7B
で70億) -
int4
: ビット数
タスクに関する略語
-
it
:Instruction Tuned(命令形式に強い) -
chat
:チャット最適化
その他
-
hf
:Hugging Face互換 -
v1, v0.2
:バージョン情報 -
ft
:ファインチューン済み -
pt
:事前学習済み
例
google/gemma-7b-it
google
が作った、gemma
シリーズの、70億パラメーターの、命令形式に強いモデル
meta-llama/Llama-2-7b-chat-hf
meta-llama
が作った、Lllama
シリーズの第2世代の、70
億パラメーターの、チャット最適化
された、Hugging Face
互換モデル
ByteDance-Seed/BAGEL-7B-MoT
ByteDance-Seed
が作った、BAGEL
シリーズの、70
億パラメーターの、Mixture of Thoughts
(というアーキテクチャ)を使ったモデル
mistralai/Devstral-Small-2505
mistralai
が作った、Devstral
シリーズの、Small
サイズの、2025年5月
にリリースされたモデル
google/gemma-3n-E4B-it-litert-preview
google
が作った、gemma
シリーズの3n
バージョンの、Effective 4B
(実行パラメータが4B)の、命令形式に強い、LiteRT
(軽量なリアルタイム推論向けの形式)の、preview
(正式なリリース前の試験的提供)モデル
まとめ
[組織名 or 作者] / [シリーズ名]
以外は規則があるようなないような、でもふわっと中身を想像するには役に立つ、それがモデル名!😃💥✊
Discussion