🕵️

AIモデルの命名規則ってどうなってるの?

に公開

Hugging Faceのモデル一覧で「???🤗💦」ってなっちゃう人向けの簡単な説明

ざっくり構造

[組織名 or 作者] / [シリーズ名]-[サイズ]-[追加情報]

よく出てくる略語

サイズに関する略語

  • bもしくはB: 10億パラメーター(7Bで70億)
  • int4: ビット数

タスクに関する略語

  • it:Instruction Tuned(命令形式に強い)
  • chat:チャット最適化

その他

  • hf:Hugging Face互換
  • v1, v0.2:バージョン情報
  • ft:ファインチューン済み
  • pt:事前学習済み

google/gemma-7b-it

googleが作った、gemmaシリーズの、70億パラメーターの、命令形式に強いモデル

meta-llama/Llama-2-7b-chat-hf

meta-llamaが作った、Lllamaシリーズの第2世代の、70億パラメーターの、チャット最適化された、Hugging Face互換モデル

ByteDance-Seed/BAGEL-7B-MoT

ByteDance-Seedが作った、BAGELシリーズの、70億パラメーターの、Mixture of Thoughts(というアーキテクチャ)を使ったモデル

mistralai/Devstral-Small-2505

mistralaiが作った、Devstralシリーズの、Smallサイズの、2025年5月にリリースされたモデル

google/gemma-3n-E4B-it-litert-preview

googleが作った、gemmaシリーズの3nバージョンの、Effective 4B(実行パラメータが4B)の、命令形式に強い、LiteRT(軽量なリアルタイム推論向けの形式)の、preview(正式なリリース前の試験的提供)モデル

まとめ

[組織名 or 作者] / [シリーズ名]以外は規則があるようなないような、でもふわっと中身を想像するには役に立つ、それがモデル名!😃💥✊

Discussion