🐡

MPT-7Bモデルスペックまとめ

2023/05/08に公開

共通スペック

  • パラメータ数6.7B
  • 事前学習にMosaicMLのデータチームが収集した1Tのトークンを使用
    • Llamaと同じオーダー、商用利用可能なモデルの中では最大
    • データは基本的には英語。Common Crawlなども利用されているため英語以外の言語も若干含まれてはいると推察される
  • 推論時にコンテキスト長を最大84Kまで拡張できる
    • 商用利用含めても原理上無限コンテキストのRWKVに次いで最大
  • flash attention採用で推論が軽め
    • vicunaと同じ
  • tokenizerは EleutherAI/gpt-neox-20b

個別スペック

モデル 学習時コンテキスト長 finetuneデータ データ量 商用利用
Base 2048 - 1T 可能
StoryWriter-65k+ 65536 books3[1] 1T+5B 可能
Instruct 2048 dolly
Anthropic’s Helpful and Harmless
1T+9.6M 可能
Chat 2048 ShareGPT-Vicuna
HC3
Alpaca
Helpful and Harmless
Evol-Instruct
1T+86M 不可

Chatのみspaceがある。
https://huggingface.co/spaces/mosaicml/mpt-7b-chat

雑感

  • 学習時のコンテキスト長が短いモデルでも推論時には長いコンテキストを扱えるものの汎化しているかは不明
  • デフォルトだと日本語はそこまで得意ではなさそう
    • 日本語の問いかけに英語で答えが返って来ることがある
    • 日本語だとchatモデルでも適当なところで回答が終わらない。日本語のEOSの位置の学習がunderfitしているからだと推察される
脚注
  1. 100GB/19700冊の書籍を集めたデータセット。基本英語だが時々別の言語も混じっている模様。 ↩︎

Discussion