🐡
MPT-7Bモデルスペックまとめ
共通スペック
- パラメータ数6.7B
- 事前学習にMosaicMLのデータチームが収集した1Tのトークンを使用
- Llamaと同じオーダー、商用利用可能なモデルの中では最大
- データは基本的には英語。Common Crawlなども利用されているため英語以外の言語も若干含まれてはいると推察される
-
推論時にコンテキスト長を最大84Kまで拡張できる
- 商用利用含めても原理上無限コンテキストのRWKVに次いで最大
- flash attention採用で推論が軽め
- vicunaと同じ
- tokenizerは
EleutherAI/gpt-neox-20b
個別スペック
モデル | 学習時コンテキスト長 | finetuneデータ | データ量 | 商用利用 |
---|---|---|---|---|
Base | 2048 | - | 1T | 可能 |
StoryWriter-65k+ | 65536 | books3[1] | 1T+5B | 可能 |
Instruct | 2048 |
dolly Anthropic’s Helpful and Harmless |
1T+9.6M | 可能 |
Chat | 2048 | ShareGPT-Vicuna HC3 Alpaca Helpful and Harmless Evol-Instruct |
1T+86M | 不可 |
Chatのみspaceがある。
雑感
- 学習時のコンテキスト長が短いモデルでも推論時には長いコンテキストを扱えるものの汎化しているかは不明
- デフォルトだと日本語はそこまで得意ではなさそう
- 日本語の問いかけに英語で答えが返って来ることがある
- 日本語だとchatモデルでも適当なところで回答が終わらない。日本語のEOSの位置の学習がunderfitしているからだと推察される
-
100GB/19700冊の書籍を集めたデータセット。基本英語だが時々別の言語も混じっている模様。 ↩︎
Discussion