🤗
フリーで使える日本語の主な大規模言語モデルまとめ
- 個人的なまとめです。
- 企業または研究機関が公表しているモデルのみ掲載する予定です。
- Multilingual(多言語)モデルは掲載しない予定です。
- 言語モデルに限らず、日本語の自然言語処理全般に関するツールを調べたい場合は、以下のリポジトリをご参照下さい。
LATEST UPDATE
2022-05-13: rinna株式会社の日本語CLIP、日本語CLOOBの情報を追加しました。
文書分類や固有表現抽出、選択肢解答問題など、入力文自体を処理するタスクに主に使うモデル
汎用
モデル | 事前学習テキスト | 開発元 | HuggingFace ですぐ使える?[1] | |
---|---|---|---|---|
京大BERT | BERT (base, large) | 日本語 Wikipedia (約1,800万文) | 京大 黒橋研 | △ |
東北大BERT | BERT (base, large) | 日本語 Wikipedia (base (v1): 約1,700万文 (2.6GB), base (v2) & large: 約3,000万文 (4.0GB)) |
東北大 乾研 | ◯ (base (v1), base (v2), large) |
NICT BERT | BERT (base) | 日本語 Wikipedia | NICT | △ |
東大BERT | BERT (small) | 日本語 Wikipedia (約2,000万文 (2.9GB)) | 東大 和泉研 | ◯ |
chiTra (Sudachi Transformers) | BERT (base) | 国語研日本語ウェブコーパス (NWJC) (148GB) | NINJAL & ワークス徳島人工知能NLP研 | △ |
日本語DistilBERT | DistilBERT | - (東北大BERT(base) を親モデルとして知識蒸留) | BANDAI NAMCO Research | ◯ |
rinna RoBERTa | RoBERTa (base) | 日本語 Wikipedia + Japanese CC-100 |
rinna | ◯ |
早大RoBERTa | RoBERTa (base, large) | 日本語 Wikipedia + Japanese CC-100 |
早大 河原研 | ◯ (base, large, large (seq512)) [2] |
インフォマティクスRoBERTa | RoBERTa (base) | 日本語 Wikipedia + Web 上の記事 (計25GB) |
インフォマティクス | △ |
シナモンELECTRA | ELECTRA (small) | 日本語 Wikipedia | シナモン | ◯ |
リクルートELECTRA | ELECTRA (base) | mC4 データセット内の日本語 (約2億文) | Megagon Labs (リクルート) |
◯ |
東大ELECTRA | ELECTRA (small, base) | 日本語 Wikipedia (約2,000万文 (2.9GB)) | 東大 和泉研 | ◯ (small, base) |
ドメイン特化型
モデル | 事前学習テキスト | 開発元 | HuggingFace ですぐ使える? | |
---|---|---|---|---|
日本語ニュースBERT | BERT (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | △ |
日本語ニュースXLNet | XLNet (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | △ |
日本語ニュースALBERT | ALBERT (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | △ |
Laboro BERT | BERT (base, large) | 日本語 Web コーパス (ニュースサイトやブログなど 計4,307のWebサイト、2,605,280ページ (12GB)) |
Laboro.AI | |
Laboro DistilBERT | DistilBERT | - (Laboro BERT(base) を親モデルとして知識蒸留) | Laboro.AI | ◯ |
日本語ブログELECTRA | ELECTRA (small) | 日本語ブログコーパス(3億5,400万文) | 北見工大 桝井・プタシンスキ研 | ◯ |
日本語金融BERT | BERT (small, base) [3] | 日本語 Wikipedia + 日本語金融コーパス (約2,700万文 (5.2GB)) |
東大 和泉研 | ◯ (small, base) |
日本語金融ELECTRA | ELECTRA (small) | 日本語 Wikipedia (約2,000万文 (2.9GB)) + 日本語金融コーパス (約2,700万文 (5.2GB)) |
東大 和泉研 | ◯ |
UTH-BERT | BERT (base) | 日本語医療テキスト(約1億2,000万行) | 東大病院 医療AI開発学講座 |
△ |
medBERTjp | BERT (base) | 日本語 Wikipedia + 日本語医療コーパス(『今日の診療プレミアム』Web版) |
阪大病院 医療情報学研究室 |
△ |
なお、日本語 BERT に関しては以下のリポジトリにより詳細にまとめられていますので、そちらもご参照ください。
要約や質問応答、対話など、テキスト生成タスクに主に使うモデル
汎用
モデル | 事前学習テキスト | 開発元 | HuggingFace ですぐ使える? | |
---|---|---|---|---|
rinna GPT [4] | GPT (xsmall, small, medium, gpt-1b) | 日本語 Wikipedia + Japanese CC-100 |
rinna | ◯ (xsmall, small, medium, gpt-1b) |
イエローバックGPT [4:1] | GPT (gpt-neo-1.3b) | 日本語 Wikipedia + Japanese CC-100 + oscar データセット内の日本語 |
イエローバック | ◯ |
早大GPT [4:2] | GPT (small) | 日本語 Wikipedia + Japanese CC-100 |
早大 河原研 | ◯ |
日本語BART | BART (base, large) | 日本語 Wikipedia (約1,800万文) | 京大 黒橋研 | |
日本語T5 | T5 (base) | mC4 データセット内の日本語 (87,425,304 ページ (782 GB)) + wiki40b データセット内の日本語 (828,236 記事 (2 GB)) |
Megagon Labs (リクルート) |
◯ |
ドメイン特化型
モデル | 事前学習テキスト | 開発元 | HuggingFace ですぐ使える? | |
---|---|---|---|---|
日本語対話Transformer | Transformer | Twitter 上の日本語リプライのペア | NTT |
言語と画像を融合させたタスクに主に使うモデル
モデル | 事前学習画像/テキスト | 開発元 | HuggingFace ですぐ使える? | |
---|---|---|---|---|
日本語CLIP | CLIP (画像エンコーダは google/vit-base-patch16-224 で重みが初期化された ViT-B/16、 テキストエンコーダは rinna RoBERTa で重みが初期化された RoBERTa(base)) |
CC12M のキャプションを日本語に翻訳したもの | rinna | ◯ |
日本語CLOOB | CLOOB (画像エンコーダは google/vit-base-patch16-224 で重みが初期化された ViT-B/16、 テキストエンコーダは rinna RoBERTa で重みが初期化された RoBERTa(base)) |
CC12M のキャプションを日本語に翻訳したもの | rinna | ◯ |
(参考)各モデルの原論文
脚注
-
○: HuggingFace の Model Hub にモデルがアップロードされており、
AutoModel.from_pretrained()
等ですぐ読み込める
△: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している ↩︎ -
nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している ↩︎
-
small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある ↩︎
-
GPT と GPT-2、GPT-3 にはモデルのサイズの違いしかないため、本記事ではまとめて GPT とする。また、GPT-Neo 等のオープンソース実装についても GPT で統一する。 ↩︎ ↩︎ ↩︎
Discussion
実装・コーパスが独自な日本語GPT-2もあります。ご参考まで