🤗

フリーで使える日本語の主な大規模言語モデルまとめ

2021/10/18に公開約10,800字1件のコメント
  • 個人的なまとめです。
  • 企業または研究機関が公表しているモデルのみ掲載する予定です。
  • Multilingual(多言語)モデルは掲載しない予定です。
  • 言語モデルに限らず、日本語の自然言語処理全般に関するツールを調べたい場合は、以下のリポジトリをご参照下さい。

https://github.com/taishi-i/awesome-japanese-nlp-resources

LATEST UPDATE

2022-05-13: rinna株式会社の日本語CLIP、日本語CLOOBの情報を追加しました。

文書分類や固有表現抽出、選択肢解答問題など、入力文自体を処理するタスクに主に使うモデル

汎用

モデル 事前学習テキスト 開発元 HuggingFace ですぐ使える?[1]
京大BERT BERT (base, large) 日本語 Wikipedia (約1,800万文) 京大 黒橋研
東北大BERT BERT (base, large) 日本語 Wikipedia (base (v1): 約1,700万文 (2.6GB),
base (v2) & large: 約3,000万文 (4.0GB))
東北大 乾研 ◯ (base (v1), base (v2), large)
NICT BERT BERT (base) 日本語 Wikipedia NICT
東大BERT BERT (small) 日本語 Wikipedia (約2,000万文 (2.9GB)) 東大 和泉研
chiTra (Sudachi Transformers) BERT (base) 国語研日本語ウェブコーパス (NWJC) (148GB) NINJAL & ワークス徳島人工知能NLP研
日本語DistilBERT DistilBERT - (東北大BERT(base) を親モデルとして知識蒸留) BANDAI NAMCO Research
rinna RoBERTa RoBERTa (base) 日本語 Wikipedia
+ Japanese CC-100
rinna
早大RoBERTa RoBERTa (base, large) 日本語 Wikipedia
+ Japanese CC-100
早大 河原研 ◯ (base, large, large (seq512)) [2]
インフォマティクスRoBERTa RoBERTa (base) 日本語 Wikipedia
+ Web 上の記事 (計25GB)
インフォマティクス
シナモンELECTRA ELECTRA (small) 日本語 Wikipedia シナモン
リクルートELECTRA ELECTRA (base) mC4 データセット内の日本語 (約2億文) Megagon Labs
(リクルート)
東大ELECTRA ELECTRA (small, base) 日本語 Wikipedia (約2,000万文 (2.9GB)) 東大 和泉研 ◯ (small, base)

ドメイン特化型

モデル 事前学習テキスト 開発元 HuggingFace ですぐ使える?
日本語ニュースBERT BERT (base) 日本語ビジネスニュース記事(300万記事) ストックマーク
日本語ニュースXLNet XLNet (base) 日本語ビジネスニュース記事(300万記事) ストックマーク
日本語ニュースALBERT ALBERT (base) 日本語ビジネスニュース記事(300万記事) ストックマーク
Laboro BERT BERT (base, large) 日本語 Web コーパス
(ニュースサイトやブログなど
計4,307のWebサイト、2,605,280ページ (12GB))
Laboro.AI
Laboro DistilBERT DistilBERT - (Laboro BERT(base) を親モデルとして知識蒸留) Laboro.AI
日本語ブログELECTRA ELECTRA (small) 日本語ブログコーパス(3億5,400万文) 北見工大 桝井・プタシンスキ研
日本語金融BERT BERT (small, base) [3] 日本語 Wikipedia
+ 日本語金融コーパス (約2,700万文 (5.2GB))
東大 和泉研 ◯ (small, base)
日本語金融ELECTRA ELECTRA (small) 日本語 Wikipedia (約2,000万文 (2.9GB))
+ 日本語金融コーパス (約2,700万文 (5.2GB))
東大 和泉研
UTH-BERT BERT (base) 日本語医療テキスト(約1億2,000万行) 東大病院
医療AI開発学講座
medBERTjp BERT (base) 日本語 Wikipedia
+ 日本語医療コーパス(『今日の診療プレミアム』Web版)
阪大病院
医療情報学研究室


なお、日本語 BERT に関しては以下のリポジトリにより詳細にまとめられていますので、そちらもご参照ください。

https://github.com/himkt/awesome-bert-japanese

要約や質問応答、対話など、テキスト生成タスクに主に使うモデル

汎用

モデル 事前学習テキスト 開発元 HuggingFace ですぐ使える?
rinna GPT [4] GPT (xsmall, small, medium, gpt-1b) 日本語 Wikipedia
+ Japanese CC-100
rinna ◯ (xsmall, small, medium, gpt-1b)
イエローバックGPT [4:1] GPT (gpt-neo-1.3b) 日本語 Wikipedia
+ Japanese CC-100
+ oscar データセット内の日本語
イエローバック
早大GPT [4:2] GPT (small) 日本語 Wikipedia
+ Japanese CC-100
早大 河原研
日本語BART BART (base, large) 日本語 Wikipedia (約1,800万文) 京大 黒橋研
日本語T5 T5 (base) mC4 データセット内の日本語 (87,425,304 ページ (782 GB))
+ wiki40b データセット内の日本語 (828,236 記事 (2 GB))
Megagon Labs
(リクルート)

ドメイン特化型

モデル 事前学習テキスト 開発元 HuggingFace ですぐ使える?
日本語対話Transformer Transformer Twitter 上の日本語リプライのペア NTT

言語と画像を融合させたタスクに主に使うモデル

モデル 事前学習画像/テキスト 開発元 HuggingFace ですぐ使える?
日本語CLIP CLIP
(画像エンコーダは google/vit-base-patch16-224 で重みが初期化された ViT-B/16、
テキストエンコーダは rinna RoBERTa で重みが初期化された RoBERTa(base))
CC12M のキャプションを日本語に翻訳したもの rinna
日本語CLOOB CLOOB
(画像エンコーダは google/vit-base-patch16-224 で重みが初期化された ViT-B/16、
テキストエンコーダは rinna RoBERTa で重みが初期化された RoBERTa(base))
CC12M のキャプションを日本語に翻訳したもの rinna

(参考)各モデルの原論文

モデル名 会議/ジャーナル 論文
Transformer NIPS(NeurIPS) 2017 Attention Is All You Need
GPT - (2018) Improving Language Understanding with Unsupervised Learning
BERT NAACL 2019 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
GPT-2 - (2019) Language Models are Unsupervised Multitask Learners
DistilBERT EMC2 Workshop at NeurIPS 2019 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
RoBERTa - (2019) RoBERTa: A Robustly Optimized BERT Pretraining Approach
XLNet NeurIPS 2019 XLNet: Generalized Autoregressive Pretraining for Language Understanding
ALBERT ICLR 2020 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
ELECTRA ICLR 2020 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
BART ACL 2020 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
T5 JMLR 2020 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
GPT-3 NeurIPS 2020 Language Models are Few-Shot Learners
CLIP - (2021) Learning Transferable Visual Models From Natural Language Supervision
CLOOB - (2021) CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
脚注
  1. ○: HuggingFace の Model Hub にモデルがアップロードされており、AutoModel.from_pretrained() 等ですぐ読み込める
    △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している ↩︎

  2. nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している ↩︎

  3. small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある ↩︎

  4. GPT と GPT-2、GPT-3 にはモデルのサイズの違いしかないため、本記事ではまとめて GPT とする。また、GPT-Neo 等のオープンソース実装についても GPT で統一する。 ↩︎ ↩︎ ↩︎

Discussion

ログインするとコメントできます