🤔

フリーで使える日本語の主な大規模言語モデルまとめ

7 min read 1
  • 個人的なまとめです。
  • 企業または研究機関が公表しているモデルのみ掲載する予定です。

LATEST UPDATE

2021-12-29: 早大河原研の日本語 GPT-2 の情報を追加しました。
2021-12-27: 早大河原研の日本語 RoBERTa の情報を追加しました。

文書分類や固有表現抽出、選択肢解答問題など、入力文自体を処理するタスクに主に使うモデル

汎用

モデル 事前学習テキスト 開発元 HuggingFace ですぐ使える?[1]
京大BERT BERT (base, large) 日本語 Wikipedia (約1,800万文) 京大 黒橋研
東北大BERT BERT (base, large) 日本語 Wikipedia 東北大 乾研 ◯ (v1, v2)
NICT BERT BERT (base) 日本語 Wikipedia NICT
東大BERT BERT (small) 日本語 Wikipedia (約2,000万文) 東大 和泉研
日本語DistilBERT DistilBERT - (東北大BERT(base) を親モデルとして知識蒸留) BANDAI NAMCO Research
rinna RoBERTa RoBERTa (base) 日本語 Wikipedia
+ Japanese CC-100
rinna
早大RoBERTa RoBERTa (base) 日本語 Wikipedia
+ Japanese CC-100
早大 河原研
シナモンELECTRA ELECTRA (small) 日本語 Wikipedia シナモン [2]
リクルートELECTRA ELECTRA (base) mC4 データセット内の日本語 (約2億文) Megagon Labs
(リクルート)
[2:1]
東大ELECTRA ELECTRA (small, base) 日本語 Wikipedia (約2,000万文) 東大 和泉研 [2:2]

ドメイン特化型

モデル 事前学習テキスト 開発元 HuggingFace ですぐ使える?
日本語ニュースBERT BERT (base) 日本語ビジネスニュース記事(300万記事) ストックマーク
日本語ニュースXLNet XLNet (base) 日本語ビジネスニュース記事(300万記事) ストックマーク
日本語ニュースALBERT ALBERT (base) 日本語ビジネスニュース記事(300万記事) ストックマーク
Laboro BERT BERT (base, large) 日本語 Web コーパス
(ニュースサイトやブログなど
計4,307のWebサイト、2,605,280ページ)
Laboro.AI
Laboro DistilBERT DistilBERT - (Laboro BERT(base) を親モデルとして知識蒸留) Laboro.AI
日本語金融BERT BERT (small) 日本語 Wikipedia (約2,000万文)
+ 日本語金融コーパス (約2,700万文)
東大 和泉研
日本語金融ELECTRA ELECTRA (small) 日本語 Wikipedia (約2,000万文)
+ 日本語金融コーパス (約2,700万文)
東大 和泉研 [2:3]
UTH-BERT BERT (base) 日本語医療テキスト(約1億2,000万行) 東大病院
医療AI開発学講座


なお、日本語 BERT に関しては以下のリポジトリにより詳細にまとめられていますので、そちらもご参照ください。

https://github.com/himkt/awesome-bert-japanese

要約や質問応答、対話など、テキスト生成タスクに主に使うモデル

汎用

モデル 事前学習テキスト 開発元 HuggingFace ですぐ使える?
rinna GPT-2 GPT-2 (xsmall, small, medium) 日本語 Wikipedia
+ Japanese CC-100
rinna
早大GPT-2 GPT-2 (small) 日本語 Wikipedia 早大 河原研
日本語BART BART (base, large) 日本語 Wikipedia (約1,800万文) 京大 黒橋研
日本語T5 T5 (base) mC4 データセット内の日本語
+ wiki40b データセット内の日本語
Megagon Labs
(リクルート)

ドメイン特化型

モデル 事前学習テキスト 開発元 HuggingFace ですぐ使える?
日本語対話Transformer Transformer Twitter 上の日本語リプライのペア NTT

(参考)各モデルの原論文

モデル名 会議/ジャーナル 論文
Transformer NIPS(NeurIPS) 2017 Attention Is All You Need
BERT NAACL 2019 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
GPT-2 - (2019) Language Models are Unsupervised Multitask Learners
DistilBERT EMC2 Workshop at NeurIPS 2019 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
RoBERTa - (2019) RoBERTa: A Robustly Optimized BERT Pretraining Approach
XLNet NeurIPS 2019 XLNet: Generalized Autoregressive Pretraining for Language Understanding
ALBERT ICLR 2020 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
ELECTRA ICLR 2020 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
BART ACL 2020 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
T5 JMLR 2020 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
脚注
  1. Hugging Face の Model Hub にモデルがアップロードされており、AutoModel.from_pretrained() 等ですぐ読み込めるか否かという意味 ↩︎

  2. ELECTRA は事前学習(pre-training)においては Generator と Discriminator と呼ばれる2種類のモデルを学習するが、fine-tuning は Discriminator だけでよい (https://arxiv.org/abs/2003.10555) ↩︎ ↩︎ ↩︎ ↩︎

Discussion

ログインするとコメントできます