(途中)「A Survey of Large Language Models」を読んで
方法
chapdfを使って、arixvで拾ってきたPDFを読み込ませてひたすら質問をする。
目的
GPTの進化が激しく、それによる各市場への影響が激しい。
その変化を正しい目を持ちウォッチできるようになるためにも、以下についてこの論文から学びたいと思う
- 今までどのような歴史があったのか
- 何がトリガーとなり革新が起こったのか
- 何ができるのか
- どのような課題があるのか
- その課題に対してどのようなことが考えられているのか
今までどのような歴史があったのか
過去20年間で、言語モデルは統計的からニューラルへと進化してきました。
- 統計的言語モデル
統計的言語モデルは、自然言語の文や単語の出現確率を統計的にモデル化する手法です。このモデルは、文脈に基づいて単語の出現を予測することができます。例えば、ある単語が出現した場合に、その前後にどのような単語が出現する可能性が高いかを予測することができます。統計的言語モデルは、自然言語処理タスクにおいて広く使用されており、機械翻訳や音声認識などの分野で活用されています。
- ニューラル言語モデル
ニューラル言語モデルは、単語の分散表現を用いたニューラルネットワークによって、文や単語の出現確率をモデル化する手法です。このモデルは、過去の単語の出現履歴を考慮して、次に来る単語を予測することができます。ニューラル言語モデルは、従来の統計的言語モデルよりも高い精度を持ち、自然言語処理タスクにおいて広く使用されています。例えば、機械翻訳や音声認識などの分野で活用されています。
- 大規模なコーパスを用いたTransformerモデルの事前学習による学習言語モデル(PLMs)
事前学習言語モデル(PLMs)は、Transformerモデルを用いた大規模なコーパスの事前学習によって構築されます。この手法では、大量のテキストデータを用いてTransformerモデルを事前学習し、その後、特定のタスクに対してファインチューニングすることで高い精度を実現します。具体的には、BERTやGPT-2などが有名なPLMsの例です。これらのモデルは、自然言語処理タスクにおいて高い精度を発揮し、現在では広く使用されています。
言語モデル | 特徴 | 利点 | 欠点 | 向いている応用タスク | トレンド | 有名なモデル名 |
---|---|---|---|---|---|---|
統計的言語モデル | 単語の出現確率を統計的にモデル化する手法。 | 学習が比較的容易であり、小規模なデータセットでも高精度な予測が可能。 | 長い文脈を考慮することが難しく、精度が低下する傾向がある。また、単語の意味的な関係を考慮できない。 | 言語モデリングやテキスト分類などの基本的な自然言語処理タスク。 | 2010年代以前 | N-gram言語モデル |
ニューラル言語モデル | 単語の分散表現を用いたニューラルネットワークによる学習手法。 | 単語間の意味的な関係を考慮できるため、高精度な予測が可能。 | 学習に必要な計算量が多く、大規模なデータセットが必要。また、過学習の問題がある。 | 言語モデリングやテキスト分類、機械翻訳などの自然言語処理タスク。 | 2010年代以降 | Word2Vec, LSTM, Transformer |
事前学習言語モデル(PLMs) | 大規模なコーパスを用いたTransformerモデルの事前学習によって構築される手法。 | 大量のテキストデータを用いて高精度な予測が可能。また、ファインチューニングによって特定のタスクに対しても高い精度を発揮することができる。 | 学習には膨大な計算量と時間が必要であり、高性能なコンピューターが必要。また、事前学習済みモデルのサイズが非常に大きいため、デプロイメントには注意が必要。 | 言語モデリングやテキスト分類、機械翻訳などの自然言語処理タスク。 | 2010年代後半以降 | BERT, GPT-2, RoBERTa |
また、研究者たちは、モデルのスケーリングが改善されたモデル容量につながることを発見したため、パラメータスケールをさらに大きくすることでスケーリング効果をさらに探求しています。
主要なアプローチには、統計的言語モデルやニューラル言語モデルがあります。最近では、大規模なコーパスを用いたTransformerモデルの事前学習による事前学習言語モデル(PLMs)が提案されており、様々な自然言語処理(NLP)タスクを解決する強力な能力を示しています。
Discussion