ニューラル著者帰属:大規模言語モデルによる文体分析
本論文の背景
GPT-4, PaLM, LlamaなどのLLMの進化に伴い、AIが生成するテキストの増加が人間の生産性を向上させる一方で、誤情報の拡散やサイバーセキュリティの脅威をもたらすリスクがあると指摘されている。
特に、AIによって作成されたコンテンツの出所を特定することが重要であると強調し、このプロセスをニューラル著者帰属(Neural Authorship Attribution)と呼んでいる。
この研究は、テキストが生成されたLLMを識別するための計算手法の必要性を強調し、既知のLLMからのテキストに対して事前に学習された言語モデル(PLM)を用いて分類器を訓練する方法を提案している。
ニューラル著者帰属はAIによって生成されたテキストからどのモデルが生成したのかを特定するフォレンジックな取り組み
本論文の目的
LLMのライティングシグネチャ(書き方の特徴)を研究し、ProprietaryとOSSのモデルの文体特徴の違いを明らかにすることと、文章の様々な特徴量を分析・スコアリング化し、生成元のLLMの帰属を求めること
関連研究
著者帰属(Authorship Attribution: AA)は、ある著者の執筆特徴から著者を特定するタスクであり、昔から広く研究されている分野
初期の段階では、ナイーブベイズ、SVM、Conditional Tree、ランダムフォレスト、KNNのような古典的な分類器が、N-grams、POS-tags、トピックモデリング、LIWCのような特徴抽出技術と共にAA問題を解決するために採用されていたが、近年ではCNNやRNNのようなモデルもAA問題に使われ始めている。
さらに、Transformerベースの言語モデルの出現に伴い、AAの分野には「ニューラル著者」とい新しいカテゴリが登場した。これは、特定のテキストがどのソース言語モデルによって生成されたのかを特定するタスク。
最近の研究では、ファインチューニングされたモデルのベースモデルを特定することに焦点を当てている。
Attribution and Obfuscation of Neural Text Authorship: A Data...
Authorship Attribution for Neural Text Generation
Stylometric Detection of AI-Generated Text in Twitter Timelines
NCBI - WWW Error Blocked Diagnostic
Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained...
研究デザイン
本研究では、様々なLLM(Proprietary or OSS)のライティングシグネチャを定量化し、より解釈可能なニューラル著者帰属を可能にすることを目的としている。
3ステップに分けて行われる
- データセットの作成:2つのカテゴリーを代表する6つのLLMのテキストを含むデータセット作成
- 文章特徴抽出:それぞれのLLMのデータセットに対して、語彙的、構文的、構造的な言語次元にまたがる60の文体特徴を取り出す
- 学習と評価:得られた文章特徴を解釈可能なニューラル著者帰属モデルに組み込む
データセット
使用するLLMは GPT-4、GPT-3.5、Llama 1、Llama 2、GPT-NeoX とし、GPT-4, GPT-3.5はProprietaryなモデル、Llama 1、Llama 2、GPT-NeoXはOSSモデル
それぞれのLLMによってニュース記事を生成し、合計6Kのデータを集める。それぞれのニュースの見出しは共通とする。(実際のCNNとWashington Postのニュース記事を使用)
ライティングシグネチャの抽出
各モデルの文体特徴を評価する方法を考える。文体特徴評価セットを以下のように定義する。
各特徴量のスコアのレンジが異なるため正規化した値を求めることにし、
(本研究の場合60の文体特徴を取り出すため60次元のベクトルが得られることになる)
ニューラル著者帰属
以下の6つの分類モデルを使用
- XGB
: 文体特徴を使って学習したXGBoost_{Stylo} - XGB
: BoWを使って学習したXGBoost_{BOW} - RoBERTa
: ベースのRoBERTa_{Zero} - RoBERTa
: データセットを用いてファインチューニングされたRoBERTa_{FT} - RoBERTa
: 文体特徴のベクトルとRoBERTaの埋め込みを合わせた連結ベクトルを使用するRoBERTa。アテンション層を通じて作成される。_{Stylo}
互いの分布を見てみると、GPT-3.4、GPT-4には多くの点で重複しているのが分かり、2つ目の画像では特に顕著に現れている。また、ProprietaryとOSSの区別も明確に現れていることがわかる。
RoBERTaの埋め込み768次元のベクトルにおけるt-SNE
文体特徴60次元のベクトルにおけるt-SNE
GPT3.5とGPT4に関して非常に高い精度で分類できていることがわかる。同等の事前学習データセットを持つにも関わらず独立した文体特徴を示していることが言える。
また、Llama 1とGPT-NeoXに関して、同じような文体特徴を持つためスコアが他と比較すると低いことがわかる。
3つの著者帰属タスクの
前置詞(pos_count_IN)、形容詞(pos_count_jj)などの品詞の使い分け、つまり構文的特徴が2つのカテゴリーを分類する上で重要な属性であることがわかる。また句読点の使い方、段落の長さといった構造的特徴も重要な属性であることがわかる。
ProprietaryLLMとOSSLLMの帰属における特徴の重要性を示すSHAP値