Open11

ニューラル著者帰属:大規模言語モデルによる文体分析

tsubaki kyosuketsubaki kyosuke

本論文の背景

GPT-4, PaLM, LlamaなどのLLMの進化に伴い、AIが生成するテキストの増加が人間の生産性を向上させる一方で、誤情報の拡散やサイバーセキュリティの脅威をもたらすリスクがあると指摘されている。

特に、AIによって作成されたコンテンツの出所を特定することが重要であると強調し、このプロセスをニューラル著者帰属(Neural Authorship Attribution)と呼んでいる。

この研究は、テキストが生成されたLLMを識別するための計算手法の必要性を強調し、既知のLLMからのテキストに対して事前に学習された言語モデル(PLM)を用いて分類器を訓練する方法を提案している。

ニューラル著者帰属はAIによって生成されたテキストからどのモデルが生成したのかを特定するフォレンジックな取り組み

tsubaki kyosuketsubaki kyosuke

本論文の目的

LLMのライティングシグネチャ(書き方の特徴)を研究し、ProprietaryとOSSのモデルの文体特徴の違いを明らかにすることと、文章の様々な特徴量を分析・スコアリング化し、生成元のLLMの帰属を求めること

tsubaki kyosuketsubaki kyosuke

関連研究

著者帰属(Authorship Attribution: AA)は、ある著者の執筆特徴から著者を特定するタスクであり、昔から広く研究されている分野

初期の段階では、ナイーブベイズ、SVM、Conditional Tree、ランダムフォレスト、KNNのような古典的な分類器が、N-grams、POS-tags、トピックモデリング、LIWCのような特徴抽出技術と共にAA問題を解決するために採用されていたが、近年ではCNNやRNNのようなモデルもAA問題に使われ始めている。

さらに、Transformerベースの言語モデルの出現に伴い、AAの分野には「ニューラル著者」とい新しいカテゴリが登場した。これは、特定のテキストがどのソース言語モデルによって生成されたのかを特定するタスク。

最近の研究では、ファインチューニングされたモデルのベースモデルを特定することに焦点を当てている。

Attribution and Obfuscation of Neural Text Authorship: A Data...
Authorship Attribution for Neural Text Generation
Stylometric Detection of AI-Generated Text in Twitter Timelines
NCBI - WWW Error Blocked Diagnostic
Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained...

tsubaki kyosuketsubaki kyosuke

研究デザイン

本研究では、様々なLLM(Proprietary or OSS)のライティングシグネチャを定量化し、より解釈可能なニューラル著者帰属を可能にすることを目的としている。

3ステップに分けて行われる

  1. データセットの作成:2つのカテゴリーを代表する6つのLLMのテキストを含むデータセット作成
  2. 文章特徴抽出:それぞれのLLMのデータセットに対して、語彙的、構文的、構造的な言語次元にまたがる60の文体特徴を取り出す
  3. 学習と評価:得られた文章特徴を解釈可能なニューラル著者帰属モデルに組み込む
tsubaki kyosuketsubaki kyosuke

データセット

使用するLLMは GPT-4、GPT-3.5、Llama 1、Llama 2、GPT-NeoX とし、GPT-4, GPT-3.5はProprietaryなモデル、Llama 1、Llama 2、GPT-NeoXはOSSモデル

それぞれのLLMによってニュース記事を生成し、合計6Kのデータを集める。それぞれのニュースの見出しは共通とする。(実際のCNNとWashington Postのニュース記事を使用)

tsubaki kyosuketsubaki kyosuke

ライティングシグネチャの抽出

各モデルの文体特徴を評価する方法を考える。文体特徴評価セットを以下のように定義する。

F = F^1 \cap F^2 \cap F^3

F^i | i \in 1, 2, 3 はそれぞれ、語彙的特徴、構文的特徴、構造的特徴を表す。

F^1: 著者の言葉の使い方のユニークなスタイルを定量化する。平均的な単語の長さ、機能単語の使用率、語彙の豊富さ、ハパックス・レゴメナ(一度しか登場しない単語)、ストップワードの使用率について、移動平均タイプ-トークン比(Moving-Average Type–Token Ratio (MATTR))を使用したユニークな単語の豊富さを測定

F^2: 著者の文法構造の使用を定量化する。平均的な文の長さ(文ごとの単語数)、品詞(POS)の使用頻度(文ごとの名詞、動詞、形容詞、副詞、代名詞などの頻度)、能動態と受動態、過去形と現在形の使い分けを測定

F^3: テキストの構成とレイアウトを定量化する。段落ごとの平均的な長さ(段落ごとの単語と文の頻度)、句読点の使用頻度、大文字の使用率を測定する

各特徴量のスコアのレンジが異なるため正規化した値を求めることにし、n を文体の特徴の数を表し、f_i \in FW=(w_1, w_2, \dots, w_m) は、LLMによって生成されたニュース記事のトークナイズとする。最終的に正規化された文章特徴ベクトルS_nを以下のようにする。

S_n = \frac {[f_1(W), f_2(W), \dots, f_n(W)]} {\lVert[f_1(W), f_2(W), \dots, f_n(W)] \rVert}

(本研究の場合60の文体特徴を取り出すため60次元のベクトルが得られることになる)

tsubaki kyosuketsubaki kyosuke

ニューラル著者帰属

以下の6つの分類モデルを使用

  1. XGB_{Stylo}: 文体特徴を使って学習したXGBoost
  2. XGB_{BOW}: BoWを使って学習したXGBoost
  3. RoBERTa_{Zero}: ベースのRoBERTa
  4. RoBERTa_{FT}: データセットを用いてファインチューニングされたRoBERTa
  5. RoBERTa_{Stylo}: 文体特徴のベクトルとRoBERTaの埋め込みを合わせた連結ベクトルを使用するRoBERTa。アテンション層を通じて作成される。
tsubaki kyosuketsubaki kyosuke

互いの分布を見てみると、GPT-3.4、GPT-4には多くの点で重複しているのが分かり、2つ目の画像では特に顕著に現れている。また、ProprietaryとOSSの区別も明確に現れていることがわかる。


RoBERTaの埋め込み768次元のベクトルにおけるt-SNE


文体特徴60次元のベクトルにおけるt-SNE

tsubaki kyosuketsubaki kyosuke

GPT3.5とGPT4に関して非常に高い精度で分類できていることがわかる。同等の事前学習データセットを持つにも関わらず独立した文体特徴を示していることが言える。

また、Llama 1とGPT-NeoXに関して、同じような文体特徴を持つためスコアが他と比較すると低いことがわかる。

3つの著者帰属タスクのFスコア

tsubaki kyosuketsubaki kyosuke

前置詞(pos_count_IN)、形容詞(pos_count_jj)などの品詞の使い分け、つまり構文的特徴が2つのカテゴリーを分類する上で重要な属性であることがわかる。また句読点の使い方、段落の長さといった構造的特徴も重要な属性であることがわかる。


ProprietaryLLMとOSSLLMの帰属における特徴の重要性を示すSHAP値