tsubaki kyosuke

本論文の背景

GPT-4, PaLM, LlamaなどのLLMの進化に伴い、AIが生成するテキストの増加が人間の生産性を向上させる一方で、誤情報の拡散やサイバーセキュリティの脅威をもたらすリスクがあると指摘されている。

特に、AIによって作成されたコンテンツの出所を特定することが重要であると強調し、このプロセスをニューラル著者帰属（Neural Authorship Attribution）と呼んでいる。

この研究は、テキストが生成されたLLMを識別するための計算手法の必要性を強調し、既知のLLMからのテキストに対して事前に学習された言語モデル（PLM）を用いて分類器を訓練する方法を提案している。

ニューラル著者帰属はAIによって生成されたテキストからどのモデルが生成したのかを特定するフォレンジックな取り組み

tsubaki kyosuke

本論文の目的

LLMのライティングシグネチャ（書き方の特徴）を研究し、ProprietaryとOSSのモデルの文体特徴の違いを明らかにすることと、文章の様々な特徴量を分析・スコアリング化し、生成元のLLMの帰属を求めること

tsubaki kyosuke

研究デザイン

本研究では、様々なLLM（Proprietary or OSS）のライティングシグネチャを定量化し、より解釈可能なニューラル著者帰属を可能にすることを目的としている。

3ステップに分けて行われる

データセットの作成：2つのカテゴリーを代表する6つのLLMのテキストを含むデータセット作成
文章特徴抽出：それぞれのLLMのデータセットに対して、語彙的、構文的、構造的な言語次元にまたがる60の文体特徴を取り出す
学習と評価：得られた文章特徴を解釈可能なニューラル著者帰属モデルに組み込む

tsubaki kyosuke

データセット

使用するLLMは GPT-4、GPT-3.5、Llama 1、Llama 2、GPT-NeoX とし、GPT-4, GPT-3.5はProprietaryなモデル、Llama 1、Llama 2、GPT-NeoXはOSSモデル

それぞれのLLMによってニュース記事を生成し、合計6Kのデータを集める。それぞれのニュースの見出しは共通とする。（実際のCNNとWashington Postのニュース記事を使用）

tsubaki kyosuke

ライティングシグネチャの抽出

各モデルの文体特徴を評価する方法を考える。文体特徴評価セットを以下のように定義する。

F = F^1 \cap F^2 \cap F^3

$F^i | i \in 1, 2, 3$ はそれぞれ、語彙的特徴、構文的特徴、構造的特徴を表す。

$F^1$ : 著者の言葉の使い方のユニークなスタイルを定量化する。平均的な単語の長さ、機能単語の使用率、語彙の豊富さ、ハパックス・レゴメナ（一度しか登場しない単語）、ストップワードの使用率について、移動平均タイプ-トークン比（Moving-Average Type–Token Ratio (MATTR)）を使用したユニークな単語の豊富さを測定

$F^2$ : 著者の文法構造の使用を定量化する。平均的な文の長さ（文ごとの単語数）、品詞（POS）の使用頻度（文ごとの名詞、動詞、形容詞、副詞、代名詞などの頻度）、能動態と受動態、過去形と現在形の使い分けを測定

$F^3$ : テキストの構成とレイアウトを定量化する。段落ごとの平均的な長さ（段落ごとの単語と文の頻度）、句読点の使用頻度、大文字の使用率を測定する

各特徴量のスコアのレンジが異なるため正規化した値を求めることにし、 $n$ を文体の特徴の数を表し、 $f_i \in F$ 、 $W=(w_1, w_2, \dots, w_m)$ は、LLMによって生成されたニュース記事のトークナイズとする。最終的に正規化された文章特徴ベクトル $S_n$ を以下のようにする。

S_n = \frac {[f_1(W), f_2(W), \dots, f_n(W)]} {\lVert[f_1(W), f_2(W), \dots, f_n(W)] \rVert}

（本研究の場合60の文体特徴を取り出すため60次元のベクトルが得られることになる）

tsubaki kyosuke

ニューラル著者帰属

以下の6つの分類モデルを使用

XGB $_{Stylo}$ : 文体特徴を使って学習したXGBoost
XGB $_{BOW}$ : BoWを使って学習したXGBoost
RoBERTa $_{Zero}$ : ベースのRoBERTa
RoBERTa $_{FT}$ : データセットを用いてファインチューニングされたRoBERTa
RoBERTa $_{Stylo}$ : 文体特徴のベクトルとRoBERTaの埋め込みを合わせた連結ベクトルを使用するRoBERTa。アテンション層を通じて作成される。

tsubaki kyosuke

互いの分布を見てみると、GPT-3.4、GPT-4には多くの点で重複しているのが分かり、2つ目の画像では特に顕著に現れている。また、ProprietaryとOSSの区別も明確に現れていることがわかる。

RoBERTaの埋め込み768次元のベクトルにおけるt-SNE

文体特徴60次元のベクトルにおけるt-SNE

tsubaki kyosuke

GPT3.5とGPT4に関して非常に高い精度で分類できていることがわかる。同等の事前学習データセットを持つにも関わらず独立した文体特徴を示していることが言える。

また、Llama 1とGPT-NeoXに関して、同じような文体特徴を持つためスコアが他と比較すると低いことがわかる。

3つの著者帰属タスクの $F$ スコア

tsubaki kyosuke

前置詞（pos_count_IN）、形容詞（pos_count_jj）などの品詞の使い分け、つまり構文的特徴が2つのカテゴリーを分類する上で重要な属性であることがわかる。また句読点の使い方、段落の長さといった構造的特徴も重要な属性であることがわかる。

ProprietaryLLMとOSSLLMの帰属における特徴の重要性を示すSHAP値

ニューラル著者帰属：大規模言語モデルによる文体分析

本論文の背景

本論文の目的

関連研究

研究デザイン

データセット

ライティングシグネチャの抽出

ニューラル著者帰属