犯罪心理学の「落とし穴」とデータサイエンスの責務 — AIを「差別マシン」にしないために
こんにちは!
データサイエンティストの鈴木るなです。
前回、私は自身のマニフェストとして「なぜ人は罪を犯すのか」という問いに、
データサイエンスでどう向き合おうとしているのかという記事を書きました。
その記事で掲げた私のビジョンであり持論を改めてここに共有させてください。
私の目標は「データで人を裁く」ことではありません。
セーフティネットが綻び、社会から孤立していく兆候は、日々のデータの中に静かに現れているはずです。
そのサインを見つけ出し、人が犯罪という最後の崖にたどり着く前に手を差し伸べる。
このビジョンを実現するためにも、私たちは過去の過ちから学ばなければなりません。
今回は前回の記事で約束したロードマップの第一歩として『ケースで学ぶ犯罪心理学』という本をデータサイエンティストの視点で読み解いてみます。
この本では殺人・放火・テロといった生命犯を中心に数多くの事件をケースとして取り上げ、そこから「犯人像」の傾向を導き出しています。
刑事の「勘」を統計的に再現しようとするアプローチも多く、犯罪心理学の歩みを知る上でとても興味深い内容です。
しかしデータサイエンティストの私がこの歴史を紐解くと、そこには現代のAI開発にも通じる恐ろしい落とし穴が見えてきました。
もし私たちが過去と同じ過ちを繰り返せば、AIは人を支える仕組みではなくただの『差別マシン』になり果てる。この記事はその危険性を告発するものです。
まずはこの過去のアプローチが持つ根本的な限界から見ていきましょう。
犯人像の行き止まり
刑事の「勘」を統計的に再現しようとするアプローチには、データサイエンティストの目から見ると2つの大きな制約があります。
1つ目は、分析対象が「有罪判決を受けた犯人に限られている」というサンプリング・バイアスです。
そもそも警察が認知する犯罪(顕在数)自体が氷山の一角であり、その下には膨大な暗数(報告されない犯罪)が隠れています。
特に通報するのが面倒だと感じやすい軽犯罪や、知り合い間で起きる性犯罪ではその傾向が顕著です。
つまり私たちが分析できるデータは二重に偏ったサンプルでしかないということです。
2つ目は、重大犯罪は統計的に「超レアケース」であり、ビッグデータの世界とは真逆の領域にあるという点です。
過去の犯罪心理学が「犯人像の分類」という手法に留まらざるを得なかったのは、このデータの制約があったからとも言えます。
一方でデータサイエンティストとしての私の関心は「過去の分類」ではなく「未来の予防」にあります。
だからこそ過去の研究がどんな限界を持っていたのかを理解することは次の一歩を考える上で欠かせません。
「見せかけの相関」と「偏見のラベル」
これまでの犯罪心理学は「犯人像」を推定することに注力してきました。
性格や職業などのデータと犯行を結びつけ「こういう人間が危ない」と推定するわけです。
例えばFBIが提唱した秩序型・無秩序型という分類。
知能の高さや家族構成で犯人像をプロファイリングするこの手法は、ドラマなどでも有名です。
しかし本書によればその両方が混在する混合型も多く、今ではこの分類自体がほとんど意味をなしていないとさえ考えられています。
なぜ、こんなことが起きるのでしょうか。
見せかけの相関という罠
「女性の大量殺人者には看護師が多い」という話を聞いたことがある人も多いかもしれません。
でもフタを開けてみればこれは看護師という職業が持つ特性の話で、女性であったというのはただの結果なのです。
つまり「看護師という職業に女性が多い」という前提が抜けていたわけです。
この例は見た目の相関も、データの切り取り方次第で全く違う意味になることを示しています。
そして本書で紹介される研究にも、こうした「見せかけの相関」や「統計的な罠」が潜んでいるのではと感じました。
誰が貼ったか分からない「ラベル」
さらに緊張感が高まるのは、「プライドが高い」「劣等感が強い」といった定性的なラベルをデータ化している点です。
そのラベル、誰がどんな基準で付けたのでしょう?
捜査官? メディア? それとも当時の社会通念?
例えば「反省の色が見えない」=「プライドが高い」と記録されたとしたら?
それは本当にプライドでしょうか?
もしこうした判断基準そのものが社会的な偏見を反映していたとしたら、そのデータをAIに学習させることは差別の再生産につながりかねません。
このデータの危うさは主観的なラベルだけに留まりません。
本書では、とても重要視されている目撃情報ですら、いかに記憶の中で変容し捏造されるかが解説されています。
これらはデータと呼ぶにはあまりにも脆い。
この脆くバイアスの塊のようなデータをAIに学習させれば何が起きるか答えは明らかです。
差別的な予測マシンだけは作ってはなりません。
これこそ、アメリカで起きたCOMPAS事件の原型そのものです。
「点」ではなく「線」で見る
過去の研究が「犯行」という点にしか焦点を当てられなかったのは、データの限界があったからだと思います。
ならば今のデータサイエンスが挑むべきは、線のデータをどう扱うかではないでしょうか。
曖昧な『犯人像(=誰が)』を追うのではなく、そこに至るまでの孤立や困窮などの客観的な『状況のデータ(=なぜ)』を分析することです。
本書にはそれを象徴する衝撃的な記述があります。
メーガン法では、性犯罪者を三つのグレードに区分けし、最も危険性の高い性犯罪者の情報はインターネットなどを通じて公開されている。
それでいて、
性犯罪の防止効果が最も大きいのは「結婚と就職」なのだ
データが示す最も合理的な再犯防止策と社会の感情的な正義や不安が、真っ向から対立しているケースです。
犯罪を裁くことだけを追求すれば、結果として彼らを孤立させ更なる再犯を生み出すかもしれません。
だから、犯罪を「裁く」ためのAIではなく、人を「支える」ためのAIへ。
この本を読みながら改めてそう感じました。
さいごに
犯罪心理学は「人の闇」を見つめてきた学問ですが、データサイエンスはその闇の中にある「構造」を照らす技術です。
過去の限界を知ることは未来を閉ざすことではなく、むしろ新しい視点を開くことにつながる。この本からそんな確信をもらいました。
というわけで、次回。
この記事でも触れた『COMPAS事件』の核心を徹底的に解剖します。
AIはなぜ黒人を『高リスク』と誤判断したのか。その技術的な罠と倫理的な闇に切り込んでいきます。
Discussion