【脳科学×AI】思い浮かべた映像を言葉に変換する「マインド・キャプショニング」とは?NTT最新技術を完全解説
NTTが開発した「マインド・キャプショニング」は、脳活動から人が見ている・想像している映像を文章化する革新的技術です。
fMRI脳活動計測と言語AIモデルを組み合わせることで、脳の言語野を使わずに非言語的な視覚イメージを言語に変換できます。動画を見たり想起したりする際の脳活動から、その内容を説明する文章を約50%(知覚時)、30%(想起時)の精度で生成することに世界で初めて成功しました。
将来的には発話困難者の意思伝達支援や新たなコミュニケーション手段として期待されています。
深掘り
深掘りを解説
マインド・キャプショニングは、従来の脳情報デコーディング技術を大きく進化させた技術です。これまでの研究では、言語野の活動から「言語的な思考」を読み取る試みが主流でしたが、本技術は視覚野などの非言語領域から「非言語的な思考」を言語に翻訳する点で画期的です。
技術の核心は「脳-AI統合型デコーディング」にあります。fMRIで計測した脳活動を深層言語モデル(DeBERTa-large)の特徴空間にマッピングし、その特徴に基づいてテキストを繰り返し最適化します。この二段階プロセスにより、<unk>という無意味な記号から始めて、100回の最適化を経て映像内容を的確に説明する文章を生成できます。
特筆すべきは、前頭葉から側頭葉にわたる言語ネットワークを除外しても高精度なテキスト生成が可能だった点です。これは、人間の脳内で視覚情報が言語化される前の段階を捉えられることを意味し、意識に上る前の思考にアクセスできる可能性を示唆しています。
実験では6名の参加者から1人あたり延べ17時間の脳活動データを収集。100本の候補動画から正しい動画を同定する精度は、知覚時で約50%、記憶想起時でも約30%に達し、チャンス水準(1%)を大きく上回りました。
深掘りを図解
用語解説
脳情報デコーディング
fMRIなどで計測した脳活動信号を機械学習で解析し、身体や心の状態を予測・解読する技術。脳の活動パターンから、何を考えているか、何を見ているかを推定します。
脳-AI統合型デコーディング
脳活動パターンをAI特徴空間にマッピングすることで、AIの能力を活用した脳情報解析を可能にするアプローチ。本研究では言語AIモデルの意味理解能力を活用しています。
fMRI(機能的磁気共鳴画像法)
MRI装置を用いて脳活動を非侵襲的に計測する手法。血流や血中酸素濃度の変化(BOLD信号)から神経活動を推定します。本研究では2mm角・1秒間隔で全脳を計測しています。
深層言語モデル
大量のテキストデータで学習され、単語の意味や文脈を内部ベクトル表現として保持する言語AIモデル。DeBERTaやBERTなどが代表例で、本研究では意味特徴の抽出と最適化に使用されています。
マスク言語モデル(MLM)
入力文の一部をマスク単語[MASK]に置き換え、その部分を予測する学習を行うモデル。双方向の文脈理解が可能で、本研究ではRoBERTa-largeがテキスト生成の最適化に使用されています。
チャンス水準
ランダムに選んだ場合の正答確率。100本の候補から選ぶ場合は1%となり、実験結果がこれを大きく上回ることで技術の有効性が証明されます。
ルーツ・背景
脳情報デコーディングの歴史は1990年代後半のfMRI技術の実用化に遡ります。当初は単純な視覚刺激(縦線か横線か)を脳活動から識別する程度でしたが、2000年代に入り機械学習技術の発展とともに飛躍的に進化しました。
2008年、京都大学の神谷之康教授らのグループが、人が見ている画像を脳活動から再構成する研究で世界的な注目を集めました。その後、2013年にはカリフォルニア大学バークレー校のジャック・ガラント教授らが、映画を見ている時の脳活動から映像を予測する研究を発表しています。
言語AIモデルとの統合は2010年代後半から活発化しました。2017年のTransformerアーキテクチャの登場、2018年のBERTの発表により、自然言語処理が飛躍的に進化。これらのAI技術を脳科学研究に応用する「脳-AI統合型デコーディング」という新たなパラダイムが生まれました。
NTTは人間の情報処理メカニズムの解明を長年研究してきた歴史があり、その蓄積が本技術の基盤となっています。2023年頃からAI技術の急速な発展を受け、深層言語モデルの意味表現能力と脳活動解析を融合させる研究に着手。2025年の本成果は、非言語的思考を言語化するという新たな地平を切り拓きました。
人間の思考の大部分は言語化される前の段階にあるという認知科学の知見から、この非言語的思考領域へのアクセスは長年の夢でした。マインド・キャプショニングはその夢の実現に向けた重要な一歩となっています。
技術の仕組み
技術の仕組みを解説
マインド・キャプショニングは「学習」と「生成」の二段階で動作します。料理に例えると、学習段階は「レシピを覚える」、生成段階は「そのレシピで料理を作る」プロセスです。
Stage 1: 学習段階
まず、実験参加者に様々な動画を見てもらい、その時の脳活動をfMRIで記録します。同時に、各動画の内容を説明する文章(例:「犬が公園で走っている」)を用意します。この文章を深層言語モデル(DeBERTa-large)に入力すると、その意味を数値の集まり(意味特徴ベクトル)として表現してくれます。
次に、「この脳活動パターンが計測されたら、この意味特徴を出力する」という対応関係を機械学習で学習させます。これがデコーダです。脳という"暗号化された情報源"から、AIが理解できる"意味特徴"に翻訳する辞書を作るイメージです。
Stage 2: 生成段階
新しい動画を見たり想起したりしている人の脳活動を計測し、学習済みデコーダで意味特徴に変換します(デコード特徴)。ここからが独創的な部分です。
最初は無意味な記号<unk>からスタートします。そこから繰り返し次の処理を行います:
- 文章の一部をランダムに[MASK]で隠す
- マスク言語モデル(RoBERTa-large)で隠した部分を複数パターン予測
- 各候補の意味特徴を計算し、デコード特徴との類似度を測定
- 最も類似度が高い候補を採用
この最適化を100回繰り返すことで、徐々に脳活動の内容に合致した文章が形成されていきます。例えば「<unk>」→「何か動いている」→「動物が走っている」→「犬が公園で走っている」といった具合です。
重要なのは、脳の言語野(言葉を処理する領域)を使わずに視覚野などの活動だけからテキストを生成できる点です。これは、言葉になる前の"生の視覚情報"を捉えていることを意味します。
技術の仕組みを図解
実務での役立ち方
医療・福祉分野
最も期待される応用は発話困難者の意思伝達支援です。ALS(筋萎縮性側索硬化症)や脳卒中後の失語症患者など、言葉を話せない方が心に思い浮かべている内容を文章化できれば、コミュニケーションの可能性が大きく広がります。従来の脳波計測よりも複雑な内容を伝達できる点が革新的です。
市場調査・マーケティング
消費者が製品を見た時の本能的な反応を、言語化される前の段階で捉えられます。「良いと思う」と口では言いながらも、脳活動は別の反応を示すケースなど、意識下の真の評価を理解できます。従来のアンケートでは得られない深層心理の洞察が可能になります。
教育・トレーニング
学習者が教材を理解しているか、どの部分で混乱しているかを、脳活動から客観的に評価できます。言葉で説明できない理解の程度を可視化することで、個別最適化された教育設計が実現します。
製品開発・デザイン
デザイン案を見た時のユーザーの直感的な印象を、言語化以前の段階で把握できます。UXリサーチにおいて、ユーザーが意識していない感覚的な評価を抽出し、製品改善に活かせます。
エンターテインメント
映画やゲームの視聴体験を脳活動から分析し、どのシーンがどのような印象を与えているかを客観的に評価できます。クリエイターが意図した感情表現が伝わっているかの検証にも応用可能です。
研究開発
動物や乳幼児など言語を使えない対象の認知プロセスを理解する新しいツールとなります。発達心理学や比較認知科学の研究に革新をもたらす可能性があります。
キャリアへの効果
最先端技術領域での専門性獲得
脳科学とAIの融合領域は今後10年で最も成長が期待される分野です。この技術を理解することで、ニューロテクノロジー、ブレイン・コンピュータ・インターフェース(BCI)、ヘルステックなど、複数の成長市場で活躍できる基盤知識が得られます。
学際的思考力の養成
神経科学、機械学習、言語処理、倫理学など、多様な分野にまたがる本技術を学ぶことで、複雑な問題を多角的に捉える能力が養われます。この学際的視点は、イノベーション創出に不可欠なスキルです。
データサイエンススキルの実践的理解
fMRIデータ解析、深層学習モデルの活用、特徴空間マッピングなど、実践的なデータサイエンス技術を学べます。これらは医療AI、金融AI、製造業のDXなど、幅広い分野で応用可能です。
倫理的思考力の強化
プライバシー保護、技術の適切な活用、バイアス問題など、本技術が提起する倫理的課題を考えることで、AI時代に求められる責任ある技術開発の視点が身につきます。これは技術リーダーに必須の資質です。
イノベーション創出能力
既存技術(脳計測とAI)の新しい組み合わせから革新が生まれる過程を学ぶことで、自身の専門分野でもイノベーションを起こす発想力が鍛えられます。
グローバル研究トレンドへの理解
Science Advancesに掲載された世界最先端の研究に触れることで、国際的な研究動向を把握し、グローバルな視野でキャリアを考える基盤が得られます。
学習ステップ
学習ステップを解説
ステップ1: 基礎知識の習得(1-2ヶ月)
まず脳科学の基本を理解しましょう。脳の構造(前頭葉、側頭葉、視覚野など)、神経細胞の働き、fMRIの原理を学びます。並行して、機械学習の基礎(教師あり学習、ニューラルネットワーク)とPythonプログラミングを習得します。
推薦書籍:『脳のしくみ』『ゼロから作るDeep Learning』
オンライン学習:Courseraの"Machine Learning"、東京大学のOCW神経科学講座
ステップ2: 深層学習と自然言語処理の学習(2-3ヶ月)
Transformerアーキテクチャ、BERT、GPTなどの深層言語モデルの仕組みを理解します。実際にHugging Faceライブラリを使って、テキスト分類や文章生成のプロジェクトに取り組みましょう。
実践課題:映画レビューの感情分析、文章の自動要約プログラムの作成
ツール:PyTorch、TensorFlow、Hugging Face Transformers
ステップ3: 脳情報解析の実践(3-4ヶ月)
公開されている脳活動データセット(OpenNeuroなど)を使って、実際に脳情報デコーディングに挑戦します。視覚刺激から脳活動を予測するモデル、逆に脳活動から視覚刺激を再構成するモデルを実装しましょう。
使用データセット:OpenNeuro、Human Connectome Project
実装内容:線形回帰から始めて、徐々にCNNやRNNを使った高度なモデルへ
ステップ4: 最新研究論文の読解(継続的)
本研究のような最新論文を読み、手法を理解し、可能であれば再現実装に挑戦します。arXivやGoogle Scholarで関連論文を探し、週1本のペースで論文を読む習慣をつけましょう。
論文リーディングのコツ:Abstract→Figure→Method→Resultsの順で読む
コミュニティ参加:Twitter(X)で研究者をフォロー、勉強会への参加
ステップ5: 応用プロジェクトの実施(4-6ヶ月)
学んだ知識を統合して、独自のプロジェクトに取り組みます。例えば、音楽を聴いた時の脳活動から音楽の特徴を予測する、感情と脳活動の関係を分析するなど、興味のあるテーマを選びましょう。
発表の場:Kaggle、GitHubでのコード公開、ブログ記事執筆、勉強会での発表
ステップ6: 倫理的側面の学習(継続的)
技術の社会実装における倫理的課題(プライバシー、バイアス、インフォームドコンセント)について学びます。AIエシックス、神経倫理学の文献を読み、責任ある技術開発の視点を養いましょう。
学習ステップを図解
あとがき
マインド・キャプショニングは、人間の内なる世界と外の世界をつなぐ新たな橋を架ける技術です。私たちは日々、無数の映像を心に思い浮かべ、感情を抱き、言葉にならない思考を巡らせています。それらの多くは言語化される前に消えてしまいますが、この技術はその儚い思考の断片を捉え、形にする可能性を示しました。
同時に、この技術は私たちに重要な問いを投げかけます。思考を読み取られることへの不安、プライバシーの境界、そして「思考の自由」とは何かという根本的な問題です。研究チームが倫理的配慮について詳細に言及している点は、技術開発における真摯な姿勢の表れでしょう。
現時点では17時間もの計測が必要であり、実験参加者の協力なしには成立しない技術です。しかし技術は進化し続けます。10年後、20年後、この技術がどのように発展し、社会にどんな影響を与えるのか、私たちは慎重に見守る必要があります。
一方で、発話困難者が自分の思いを伝えられるようになる、言葉を持たない乳幼児や動物の世界を理解できるようになるという可能性は、人類の理解と共感の範囲を大きく広げてくれるはずです。
技術そのものは中立です。それをどう使うかは、私たち社会の選択にかかっています。この記事をきっかけに、最先端の脳科学とAIの融合領域に興味を持ち、技術と倫理の両面から考える人が増えることを願っています。
オススメの書籍
脳を司る「脳」 最新研究で見えてきた、驚くべき脳のはたらき
脳の基本的な仕組みから最新の脳科学研究まで、わかりやすく解説。fMRIを使った研究の具体例も豊富で、本技術の理解に必要な脳科学の基礎が学べます。初学者にも読みやすい一冊。
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第3版
AIと深層学習の基礎から応用まで体系的に学べる定番書。Transformerや言語モデルの章が充実しており、本技術で使われているDeBERTaやRoBERTaの背景知識が得られます。
脳・心・人工知能〈増補版〉 数理で脳を解き明かす
脳科学とAIの接点を探る良書。脳のどの機能がAIで再現できて、どこができないのかを明確に解説。脳-AI統合型デコーディングのような融合技術の意義を理解する上で有益です。
つくりながら学ぶ!PyTorchによる発展ディープラーニング
実装ベースで深層学習を学べる実践的な書籍。自然言語処理の章ではBERTの実装例があり、本技術で使われているマスク言語モデルの仕組みを手を動かしながら理解できます。
脳の地図を書き換える 神経科学の冒険
人が視覚や聴覚、または身体の一部を失った時に脳内ではどのようなことが起きているのか。また科学技術を駆使して脳の機能を拡張させ、身体に五感以外の新たな感覚をつくることは可能か。最先端の脳科学と人類の未知なる可能性を著名な神経科学者が語り尽くす
Discussion