デジタル人文学とナレッジグラフ

に公開

はじめに

AI研究者(工学系)の立場から見ると、人文学の研究はこれまで距離があり、研究コミュニティの動向を把握できていませんでした。ところが近年、デジタル人文学(デジタルヒューマニティーズ、DH)がホットな研究領域として注目されており、分野横断・情報ソース横断の文脈で、セマンティックウェブや知識グラフを用いた接続・統合の取り組みが進んでいます。今回開催された「デジタル人文学ワークショップ」(2026年2月23日、東京大学八重洲アカデミックコモンズ)では、多様な関連資料の連携やデータの構造化・活用に関する事例が紹介され、研究者・実務者が分野横断的に議論する場でもあります。そこで、現場の事例と議論を手がかりに、DHがいま何を問題として扱い、どのように技術が位置づけられているのかを把握することを目的に参加しました。

https://dh.l.u-tokyo.ac.jp/event/2026-02-23

基調講演: セマンティックWebはデジタル人文学で役立つのか?

概要

武田英明氏(国立情報学研究所)による基調講演のテーマは、セマンティックWebを「異なるデータや分野のあいだで意味を共有し、相互にやり取りできるようにする技術基盤」として捉え直すことでした。単にデータをつなぐだけでは不十分であり、記述に込められた意味を共有できて初めて分野横断の連携が成立する、という問題意識が全体の軸になっていました。

意味体系については、語彙集、階層構造、概念システム、オントロジーの4段階で整理する枠組みが示されました。さらに「記述の構造性」と「関係の構造性」の2軸で各技術を位置づける見取り図も提示され、技術を名前や流行で選ぶのではなく、自分の課題がどこに位置するかを意識したうえで選択することが重要だ、という示唆が得られました。

実践例としては、古事類苑のLOD化(引用書の構造化が鍵)と、地震データの統合(「科学的な実体」と「人間が認識する現象」を区別してモデル化)が紹介されました。どのようにモデリングするかが統合可能性を大きく左右する、という点が具体的なケースを通じて伝わる構成でした。

セマンティックWeb技術の価値として、柔軟なモデリング、暗黙知の外在化、意味的相互運用性による連携の3点が挙げられました。人文学においても「意味的存在を同定すること」自体が研究の一部であり、その営みを機械可読な形で支える技術としてセマンティックWebを位置づける視点は、分野外の参加者にとっても整理のしやすい切り口でした。

主な議論

質疑応答は参加者からの質問に武田先生が答える形で進められました。

議論の出発点になったのは、人文学データに固有の曖昧性をどう扱うか、という問いです。同名異義や解釈の幅がある対象を単純に統合すると誤りが生じる可能性があります。そこで、別IDで切り分けたり、地域・場所・年代などの属性を付与して差異を機械可読に記述したりすることが有効です。従来は文章の"含み"として処理していた違いを、構造化データとして明示できる点に、セマンティックWebならではの強みがあります。

この曖昧性の問題は、そのままAIによるオントロジー作成の話題へとつながりました。LLMを使ってオントロジーを生成すること自体は可能ですが、データに書かれていることが常に正しいとは限らず、コミュニティとしての妥当な解釈は多数決とも一致しないケースがあります。そのため、AIの提案はあくまで叩き台として活用しつつ、合意形成と検証の仕組みを別途設ける必要がある、というのが武田先生の見解でした。

最後に、オントロジー作成における人間の役割についての議論に移りました。現場では人間がかなりの部分をキュレーションしているのが実態であり、データだけを眺めて概念や境界を一意に決めることは難しいです。専門家との対話を通じて「何を同じとみなし、何を区別するか」を丁寧に詰めていく工程こそが、信頼できるオントロジーを作るうえで不可欠だ、という結論に、参加者の間でも概ね合意が得られていたように思います。

ディスカッション1: デジタル人文学におけるRAGの可能性

話題提供

4名の話題提供者がそれぞれの実践や研究知見を持ち寄り、人文学領域でRAGを運用することの可能性と課題が示されました。

岩田直也氏(名古屋大学/国立情報学研究所)は、HumanityTextプロジェクトの事例として、西洋古典テキストを対象に「翻訳(パラフレーズ)→ベクトル化→検索」というパイプラインによるRAGの運用と評価の知見を紹介しました。特に、チャンク化によって文脈が分断される問題への対処として、指示語の明示化など"文脈を保つ前処理"の工夫が語られました。

太田葵氏(産総研)は、テキストにとどまらず動画や空間データなどマルチモーダルなデータに対応するRAGの先行研究を紹介しました。なかでも一人称視点の動画を対象としたロングコンテキスト対応RAGの研究は、時間軸や空間軸に沿った階層的な情報抽出を実現しており、今後の応用可能性を感じる内容でした。

佐原恭平氏(株式会社COTEN)は、約2,000冊の二次資料をベースに実務でRAGを運用する取り組みと、実際のクエリログの分析結果を紹介しました。専門家と非専門家では質問文の長さや語彙の多様性に明確な差があること、またRAGには情報源バイアスや選択バイアスが現れやすいことが定量的に示されており、興味深い内容でした。

原田真喜子氏(都留文科大学)は、人文学でのRAGを「答えを出す装置」ではなく「原典への動線と問いを提供するツール」として位置づける考え方を示しました。階層的なチャンク化で文脈を保持しつつ、典拠を中心に据えたUI設計や、同じ情報源に偏らない多様な視点の確保など、実践的な工夫が具体的に語られました。

主な議論

3つの論点が中心になりました。

まずコンテキストウィンドウの大型化を踏まえた「全文投入」の是非については、「不要な情報が混入すると焦点がずれる」「運用コストの観点から"必要な情報に絞る"設計が重要」などの意見が出ました。

次に構造化については、人文学では原典・注釈・断片・引用など情報の階層と種別が複雑に混在するため、単純に細かく切るのではなく、章→節→本文のような階層を保って要約・索引化する方が筋がよい、という見方が共有されました。

最後に評価については、人文学の問いは正解が一つになりにくく、検索結果の多様性や解釈の幅をどう指標化するかが未整理のまま残っており、既存のRAG評価手法をそのまま適用することの難しさが議論されました。

ディスカッション2: 一次資料と関連情報・コンテキストの接続

話題提供

4名の話題提供者がそれぞれの実践や研究知見を持ち寄り、一次資料と関連情報・コンテキストを接続することの可能性と課題について議論しました。

江草由佳氏(国立教育政策研究所)は、学習指導要領や教科書をLOD化し、外部コンテンツとも結び付ける実践を紹介しました。特に、永続URIの採用や更新コストを最小化するフロー設計など、長期運用を前提とした設計方針が語られました。

田中一孝氏(桜美林大学)は、西洋古典の原典と二次文献(注釈)を接続する読解環境Humanitextを題材に、参照関係の表現と実装の難しさを示しました。参照粒度の揺れ、版による行番号体系のずれ、影響関係の方向が未確定なケースなど、リンク付けそのものが解釈の問題になるという点を強調しました。

中川奈津子氏(九州大学)は、方言研究における音声・動画・手書き・文書などの多様な資料形式を構造化し、公開・再利用する取り組みを紹介しました。言語資料の内部構造にとどまらず、天体運行の知識や島の文化全体など外部知識との接続も視野に入れる必要があり、その接続をいかに設計するかを今後の課題に挙げました。

Victor Eiti Yamamoto氏(総合研究大学院大学)は、海外邦人新聞(ブラジル時報)のデジタル化・構造化の構想を紹介しました。知識グラフにより人物・場所・連載などの関係性を付与できる一方で、新聞ごとに立場や対立関係があるため、「どの世界観から書かれた記事か」を無視して統合すると事実関係や評価の記述が衝突する、というコンテキストの問題を指摘しました。

主な議論

3つの論点が中心になりました。

まずコンテキストの違いについては、現実世界と作品世界のように、同じ名前でも前提が異なる場合に同一URIで扱うべきかが揺らぐ、という問いがありました。

次に接続の単位については、教科書の「単元」、古典の「章/行/語/文字」、方言の「形態素」など、何を最小単位として識別するかが分野ごとに大きく異なり、単位の決定自体が専門知識を要する判断になる点が示されました。

最後に、維持更新については、永続IDの活用により「リンクの安定性」そのものがデータの長期的な価値になるという意見がありました。また、検索など高機能な実装を無理に盛り込まず、オープンエンドに保つことがかえって外部連携の間口を広げる、という視点も印象的でした。

ディスカッション3: 歴史人物情報の構造化と共有

話題提供

本セッションでも、4名の話題提供者がそれぞれの実践や研究知見を持ち寄り、歴史人物情報を構造化・共有することの可能性と課題について議論しました。

ファシリテーターの小川潤氏(東京大学)から、国際的な文脈として、古代ローマ史などで確立しているプロソポグラフィー(人物情報の体系的収集)の手法の紹介がありました。人物データの記述方法は時代・地域・分野によって大きく異なり、ローマ式の三名法のように文化圏固有の前提があるため、単純な統一が難しいという論点を示しました。

神崎正英氏(ゼノン・リミテッド・パートナーズ)は、Japan Searchにおける人物情報の実装戦略を紹介しました。多数のデータセットを横断検索するために正規化を進めつつ、Wikipedia・NDLA・Wikidata等の外部基盤とも連携しています。正規化済みのCH-NAMEと正規化前のNC-NAMEを二層構造で管理することで、検索の利便性と原データの多様性を両立させる設計の考え方も示しました。

グラムリヒ=オカ ベティーナ氏(上智大学)は、江戸時代の日記など一次資料から人物情報を収集し、既存の典拠では拾えない人物も対象とするデータベースの整備について紹介しました。家系図・年表・地図などの可視化により、人物の移動や関係性を分析できる点も示しました。

山田太造氏(東京大学)は、史料編纂の過程で蓄積された人名索引、本文中の人名、花押・肖像などの多様な人物関連データを統合管理する取り組みを紹介しました。一つの編纂物の内部では人名同定を担保している一方、横断的な統合は未実施であり、既存資産をいかに外部利用可能な形へつなぐかが課題として残っています。

主な議論

議論はまず、人物同定の難しさから始まりました。同姓同名・別名・襲名などが頻出する歴史人物データでは、単純な名寄せでは破綻するケースが少なくありません。「正規化で一つに決める」だけでなく、候補の併記や根拠の明示など、揺れや不確実性をデータに保持したまま扱える表現が必要、という方向で議論が進みました。

次に、文化的コンテキストの違いに話題が移りました。命名法や氏族制度など、文化圏固有の概念が人物記述の前提になっていて、共通語彙だけでは差異を吸収し切れない場面があります。検索・識別のために最低限共通化すべき部分と、研究上重要な差異として残すべき部分を意識的に切り分けることが、設計上の重要な判断になります。

最後に取り上げられたのはオーソリティの問題です。NDLやJapan Search等に一定の権威が期待される一方で、それらに載らない人物のオーソリティをどう確立するかは未解決の課題として残っています。さらに、コンテキストの異なる人物データを横断的にマッピングする方法論も含め、運用レベルでの設計が問われていると感じました。

おわりに

今回、古典文学を中心としたデジタル人文学の事例に触れて、重要なのは単なるデータ統合ではなく、コンテキスト(立場)の扱い、参照・解釈の多様性の保持、そして「正解が一つに定まらない問い」を前提とした設計にあると理解しました。

また、RAGはLLMが内部に持たない知識を補う仕組みとして導入が進んでいますが、専門知識を扱う独自の検索エンジンとしての可能性も開けつつあります。そこで求められる検索の質とは何か——正確性なのか、セレンディピティなのか——という問いは、かつての情報検索研究でも議論されてきたテーマです。使っている道具は大きく変わりましたが、問いの構造は地続きであり、新しい技術の文脈で捉え直すことで、また別の研究の扉が開くかもしれないと感じました。

分野外からの参加でしたが、多くの学びとつながりを得られたワークショップでした。

Discussion