The Textual Warehouse の読書録

 はじめに
 この記事についてBill Inmon 氏と Ranjeet Srivastava 氏による The Textual Warehouse という書籍の読書録を記します。

 書籍情報書籍名：	The Textual Warehouse

著者：	Bill Inmon, Ranjeet Srivastava

出版社：	Technics Publications, 2021

ISBN：	9781634629577

 書籍概要本書「The Textual Warehouse」は、企業におけるテキストデータとドキュメントの管理に焦点を当てています。ビジネスデータの約90%がテキストであるにもかかわらず、意思決定にはそのうちの10%の構造化データしか活用されていない現状を指摘し、テキスト形式のデータの課題と解決策、そして「テキストウェアハウス」という概念を提唱しています。

manabian

 Chapter 1: About Text

 概要
企業データの大半（約90%）はテキストだが、意思決定では主に構造化データ（約10%）しか使えていないという問題意識を提示。
保険契約書を例に文書中の情報を**「Identifying and Qualifying Text（識別/適格テキスト）」と「シンプルテキスト（Simple Text）」**に分ける枠組みを導入。前者は顧客名・住所・保険番号等、後者は約款の細目（ボイラープレート）。
Identifying and Qualifying Text はオペレーショナルDBへ、 Simple Text はOCRで電子保管されるという実務フローを解説。
OCR文書では蓄積はできるが、その量が膨大となった際にIdentifying and Qualifying Text 以外の観点で探すことが難しい「Data in a Prison （データの牢獄）」状態に陥る。
この「埋もれるテキスト」問題は保険に限らず契約・雇用・保証・住宅ローン・メール等あらゆる業界/文書で発生する。

manabian

 Chapter 2: Document Anatomy

 概要
文書はビジネスの生命線であり、ビジネスのライフフローを追跡。
文書タイプの多様性（定型文／医療記録／保証クレーム／宣誓供述など）と、長さ・反復性・感情（センチメント）・保管期間といった分類軸を提示。
シンプルテキスト解析の障害：量、OCR品質、過度の反復/非反復、形式の乱立、スプレッドシート内テキスト、タイプ混在、同義語/表記揺れ。

文脈（Context）, 語の近接分析（Proximity Analysis）, 同形異義解決（Homographic Resolution）, **名詞の検索と分析（Noun Search and Analysis）**の重要性を強調。


 ドキュメントタイプ
ドキュメントタイプ
定型文（Boilerplate）
診療記録（Medical records）
保証請求（Warranty claims）
証言録取書（Depositions）

分類基準
文書の長さ（Document length）
反復（Repetition）
感情（Sentiment）
保管期間（Retention）



 シンプルテキストの課題
量（Volume）
品質（Quality）：  文字起こしの品質がわるい場合がある
反復（Repetition）
フォーマットのばらつき（Format variation）
スプレッドシート（Spreadsheet）： スプレッドシートから文章を変換が必要
文書タイプ（Document type）
同義語（Synonymous words）：同じものを別の名称で呼ぶこと

manabian

 Chapter 3: Document Transformation

 概要
OCRはまずスナップショット画像を作り、そこから電子テキスト化して初めて機械処理できる。

品質の肝：フォントの癖、インクの濃淡（Inkstrike）、紙の劣化、ベンダー性能。手書きは苦手。
OCR後の人手修正は効果が限定的（経験則でせいぜい約1%改善）、大量では非現実的
文書の識別方法は「OCR管理のドキュメントID」か「内部の識別データ（例：ポリシー番号、氏名＋日時）」か、または両方。

manabian

 Chapter 4: Textual Warehouse Introduction

 概要

テキスト・ウェアハウス、ビジネス関連テキストを分類情報と**ソース文書への参照）**とともに格納する仕組み。
全識別・適格テキスト→業務DB→（標準ETL）→データウェアハウス／重要テキスト→**（テキストETL）→テキスト・ウェアハウス**。
目的は**（1）文書探索の効率化と（2）分析基盤化**。ビッグデータ/データレイク環境でも見つけるためのインフラとして有効。
設計の要諦は生文書と業務理解。プロセス中心の従来DB設計と異なり、**「重要な語句＋分類（タクソノミー）」**が中心。
運用をするには、タクソノミー作成→テキストETL→格納。ボイラープレートは参照文書化で重複処理/保存を回避。タクソノミー変更時は再整合が必要。


 テキスト・ウェアハウスに含まれ得る項目の例
語(word)
分類（classification）
位置（location）
バイトアドレス（byte address）

manabian

 Chapter 5: Taxonomies

 概要
タクソノミー＝言葉の分類体系。車種・動物・樹木など多様な分類を例示。
複数の関連タクソノミーを束ねるとオントロジー（例：国→州→市の関係）。

検索/分析の効率化が最大の価値：個々の語を列挙せず、上位概念（例：Car）指定で網羅的検索が可能。

生テキストからの抽出、シソーラス、インターネット、商用ベンダー。言語変化に備え更新が重要。

別名・エイリアス解決や、汎用/専門タクソノミーの使い分けを解説。
テキストETLはRaw テキスト中で見つかった語とタクソノミー上のその分類のペアに出典/バイト位置を付してウェアハウス化する。

manabian

 Chapter 6: Textual ETL

 概要

Raw テキスト＋（複数の）タクソノミーを入力として、テキスト・ウェアハウスを出力。
代表的変換には、タクソノミー解決、ストップワード、表記ゆれ、ステミング、カスタム変数、近接/同形語解決がある。


 Textual ETL で実施すること
Taxonomic resolution
Stop word resolution
Alternate spelling resolution
Stemming
Custom variable resolution
Proximity resolution
Homographic resolution


 出力項目
単語のバイトアドレス
単語自体
ソース資料名
単語の分類

manabian

 Chapter 7: Textual Warehouse Design

 概要
まずタクソノミー（業務に重要な語・分類の集合）を用意・調整し、ビジネス定義で範囲を決める。既存流用／新規作成／カスタマイズのいずれもあり得る。

小さなバッチで反復処理：テキストを Textual ETL に通し、結果を見てタクソノミーや変換ロジックを微修正→再実行を繰り返す。
結果テーブルが少量でも分析は先行着手でき、以降の分析・可視化と設計（タクソノミー／ETL／原文テキスト）の行き来を前提とする。

要件は流動的で、反復ごとに変わり得る。

DW と異なる点：元テキストは改変不可（法的にもNGの場合あり）／Textual ETL は必須かつ高機能。

manabian

 Chapter 8: Design Elements

 概要

固定フォーマットの格納：①バイト位置 ②語（または句）③出典ドキュメント ④分類（タクソノミー）——の4要素が基本。バイト位置は原文順再構成やスニペット抽出に不可欠。

抽出手法の2本柱

インライン文脈化：予測可能な定型文の開始・終了デリミタで囲まれた値を抜く（契約書など）。

タクソノミー照合：予測不能テキスト（メール・メモ等）から語と分類を対で記録。

ボイラープレート最適化：繰り返し部分は**参照用“リファレンス文書”**を1つだけ作り、各文書はそれを参照＋個別差分だけを追加。

保管戦略：アクセス確率でアクティブ／アーカイブに振り分ける。

固有名の取り扱いは難易度が高く、インライン手法が有効。スニペット表示は意味理解を助ける。

テキストの曖昧性解消（Disambiguation）**は**マッピング設計→少量実行→見直しの反復。文書タイプ別マッピングで運用。

同一語の複数タクソノミー所属、語検索と文字列検索の違い（語を角括弧で限定・句の完全一致など）にも対応。

manabian

 Chapter 9: Architecture

 概要

従来DW：アプリ→ETL→ODS／DW→データマートの構成。構造化データの統合・歴史保持が役割。

テキスト 倉庫：Raw Text／タクソノミー／Textual ETL／Textual Warehouseで構成。どちらも出典追跡が容易。

DWと Textual Warehouseは間接リンク（例：DWの州=“Texas”とテキスト側タクソノミー“State”の一致）で結び付ける。

データモデル vs タクソノミー：前者は汎用的属性、後者は具体的語彙を扱う。

処理フロー：Raw Text → Textual ETL（タクソノミー審査）→ テキスト倉庫 → 分析ワークベンチ→必要に応じて再反復。

利用形態の棲み分け：OLTP（高頻度）／DW分析（中）／アーカイブ深堀り（低）。

manabian

 CHAPTER 10：Medical Records Example

 概要

ギリシャ壺の比喩：時間が経つほどテキストは“埋もれる”。紙→保管→規格統一→電子化→ベンダ乗換→他種記録混在、と進むほど検索・横断分析は困難に。

課題：量の増大、形式不統一、媒体・システム分散、名称ゆれ、紙劣化等で研究や診療横断の知見抽出が難しい。

解決：Textual ETL＋テキスト倉庫で語と分類・出典・位置を構造化し、横断相関（薬歴×転帰など）を可能にする。医療領域の膨大な用語体系はタクソノミーとして活用。

COVID用例：重症度別クラスタリング→既往薬と反応の相関を追うなど、症例横断の深掘りが実現。

manabian

 CHAPTER 11：Industry Examples

 概要

保険：拡張補償の把握——“拡張”の定義を語彙レベルで明確化し、全ポリシーの該当箇所を横断抽出。

保険：ハリケーン曝露量の推定——進路・強度予測を前提に、該当契約者の補償条項を集計し、アクチュアリー計算にも寄与。

COVID補償——請求・診療記録のテキストから地域・重症度・入院期間・割合等を把握し、料率検討に接続。

歴史的クレームの解決——古い契約本文の特定・該当条項の即時参照が可能。

記録間の“導線”——ある治療XYZの後続経過記録をたどり、アウトカム分析の素材にする。

M&A——契約条項・期限・罰則・販売コミット等を一括把握し、交渉に活かす。

manabian

 CHAPTER 12：Textual Warehouse Evolution

 概要

進化の流れ：単純自動化→OLTP（即時性・業務中枢化）→DW（整合・履歴・分析）→Textual ETL/テキスト倉庫（テキストの主流化）→アーカイブの体系化。

受容の段階：認知→不信→抵抗→反発→利用→受容→常識化。

作り方（ステップ）：①OCRで電子テキスト化②Textual ETL＋タクソノミー③小規模“ワーキング”倉庫④全社倉庫へ段階拡張。

必須項目（Mandated）：出典名／バイト位置／文書ID／語／分類。任意で作成日・言語・著者なども保持。

効果：出典追跡と即時アクセスが可能になり、ビジネス横断のテキスト探索・分析が加速。

このスクラップは3日前にクローズされました