🐜

非エンジニア(ホワイトカラー)の悩み

2025/10/05に公開

最近思ってる事だが。。。
PSYCHO-PASSの「シビュラシステム」がやっていたのは、常時観測→確率評価→自動執行という“運用そのものの自動化”である。一般企業のホワイトカラー業務でも同じ発想が有効だと考える。人間の恣意や疲労に依存する承認作業を極限まで外し、AI（Artificial Intelligence：人間の知能を模倣する計算システム）が規範に沿って自動で判断・処理し、必要時だけ人が「停止ボタン」を押せるようにする。物語と違うのは、現実では説明可能性、異議申し立て、監査ログの公開が必須である点だ。
目標は「ゼロHITL（Human-in-the-Loop：人間が途中介入する方式）に限りなく近い自律運用」である。人の役割は規範（社内ポリシーや契約、法令）の更新と監査、そしてキルスイッチ（Kill Switch：緊急停止装置）に限定する。サービス品質はSLO（Service Level Objective：提供品質の目標値）で定義し、KPI（Key Performance Indicator：重要業績評価指標）で継続監視する。たとえば一次完了率FCR（First Contact Resolution：最初のやり取りで問題が解決する割合）98％超、再実行率1％未満、AQL（Acceptable Quality Level：合格とみなせる品質の下限基準）逸脱ゼロ件／万件、MTTD（Mean Time To Detect：異常検知までの平均時間）数分、MTTR（Mean Time To Restore：復旧までの平均時間）数分といった具体値を置く。
土台はspec-as-code（仕様をコードとして記述する考え方）である。法令・約款・社内SOP（Standard Operating Procedure：標準作業手順）・前例を、業務用DSL（Domain-Specific Language：特定領域の仕様を短く書く専用言語）とテストに落とし、Git等で版管理する。違反や想定外が出たら“違反→テスト追加→再発防止”という学習ループで規範を拡張し続ける。
実装は層で分ける。感知・理解ではOCR（Optical Character Recognition：画像やPDFから文字を抽出する技術）やUI（User Interface：人が操作する画面）理解、音声書き起こしで入力を整える。計画ではLLM（Large Language Model：大量のテキストから学習した汎用推論モデル）がゴール分解や手順立案、例外仮説の作成を行う。実行はローカルのFT（Fine-Tuning：追加データで特化させること）済み軽量モデルとRPA（Robotic Process Automation：定型的な画面操作や事務処理を自動化するソフト）、API（Application Programming Interface：外部機能やデータを呼び出す接続口）が担当する。知識はRAG（Retrieval-Augmented Generation：検索で関連資料を取り込み正確さを上げる生成手法）で常に最新・正確に補強する。画像や図面、レイアウト理解・生成にはDiffusion Model（ノイズから段階的に画像を生成するモデル）などの視覚系を組み合わせる。検証は三権分立で、①ルール・型・スキーマ・制約充足、②異系列モデルの多数決（同系統だけの相互採点は禁止）、③外部計算・シミュレーションで出力を審査する。運用ではカナリアリリース（Canary Release：一部ユーザーだけに先行適用して安全性を確かめる手法）、シャドー運用（Shadow Operation：裏で同時実行して差分を測定）、自動降格とロールバックを常備する。
ロードマップは段階で示す。

・現状の“係数化”。PSYCHO-PASSの「犯罪係数」に倣い、各案件にリスク係数（逸脱確率×影響度）を付与する。どの範囲でAIが自動執行してよいか、ODD（Operational Design Domain：AIが安全に動ける前提条件の範囲）を明示する。入力分布・例外種・損失関数を見える化し、SLOとAQLを合意する。

・コパイロット段階（Co-pilot：AIが提案し人が確認）。人は承認者として残るが、承認理由を構造化ログで回収し、仕様漏れをテストへ還流する。二重実行で差分の発生パターンを特定し、spec-as-codeを充実させる。

・ゲート付き自律運用（Gated Autonomy：通常は自動、閾値以下のみ人が介入）。低〜中リスクのルートはAIを既定とし、検証三層を導入。RAGで根拠リンクを自動添付し、監査ログは改ざん耐性を持たせる。

・シャドー完全自律からの昇格。全領域でシャドー運用を回し、SLO達成エリアから完全自動化に昇格。人は無作為サンプリング監査（例：0.1％）に縮退し、逸脱検出時は自動降格・即時ロールバック・テスト追加を自動発火する。

・規範更新の半自動化。法改正・契約改定・新前例を自動ウォッチし、差分提案→人が最小限承認→テスト自動生成の流れにする。合憲・合規チェックのルールだけは人が維持し、境界条件を固定する。

・メタガバナンス。規範→実行→検証→監査→規範の循環を自動安定化。変更影響をサンドボックスでシミュレーションし、事業KPIのパレート前線を可視化して段階展開する。透明性ポータルで「参照データ→規範の版→検証結果→リスク係数→代替案」の論拠チェーンを誰でも追えるようにする。
安全とバイアス対策は“測る”ことから逃げない。入力撹乱・逆プロンプト・敵対例に対するプロパティテスト（Property-Based Testing：条件や性質が守られるかを多様な入力で検証する手法）を常時実施し、統計的異常検知でOOD（Out-of-Distribution：学習時と異なる分布のデータ）を即時隔離する。公平性は反事実テスト（Counterfactual Fairness：属性だけを置換した世界でも判定が変わらないかの検査）と“公平性制約”で定量管理し、違反率をSLOに組み込む。人のほうがバイアスを排除できていないという現実は、定義→測定→制御で上書きする。
人員計画は「バックフィル停止→自然減→再配置」の順で穏やかに進める。まずT1〜T2の承認者をログレビュアに転用し、監査専任と規範エンジニアに最小コアを再編する。夜間・休日の有人当番は撤廃し、自動降格とキルスイッチで吸収する。コストは“恒常稼働の人件費→固定低コストの自動運用＋少人数の規範チーム”へ転換され、スケールに伴う限界費用はほぼゼロに近づく。
要するに、PSYCHO-PASSの思想を現実に持ち込むなら、ブラックボックス統治ではなく“説明できる自動執行”を作ることだ。規範はコード化し、AIは異質なモデルのアンサンブルで相互審査し、検証は機械可判定にして、ログは誰でも追える形で残す。ここまで作れば、人が介在しない未来はSFではなく運用設計の延長線上にある。
今後どうしたものか。。。

Discussion