非エンジニア(ホワイトカラー)の悩み
最近思ってる事だが。。。
PSYCHO-PASSの「シビュラシステム」がやっていたのは、常時観測→確率評価→自動執行という“運用そのものの自動化”である。一般企業のホワイトカラー業務でも同じ発想が有効だと考える。人間の恣意や疲労に依存する承認作業を極限まで外し、AI(Artificial Intelligence:人間の知能を模倣する計算システム)が規範に沿って自動で判断・処理し、必要時だけ人が「停止ボタン」を押せるようにする。物語と違うのは、現実では説明可能性、異議申し立て、監査ログの公開が必須である点だ。
目標は「ゼロHITL(Human-in-the-Loop:人間が途中介入する方式)に限りなく近い自律運用」である。人の役割は規範(社内ポリシーや契約、法令)の更新と監査、そしてキルスイッチ(Kill Switch:緊急停止装置)に限定する。サービス品質はSLO(Service Level Objective:提供品質の目標値)で定義し、KPI(Key Performance Indicator:重要業績評価指標)で継続監視する。たとえば一次完了率FCR(First Contact Resolution:最初のやり取りで問題が解決する割合)98%超、再実行率1%未満、AQL(Acceptable Quality Level:合格とみなせる品質の下限基準)逸脱ゼロ件/万件、MTTD(Mean Time To Detect:異常検知までの平均時間)数分、MTTR(Mean Time To Restore:復旧までの平均時間)数分といった具体値を置く。
土台はspec-as-code(仕様をコードとして記述する考え方)である。法令・約款・社内SOP(Standard Operating Procedure:標準作業手順)・前例を、業務用DSL(Domain-Specific Language:特定領域の仕様を短く書く専用言語)とテストに落とし、Git等で版管理する。違反や想定外が出たら“違反→テスト追加→再発防止”という学習ループで規範を拡張し続ける。
実装は層で分ける。感知・理解ではOCR(Optical Character Recognition:画像やPDFから文字を抽出する技術)やUI(User Interface:人が操作する画面)理解、音声書き起こしで入力を整える。計画ではLLM(Large Language Model:大量のテキストから学習した汎用推論モデル)がゴール分解や手順立案、例外仮説の作成を行う。実行はローカルのFT(Fine-Tuning:追加データで特化させること)済み軽量モデルとRPA(Robotic Process Automation:定型的な画面操作や事務処理を自動化するソフト)、API(Application Programming Interface:外部機能やデータを呼び出す接続口)が担当する。知識はRAG(Retrieval-Augmented Generation:検索で関連資料を取り込み正確さを上げる生成手法)で常に最新・正確に補強する。画像や図面、レイアウト理解・生成にはDiffusion Model(ノイズから段階的に画像を生成するモデル)などの視覚系を組み合わせる。検証は三権分立で、①ルール・型・スキーマ・制約充足、②異系列モデルの多数決(同系統だけの相互採点は禁止)、③外部計算・シミュレーションで出力を審査する。運用ではカナリアリリース(Canary Release:一部ユーザーだけに先行適用して安全性を確かめる手法)、シャドー運用(Shadow Operation:裏で同時実行して差分を測定)、自動降格とロールバックを常備する。
ロードマップは段階で示す。
・現状の“係数化”。PSYCHO-PASSの「犯罪係数」に倣い、各案件にリスク係数(逸脱確率×影響度)を付与する。どの範囲でAIが自動執行してよいか、ODD(Operational Design Domain:AIが安全に動ける前提条件の範囲)を明示する。入力分布・例外種・損失関数を見える化し、SLOとAQLを合意する。
・コパイロット段階(Co-pilot:AIが提案し人が確認)。人は承認者として残るが、承認理由を構造化ログで回収し、仕様漏れをテストへ還流する。二重実行で差分の発生パターンを特定し、spec-as-codeを充実させる。
・ゲート付き自律運用(Gated Autonomy:通常は自動、閾値以下のみ人が介入)。低〜中リスクのルートはAIを既定とし、検証三層を導入。RAGで根拠リンクを自動添付し、監査ログは改ざん耐性を持たせる。
・シャドー完全自律からの昇格。全領域でシャドー運用を回し、SLO達成エリアから完全自動化に昇格。人は無作為サンプリング監査(例:0.1%)に縮退し、逸脱検出時は自動降格・即時ロールバック・テスト追加を自動発火する。
・規範更新の半自動化。法改正・契約改定・新前例を自動ウォッチし、差分提案→人が最小限承認→テスト自動生成の流れにする。合憲・合規チェックのルールだけは人が維持し、境界条件を固定する。
・メタガバナンス。規範→実行→検証→監査→規範の循環を自動安定化。変更影響をサンドボックスでシミュレーションし、事業KPIのパレート前線を可視化して段階展開する。透明性ポータルで「参照データ→規範の版→検証結果→リスク係数→代替案」の論拠チェーンを誰でも追えるようにする。
安全とバイアス対策は“測る”ことから逃げない。入力撹乱・逆プロンプト・敵対例に対するプロパティテスト(Property-Based Testing:条件や性質が守られるかを多様な入力で検証する手法)を常時実施し、統計的異常検知でOOD(Out-of-Distribution:学習時と異なる分布のデータ)を即時隔離する。公平性は反事実テスト(Counterfactual Fairness:属性だけを置換した世界でも判定が変わらないかの検査)と“公平性制約”で定量管理し、違反率をSLOに組み込む。人のほうがバイアスを排除できていないという現実は、定義→測定→制御で上書きする。
人員計画は「バックフィル停止→自然減→再配置」の順で穏やかに進める。まずT1〜T2の承認者をログレビュアに転用し、監査専任と規範エンジニアに最小コアを再編する。夜間・休日の有人当番は撤廃し、自動降格とキルスイッチで吸収する。コストは“恒常稼働の人件費→固定低コストの自動運用+少人数の規範チーム”へ転換され、スケールに伴う限界費用はほぼゼロに近づく。
要するに、PSYCHO-PASSの思想を現実に持ち込むなら、ブラックボックス統治ではなく“説明できる自動執行”を作ることだ。規範はコード化し、AIは異質なモデルのアンサンブルで相互審査し、検証は機械可判定にして、ログは誰でも追える形で残す。ここまで作れば、人が介在しない未来はSFではなく運用設計の延長線上にある。
今後どうしたものか。。。
Discussion