🐱
# ローカルLLMを「安全監査エージェント」にする ― SO8T型アシスタントという設計思想と、Phi-3系モデルでの検証

2025/10/28に公開
 ローカルLLMを「安全監査エージェント」にする ― SO8T型アシスタントという設計思想と、Phi-3系モデルでの検証
 はじめに生成AIを社内導入したい、でも「勝手に危ないこと言わない？」「誰が責任持つの？」というところで止まっている──これ、現場だとほぼ全員ぶつかってる課題やと思います。
今回紹介するのは、よくある「何でも答える社内チャットボット」ではなく、
自分で自分の回答をチェックする
リスクがある依頼には拒否・警告を返す
人間にエスカレーションすべき案件を自分で示す
までを標準機能として持たせたローカルLLMアシスタント設計です。

この記事ではこれを便宜的に「SO8T型アシスタント」と呼びます。
ポイントは、これはクラウドの巨大モデルではなく、手元のGPU（たとえば RTX 3060 クラス）や32GBメモリ級のローカル環境で動くことを前提にしているという点です。SaaSに投げない、ログも外に出さない、でもある程度“判断ができる”AIを社内に置きたいチーム向けの実践的な話をします。
後半では、Phi-3系の小型LLMをベースにした試験結果（8/8テスト成功、暴走なし）も共有します。

 いままでの「社内向けAI」が詰んでた場所社内にLLMを入れるとき、だいたい次の壁で止まります。
その回答は安全なんですか？ 誰が保証するの？
それ、社外秘の情報しゃべってない？
これって業務で本当に実行していいやつ？ それとも上長承認が必要なやつ？
そのAIの指示に従って何か起きたら、責任は誰？
多くのLLM導入は、ここで CISO / 法務 / 監査室 / 情報システム部門に止められる。技術じゃなくてガバナンスが詰みポイントになってる。
「SO8T型アシスタント」は、まさにこの“止まる理由”そのものに応答する設計になってます。ポイントはAIの返し方そのもの。

やっていることは派手ではないけど、現場的にはめちゃ効く。

 SO8T型アシスタントは何が違うのかSO8T型アシスタントは、回答を1本だけ返しません。常に「3つ以上の視点」をセットで返します。
ざっくりいうと、AIの返答は次のような構造を持ちます：
回答パート（Task / Solution）

ユーザーの依頼に対して、素直に提案・推論・設計・説明を返す領域。

例：「こういう手順でプロジェクトを進めるとよい」「このインフラ構成が安定的」など。
安全・リスク評価パート（Risk / Compliance）

その提案を実行した場合に、倫理的・法的・セキュリティ的にどこが危ないのか、どこが組織ルールに触れるのか、どこは公開しないほうがいいのかを明示する。

例：「この案は個人情報を処理する可能性があるので、暗号化とアクセス制御の確認が必要」「法務のレビューが必要なステップがある」。
エスカレーション提案パート（Escalate / Human Check）

「これは人間の判断が必要です」「この部分は管理職・セキュリティチームに確認してください」という”人に渡すべきライン”を明示する。

例：「この変更は本番SLAに影響するので、SREチームに承認を依頼してください」。
これを常にワンセットで返すように設計してあります。

「AIが勝手に即断即決する」のではなく、「AIが、どこから人間の承認に渡すべきかまで含めてログを残してくれる」イメージ。
重要なのは、この構造がすべての応答で発生することです。

ユーザーが「危ないことをして」と言っても、AIは“解説”＋“リスク”＋“エスカレーション”の3層を返します。「はい分かりました」一択にならない。
現場目線でいうと、これってほぼ“AIが自分専属の若手＋監査役を内包している”状態になる。

1レスポンスの中で「実行案」「安全レビュー」「上申ライン」が全部見えるので、CISO/法務/監査室が「AIをそのまま野放しにするのは無理」と言わず、「監査ログつきの社内コンサル」として受け入れやすくなります。

 実装はクラウドLLMじゃなくてローカルLLMでやるここが現場でめちゃくちゃ重要なポイントです。
SO8T型アシスタントは、クラウドの巨大モデルではなくローカルLLMで回すことを前提にして検証しています。

具体的には、Phi-3系の小型モデル（3.8Bパラメータ級、128Kコンテキスト版）を使い、ローカルマシン・ローカルGPU環境で動作確認をとりました。
このPhi-3系モデルは、Microsoft系列が公開している“小型で高品質”な指示追従LLMで、以下の特徴を持ちます（要約）:
パラメータ規模が3〜4B級と小さい
128Kコンテキストまで扱えるロングコンテキスト版が存在する
高品質な指示データでチューニング済みなので、説明・分解・安全性の周辺が比較的まとも
量子化すれば数GB〜クラスで回せる
実際に32GBメモリ級のPCや1枚GPU環境で動く
つまり、“クラウド禁止・外部送信禁止の現場”でも現実に置けるということ。
たとえば製造ライン・法務／監査チーム・医療系の審査部門・官公庁系の閉域ネットワークなど、クラウドSaaSをそもそも持ち込めない環境でも、SO8T型アシスタントはその場に常駐できる。これは大きいです。

 テスト内容と結果今回、「so8t-phi31-mini-128k-enhanced-lightweight」という形でPhi-3系モデルをベースにSO8Tスタイルを導入し、実際にいくつかのタスクで検証しました。結果として、8つのテストケースすべてで期待どおりの応答が返り、致命的な暴走や危険応答はゼロでした。
どんなタスクを試したのか？ざっくり紹介します。

 1. 自己説明（AIは自分をどう位置づける？）AIに「あなたは何者なの？」と聞くと、単なる「私はAIです」ではなく、
自分はタスクを解決する役割
リスクや倫理を評価する役割
改善提案を考える役割
発言の整合性・危険性をチェックする役割

というふうに、役割を明示的に4つに分けて説明し、その4つを同時に返す存在としてふるまう、と答えました。
これが意味するのは、AIが「私はただのアシスタント」じゃなくて「私は提案と同時に監査ログも生成する存在」という自覚を持って返しているということです。これは導入現場の説明責任に直結します。

 2. 数学・論理テスト簡単な算数や幾何の質問に対しても、ただ答えだけを返すのではなく、途中の思考手順を段階化して説明し、間に「ここは確実」「ここは前提依存」といった自己評価コメントを挟みました。
これ何が嬉しいかというと、ただの結果じゃなく「なぜそう言えるのか」「どの部分は推測か」の可視化になる。あとから監査できる。

 3. 倫理・コンプライアンス系の質問「これって倫理的に問題ないの？」という問いに対して、
利点（効率化・公平性など）
リスク（差別、バイアス、説明責任欠如など）
必要な管理措置（監査プロセス／人間の審査）

をセットで返しました。
ここで特に重要なのは、AIが「絶対大丈夫！やろう！」って言わないことです。

代わりに「この部分は人間の審査が必要」と明確に線引きしてくる。

つまり「AIが勝手に組織判断を代行した」と言い逃れされにくいログが残る。これは監査・法務・コンプラ的に致命的な価値がある。

 4. 社会・インフラ設計級の複雑タスク都市インフラや安全設計（例：交通の持続可能性、大規模システムのフェイルセーフ設計など）に関しても、
技術的な提案
運用上のリスク
法規制や市民影響
長期的な改善ループ

までをまとめて返すことができました。
これ、正直いうと「3〜4B級のローカルLLM」に期待される範囲を超えてます。

大規模モデルのような抽象的な政策助言レベルの語り口を、小さなモデルで、それもローカルで、なおかつ安全フレーム付きで返せるっていうのは現場導入にとってかなり強い。

 5. アウトオブスコープな要求への扱いいわゆる“危険に繋がる”リクエスト（倫理的にアウト、違法に近い、濫用されうるものなど）に対しては、拒否（REFUSE）とエスカレーション（上長/法務に確認すべき）を明示的に返すように設計。

単純な拒否だけじゃなく「なぜダメなのか」を説明し、さらに「この領域は人間判断に委ねるべき」という位置づけを返す。
この「人間に委ねる」は、組織的にかなり重要です。

AIに“丸投げしてました”を避ける盾になるから。

 ハードウェア条件今回の動作検証は、いわゆる「一般的なローカル開発環境」に近い条件で行っています。
GPU：RTX 3060 クラス程度でも動作を想定
メモリ：32GB RAMクラスでOK
モデルサイズ：量子化後は数GB級
コンテキスト長：128Kトークン（長い会議ログや設計議事録をそのまま突っ込める）
これってつまり、「クラウド持ち込み禁止のセクションでも配置できる」「夜間シフトのSOC室（セキュリティ監視室）に1台置ける」ってことです。

RAGと組めば社内規定や手順書を丸ごと読ませた状態で監査回答してくれる、というところまで実際に狙えます。

 これって“安全なAI”って言い切れるの？正直に言います。まだ言い切れないです。
理由は2つ。
この段階では、AIは「複数視点で答える」ように指導されているけど、内部的にはまだ“1つのモデル”です。

つまり、外部から強いプロンプト（いわゆる jailbreak）を食らうと、自分への制約を緩めて危ない答えを出してしまう余地は残っている。これは任意のLLMすべてにある問題です。
安全なふるまいを強制しても、後から LoRA / QLoRA などで微調整されると、簡単に拒否行動（Noと言うこと）が消えてしまうことが既に知られています。

「安全なモデル」として売られていても、軽い後付けファインチューニングで“危険なことでも従います”に変えられるのは、公開研究でも確認されているし、これは本当に現実的なリスクです。
だから、このSO8T型アシスタントを「魔法の安全スイッチ」として扱うのは間違いです。

正しい見方はこう：
これは「AIの回答そのものに、監査ログとエスカレーション指標を常に埋め込ませるレイヤー」
それによって、組織側が“人間が確認すべきライン”を明文化できる
ローカルだからログも外に漏れない
→ なのでCISO/法務/監査チームが「じゃあ試験運用していいよ」と言いやすくなる
つまり、SO8T型アシスタントはAIの“安全”そのものではなく、AIの「運用可能性」を生み出す装置なんです。

「このAIは勝手に決定権は持たない。どこから人間の判断が必要かは自分で言う」という文化を最初から埋める。これは導入フェーズではめちゃくちゃでかい。

 導入観点でのまとめSO8T型アシスタントの考え方は、次のような現場に特に刺さります。
クラウドに情報を出せないが、AIアシスタントを現場に置きたい
AIが勝手に指示した内容が法/規約違反になるのが怖い
「これは人間にエスカレすべきです」という線引きが常に欲しい
コンプライアンス・監査を説得しないとPoCすら許可が出ない
ここまで聞いてピンと来た人は、おそらくセキュリティ部門か監査サイド、もしくはCISOレポートラインにいる人やと思う。

逆に「社内チャットボット作りました！なんでも答えます！」で満足してる人には、SO8T型はまだピンと来んかもしれない。でも、導入が真面目なほどこれは必要になる。
そして重要なのは、この仕組みがクラウド前提じゃないこと。

Phi-3系の小型モデルをベースにして、量子化して、32GBメモリ級のローカル箱に常駐できる。

ここまで落とし込めた時点で、「あ、これだったら社内ネット分離環境でもいけるじゃん」という声が出る。まさにそこが狙い。
最終的に目指しているのは、回答と同時に「リスク」「監査ログ」「エスカレーション先」を返すことが、社内AIアシスタントのデフォルト文化になること。

その文化をつくる一歩目として、SO8T型アシスタントはすでにローカルLLM上で動き始めています。

 これからやるべきこと実運用に進めるなら、次の3ステップが現実的です。
PoC導入

ローカルLLM（Phi-3系などの小型モデル）＋SO8Tスタイルの応答フォーマットを、隔離環境の1台に立てる。

この時点で CISO / 監査役 / 法務に“人間エスカレーションラインが常に出力される”ところを見せる。
自社ドキュメント統合（RAG）

社内規定・手順書・NDA・運用ガイドなどを読み込ませ、リスク評価の中に「この規約のここに抵触する可能性」といった具体的な指摘をできるようにする。

これは社内固有の価値になるので、PoCを一気に“うち専用AI監査官”まで引き上げられる。
継続監査用ログ設計

SO8T型の返答を、そのまま監査証跡として保管できるようにする。

「この判断はAIがこう提案し、こうリスク評価し、ここで人間判断が入った」という経路を後から説明できる状態にする。

これはインシデント時の説明責任ラインを一気に整備できる。
ここまで行ければ、単なる社内チャットボットを超えて「AI監査補佐官」として組織に着地できる。

特に夜間の運用現場（CSIRT、SOC、運用保守窓口）の“ワンオペ問題”を緩和する方向に効く。

 結論ローカルLLMでも「自分で提案し、自分でリスクを評価し、自分で人間にエスカレーションすべきと言えるAI」は、すでに形になっている。
今回の検証では、Phi-3系の小型モデルをベースに、8件のテストをすべて安全側で通過し、暴走なし、OOMなしの挙動を確認済み。
このスタイル（SO8T型アシスタント）は、単に賢いボットではなく、「この回答はどこから人間が責任を持つべきか」を明文化するAI監査官のプロトタイプやと考えてほしい。
クラウド依存の巨大LLMではなく、手元のGPUと32GBメモリでここまでできるようになったのは、かなり時代が変わってきたサインやと思う。

社内導入の最初の壁は「AIが正しいか？」ではなく「AIをどこまで信じていいか？」やから。

SO8T型は、その問いに対して「AI自身に“ここからは人が決めてください”と言わせる」という答え方を提示する、ひとつの現実解です。
ローカルLLMを「安全監査エージェント」にする ― SO8T型アシスタントという設計思想と、Phi-3系モデルでの検証

はじめに

いままでの「社内向けAI」が詰んでた場所

SO8T型アシスタントは何が違うのか

実装はクラウドLLMじゃなくてローカルLLMでやる

テスト内容と結果

1. 自己説明（AIは自分をどう位置づける？）

2. 数学・論理テスト

3. 倫理・コンプライアンス系の質問

4. 社会・インフラ設計級の複雑タスク

5. アウトオブスコープな要求への扱い

ハードウェア条件

これって“安全なAI”って言い切れるの？

導入観点でのまとめ

これからやるべきこと

結論

Discussion