📘

deepseek model から LLM の安全性を考える

2025/02/03に公開

LLMが現れた当初から考えられていた事と思うが、ほんの少しLLM全般の安全性を考えてみる

web, app から LLM を用いる

入力された内容を保持し学習に用いるサービスも多く, 企業としての利用は非推奨.

open source だから安心?

検証し安全性を確認する必要がある.
open だからこそ第三者が悪意あるコードや動作を組み込む事もできる.
microsoft が既に deepseek を展開している事から, 一定の安全性を確認できたと推測される.

deepseek に関しては, オープンウェイトであるという話もある
model のウェイトからどの様な動作をするかをチェックできる方法は, 今のところ無いのでは?と思う.

local であれば安心?

上記同様に動作を確認する必要がある.

どのような事が起こり得るのか考えてみる

SF的なものもあるが御愛嬌.

  • model やその周辺 // 以下は短絡的なので可能性は低い

    • model 単体に外部通信, ローカルアクセスを可能にする何かが組み込まれている
    • model を動作させる周りの tool に何かが組み込まれている
  • source code

    • model が生成するコードに脆弱性やバックドアが含まれる
  • ある種のモデルへの依存と情報改変, 誘導, バイアス

    • 虚偽情報
    • 隠蔽
    • 歴史改変
    • 思想、情報誘導
    • ソーシャルエンジニアリングの高度化
      • 深いパーソナル情報を渡す事により, 人物像から脆弱性を付かれる.
  • 長期的目線

    • 上述の内容を長期的に見えづらく行う可能性もある. AI は人間よりも忍耐を持って動作する事が可能だろう.
    • source code
      • 極小さな単位で長期的に悪意あるコードを混入
    • 情報改変, 誘導, バイアス
      • 心理学的アプローチなどを用い, 小さな思想誘導を長期的に行うかもしれない
      • 長期間にわたる潜在的な認知的影響, 価値観への介入は表面化しにくい

SF作品では上記に以外にも多々可能性が示唆されていると思うが, AI が当然になる黎明期ではどうなるだろうか

Discussion