AIでゲシュタルト崩壊を再現できるのか?
最近、AIと人間の脳というか考え方の違いについて考えることがあります。脳って不思議な部分もあって、それをAIで再現できるとより深みが出るのではないかと思っています。今回のブログはそんな妄想の中で調べたり考えてみたことをまとめていきます。
ゲシュタルト崩壊とは?
皆さんは小学校の時に漢字を練習していて、20回くらい同じ漢字をノートに書いた時にだんだんと文字が変な風に見えたり、字が変わってしまうような感覚に陥ったことはないでしょうか?ゲシュタルトはドイツ語で形を意味しますが、形が崩壊するのがゲシュタルト崩壊です。漢字を例にした場合、その感じの形が崩れてしまうことです。
Wikipediaではゲシュタルト崩壊について、以下のように説明されています。
認知心理学の視点から「文字のゲシュタルト崩壊」が研究されている。これは、例えば同じ漢字を長時間注視しているとその漢字の各部分がバラバラに見え、その漢字が何という文字であったかわからなくなる現象である
なお、原因については
近年では、意味飽和との関連も指摘されているが、ゲシュタルト崩壊の発生要因については未解明な部分が多く、静止網膜像のように消失が起きないことなどから、感覚器の疲労や順応によるのではなく、「比較的高次な認知情報処理過程によって発生する」ことがわかっている程度である。
と書かれています。
さらに「比較的高次な認知情報処理過程によって発生する」の部分では論文が紹介されていますが、
原因については、持続的注視を行うと,周辺視野に位置するパターンの一部や,あるいは全体が消失するという現象は,古くからTroxler効果として知られている(Wade,1977).また,静止網膜像では,それまでに知覚されて いたパターンが,ある単位ごとに部分的に消失し,やがて全体が消失することが報告されている(Pritchard, 1961).これは,感覚細胞から出力される信号の弱まりに伴って,知覚的体制化を行う過 程に変動が生じるために起こる現象としてとらえられている.
とされていました。
なるほど、繰り返し見ることによって、知覚信号の情報が弱まってしまうことによって脳が他のことをしてしまうのが原因なのかもしれません。人間の脳は大量のエネルギーを使うので、繰り返しが発生すると省エネモードになるようにできているのかもしれませんね。例えば、毎日通勤で歩く道と、初めて訪れた街を歩くのでは脳の活発具合も違いますし。ただ、ゲシュタルト崩壊のような現象は、慣れた道を歩いていても発生する気もします。見えている道路が崩壊するという訳ではないですが、「あれ?こんなところにこんなものあったっけ?」とか、いつも気づかないものに気づくことってあると思います。それは、いつも慣れた道を省エネモードの脳で歩いているけど、たまたま頭が冴えていて気づくことのような気がします。
AIでゲシュタルト崩壊を再現できるのか?
はじめは、ゲシュタルト崩壊がいつもと違う発想を取り入れるような動きかなと思っていたので、AIのパラメータで言えば、temperatureのパラメータを変える感覚に近いのかなと思っていました。temperatureのパラメータは回答の揺れを表現できるもので、低くすればするほど一貫性のある回答をしますし、高くすると多様性が出てきます。そのため、ゲシュタルト崩壊が起きる状態はtemperatureが高めなのかなと思っていたのです。
ただ、既に書いたとように知覚信号の弱まりによって発生するのだとすると、少し考え方が変わってきます。無理やりゲシュタルト崩壊のような処理を表現するのであれば、AIに同じインプットを与える場合において、はじめの方はtemperatureを低くしておいて、繰り返しが増えるに従ってtemperatureを上げていくと、結果は似たようなことが再現できるかもしれません。ただ、この再現方法だとAIが使用する電気エネルギーは一定な訳で、省エネモードに移行している訳ではありません。そういう意味では意図的にそれっぽく回答を変えているだけなので、再現できていないと思います。
さらにシステム実装上で人間っぽさを表現するのであれば、何回か同じインプットを与えて、同じ回答を得る時に回を増やすごとに回答をキャッシュしていく方法はあるかもしれません。システム上のメモリにキャッシュさせて再利用することで、CPUコストを削減することができれば、似たようなことを再現できます。そうやって削減したCPUコストがある一定以上蓄積した段階で、何か別のことを考えさせるアルゴリズムを組み込んでおくことで、ゲシュタルト崩壊っぽい動きにはなりますね。
ゲシュタルト崩壊を再現したメリットは?
単純にゲシュタルト崩壊と同じようなことをさせるだけだと回答精度が悪くなるだけでメリットはないと思いますが、省エネという発想は面白いなと調べながら考えていました。現在AIが実用レベルになったのはGPUの進化がかなり後押ししていますが、まだまだ需要と共有はバランスできていないと思います。現状だと半導体コストだったり、電力消費量だったり、物理的や金銭的問題で本当に使いたいだけリソースを使えていないと思います。そもそも、そういう制約がなければ無限にリソースを使ってしまうのかもしれませんが。
いずれにしろ、効率の良いリソースの使い方が今後考えられていくのだと思います。現状だとGPUの力に任せて処理している感じですしね。別のアプローチとしてはGroqのようなLPU(言語モデル用チップ)も登場したりしていますが、目的特化なので、省エネさせるのとはアプローチが違いますね。ソフトウェアの世界で省エネ(ある意味AIが勝手にサボる)ことを行い、さらにそこで無理やり空けたリソースを少し使ってAIが勝手に別のことをすると、より人間らしくなるのかもしれません。
もちろん、人間はAIに対して人間以上に正確な回答を求めることが多いので、そういうタイプのAIは使えないケースが多いとは思います。ただ、よりクリエイティブ性を求めるようなAIにおいては、こういう動きは大事なんだと思います。AIがあまり意味がないと判断したことに対して、勝手に別のことを行なって新しい発想やアプローチを見つける、それって人間でも行なっているような気はします。
ちなみに個人的には、人間にも保守的な人と、革新的な人がいるように、AIもそういう違いが出てくると思っています。人間のそういうキャラクターは環境因子よりも遺伝的な要素の方が多い気もするので、LLMの世界で考えるとモデルが違う、ということにもなりそうな気がします。2024年現在ではまだまだモデルは成熟していませんし、個性も出てきていませんが、今後そういう個性あるLLMが出てきた時にはどういう動きをしているのかを追っていきたいと思います。
Discussion