🪐

逆Embeddingや逆FineTuning...っぽいことをしてみる

2023/07/05に公開

はじめに

日々ChatGPTと話しているのですが、思考実験っぽいことをしているうちに
まとまってきたので共有します

Embedding、FineTuningとは

自分の前の記事で説明しているのでそちらで
https://zenn.dev/tesla/articles/7b3f32d65f7b41

逆Embeddingとは

GPT-4や人間が生成した文章に対して、「私が作ったLLMで生成した」という仮定を用いてembeddingされたものが何かを分析する

次のPromptです

以下の文章は私が作ったLLMに特定の情報をembeddingして生成したものです、この文章を生成するためにembeddingされたものがどのような情報だったのか以下の観点で分析してください。

- embedding元の情報、理論
- embedding元の情報の偏見、バイアス
- embedding元の情報に含まれている思い込み
- embedding元の情報の考え方のタイプ
- embedding元データの多様性

"{{文章}}"

具体例

抽象度が高いほど効果がありそうなイメージがあるので、以下から引用しました。
文章の引用元 大日如来というスーパークラス #デジタルネイチャーからマタギドライヴへ
https://note.com/ochyai/n/n3708d24d26df

Prompt A
以下の文章は私が作ったLLMに特定の情報をembeddingして生成したものです、この文章を生成するためにembeddingされたものがどのような情報だったのか以下の観点で分析してください。ただし全て箇条書きで出力してください。

- embedding元の情報、理論
- embedding元の情報の偏見、バイアス
- embedding元の情報に含まれている思い込み
- embedding元の情報の考え方のタイプ
- embedding元データの多様性


"真言密教の視点から見ると、自然は単なる物質的な存在や静的なオブジェクトではなく、ある種の「生命」あるいは「意識」の表現とも言えるかもしれません。この観点は、自然を一種の動的な、あるいは活動的なシステムとして捉えています。
例えば、大日如来というスーパークラスは、全ての存在が相互に関連し影響を与え合う、絶えず変化し進化する宇宙的なシステムを表しています。大日如来は、個々の存在(オブジェクト)だけでなく、それらの相互作用(メソッド)も包含していると考えることができます。
このように、真言密教の視点では、自然は単なる「もの」の集合体ではなく、それらが互いに関係し影響を与え合うダイナミックなプロセスとして理解されます。それは、自然全体が一つの生命体や一つの意識体であるという視点をもたらし、我々が自然と関わる方法を変える可能性があります。
つまり、自然をオブジェクトとして捉えるだけでなく、そのダイナミズムや相互作用、それがもたらす可能性について考えることが求められています。これは、オブジェクト指向の考え方を一歩進め、自然や生命をより深く理解するための新たな視点を提供するかもしれません。"

以下返答

Reply A
embedding元の情報、理論
真言密教:自然を生命体や意識体として解釈し、すべての存在が相互に関連し影響を与え合うという視点。
大日如来の概念:全ての存在とその相互作用を包含する宇宙的なシステムを表すという視点。
オブジェクト指向の考え方:個々の存在(オブジェクト)とそれらの相互作用(メソッド)の関係性に重きを置く考え方。

embedding元の情報の偏見、バイアス
自然を生命体や意識体と解釈するという真言密教の視点は、自然を単なる物質的な存在と見なす西洋科学的視点とは異なる。
オブジェクト指向の考え方は、個々の存在(オブジェクト)とそれらの相互作用(メソッド)の関係性に重きを置くため、システム全体としての視点が欠ける可能性がある。

embedding元の情報に含まれている思い込み
自然が一つの生命体や意識体であるという真言密教の視点は、必ずしも全ての宗教や哲学的な視点が一致するわけではない。
オブジェクト指向の考え方が自然や生命をより深く理解するための視点を提供するという前提は、その有効性に対する思い込みを含んでいる。

embedding元の情報の考え方のタイプ
観念的、抽象的な考え方:真言密教や大日如来の概念は抽象的な概念であり、直接的な実証性はない。
論理的、解析的な考え方:オブジェクト指向の考え方は、個々の存在やその相互作用を分析し理解するための論理的なフレームワーク。

embedding元データの多様性
宗教的な視点:真言密教の視点や大日如来の概念は、宗教や神秘主義的な視点を含む。
科学的・情報科学的な視点:オブジェクト指向の考え方は情報科学やコンピュータサイエンスの視点を含む。

のように文章のバイアスなどを分析することができます。
上記は人間が作った文章ではないのですが、もちろん人間が作った文章でも可能です。

逆FineTuningとは

embeddingとほぼ同じですが、次のPromptです

以下の文章は私が作ったLLMに特定の情報をfine tuningして生成したものです、この文章を生成するためにfine tuningされたものがどのような情報だったのか以下の観点で分析してください。ただし全て箇条書きで出力してください。

- fine tuning元の情報、理論
- fine tuning元の情報の偏見、バイアス
- fine tuning元の情報に含まれている思い込み
- fine tuning元の情報の考え方のタイプ
- fine tuning元データの多様性

"{{文章}}"

ただ、finetuningでは

上記のfine tuningに使ったであろうQ&Aを箇条書きで出力してください

のようにすると、文章に関するQ&Aが出力されます。

Reply B
以下は、生成されたテキストの内容に基づいて推定される、fine-tuningに使われたであろうQ&Aです。

Q: 真言密教の自然観は何ですか?
A: 真言密教では、自然は単なる物質的な存在や静的なオブジェクトではなく、ある種の「生命」あるいは「意識」の表現と考えられます。それは全ての存在が相互に関連し影響を与え合う、絶えず変化し進化するシステムと見なされます。

Q: 大日如来とは何ですか?
A: 大日如来は、真言密教の教義であり、全ての存在が相互に関連し影響を与え合う、絶えず変化し進化する宇宙的なシステムを表しています。

Q: オブジェクト指向とは何ですか?
A: オブジェクト指向は、プログラミングの設計パラダイムの一つで、システムをオブジェクト(個々の存在)とそれらの相互作用(メソッド)という観点から考えます。

Q: 自然をオブジェクト指向の視点でどのように捉えますか?
A: 自然をオブジェクト指向の視点で捉えると、それはただの「もの」の集合体ではなく、それらが互いに関係し影響を与え合うダイナミックなプロセスとして理解できます。

Q: オブジェクト指向の考え方を一歩進めるとどのような視点が得られますか?
A: オブジェクト指向の考え方を一歩進めると、自然や生命のダイナミズムや相互作用、それがもたらす可能性について考える新たな視点が得られます。

応用例

例えばReply Aでは

自然を生命体や意識体と解釈するという真言密教の視点は、自然を単なる物質的な存在と見なす西洋科学的視点とは異なる

とあるので、これに対して

西洋哲学的視点を混ぜて書き直してください

などわからない文章に対しても、具体的な対義語などを抜き出して文章を再構成できるようになる。

Reply Bの例だと、適当な文章を設定してそれを出力させるためのQ&Aが簡単に生成できる
(Function callingとか使用すれば欲しい形でQ&Aを受け取れる)

ローカル環境でLLMを作ってる方には役に立つかも...?

おわりに

今回試した「私が作成したLLMが生成した」という仮定はこれ以外にも応用が効きそう、マルチモーダルになっても同様のことができる気がします。
ためになったら「いいね」押していただけると嬉しいです!

反省

正直もう少しわかりやすい状態になってから記事にしたかったが、ちょっとまとまり切らなかったので記事にしちゃいました。
逆Embeddingや逆FineTuningというのは主語がでかい気もしますがいい言葉も見つからなかったのでそのようにしました

おまけ

https://twitter.com/tesla0225
https://zenn.dev/tesla

Discussion