🚫

GPT-4Vで説明書を読み解いてもらう(失敗編)

2023/10/20に公開

実現したいこと

画像からデータ化するということを、これまで2回実施してきました。
その結果、文章であれば、日本語であっても比較的問題なく作成できるということがわかりました。
そこで、今回は画像の文章をまとめたり、そこから新たな文章を生成したりということをしたいと思います。

利用するデータ

今回は、我が家にあった日立製の掃除機の説明書をもとに、検討をしてみたいと思います。

こちらをGPT-4Vに読み込ませて、

検証

内容をまとめてみる

まずは、画像を渡して「画像は、掃除機の説明書です。こちらの内容を読み取って、内容をまとめてください。」としてみました。そこででてきたのが、次の通りです。

結構、適当な文章を作り出してくれていますね。
例えば、次の内容です。

「15分以上使用したら、100Vのコンセントからプラグを抜く。」

というのは、右上の「警告」にある「定格15A以上・交流100Vのコンセントを単独で使う」から作り出したのでしょうか。
学習した何かの文章で、「一定時間以上使用したら、プラグを抜く」というものがあったのでしょう。

「「ECO つまみ」を使用して、高/低/ECO の運転モードを選択できます。」

こちらは、3項の「強/中/弱」ボタンと「ECO これっきり」ボタンが混在して、「高/低/ECO の運転モード」になっていますね。
もちろん、こちらも学習したほかのデータで「高/低/ECO」の段階があったのでしょう。

FAQをつくってみる

まとめは微妙でしたが、FAQの作成であればどうでしょう。
「この画像は、掃除機の説明書です。ここからFAQを作成してください。」と入れてみました。

やっぱり、「15分以上、連続で100Vのコンセントで使用しないでください」に引っ張られている。。。(ちなみに、スレッドを別にしておこなっているので、「内容をまとめてみる」で出た結果が悪影響を及ぼしているわけではないです)

何度か繰り返してみましたが、内容の不整合に加えて、次の点でまだまだ改善の余地ありという感じでした。
・レベル感がバラバラ
・存在しないそれっぽいワードや説明を偽装

まとめ

今回は、結果として失敗の記録になってしまいました。
ただ、単純な説明文だけでなく「警告」「注意」で囲まれた欄なども参考に作成できるなど、情報としては把握できているので、やはり日本語に対する弱さが影響しているのかもしれませんね。

この辺りは、今後さらに進化していくところだと期待しています。

ちなみに、今回はGPT-4Vに注目しているので、省いていますが、テキスト情報を渡してサマリをしたり、FAQを作成したりするのは、GPT-4でとても上手くできています。
ですので、今後の展開に合わせて改めて実験できればと考えています。(ほかの国産LLM・LMMにも期待ですね)

おまけ

逆に、説明書のサマリをもとに、説明書の画像イメージを作成してもらいました。
(DALL・E3を使用)

文字は読めないけど、確かに掃除機!
しかし、アメリカの昔のホームドラマとかに出てきそうな、旧式の掃除機ですね。
そして、⓵みたいな数値が画像にいっぱいですぎ!

Discussion