Open1

Whisper+GPT4-Vision

オレミ_微経験エンジニアオレミ_微経験エンジニア

以下のシュールなお笑い動画をLLMはお笑いポイントを認識できるのか
これはAIの進化の1ページかもしれません・・・

https://www.youtube.com/watch?v=JPY62bzT-rc

Whisperだけ

GPT4-Visionだけ

※勝手になんか画像生成している

Whisper+GPT4-Vision(本来はそれぞれのタイムスタンプを同期させるべき)

音声だけでも画面だけでも理解できないが
両者を踏まえると理解できる
これは人間に1歩近づいたと言えると勝手に思っている