Azure OpenAI の GPT-4o mini で画像認識したときの精度やトークン使用量について
執筆日
2024/08/24
概要
GPT-4o miniがAzureでもデプロイできるようになり、おそらくGPT-3.5は完全に淘汰されると思いますが、どこまでGPT-4oと置き換えられるの?ということが気になっています。
その中で、この速さと安さでマルチモーダルまでできるの?という疑問があったのですが、先日以下のような記事が投稿されていました。
テキスト以外のモーダルに関しては処理トークン数が多くなり、トークン使用料金はGPT-4oとほぼ変わらないということが報告されています。
ブログの検証だと画像を含む入力トークン使用量が約32倍となっています。GPT-4oがinput 5ドル/1M tokens、 miniが0.15ドル/1M tokensで約33倍なので使用料金的にはほぼ同じになるような感じです。
公式的に説明があるのか、なぜこうなっているか詳しくはわかりませんが、プロジェクトで使う場合は間違った提案をしないように調べる必要がありそうです。
本記事ではAzure OpenAIでデプロイしたGPT-4o miniを使って自分でも検証をしました。また上記記事では紹介されていなかった画像認識の精度や処理速度の差についても調べました。
結果として、Azure OpenAIでは2024/08/07時点ではトークン使用量の増加は確認されず、画像処理のinputも安く実現できました。しかし、2024/08/24に再検証したところ、上記ブログと同様のトークン数上昇が確認され、どこかのタイミングで修正されたようです。出力される文字数が多い場合は、出力コストが圧倒的に安い4o miniを優先してもいいかもしれませんが、入力トークン数が多くなるため総トークン使用量だけ見て驚かないようにしましょう。
処理時間についてはアクセス集中しているminiの方が長くなる傾向がありましたが、休日だと利用が落ち着いてあまり処理時間に差がなくなりました(East USでしかデプロイできないことから用意されているリソースが少なそう)。また、グローバルデプロイとスタンダードデプロイで処理時間に目に見える変化はありませんでした。
画像のトークン化(?)には同じアーキを使っているとかそういう理由な気がしますが、どこかで説明されてるんでしょうか。
前提
- Azure OpenAIでGPT-4o及びGPT-4o miniをデプロイ済み
- 2024/08/03時点で、両モデルを同時にデプロイできるのはEast USリージョンのみ
スクリプト
GPT-4oで検証した時と同じ環境・スクリプトを使っています。
検証
写真
普通の風景写真です。(筆者撮影) どちらも「黄色い花」「黒いバイク」「青い空」「全体的に自然の風景写真」という同じような表現が出力されました。
入力トークン 794(4o) / 25530(4o mini): ~32.2倍
プロンプト
system_message = "あなたは画像分析アシスタントです"
user_message = "この画像には何が写っていますか?"
GPT-4o
Time: 4.467 s
input: 794 tokens, 0.574 円
output: 69 tokens, 0.150 円
この画像には、黄色い花が咲く広い野原と、そのそばの道路が写っています。道路上には黒いバイクが停められています。空は青く、快晴のような天候です。全体的に、自然の美しい風景が広がっています。
GPT-4o mini
Time: 4.268 s
input: 25530 tokens, 0.554 円
output: 70 tokens, 0.006 円
この画像には、黒いバイクが道路の横に停まっており、その後ろには黄色い花が一面に広がる風景が写っています。空は青く、晴れている様子が見えます。全体的に自然が感じられるリラックスしたシーンです。
文書
法令リードで公開されている労働基準法の序文を使ってみました。
結果としてはこのレベルのはっきりした文字であればどちらのモデルも問題なく文字が抽出できました。(学習データリークがないと言い切れないところはありますが、細かい構造も読めているようです)入力コストは最初に述べた通り同程度になります。しかし、出力はともに約700トークンでGPT-4oが~1.5円、miniは~0.065円と出力コストに圧倒的な優位性があります。書いてあることをそのまま出力するのであればminiを使う選択肢はかなりアリだと思います。
入力トークン 1179(4o) / 36909(4o mini): ~31.3倍
プロンプト
system_message = "あなたは画像の情報をmarkdown形式で出力するAIです 要約せず書いてあることを漏れなく教えてください"
user_message = "この画像の情報を教えてください 絶対に内容を省略しないでください"
GPT-4o
Time: 9.255 s
input: 1179 tokens, 0.852 円
output: 693 tokens, 1.503 円
出力
労働基準法.
昭和22年法律第49号
最終改正: 令和2年3月31日法律第14号.
第1章 総則
(労働条件の原則)
第1条 労働条件は、労働者が人たるに値する生活を営むための必要を充たすべきものでなければならない。
2. この法律で定める労働条件の基準は最低のものであるから、労働関係の当事者は、この基準を理由として労働条件を低下させてはならないことはもとより、その向上を図るように努めなければならない。
(労働条件の決定)
第2条 労働条件は、労働者と使用者が、対等の立場において決定すべきものである。
2. 労働者及び使用者は、労働協約、就業規則及び労働契約を遵守し、誠実に各々その義務を履行しなければならない。
(均等待遇)
第3条 使用者は、労働者の国籍、信条又は社会的身分を理由として、賃金、労働時間その他の労働条件について、差別的取扱をしてはならない。
(男女同一賃金の原則)
第4条 使用者は、労働者が女性であることを理由として、賃金について、男性と差別的取扱いをしてはならない。
(強制労働の禁止)
第5条 使用者は、暴行、脅迫、監禁その他精神又は身体の自由を不当に拘束する手段によって、労働者の意思に反して労働を強制してはならない。
(中間搾取の排除)
第6条 何人も、法律に基いて許される場合の外、業として他人の就業に介入して利益を得てはならない。
(公民権行使の保障)
第7条 使用者は、労働者が労働時間中に、選挙権その他公民としての権利を行使し、又は公の職務を執行するために必要な時間を請求した場合においては、拒んではならない。但し、権利の行使又は公の職務の執行に妨げがない限り、請求された時刻を変更することができる。
第8条 削除
(定義)
第9条 この法律で「労働者」とは、職業の種類を問わず、事業又は事務所(以下「事業」 という。)に使用される者で、賃金を支払われる者をいう。
GPT-4o mini
Time: 11.073 s
input: 36909 tokens, 0.800 円
output: 744 tokens, 0.065 円
出力
労働基準法
昭和22年法律第49号
最終改正:令和2年3月31日法律14号
第1章 総則
(労働条件の原則)
第1条 労働条件は、労働者が人たるに値する生活を営むための必要を充たすべきものでなければならない。
2 この法律では労働条件の基準は最低のものであるから、労働関係の当事者は、この基準を理由として労働条件を低下させてはならないことはもちろん、その向上を図るように努めなければならない。
(労働条件の決定)
第2条 労働条件は、労働者と使用者が、対等の立場において決定すべきものである。
2 労働者及び使用者は、労働協約、就業規則及び労働契約を遵守し、誠実に各々その義務を履行しなければならない。
(事情適用)
第3条 使用者は、労働者の国籍、信条又は社会的身分を理由として、賃金、労働時間その他の労働条件について、差別的取扱をしてはならない。
(男女同一賃金の原則)
第4条 使用者は、労働者が女性であることを理由として、賃金について、男性と差別的取扱をしてはならない。
(強制的労働の禁止)
第5条 使用者は、最下行、脅迫、監禁その他の他精神又は身体の自由を不当に拘束する手段によって、労働者の意思に反して労働を強制してはならない。
(中間搾取の排除)
第6条 何人も、法律に基いて許される場合の外、業として他人の就業に介入して利益を得てはならない。
(公民権行使の保障)
第7条 使用者は、労働者が労働時間中に、選挙権その他公民権を行使し、又は公の職務を執行するために必要な時間を請求した場合においては、妨げてはならない。ただし、権利の行使又は公の職務の執行に妨げがない限り、請求された時刻を変更することができる。
(削除)
第8条
(定義)
第9条 この法律で「労働者」とは、職業の種類を問わず、事業又は事務(以下「事業」とい う。)に使用される者をいう。
参考
Discussion