うわっ…GPT-4o miniのAPI、安すぎ…?画像マルチモーダル入力の精度を検証してみた
OpenAIが7月18日(現地時間)にGPT-4o miniのAIモデルを発表しました。
そこで、Google Apps Scriptを使ってGPT-4o miniのAPIを試してみました。
※以下の動画でAPIリクエスト方法を解説しています。
GPT-4o miniが登場
OpenAIがGPT-4oのコスト効率を高めたGPT-4o miniが登場しました。
GPT-4oの応答速度はそのままにGPT-4oよりも激安でAPI利用でき、ChatGPTよりも安いほどです。
こんなにも速い・安いな生成AIが登場したならば、試すしかありません。
GPT-4o miniのAPIを叩いてみた
そこでGoogle Apps ScriptでGPT-4o miniのAPIを叩いてみました。
事前に必要なものはOpenAIのAPIキーです。
下記で利用登録からAPIクレジット購入、APIキー発行まで解説しています。
APIを叩くコード
下記記事にAPIを叩くサンプルコードを配置しています。
コードをコピペし、用意したAPIキーをスクリプトプロパティ(プロパティ:APIKEY、値:APIキーの文字列)にセットすれば、実行できます。
※初回実行時は承認が求められるので、初回認証手順に従って許可してください。
その結果、このようにGPT-4o miniのAPIを実行できました。
API料金安すぎワロタ
今回、GPT-4o miniのAPIをいろいろと試した中で、かなりのトークン数を送信しました
1日で15万トークン消費したのですが、それで発生したのはなんと$0.02でした。
1ドル160円で日本円に換算すると、たった3.2円です。
あまりにも安すぎて本当かどうか疑うレベルですが、OpenAIの料金表から計算しても同じぐらいの金額です。
これならクラウド破産のような心配も必要ありません。
マルチモーダル入力も
現在のChatGPTアプリ無料版ではGPT-4o miniの場合、画像アップロードはできません(実行制限があるGPT-4oのみ可能)。
ただGPT-4o miniのAPIは画像のマルチモーダル入力にも対応してるので、画像も試してみました。
画像入力対応したサンプルコードも先ほど紹介した記事に配置しています。
※画像URLをAPIのパラメータにセットするやり方です。
GPT-4o miniの画像入力の精度は?
マルチモーダルの画像入力では2つのパターンを試してみました。
- 物体が何か
- 何個あるか
まず、初代ポケモンでお馴染みの3匹の画像です。
※ポケモン公式より引用
画像に描かれたポケモン名を尋ねてみました。
きちんと3匹とも正解できています。さらに順番も合っています。
※ポケモン公式より引用
続いて上の画像でポケモンの数を尋ねてみます。
こちらもポケモンの数を正しく認識できていました。
ただ、画像のポケモンの数を増やすと、回答も間違う確率が高くなりました。
そうした応答結果から、写っている物体数が少ない画像であればGPT-4o miniも画像認識タスクに活用できそうです。
上位モデルのGPT-4oもそうですが、複雑な画像はまだまだ業務活用など厳しいと感じました…
終わりに
今回、GPT-4o miniが新しく発表されてAPIが公開されたので、Google Apps ScriptでAPIを叩いてみました。
GASなら手軽にGPT-4o miniをAPIで試すことができました。
かなりトークンを消費したのに、API料金は激安でした。
これならAPI料金に怯えず心置きなくGPT-4o miniを使い倒せそうです。
マルチモーダルも検証したところ、シンプルな画像ならきちんと正解できるようでした。
数を数える、物体名を特定するといったタスクでGPT-4o miniが活用できるかもしれません。
まだ発表されたばかりなので、活用方法をどんどん模索していきたいと思います。
Discussion