💸

うわっ…GPT-4o miniのAPI、安すぎ…?画像マルチモーダル入力の精度を検証してみた

2024/07/22に公開

OpenAIが7月18日(現地時間)にGPT-4o miniのAIモデルを発表しました。

そこで、Google Apps Scriptを使ってGPT-4o miniのAPIを試してみました。

※以下の動画でAPIリクエスト方法を解説しています。

https://youtu.be/4Mpy6i1HzDc

GPT-4o miniが登場

OpenAIがGPT-4oのコスト効率を高めたGPT-4o miniが登場しました。

GPT-4oの応答速度はそのままにGPT-4oよりも激安でAPI利用でき、ChatGPTよりも安いほどです。

こんなにも速い・安いな生成AIが登場したならば、試すしかありません。

GPT-4o miniのAPIを叩いてみた

そこでGoogle Apps ScriptでGPT-4o miniのAPIを叩いてみました。

事前に必要なものはOpenAIのAPIキーです。

下記で利用登録からAPIクレジット購入、APIキー発行まで解説しています。

https://youtu.be/rTP5jPVO2CY

APIを叩くコード

下記記事にAPIを叩くサンプルコードを配置しています。

https://auto-worker.com/blog/?p=8916

コードをコピペし、用意したAPIキーをスクリプトプロパティ(プロパティ:APIKEY、値:APIキーの文字列)にセットすれば、実行できます。

※初回実行時は承認が求められるので、初回認証手順に従って許可してください。

image.png

その結果、このようにGPT-4o miniのAPIを実行できました。

API料金安すぎワロタ

今回、GPT-4o miniのAPIをいろいろと試した中で、かなりのトークン数を送信しました

image.png

1日で15万トークン消費したのですが、それで発生したのはなんと$0.02でした。

image.png

1ドル160円で日本円に換算すると、たった3.2円です。

あまりにも安すぎて本当かどうか疑うレベルですが、OpenAIの料金表から計算しても同じぐらいの金額です。

これならクラウド破産のような心配も必要ありません。

マルチモーダル入力も

現在のChatGPTアプリ無料版ではGPT-4o miniの場合、画像アップロードはできません(実行制限があるGPT-4oのみ可能)。

ただGPT-4o miniのAPIは画像のマルチモーダル入力にも対応してるので、画像も試してみました。

画像入力対応したサンプルコードも先ほど紹介した記事に配置しています。

※画像URLをAPIのパラメータにセットするやり方です。

GPT-4o miniの画像入力の精度は?

マルチモーダルの画像入力では2つのパターンを試してみました。

  1. 物体が何か
  2. 何個あるか

まず、初代ポケモンでお馴染みの3匹の画像です。

image.png ※ポケモン公式より引用

画像に描かれたポケモン名を尋ねてみました。

image.png

きちんと3匹とも正解できています。さらに順番も合っています。

image.png ※ポケモン公式より引用

続いて上の画像でポケモンの数を尋ねてみます。

image.png

こちらもポケモンの数を正しく認識できていました。

ただ、画像のポケモンの数を増やすと、回答も間違う確率が高くなりました。

そうした応答結果から、写っている物体数が少ない画像であればGPT-4o miniも画像認識タスクに活用できそうです。

上位モデルのGPT-4oもそうですが、複雑な画像はまだまだ業務活用など厳しいと感じました…

終わりに

今回、GPT-4o miniが新しく発表されてAPIが公開されたので、Google Apps ScriptでAPIを叩いてみました。

GASなら手軽にGPT-4o miniをAPIで試すことができました。

かなりトークンを消費したのに、API料金は激安でした。

これならAPI料金に怯えず心置きなくGPT-4o miniを使い倒せそうです。

マルチモーダルも検証したところ、シンプルな画像ならきちんと正解できるようでした。

数を数える、物体名を特定するといったタスクでGPT-4o miniが活用できるかもしれません。

まだ発表されたばかりなので、活用方法をどんどん模索していきたいと思います。

Discussion