o3-miniが出たので少しだけ検証してみた
2024年2月1日にOpenAIからo3-miniが正式リリースされましたね。
OpenAI o3-miniは「数学・コーディング・物理シミュレーションに特化してるモデル」になっているようです。
細かい基本情報は既に沢山記事がでているので、この記事では、いくつかのタスクでo3-miniと他のモデル(gpt-4o, o1, claude-sonnet)でアウトプットの精度をざっくりですが比較してみました。
1.プレゼンテーション資料の生成
Reveal.jsを使ったhtmlベースのプレゼン資料ドキュメントコードを生成させて見ました。
利用したプロンプトは以下の通りです。
インプットにはo3-miniの公式リリースサイトの情報(下記リンク)を使いました。
インプットを元に以下の#デザインポイントを満たす魅力的な日本語のHTMLプレゼン資料を作成してください。
#インプット
---
{ここに記事にしたい内容をペーストする}
---
#デザインポイント
##基本デザイン
・背景:ダークモード (#1A1A1A) またはライトモード (#FFFFFF)
・メインカラー:アクセンチュアパープル (#A100FF)
・フォント:Graphik, Helvetica Neue(サンセリフ系)
・レイアウト:グリッドベースの2カラム構成を基本
##ビジュアル要素
・セクション見出し用アイコン例:
戦略 → 🎯
分析 → 📊
財務 → 💎
チーム → 👥
・データ表現:
シンプルな円グラフ ⚪️
プログレスバー ▓▓▓░░
矢印や方向性 → ↗️ ⇒
・装飾的な区切り
━━━
❋❋❋
⚬⚬⚬
##実装のポイント
・Reveal.jsでスライド管理
・アニメーションは最小限
・モバイル対応も考慮
・1スライドあたり2-3の要点に絞る
各モデル(gpt-4o, o1,o3-mini, claude-3.5-sonnet)で生成させたプレゼンテーション資料は以下のような感じでした。
✅gpt-4oでは内容も薄く、デザインもいまいち、配色もおかしい
✅o1は詳細にまとめてくれていてデザインもそれなりに整っている
✅o3-miniはo1より少ないスライド数で整理されていて、デザインはo1とほぼ同じ
✅claudeも要点はちゃんとまとめてくれる、デザインはそれなりに整っているがo1,o3-miniとはデザインパターンが異なる。
以下は、各モデルで生成してもらった全スライド一覧
GPT-4o
o1
o3-mini
claude-3.5-sonnet
o1とo3-miniの違い
何度か実行してみましたが、o1は具体的な数値や詳細な説明を多く含み、情報が豊富で技術的な内容が多いのに対し、o3-miniは簡潔で高レベルな説明に留まっているような感じでした。
「魅力的な日本語のHTMLプレゼン資料を作成して」といったざっくりな指示出ししかしてない場合は、こういった傾向があるのかもしれませんね。
あと、今まではClaudeの方が明らかにデザイン系は強かったのですが、その辺の差がすこしずつなくなってきたのかもしれませんね。
WEBデザイン系は比較してないのでその辺も今度比較してみようかなと思います。
項目 | o3‑mini | o1 |
---|---|---|
内容の詳細度 | 高レベルな説明に留まり、簡潔にまとめている | 具体的な数値・例や詳細な説明を多数盛り込んでいる |
スライド構成 | シンプルにまとまったスライド構成 | 分野ごとに細分化され、情報が豊富に分割されている |
追加情報 | 基本的な概要のみ記載 | プラン情報や将来展望など、技術的かつ詳細な情報を提供している |
2.3Dオブジェクトを含んだhtmlコードの改修
以下は、以前Claude-sonnetを使ってAIYIMA T9 PROという真空管アンプをhtmlとJavascriptだけでモデリングしたhtmlコードを実行したデモです。
本物の製品はこちら
現状は、背景などがなく素っ気ないので、o3-miniに以下のような超ざっくりな改修依頼を出してみました。
以下のhtmlは、真空管アンプの AIYIMA T9 PRO をモデリングしたコードです。
超リアルになるようにコードを改善してください。
#html
---
<ここにhtmlコードを貼り付け>
---
出てきたhtmlコードをブラウザで開いて実行したデモ動画が以下です。
今までClaudeやo1を使ってましたが、ざつに「超リアルにして」でこんな感じに改善してくれたのはo3-miniが初の体験でした。
一段と、性能が上がってる感がありますね…。
注意
今回は、初回でいきなりいい感じで改善してくれましたが、その後に何度か同じ依頼をしたらエラーになるコードが出てきたりいまいちな改善内容がでてきたりと、ガチャ要素がまだ多いのが現実かなと思います。
ただし、もう少し的確な指示出しを出せば精度も安定するかもしれませんね。
Discussion