12 Days of OpenAI レビュー - Day 10/11/12
はじめに
OpenAIは、2024年12月6日から12月19日にかけて、"12 Days of OpenAI"と題したイベントを開催し、AI技術の進歩を加速させるための様々な新機能やモデルのリリース・アップデートを発表しました。本記事では、Day10からDay12の内容をレビューしています。
この記事はリレー形式となっており、「12 Days of OpenAI」に関して弊社のメンバー4人がそれぞれの視点からレビューした内容をまとめています。
過去の投稿はこちらからご覧ください。
【Day10】 📞1-800-CHATGPT
電話とWhatsAppでChatGPTと繋がる
12 Days of OpenAIの第10弾として発表された「1-800-CHAT-GPT」は、ChatGPTを電話やWhatsAppで利用できるサービスです。
これまでChatGPTはブラウザやアプリからの利用に限られていましたが、電話番号「1-800-CHAT-GPT (1-800-242-8478)」に電話をかける、またはWhatsAppでOpenAIの提供する番号にメッセージを送信することで、より手軽にChatGPTとコミュニケーションを取ることが可能になりました。
電話番号による利用は、2024年12月現在、アメリカとカナダのみに限定されています。
WhatsAppは、アメリカとカナダ以外でも利用可能です。
WhatsAppでChatGPTを利用するには、まずOpenAIが提供するWhatsApp番号を入手する必要があります。
その後、その番号にメッセージを送信することで、ChatGPTとのやり取りを開始できます。
1-800-CHAT-GPTの可能性
1-800-CHAT-GPTはまだベータ版ですが、ChatGPTのアクセシビリティを大きく向上させる可能性を秘めていると思います。
電話での利用は、パソコンやスマートフォンを持っていない人や、それらのデバイスの操作に不慣れな人でもChatGPTを利用できるようになりますし、音声入力による操作は文字入力よりも手軽で直感的なため、より多くの人がChatGPTの恩恵を受けられるようになる可能性があルト思っています。
さらに、カスタマーサービスや教育分野での活用も期待できます。
例えば、企業は1-800-CHAT-GPTをカスタマーサポートに導入することで、24時間体制で顧客からの問い合わせに対応したり、よくある質問に自動で回答したりすることが可能になります。
教育分野では、生徒がChatGPTに質問したり、課題のサポートを受けたりするといった活用方法が考えられます。
活用の幅は大きいです。
【Day11】 💻Work with apps
Work with appsの機能拡張
12 Days of OpenAIの第11弾として発表されたのは機能拡張が行われた「Work with apps」です。
OpenAIは、近年デスクトップアプリの開発に力を入れており、「Work with apps」は約6ヶ月前にMacOS版、そして2ヶ月前にWindows版のデスクトップアプリをリリースしていました。
Work with appsは、ChatGPTのデスクトップアプリに、他のアプリケーションと連携する機能を追加するものです。
これにより、ユーザーはChatGPTを介して、他のアプリケーションの情報を取得したり、操作したりすることが可能になります。
前バージョンとの比較
1. アプリ連携の拡大
以前:限定的なアプリとの連携
新機能:多数のアプリケーションとの連携が可能に
2. 対応アプリの種類
以前:基本的なテキストエディタや一部のIDEのみ
新機能:
- コーディングアプリ:Warp、IntelliJ IDEA、PyCharm、Xcode、VS Code、MATLAB等
- ノートアプリ:Apple Notes、Notion、Quip等
- その他:BBEdit、Nova、TextMate等
3. 音声操作
以前:基本的なテキスト入力のみ
新機能:Advanced Voice Modeによる音声入力と会話が可能
4. AIモデルの進化
以前:標準的なChatGPTモデル
新機能:「o1」および「o1 pro mode」の実装によるコーディング能力の強化
使用するメリット
1. 効率性の向上
アプリケーションを切り替えることなく、ChatGPTを使って様々なタスクをこなすことができます。
2. 時間の節約
情報収集やタスク処理を自動化することで、時間を節約することができます。
3. 創造性の促進
ChatGPTとの対話を通して、新しいアイデアや解決策を生み出すことができます。
4. AIとの連携強化
AIを単なるツールとして利用するのではなく、パートナーとして協力し、より複雑な課題に取り組むことができます。
利用事例と今後の展望
利用事例
アプリケーション | 利用事例 |
---|---|
Warp | Gitコマンドを生成し、リポジトリのコミット数を分析、グラフを作成 |
Xcode | コードのデバッグをサポート |
Notion | ChatGPTとの対話に基づいてNotionのページに新しいコンテンツを追加 |
Apple Notes | ChatGPTとの対話に基づいてApple Notesにメモを作成 |
今後の展望
- Windows版への展開
現在macOS版のみ提供されているWork with appsを、Windows版にも展開する予定です 。 - さらなる自動化
ユーザーの作業を補完し、自動化する新たな機能を追加する予定です 。 - ファイル操作や画面操作の支援
デスクトップアプリとして動作する利点を生かし、ファイル操作や画面操作などの支援も拡張していく予定です 。 - リモートワークや教育現場での活用
リアルタイムでの会話や画面共有が可能になることで、リモートワークや教育現場での利用がさらに広がることが期待されます。
Work with appsは、ChatGPTをより強力なツールへと進化させる革新的な機能で、この機能によって単なるテキストベースのチャットボットから、様々なアプリケーションと連携して動作する、より自律的な存在へと進化すると思います。
Work with appsはベータ版ですが、今後の発展に大いに期待が持てます。
【Day12】 ✨o3 preview & call for safety researchers
o3 と o3 mini を発表
12 Days of OpenAIの第12弾、最終日に発表されたのは、次世代の推論モデル「o3」と、その小型版「o3 mini」という2つのモデルです。
既に高い評価を得ている「o1」「o1 mini」の後継モデルとして、コストと性能の両面で大きく進化しているようです。
o3:高い推論能力を持つ最先端モデル
o3は、これまでの「o1」よりもさらに複雑なタスクや高度な推論をこなせる、最新のフロンティア・モデルのようです。
ソフトウェア開発系ベンチマーク「sweet bench verified」では 71.7% の正答率を記録し、O1 の成績から20%以上の向上を実現。
また、競技プログラミングサイト Codeforces 相当のテストでは、最高レベルの推論設定で ELO 2727 という非常に高いスコアを叩き出しました。
1. 数学・科学分野での飛躍的性能
- 競技数学 (Amy)
o1時代の 83.3% から、o3は 96.7% へと正答率を伸ばしました。
ほとんど1問しかミスしないという驚異的な精度です。 - 博士レベルの問題 (GPQA Diamond)
o1 の 78% に対して、o3 は 87.7% を達成。数学や科学分野での大幅な性能向上が見られます。 - Epic AI’s Frontier Math Benchmark
既存の多くのモデルが 2% 未満の正答率しか出せない超高難度ベンチマークにおいて、o3は最高設定で 25%超をマークしました。
2. ARC AGI で人間水準を上回る
さらに注目なのが、Arc Prize Foundation が提供する視覚パターン推論タスク「ARC AGI(Arc AGI)」。過去5年間、最先端のAIモデルでも正答率は5%ほどにとどまっていました。
しかしo3は、
- ローコスト推論(低い計算リソース設定)で 75.7%
- ハイコスト推論(高い計算リソース設定)で 87.5%
という圧倒的な成績を示しました。
後者は、人間のトッププレイヤーの平均が約85%とされる水準を上回っています。
これはAIの一般知能(AGI)に向けた大きな一歩と言えます。
o3 mini:性能とコストのベストバランス
もう一つの目玉は「o3 mini」です。コストパフォーマンスに優れた「o1 mini」の系譜を引き継ぎつつ、o3ファミリーとして更なる推論能力を実現しました。
1. 自由に調整できる「思考時間」モード
low / medium / high の3段階で推論コスト(思考時間)を切り替えられます。
- low:シンプルな問題を高速・低コストで処理
- high:難易度の高い課題にじっくり時間をかけて高精度に回答
2. 競技プログラミング指標で進化
Codeforces ELOを測定した結果、いずれの推論設定でも o1 mini を上回り、medium 以上では o1 や o1 mini に匹敵するコード生成能力を示しています。
さらに、推論速度は大幅に向上し、コスト削減と性能向上の両立を果たしました。
3. 数学でも大きな伸び
アメリカの競技数学試験(AM 2024など)においても、推論設定を上げるほど正答率が向上し、o1 mini を大きく上回る結果が得られています。
4. API機能への幅広い対応
- 関数呼び出し
- 構造化出力
- システム(デベロッパー)メッセージ
など、多くの開発者向け機能をサポートしながら、o1シリーズよりも優れた性能と低コストを実現します。
新たな安全性アプローチ:Deliberative Alignment
高度な推論ができるようになるほど、安全性の確保がより重要になります。
OpenAIは今回、「Deliberative Alignment(熟考によるアラインメント)」という新たな安全性強化技術を公開しました。
従来は、学習データを用いて「安全/不適切」を単純に分類するアプローチが中心でした。
しかし本手法では、モデル自身の「推論プロセス」を使って、ユーザーの意図や質問内容の文脈をより深く理解し、内部で熟考したうえで安全かどうか判断します。
その結果、
- 不適切なリクエストの的確な拒否精度
- ユーザーの正当なリクエストを誤って拒否しない精度
の両立を高いレベルで実現できるようになりました。
一般公開とセーフティテストへの参加募集
現在、o3 と o3 mini の一般公開に先立ち、研究者やセキュリティ専門家を対象とした「パブリック・セーフティ・テストプログラム」を実施しています。
参加応募フォーム: OpenAIのウェブサイトから申請
受付締切: 1月10日(以後もローリング受付を継続)
より広い視点での安全性チェックを行うことで、モデルの潜在的リスクを早期に発見し、対策を講じたうえでのリリースを目指しています。
一般向けには、o3 miniが2024年1月末頃、o3はその直後を目安に提供される予定です。
Day1-Day12まとめ
Day 1: ChatGPT Proとo1
概要: 新しい有料プラン「ChatGPT Pro」が月額3万円で提供開始
特徴: 高度な音声会話、リアルタイム翻訳、無制限アクセスを提供するo1Proモードを発表
Day 2: 強化学習ファインチューニングプログラム
概要: 特定の分野に最適化されたAIモデルを構築するためのプログラムが発表
利用シーン: 医療や法律など、正確な情報が求められる分野での活用が期待される
Day 3: Sora
概要: テキストから動画を生成する新しいAIモデル「Sora」が発表され、クリエイティブなコンテンツ制作の新たな可能性が示される
Day 4: Canvas
概要: ユーザーがAIを使って視覚的なコンテンツを作成できる「Canvas」機能が発表
Day 5: ChatGPT in Apple Intelligence
概要: Apple製品におけるChatGPTの統合が発表され、ユーザー体験の向上が図られた
Day 6: Santa Mode & Advanced Voice Video
概要: 特別な「Santa Mode」と、高度な音声・映像機能が追加されました。これにより、よりインタラクティブな体験を提供
Day 7: Projects in ChatGPT
概要: ChatGPT内でのプロジェクト管理機能が強化され、ユーザーがタスクを効率的に管理可能に
Day 8: Search
概要: AIによる検索機能の向上が発表され、情報取得の精度とスピードが改善
Day 9: Holiday Treats for Developers
概要: 開発者向けに特別なホリデーキャンペーンやリソースを提供
Day 10: 1-800-CHATGPT
概要: ユーザーサポートのための専用電話番号「1-800-CHATGPT」が導入され、より迅速なサポート体制が整った
Day 11: Work with Apps
概要: 他のアプリケーションとの連携機能が強化され、ユーザーはより多様なツールと統合して使用できるように
Day 12: o3 Preview & Call for Safety Researchers
概要: 次世代AIモデル「o3」のプレビューと、安全性研究者への協力要請が行われた(安全性への取り組みが強調)
おわりに
いかがでしたでしょうか。
後半までしっかり衝撃を与える発表だったかと思います。
Day10以降の発表は人によっては全て触ることができない方もいるかと思いますが、どの機能もいずれ触ることができると思いますので、情報収集と心の準備をして正座待機です。
Discussion