Galirage Inc.
🚀

12 Days of OpenAIの発表内容まとめ【生成AIエンジニア必見】

はじめまして、ますみです!

株式会社Galirage(ガリレージ)という「生成AIに特化して、システム開発・アドバイザリー支援・研修支援をしているIT企業」で、代表をしております^^

自己紹介.png

2024年12月にOpenAIは、12日間連続で新発表をしていくイベントを行いました!
本記事では、この「12 Days of OpenAI」の要点をまとめていきます!

ChatGPTの基礎知識について先に学んでおきたい方は、こちらを先にご覧ください◎

https://zenn.dev/umi_mori/books/chatbot-chatgpt

まとめ

  • Day 1: 「o1モデル」正式版と「ChatGPT Pro」発表

    • o1モデル正式版リリース: プレビュー版より性能・速度・多機能化を強化。
    • ChatGPT Proプラン発表: 月額200ドル、o1の高性能モードが利用可能。
    • API対応予定: Function Calling、Structured Outputの提供計画。
  • Day 2: Reinforcement Fine-Tuning (RFT)

    • RFT発表: 独自評価器で特定ドメイン向けのモデルカスタマイズが可能。
    • 応用例デモ: 遺伝子疾患研究に高精度推論を実現。
    • 研究者向けプレビュー開始: アルファプログラム参加者募集中。
  • Day 3: テキストからビデオ生成ツール「Sora」発表

    • 新プロダクト「Sora」: テキスト、画像からのビデオ生成。
    • 主な機能: StoryBoard、リミックス、画像からアニメーション。
    • 利用可能範囲: プラス会員/プロ会員は追加料金なしで一定回数使用可能。
  • Day 4: 「Canvas」共同編集ツールをChatGPTに統合

    • Canvas発表: 執筆・コーディング用の共同編集ツール。
    • 特徴: 左にチャット、右に編集ビュー、ショートカット機能。
    • 適用範囲: 長文校正、コード修正、デバッグなど。
  • Day 5: ChatGPT x Apple Intelligence

    • Siri連携: SiriからChatGPTにタスクをハンドオフ可能。
    • Camera Control統合: 画像解析やリアルタイム判定。
    • Writing Tools対応: エディタでの文章生成・スタイル調整。
  • Day 6: Santaモード & ビデオ対応Advanced Voice

    • Santaモード: サンタキャラクターとの対話機能。
    • ビデオ通話: 画面共有、カメラ映像解析に対応。
    • 利用範囲: Pro/Plus/Teamsプラン向けに順次提供。
  • Day 7: 新機能「Projects」導入

    • Projects発表: チャット履歴やファイルをフォルダ単位で整理。
    • デモ例: ギフト交換管理、家庭管理メモの利用。
    • リリース情報: Plus/Proユーザーから順次展開。
  • Day 8: ChatGPT Searchを無料開放

    • Search機能の全ユーザー展開: ウェブ検索がログインユーザー全員に。
    • 改善点: 地図表示、音声モード統合、モバイル対応強化。
  • Day 9: 開発者向けミニDev Day

    • o1 API正式リリース: Function Calling、Structured Output対応。
    • Realtime API拡張: 音声ストリーミングコストを大幅削減。
    • Preference Fine-Tuning: 好みに合わせたモデル調整が可能に。
  • Day 10: 音声サービス「1-800-CHAT-GPT」開始

    • 電話でChatGPT利用: 米国内無料ダイヤル、月15分無料。
    • WhatsApp連携: テキストベースの簡易利用可能。
  • Day 11: ChatGPTデスクトップアプリ強化

    • Work with Apps: ローカルアプリとの連携強化。
    • 対応アプリ: Notion、VS Code、Cursor、メモ帳など。
  • Day 12: 次世代モデル「o3」発表

    • o3モデル性能: o1を大幅に超える数学・プログラミング性能。
    • o3-mini: 低コスト・高速の新モデル。
    • 安全性強化: Deliberative Alignment技術の導入。

Day 1: 「o1モデル」正式版と「ChatGPT Pro」発表

https://youtu.be/iBfQTnA2n2s?si=kXiXlIv06pYRZH4z

img_00001.png

  1. 「12 Days of OpenAI」の始まりを告知

    • 毎平日に渡って新しい機能やリリースを行うイベント。
    • 短いデモや発表を通じて、最新の取り組みを少しずつ公開していく。
  2. 初日には2つの発表があると紹介

    1. o1モデルの正式版(フルバージョン)をリリース

      • 以前はプレビュー版だった「o1 preview」を改良し、
        • よりスマート
        • より高速
        • マルチモーダル対応
        • 指示への従属性向上
      • 特に科学者・エンジニア・コーダー向けの高度な性能に言及。
      • 「o1 preview」からの性能向上をグラフで示し、競技数学やコード生成などで大きく性能アップしている。

      img_00002.png

      「o1モデルのパフォーマンス比較グラフ:競技数学(AIME 2024)、競技プログラミング(CodeForces)、PhD レベルの科学的質問(GPQA Diamond)における、GPT-4、o1 preview、o1の精度比較を示すグラフ。全ての分野でo1が最高性能を示している。」

    2. 新たなサブスクリプションプラン「ChatGPT Pro」の発表

      • 月額200ドルのプラン。
      • 無制限のモデル使用(o1などが自由に使える)。
      • 「o1 pro mode」を使った場合、さらに高難度タスクで小さな性能差ではあるが有利に働く。
      • 「o1 pro mode」は競技数学など難度の高い問題での正答率や信頼性が向上する。
      • 信頼性(Reliability)についてのグラフを紹介し、pro modeでは回答の安定性がさらに高い。

      img_00003.png

      img_00004.png

  3. o1モデルの具体的なデモ

    • コーディング、速度、高難度問題、マルチモーダルへの対応などが紹介される。

    • Roman emperorsのリストを生成するデモ。

      • o1は、14秒で思考が完了(左図)。
      • o1-previewは、33秒で思考が完了(右図)。

      img_00005.png

      img_00006.png

    • システム図の画像からの推論などをデモ。

      img_00007.png

      img_00008.png

      img_00009.png

  4. 「ChatGPT Pro」のデモ

    • 競技化学のような非常に難しい問題に対して、o1 pro modeを使い、数分考えるケースを紹介。

    • 「思考が長くなる(数分単位で計算する)」場合にpro modeが活用できるシーンを説明。

      img_00010.png

      img_00011.png

      img_00012.png

  5. APIにo1を今後提供する計画に言及

    • 「o1をAPIでも使えるように準備中」とアナウンス。
    • Function Calling / Structured Outputへの対応予定。

Day 2: Reinforcement Fine-Tuning (RFT)

https://youtu.be/yCIYS9fx56U?si=V3YqlIiIO7xvoQAZ

img_00013.png

  1. o1モデルのAPI提供に向けたカスタマイズ機能「強化学習型ファインチューニング(Reinforcement Fine-Tuning = RFT)」を発表

    • 標準的なSFT(Supervised Fine-Tuning)ではなく、RL技術を使った新しいファインチューニング。
    • 独自の評価器(リワード関数)を使い、正解を強化する仕組みを開放予定。
  2. RFT(Reinforcement Fine-Tuning)の背景とメリット

    • o1を自社の特定ドメインに合わせてさらに高度化する際、ドメインごとの正解パターン(複雑なタスクなど)を学習できる。
    • 数十〜数百程度の学習例(データセット)でも、新しい推論経路を学習可能。
  3. 研究者や企業向けのプレビュー提供

    • 大学や研究機関、エンタープライズが対象のアルファプログラムを案内。
    • 2024年に一般公開予定だが、その前に協力パートナーを募る。
  4. 実例デモ: 遺伝子疾患研究への応用

    • 研究者ゲストを招き、数百例のレア疾患報告データをRFTで学習し、
    • 症状のリストから原因遺伝子を推定するタスクを高い精度で実行。
    • 従来手法より優位な結果を示す例を紹介。

    img_00014.png

    img_00015.png

    img_00016.png

    img_00017.png

    img_00018.png

    img_00019.png

    img_00020.png

    img_00021.png

    img_00022.png

    img_00023.png

    img_00024.png

    img_00025.png

    img_00026.png

  5. 「o1 RFT」を活用するためのAPIワークフロー例

    • Pythonで例示されたUI上で、JSONLフォーマットの学習データと「grader(評価器)」をアップロードし、強化学習を実行する流れを紹介。
    • 学習完了後、元のベースモデルをカスタマイズした形で利用可能に。

    img_00027.png

  6. 構造的出力、工具的コード例、評価方法などの詳細にも言及

Day 3: テキストからビデオ生成ツール「Sora」発表

https://www.youtube.com/live/2jKVx2vyZOY?si=U5U7fS5Rk9AQhVYk

img_00028.png

  1. 「Sora」というビデオ生成プロダクトの発表

    • 初日に続く大きな発表。

    • ユーザがテキストや画像などを入力にしてビデオを生成できる新しい製品。

      img_00029.png

  2. Soraが解決したい背景

    • テキストのみのやりとりだけでなく、AIがビデオを理解し、生成することで新たな創造性を引き出したい。
    • クリエイター支援の一環として映像創作の体験を変革したい。
  3. Soraの主な機能

    • テキストからの動画生成(例:「砂漠を歩くウーリーマンモス」など)
    • 「StoryBoard」機能:時系列で複数のシーンをつなぎ、それぞれに指示を与えることで動画を構成。
    • 画像をアップロードしてアニメーション化する「image to video」機能。
    • 動画をループさせる、ブレンドする、リミックスするなどの編集ツールが充実。
  4. デモ内容

    • シンプルなテキストで動画を作り、数パターンの生成結果を同時に提示。
    • 「remix」機能や「storyboard」機能で、動画に追加の変更を指示し、シーンを切り替えたり、映像を延長したりする。
    • 「blend」機能で2つの動画をシームレスにつなげるような変換も可能。

    img_00030.png

    img_00031.png

    img_00032.png

    img_00033.png

    img_00034.png

    img_00035.png

  5. 提供形態と利用料

    • すでにプラス会員/プロ会員は「一定の回数 or 作業量」までは追加料金なしで利用可能。
    • 数に上限はあるが、さらに超えた分もスローキューとして使えるなどのプランに言及。
    • ヨーロッパなど一部地域では未対応。
  6. 安全性への取り組み

    • 生成映像の不正利用や悪用への対策として、コンテンツモデレーションも実装。
    • 公開初期は厳しめに制限しているが、徐々に最適化予定。

Day 4: 「Canvas」共同編集ツールをChatGPTに統合

https://www.youtube.com/live/qZ0ImE41pVs?si=RwX0---IGnNTO07J

img_00036.png

  1. 「Canvas」という執筆やコーディングのための共同編集ツールをChatGPTに統合

    • 既存のチャットUXと並行して、文書のサイドバイサイドビューを扱える。
    • ユーザの書いたテキストやコードとChatGPTの提案を同時に見比べ、差分を管理できる。

    img_00037.png

    img_00038.png

  2. Canvasの特徴

    • 左側に従来のチャット欄、右側にCanvasエリア。

    • 一度作成したキャンバスは、ChatGPTとのやり取りで編集履歴やドキュメントが反映される。

    • 「Add Emoji」「Adjust length」「Add Final Polish」などショートカットボタンがあり、よくある編集指示を簡単に出せる。

      img_00039.png

  3. 大量の文章やエッセイの校正に活用

    • ユーザが書いた長文をCanvasに貼り付け、行ごとにコメントを埋め込む機能。

    • コメントをApply or Rejectできる。

      img_00040.png

      img_00041.png

  4. プログラミング向け機能

    • コードブロックをキャンバスに直接貼り付け、ChatGPTにデバッグや修正を指示。

    • 内蔵Python実行エンジン(WebAssemblyベース)をCanvasから呼び出し、グラフィックス含めた出力を即時に確認可能。

    • 実行時エラーをChatGPTがそのまま読み取り、改善提案をコメントとして提示。

      img_00042.png

      img_00043.png

      img_00044.png

      img_00045.png

  5. GPTs(カスタムGPT)との統合

    • ChatGPTのカスタムGPT作成画面でCanvas利用を有効化できる。

    • 例えば「サンタGPT」を作り、「やりとりは常にCanvas上で行う」などの指示を組み込む。

      img_00046.png

      img_00047.png

      img_00048.png

  6. ローンチ情報

    • ウェブ版とモバイルアプリ版で順次提供。
    • Canvasは無料ユーザ含め全員利用可能になると発表(一部制限あり)。

Day 5: ChatGPT x Apple Intelligence

https://www.youtube.com/live/mBhkD0iFf4w?si=hgzngpB5zLpjKOTY

img_00049.png

  1. 「ChatGPT x Apple Intelligence」の発表

    • Appleとの協力により、SiriやAppleの「Writing Tools」「Camera Control」と統合。
    • iPhone/iPad/MacOSでシステムレベルの機能としてChatGPTを呼び出せる。
  2. Siriへの統合

    • Siriが複雑なタスクだと判断するとChatGPTにハンドオフし、回答取得。

    • 「Siriで音声コマンド → ChatGPTで回答 → Siriが再度応答」という連携が可能に。

    • Apple設定画面から「ChatGPT拡張」を有効化し、送信内容の確認(プライバシー保護)も行える。

      img_00050.png

      img_00051.png

      img_00052.png

      img_00053.png

      img_00054.png

      img_00055.png

      img_00056.png

      img_00057.png

      img_00058.png

  3. Writing Toolsへの統合

    • Appleの文章作成時やエディタでChatGPTが候補やサマリを提示。

    • 直接文章を生成またはフォーマットしたり、トーンやスタイルを調整。

      img_00059.png

      img_00060.png

      img_00061.png

      img_00062.png

      img_00063.png

  4. Camera Control(iPhone 16以降)との連携

    • カメラで撮影した映像や写真をChatGPTが解析し、その内容に基づいて回答。
    • デモでは「クリスマスセーターのコンテストを撮影 → 誰が一番『楽しい感じ』かChatGPTに判定させる」などを実施。

    img_00064.png

    img_00065.png

    img_00066.png

  5. ユーザは「ログインしていなくても」ChatGPT機能がある程度使える

    • ただし、アカウント連携するとより高度な機能(画像理解、ウェブ検索など)が可能。
  6. アプリ価格や細かな制約

    • 現時点でApple側の追加料金などについての詳しいアナウンスはなし。

Day 6: Santaモード & ビデオ対応Advanced Voice

https://www.youtube.com/live/NIQDnWlwYyQ?si=d1yBEQ1no7VYRJIX

img_00067.png

  1. 「Santaモード」と「ビデオ対応のAdvanced Voiceモード」の発表

    • オーディオでのやり取りだけでなく、リアルタイムのビデオ通話も可能に。
    • さらに、キャラクターとしての「サンタ」に実際に話しかけられるモードを追加。
  2. ビデオと画面共有(Screen Share)のサポート

    • Advanced Voiceモードで、ユーザが自身のカメラ映像や画面をChatGPTに共有可能。
    • カメラ越しにChatGPTが物体や状況を認識し、会話の文脈に活用。
  3. デモ例

    • 実際にChatGPTとビデオチャットを行い、複数人が映った映像を解析させる。

    • 写真に写っている人や物を特定し、それに関連する会話を展開。

    • 画面共有でコードなどを見せ、ChatGPTに解説を求めるシーンも紹介。

      img_00068.png

      img_00069.png

      img_00070.png

      img_00071.png

      img_00072.png

  4. 「Santaモード」の詳細

    • サンタと直接対話する機能。

    • 「サンタは何が好き?」「どのトナカイが好き?」など、簡単なやりとりを実演。

    • クリスマスシーズン限定の特別音声キャラクターとして登場。

      img_00073.png

      img_00074.png

      img_00075.png

  5. 音声トークン使用量リセット特典

    • 初回のSantaモード使用時に、既に音声上限に達していても一度だけ使用回数をリセット。
    • 上限後でも標準音声モードやテキストモードでやり取りは継続可能。
  6. ローンチ情報

    • ビデオ+画面共有は、最新のChatGPTモバイルアプリでPlus/Pro/Teamsプラン向けに順次提供。EnterpriseかEDUの場合は、来年から提供。
    • Santaモードはグローバルに展開。

Day 7: 新機能「Projects」導入

https://www.youtube.com/live/FcB97h3vrzk?si=nJe1LhQd4J0agEeY

img_00076.png

  1. ChatGPTに「Projects」機能を導入

    • これにより、会話をフォルダ的に整理し、同じ文脈・ファイル・カスタムインストラクションなどをまとめて管理できる。
    • チャット一覧の代わりに、Project単位で会話を集約。
  2. Projectの概要

    • 新規Projectを作成すると、色のタグ付けやタイトル変更が可能。

    • ファイルアップロードやProject全体のカスタムインストラクションを設定できる。

    • 既存のチャット履歴を検索し、Projectにドラッグ&ドロップで追加できる。

      img_00077.png

      img_00078.png

      img_00079.png

      img_00080.png

  3. 秘密のプレゼント交換(Secret Santa)を例にしたデモ

    • 参加者リストや希望ギフトのスプレッドシートをProjectにアップロード。

    • ChatGPTに割り当て表をランダムに生成させ、メール文面をCanvasで作るなどを実演。

      img_00081.png

      img_00082.png

      img_00083.png

      img_00084.png

      img_00085.png

  4. Home Maintenance(家庭管理)プロジェクトの例

    • 冷蔵庫のフィルタ交換時期や操作方法などのメモをまとめ、ChatGPTに「○○はいつ交換する?」と聞くと、Project内ファイルから参照して回答。
  5. プログラミングでの活用例

    • サンプルのサイトテンプレートをProjectに入れて、コード修正やデザイン変更を指示。

    • ChatGPTが提案した変更を適用 → ブラウザでプレビュー →さらに修正を繰り返す流れ。

      img_00086.png

      img_00087.png

      img_00088.png

      img_00089.png

      img_00090.png

  6. 使い方

    • サイドバーの「+ プロジェクト作成」ボタンから作成。
    • Conversation Searchを利用し、既存チャットをProjectに追加。
    • ファイル、カスタム指示、会話を一元管理。
  7. リリーススケジュール

    • 当日(Day7配信時)にローンチを開始し、Plus/Pro/Teams向けからロールアウト。
    • 無料ユーザも順次利用可能に。
    • EnterpriseやEDUプランは翌年以降に提供予定。

Day 8: ChatGPT Searchを無料開放

https://www.youtube.com/live/OzgNJJ2ErEE?si=T9vJTYk4ReWB6D6X

img_00091.png

  1. ChatGPT Search機能を無料ユーザにも開放

    • 2か月前からPlus/Pro向けに提供されていたウェブ検索が、全ログインユーザに拡大。

    • リアルタイムのウェブ情報を取得して回答を生成可能に。

      img_00092.png

  2. Search機能の改善点

    • レスポンスが高速化。
    • モバイルでの使い勝手の向上。
    • マップ表示機能(地図)の新実装により、地域検索や店舗情報をリッチに表示。
  3. 音声(Advanced Voice)と組み合わせたSearch

    • 音声モードでChatGPTと話しながらリアルタイム検索が可能に。

    • Siriのように「今の天気は?」「レストラン情報」などを雑談しつつ検索結果を取得。

      img_00093.png

  4. ブラウザのデフォルト検索エンジンにも設定可能に

    • ChatGPT Searchを既定検索エンジンとして追加し、アドレスバーから直接検索できるように。

    • サイトリンクを先頭に表示するなどの機能を追加し、従来のWeb検索ライクなUIを提供。

      img_00094.png

  5. モバイルUIでのレストラン・地図検索デモ

    • サンフランシスコのメキシコ料理店を検索→写真・地図・詳細情報(営業時間など)を表示。

    • 「ヒーター付きのパティオがある店は?」などの追加要件を会話的に追記すると、検索内容が自動アップデート。

      img_00095.png

      img_00096.png

      img_00097.png

      img_00098.png

      img_00099.png

  6. まとめ

    • Searchをログイン済の全ユーザに展開し、さらに音声モードとの連携も強化。
    • ログインなしユーザは従来機能のみ(SearchやCanvasなどはアカウント登録後に利用可能)。

Day 9: 開発者向けミニDev Day

https://youtu.be/14leJ1fg4Pw?si=osxJrYdAlH5xg2mm

img_00100.png

  1. 開発者向けの各種新機能を一挙リリースするミニDev Day

    • o1モデルのAPI機能拡充の話題に続き、さらに大きなアップデートを発表。
  2. o1モデルのAPI正式リリース(再掲) & 機能呼び出し(Function Calling)や構造化出力(Structured Output)対応

    • o1でSFTではなくRLを使う「Reinforcement Fine-Tuning(RFT)」や、画像入力をAPIで扱う機能を追加予定。

    • デモではフォーム読み取りや誤計算の検出などを例に、Function CallingやStructured Outputを活用。

      img_00101.png

      img_00102.png

      img_00103.png

      img_00104.png

      img_00105.png

      img_00106.png

  3. コーディング系Evals(LiveBench, etc.)でのo1の高い性能

    • コード生成やソフトウェアタスクで大幅に向上。
    • APIからFunction CallingやStructured Outputを使う際の安定性も向上。

    img_00107.png

    img_00108.png

  4. Realtime API(音声系API)の拡張

    • WebRTCをサポートし、低遅延な双方向音声ストリーミングがより簡単に。

    • 小型マイコン(例:手のひらサイズデバイス)でリアルタイム音声対話が可能になるデモを披露。

      img_00109.png

      img_00110.png

      img_00111.png

  5. リアルタイムAPIの料金変更

    • GPT-4のオーディオトークンが従来比60%安価に。
    • GPT-4-miniの音声トークンはさらに10倍安価になる。
    • これにより、音声アプリケーションのコストを大幅に抑えられる。
  6. Preference Fine-Tuning(好み/スタイルに合わせたファインチューニング)

    • 新たに「Direct Preference Optimization」と呼ばれる手法をAPIに導入。

    • SFTのように単に「正解ペア」を与えるのではなく、「2つの出力のどちらが好ましいか」をラベル付けするだけで学習が可能。

    • 語調やクリエイティブ度合いなど抽象的な好みを学習できる。

      img_00112.png

      img_00113.png

      img_00114.png

      img_00115.png

      img_00116.png

      img_00117.png

  7. その他

    • 公式Go & Java向けSDKが追加。

      img_00118.png

    • APIキー取得フローを簡易化。

      img_00119.png

    • 各地で開催しているDev Daysの記録動画をYouTubeで公開。

      img_00120.png

    • AMA(Ask Me Anything)をフォーラムで実施。

      img_00121.png

Day 10: 音声サービス「1-800-CHAT-GPT」開始

https://www.youtube.com/live/LWa6OHeNK3s?si=_83M30UU7AOQmvjm

img_00122.png

  1. 「1-800-CHAT-GPT」電話サービスを開始

    • 米国内のユーザはフリーダイヤル(1-800-242-8478)に電話すると音声だけでChatGPTを利用できる。

    • 1か月あたり15分の通話が無料(プラス/プロでの追加オプションも可)。

      img_00123.png

      img_00124.png

      img_00125.png

  2. 古い携帯電話・固定電話・回転式電話(ダイヤル式)でも利用可能

    • 実際のデモで、ガラケーやダイヤル電話でChatGPTに接続し、質問に答えてもらうシーンを紹介。

      img_00126.png

      img_00127.png

  3. WhatsApp連携

    • グローバルでWhatsAppの公式アカウントにChatGPTが対応。
    • テキストベースでレシピ・翻訳・提案などを行う。
    • アカウント連携すれば画像や検索等の追加機能が利用できる計画(現時点ではテキストのみ)。
  4. デモ例

    • iPhoneの連絡先に「1-800-CHAT-GPT」を登録しておく→ Siriに呼び出させる。

    • 料理レシピをメッセージで送る→ChatGPTが材料とレシピを返す。

    • 食習慣を途中で変更してもChatGPTがリアルタイムでレシピを切り替える様子など。

      img_00128.png

      img_00129.png

  5. アカウントなしでも電話やWhatsAppのテキスト機能を利用可能

    • ただし追加機能(画像解析、ウェブ検索など)を使うにはログインが必要。
  6. 「電話対応やWhatsApp連携は試験的なハックウィークプロジェクトから生まれた」エピソードが語られる。

Day 11: ChatGPTデスクトップアプリ強化

https://www.youtube.com/live/g_qxoznfa7E?si=qtoHy1KqxEuoyJit

img_00130.png

  1. ChatGPTデスクトップアプリ(Mac/Windows)での「Work with Apps」機能を強化

    • 既存のMac/Windowsネイティブアプリがアップデートされ、ローカルアプリ(IDEやエディタ等)との連携をスムーズ化。
    • 将来的にモデルがさらに「エージェント的」にユーザの操作をサポートできる展望。

    img_00131.png

  2. デスクトップアプリの特徴

    • キーボードショートカット(例: Option + Space)で即座に表示/非表示が可能。
    • ブラウザタブとは独立したウィンドウで使えるため、作業の邪魔になりにくい。
  3. Work with Appsの仕組み

    • 対応アプリを選ぶと、そのアプリの画面やテキスト内容をChatGPTが(ユーザ許可のもとで)直接読み取れる。
    • コマンドラインツール(Warpなど)やXcode、JetBrains製IDE、TextMate、BBEdit等がサポート対象として紹介される。
  4. コード関連のデモ

    • WarpターミナルでGitリポジトリのコミットを解析し、ChatGPTに可視化を依頼 → 棒グラフを表示。

      img_00132.png

      img_00133.png

      img_00134.png

      img_00135.png

    • XcodeでSwiftコードをライブ編集させ、呼び出し先関数を追加修正→ ビルド実行が成功する例。

      img_00136.png

      img_00137.png

  5. ドキュメント編集のデモ

    • NotionやApple Notes、Quipにある文章をChatGPTに読み込ませ、文章校正や追記を指示。

      img_00138.png

      img_00139.png

    • ChatGPTが他の段落やスタイルを参照し、同じ文体で追加文章を作成。

  6. Advanced Voiceとの連携

    • デスクトップアプリから音声入力し、ドキュメントやコードを扱うやりとりが可能に。

    • 例:ノート上の「クリスマス用セットリスト」を音声で編集 → ChatGPTがリアルタイムに書き換える。

      img_00140.png

  7. リリース情報

    • Mac版は即日アップデート。Windows版は後日対応予定。

Day 12: 次世代モデル「o3」発表

https://www.youtube.com/live/SKBG1sqdyIU?si=9oixIk8e78XIRmHb

img_00141.png

  1. 次世代の推論モデル「o3(オー・スリー)」と「o3-mini」の発表(ただし一般公開はまだ)

    • Day1でo1を出した流れを受け、さらに高性能な「o3」を開発。
    • すぐの一般公開ではなく、安全性検証のための「Public Safety Testing(早期テスト)」への参加者募集を開始。
  2. o3の性能

    • 競技プログラミング(Codeforces)でElo 2727(高テスト時間設定時)を記録し、o1を大幅に上回る。

    • 競技数学のAIME(エイミー)で96.7%(o1は83.3%)と高得点。

    • 人間のPhD専門家が70%程度とされるGPQA Diamondで87.7%を達成。

    • EpochAIの「Frontier Math」ベンチマーク(非常に難度が高い数学問題)で25%以上を記録。

      img_00142.png

      img_00143.png

      img_00144.png

  3. 「ARC-AGI Benchmark」で新SOTAを達成

    • ゲストとしてARC社の代表が登壇し、ARC-AGIで03は低計算量設定でも75.7%を記録し、新たな1位に。

    • 高計算量設定では87.5%を達成、人間(85%程度)を超える重要マイルストーン。

    • ARC Prise Foundationとの連携で、次のフロンティアベンチマークを共同開発予定。

    • https://arcprize.org/arc

      img_00145.png

      img_00146.png

      img_00147.png

  4. o3-miniの概要

    • より低コスト・高速だが依然高い推論能力を持つ「o3 Family」のモデル。
    • Thinking Time(思考時間)を3段階(Low, Medium, High)で切り替え可能。
    • CodeforcesやAIME等の評価ではo1-miniよりも優れたコストパフォーマンスを示す。

    img_00148.png

    img_00149.png

    img_00150.png

    img_00151.png

  5. デモ:o3-miniでコード生成・自己評価

    • o3-mini自身にPythonスクリプトを生成させ、そのスクリプトから再びo3-mini APIを呼び出す流れを実演。
    • また、難問データセット(GPQAなど)を評価 → 結果を返す流れを実演。
    • Thinking TimeがLowの場合は速度重視、Highの場合は高難度タスクで高精度。

    img_00152.png

    img_00153.png

    img_00154.png

    img_00155.png

    img_00156.png

  6. 安全性への取り組み

    • 新手法「Deliberative Alignment」を導入し、安全境界(どこまで応答可か)をモデルの論理推論によって精密化。
    • Deliberativeとは、「慎重な」「熟慮的な」という意味を持つ。
    • o1のモデルにおいて、リジェクトすべき内容と許可すべき内容をより適切に判断。
    • Overrefusal Accuracy(縦軸)は「本来は応答すべきリクエストなのに、間違えて拒否(refuse)してしまうエラーをどれだけ防げるか」を表している指標。高いほどよい。
    • 数値が高いほど、“してはいけない拒否” をあまりしていない、つまり「不要な拒否が少なく、正しく回答できている」ことを意味する。真陰性(特異度)。
    • StrongREJECT Goodness@0.1(横軸)は「不適切なリクエストや危険な問い合わせなど、本来拒否すべきリクエストをしっかり拒否できているか」を示す指標。高いほどよい。
    • 数値が高いほど、「やってはいけない応答はしないで、適切に拒否できている」ことを意味します。真陽性(感度)。
    • グラフでは、真陽性(リジェクト精度)が高い上、真陰性(過剰拒否の少なさ)を同時に向上している。
    • https://openai.com/index/deliberative-alignment/

    img_00157.png

  7. リリーススケジュール

    • 本日よりo3-miniを「外部の安全性研究者向け」に限定公開(安全性テスト参加者を募集)。
    • 一般公開はo3-miniが2024年1月末頃、続けてo3もその後に予定。
    • 登録フォームにて応募が可能。

    img_00158.png

最後に

最後まで読んでくださり、ありがとうございました!
この記事を通して、少しでもあなたの学びに役立てば幸いです!

宣伝:もしもよかったらご覧ください^^

AIとコミュニケーションする技術(インプレス出版)』という書籍を出版しました🎉

これからの未来において「変わらない知識」を見極めて、生成AIの業界において、読まれ続ける「バイブル」となる本をまとめ上げました。

かなり自信のある一冊なため、もしもよろしければ、ご一読いただけますと幸いです^^

参考文献

https://openai.com/12-days/

Galirage Inc.
Galirage Inc.

Discussion