Zenn
🐇

12 Days of OpenAI レビュー - Day 4/5/6

2024/12/23に公開

12Days of OpenAI Day 4/5/6

About this article

OpenAIは、12月5日から12月20日までの平日に毎日1つのテーマについて発表する「12 Days of OpenAI」イベントを行いました。本記事では、12月10日から12月12日に公開されたDay4からDay6の内容をレビューしています。

この記事はリレー形式となっており、「12 Days of OpenAI」に関して4人の投稿者がSummaryを書き、それぞれの視点からちょっとしたレビューを加えてまとめています。今回は、開発経験・生成AIに関する知識がほとんどない筆者の目線から、Day4からDay6の内容について話してみたいと思います。

Day1/2/3のレビューは一村さんの記事を是非お読みください。


About the author

韓国出身。新卒社員として今年5月入社し、テクノロジーコンサルティング本部のTfLSに配属。
入社前のコーディング経験なし、IT知識なし。


Day4(12/10): Canvas

Canvasとは

Day4に公開されたCanvasはChatGPTに付属している新機能で、主に長文の執筆やコーディングをサポートする機能が追加されました。

実は、Canvasが発表されたのは2ヶ月前頃の10月3日ですが、今回は以下アップデートが発表されました。

  1. 無料ユーザー向けに解禁
  2. Canvasでのコード生成のみでなく実行でき、デバック可能
  3. GPTsでもCanvasに接続可能

ユーザーはキャンバスアイコンをクリックすることでCanvasを起動し、単一の画面上で複数のテキストやコードを同時に編集できます。単一画面での作業のためバージョン管理機能が入り、文章やコードがどの時点で変更されたかを追跡できるようになりました。
Canvasでは回答が上書きされるため、画面を上下にスクロールする回数を減らして作業を進められます。ChatGPTのユーザーインターフェイスに追加されたので必要に応じて起動して使うことができます。

主な機能

Canvasの新機能としては、複数人が同時に文章やコードを編集できるリアルタイム共同作業モードや、部分的な修正をすばやく行うためのセクション選択ツールが追加されました。さらにコメント機能が強化され、ユーザーが入力したフィードバックに応じて自動的に編集を試みることも可能になっています。また、キャンバスのトリガー判定がより精密になり、不必要なタイミングで起動しないよう最適化が進められているようです。ほか以下の機能も合わせて追加されました。
・生成される回答に絵文字を追加
・最終仕上げ
・読解レベル選択(幼稚園児 → 中学生 → 高校生 → 大学生 → 大学院生)
・文章の長さを調性(9段階)

技術的側面:Summary

GPT-4oは、文章やコードの生成だけでなく、必要に応じて部分的な編集や全面的な書き換えを可能にすることを目指して開発されたモデルだそうです。今回のCanvasでは、こうした特性が活かされる機能が大々的に投入されたといえるかと。

最も特徴的な点は、文章作成が必要な場合にのみ自動的にキャンバスを開く仕組みと、ユーザーが特定のテキストを選択した際に部分的な編集を行う能力です。コードに対しては無闇にキャンバスを起動しないよう調整されており、多彩なコンテンツを作りつつも、ユーザーの作業を妨げない設計になっています。またコメント生成の品質向上は自動評価だけでは難しいため、人的評価を併用して微調整を繰り返しました。この結果として、特にコメントの正確度と品質面でzero-shot GPT-4oを大幅に上回る成果を得ているとのことです。

簡単に使ってみた

上記説明だけではピンとこないかもですので(筆者はそうでした💦)実際に使用してみた画像を以下に添付します。

プロンプト入力個所の左下にあるメニューで箱(引き出しでしょうかね?)のようなアイコンをクリックすると、キャンバスを使用できます。プロンプト入力欄に「キャンバス」と表示されている状態でプロンプトを入力してみます。私は「記者の視点から、今年を締めくくり、2024年にどのような出来事があったのか、主な事件やイベントをまとめた記事を執筆してください。」とのプロンプトを打ち込んでみます。


とすると、記事が作成されました。ChatGPTからの回答は画面の右半分に作成され、左半分にプロンプト入力が可能です。

ここで「経済面での説明を、もう少し具体的にお願いできますか。」という要望を打ち込んでみたいと思います。すると、

従来のChatGPTでは、ChatGPTの回答にユーザーの要望を反映させるために、チャット形式の回答を繰り返し生成する必要がありましたが、Canvasでは無駄なスクロールをせずに回答が上書きされます。

右上のバージョンタブで変更箇所をハイライトすることが可能で、gitのようにバージョンを選択することも可能。こちらはコーディングにて非常に役立つかと。(とても助かります)

この状態で「部分編集」が可能です。ChatGPTが生成した回答をドラッグして選択し、その選択部分だけを編集することもできます。このとき、ChatGPTは修正が必要だと判断した部分ごとに編集候補を提示し、それを適用するかどうかはユーザーが選択できます。

所感

個人的には、これまで生成AIを使ううえで感じていた細かな不便をほとんど解消してくれた機能かと。特に文章作成と部分編集をシームレスに行えるところは私だけでなくほとんどのGenAIユーザーにとって助かる部分かと。実際にユーザーのニーズを意識した仕組みになっているかと感じている最中です。

Day4全体をチェックしてみたい方はこちら

https://www.youtube.com/watch?v=qZ0ImE41pVs


Day5(12/11): Apple Intelligence

Siri × ChatGPT

iOS18.2からSiriにChatGPTが搭載されます。Apple IntelligenceのもとでChatGPTがどのように活用されるのかは、今年の夏のWWDCから大きな注目を集めていましたが、Day5の公開に合わせて12月11日にアップデートが配信されました。筆者自身はまだ試せていませんが、Siriが自然になり、ユーザーの文脈を把握する能力が強化されたとのことです。
M1以降を搭載したiPadとMacでも該当フィーチャーは使用可能です。

主な機能

  1. リアルタイム統合モード
    SiriとChatGPTが完全に統合され、音声コマンドを通じてリアルタイムで複雑なタスクを実行できます。たとえば、旅行の計画やスケジュール調整といった作業がシームレスに可能になります。

  2. 自然言語での詳細な提案
    Siriがユーザーの曖昧な質問や複雑な要求にも応答できるようになり、詳細で的確な提案を生成します。たとえば、「週末におすすめの観光地を提案して」といった要望にも、条件に合った最適な回答を提供します。

  3. Appleデバイスとのシームレスな連携
    最新のiPhoneやMacに搭載されているハードウェア(例えば、実時間オブジェクト認識やカメラ機能)を活用し、ChatGPTが画像やスキャンデータをもとに情報をリアルタイムで解釈し、答えを提示します。

主要機能のDemoが気になる方は以下をご参考ください。

https://www.youtube.com/watch?v=au15o-sozTw

技術的側面:Summary

  1. オンデバイスAIとクラウドAIの融合
    オンデバイスAIは高速な処理能力とローカルでのデータ処理を活用し、プライバシー保護を強化しています。一方でクラウドAIは、大規模なデータを活用した複雑なタスクの処理や高度な応答生成が可能です。

  2. 技術的な課題と実現方法
    この統合では、データ同期や遅延の最小化が重要な技術的課題となっていたそうです。ユーザーのローカルデータを活用して迅速な処理を行い、必要最小限のデータのみをクラウドに送信することで、プライバシー保護とデータ効率を両立させています。また、Appleのハードウェア性能を活かしたリアルタイムのオブジェクト認識と、ChatGPTの言語モデルを組み合わせることで、画像を基にした情報提供やコンテキストに基づいた会話が実現されています。これらの技術はオンデバイス処理とクラウド演算のバランスを保ちながら動作しています。

  3. パーソナライズと継続的な改善
    パーソナライズされた応答とデータ保護のバランスも、統合設計における重要な要素です。ローカルでデータを処理する一方、クラウドベースの差分プライバシー技術を適用して匿名性を維持しつつ、Siriの使用パターンやアプリデータの分析を通じて徐々に改善が進められています。このようなフィードバックループはモデルの精度向上に寄与し、ユーザーインターフェースとAIの相互作用における効率性を着実に向上させる設計となっています。

所感

Day4とDay5のどちらも自分に非常に密接したテーマが扱われているため、興味深く記事を書いている最中です。今回のテーマが自分の日常にどのような変化をもたらすのかを意識しながらも、一方でセキュリティリスクについての懸念も抱きました。特にDay5で発表されたApple Intelligenceは、できる限り多くのデータをローカルで処理するよう設計されていると言われていますが、自分の情報がどこまでGenAIに取り込まれるのかが曖昧である点はやはり気になります。個人的な会話や嗜好が学習データなどのInjectについては、「自分という人間のどこまでをビッグデータの一部として提供すべきなのか」という問いが頭をよぎります。

Day5全体をチェックしてみたい方はこちら

https://www.youtube.com/watch?v=mBhkD0iFf4w

Day6(12/12): Santa Mode & Video in Advanced Voice

Video in Advanced Voice

Day6では、ChatGPTとビデオ通話ができる機能についての発表がありました。カメラに映る映像をChatGPTが解析し、大まかな状況を把握しながらユーザーとリアルタイムで会話できる機能が更新されました。テキストを映像に変換するSoraとは逆に、映像を認識してそれをテキストに変換し、ユーザーを見ながらインタラクションを行うという、利用方法が無限に広がる可能性を秘めた機能だと個人的には思っている最中です。

↑ Day6の発表の中でAdvanced Voice機能のデモが行われている場面です。GPTがユーザーに向けて"Are you planning to make some coffee?"と質問しています。

技術的側面:Summary

  1. リアルタイム映像の認識と解析
    Day6では、ChatGPTがカメラを通じてリアルタイムで取得した映像を処理し、画面に映る物体や状況を解析する技術が強調されました。これにより、ユーザーが提供する非言語的なサイン(ジェスチャーや表情など)を理解し、それを対話に反映させることが可能となります。この機能は、映像データの大量処理による遅延を最小化しつつ、ユーザーのプライバシーを保護しながら処理を行う技術的最適化を必要とします。

  2. マルチモーダルAIインタラクションの拡張
    この新機能では、従来のテキストや音声を超えて、映像を基に入力を認識し、それをテキストや言語に変換することが可能になりました。例えば、ユーザーが画面上に物を見せた場合、その物体を認識し、その状況に即した会話を進めることができます。このような機能は、単に音声やテキストを処理する従来のモデルを超えた、新しい次元のマルチモーダルAIインタラクションを実現しています。

  3. 個別化されたインターフェースと応用可能性
    Advanced Voice機能は、ユーザーの声のトーンや会話内容を解析し、より自然で個別化された応答を生成します。技術的には、音声信号処理技術と自然言語生成(NLG)の組み合わせが重要な役割を果たしています。また、クリスマスモードのようなテーマベースのユーザー体験の拡張は、AIの創造的な応用可能性を示しています。これにより、より人間的で親しみやすいAIインターフェースの実現が期待されています。

Santa Mode


GPTにサンタクロースの人格と声を与え、まるでサンタと話しているかのように作られたクリスマス記念モードです。チャット画面の雪の結晶アイコンをクリックすると適用できます。
ジョンは12月23日にこの記事を執筆しており、ちょうど今時使ってみるのにぴったりかと。(笑)

Day6全体をチェックしてみたい方はこちら

https://www.youtube.com/watch?v=NIQDnWlwYyQ


以上、12 Days of OpenAI Day 4/5/6のレビューでした。
この後、次の仲間がDay 7/8/9のレビューを執筆する予定です。


免責事項 / Disclaimer

本アカウントの投稿は投稿者個人の見解に基づくものです。
所属組織の方針や意見を代表するものではありません。
The posts on this account are based on the personal views of the author.
They do not represent the policies or opinions of the organization to which they belong.

Accenture Japan (有志)

Discussion

ログインするとコメントできます