🗞️

今週の生成AI情報まとめ(9/16~9/22)

2024/10/13に公開

こんにちは、ナウキャストでLLMエンジニアをしているRyotaroです。
9/16~9/22で収集した生成AIに関連する情報をまとめています。

※注意事項

内容としては自分が前の週に収集した生成AIの記事やXでの投稿・論文が中心になるのと、自分のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります

それでは行きましょう

ひとこと

最近も忙しくて、公開がなんと3週間後になってしまいました泣。。。。
ただこの週は OpenAI から o1 がでてその詳細や活用術の情報がふんだんに出回っていました!
Claude の Artifact の進化もしており今後も目が離せません

OpenAI o1 チームが AMA セッション

9/14 10AM から 11AM まで OpenAI o1 チームが開発者向けの AMA(Ask me anything) を X 上で開催し、質疑応答が行われた。以下は参考資料の抜粋。
ざっとみるところ、o1-preview はまだ未完成で、o1-mini は安くて早くて、o1-preview に勝つこともあるので、とりあえずはこっちを主流に使うのが良さそう。o1-preview は純粋な推論能力に長けているので、哲学とかと相性が良さそう。

理系の質問/タスクは、o1-mini、文系の質問/タスクは GPT-4o みたいな使い分けかな

モデル名と推論パラダイム

  • OpenAI o1は、新たなAI能力のレベルを表すために名付けられ、カウンターが1にリセットされている。
  • 「Preview」は、モデルの初期バージョンであることを示す。
  • 「Mini」は、o1モデルの小型バージョンで、スピードに最適化されていることを意味する。なおpreviewとついていないのは、意図的。
  • oはOpenAIを表す。
  • o1は「システム」ではなく、最終的な回答を返す前に長い推論の連鎖を生成するように訓練されたモデルである。
  • o1のアイコンは、比喩的に卓越した能力を持つエイリアンを象徴している。

o1モデルのサイズと性能

  • o1-miniはo1-previewよりもはるかに小型で高速であり、将来的に無料ユーザーに提供される予定。
  • o1-previewはo1モデルの初期チェックポイントであり、大きさは変わらない。
  • o1-miniは、特にコード関連のタスクでo1-previewよりも優れている。
  • o1-mini が o1-preview を上回ることがあるのはトレーニングデータが STEM(科学・技術・工学・数学) 推論に最適化されているから。コンテキストウィンドウが大きくなったことも原因としてあげられる。逆にSTEM 以外の事実知識を必要とするタスクではパフォーマンスが低下する。
  • o1の入力トークンはGPT-4oと同じトークナイザーを使って計算される。
  • o1-miniはo1-previewよりも多くの思考連鎖を探索できる。

入力トークンコンテキストとモデルの能力

  • o1モデルに対して、より大きな入力コンテキストがまもなく提供される予定。
  • o1モデルはGPT-4oに比べて、入力のチャンク分割が少なく、長くてオープンなタスクを処理できる。
  • o1は、以前のモデルとは異なり、回答を出す前に長い思考連鎖を生成できる。
  • 現時点ではCoT中に推論を一時停止して追加のコンテキストを加える方法はないが、将来的なモデルでこれが検討されている。

ツール、機能、今後のアップデート

  • o1-previewはまだツールを使用していないが、関数呼び出し、コードインタープリター、ブラウジングのサポートが計画されている。
  • ツールサポート、構造化された出力、システムプロンプトが将来のアップデートで追加される。
  • 将来的には、ユーザーが思考時間やトークン制限をコントロールできる可能性がある。
  • ストリーミング機能や、API内で推論進行状況を考慮する計画が進行中。
  • マルチモーダル能力がo1に組み込まれており、MMMU(多様モーダルマルチユースタスク)で最先端のパフォーマンスを目指している。

CoT(思考の連鎖)推論

  • o1は推論中に隠れた思考の連鎖を生成する。
  • CoTトークンをAPIユーザーやChatGPTに公開する予定はない。
  • CoTトークンは要約されるが、実際の推論と一致している保証はない。
  • プロンプトの指示が、モデルが問題についてどのように考えるかに影響を与える。
  • 強化学習(RL)を使用してo1のCoTを改善しており、GPT-4oはプロンプトだけではそのCoTパフォーマンスに匹敵できない。
  • 思考の段階は、思考プロセスを要約するため遅く見えるが、実際の回答生成は通常高速である。

APIと使用制限

  • o1-miniはChatGPT Plusユーザーに対して、週50プロンプトの制限がある。
  • ChatGPTではすべてのプロンプトが同じようにカウントされる。
  • APIアクセスのさらなる層や、より高いレート制限が今後導入される予定。
  • APIでのプロンプトキャッシングは人気のリクエストだが、まだ具体的なタイムラインはない。

価格設定、ファインチューニング、スケーリング

  • o1モデルの価格設定は、1~2年ごとの価格引き下げ傾向に従うと予想される。
  • バッチAPI価格は、レート制限が増加するとサポートされる予定。
  • ファインチューニングは計画中だが、まだタイムラインは発表されていない。
  • o1のスケーリングは、研究およびエンジニアリングの人材によってボトルネックになっている。
  • 推論コンピューティングにおける新しいスケーリングパラダイムは、将来のモデル世代で大きな成果をもたらす可能性がある。
  • 逆スケーリングはまだ重要ではないが、個人的な執筆プロンプトでは、o1-previewがGPT-4oと同等か、やや劣ることがある。

モデル開発と研究の洞察

  • o1は強化学習を使用して推論パフォーマンスを達成した。
  • モデルは創造的な思考や、詩のような横断的なタスクにおいて強力なパフォーマンスを示す。
  • o1の哲学的推論や暗号解読など、一般化する能力は印象的である。
  • o1は、研究者がGitHubボットを作成し、適切なコードオーナーにレビューを依頼するために使用された。
  • 内部テストでは、o1が自ら難問を出題し、自分の能力を評価した。
  • 広範な世界の知識が追加されており、将来のバージョンで改善される予定。
  • o1-miniに対しては、最新データが今後のバージョン(2023年10月現在)で導入される計画がある。

プロンプト技術とベストプラクティス

  • o1は、エッジケースや推論スタイルを提示するプロンプトスタイルから恩恵を受ける。
  • o1モデルは、以前のモデルよりもプロンプト内の推論の手がかりに敏感である。
  • 検索拡張生成(RAG)において、関連するコンテキストを提供することがパフォーマンスを向上させ、不適切なチャンクは推論を悪化させる可能性がある。

全体的なフィードバックと今後の改善点

  • o1-previewのレート制限は初期段階のテストのため低く設定されているが、今後は増加する予定。
  • レイテンシーや推論時間の改善が積極的に進められている。

特筆すべきモデルの能力

  • o1は「生命とは何か」といった哲学的な質問に思考を巡らせることができる。
  • 研究者たちは、o1が複雑なタスクを処理し、限られた指示から一般化できる能力に感銘を受けた。
  • o1の創造的な推論能力は、自身にクイズを出して能力を評価するなど、高度な問題解決能力を示している。

参考資料

https://x.com/OpenAIDevs/status/1834608585151594537
https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

Apple プレスリリース: Xcode16 に Swift Assist が搭載予定

Apple から Xcode の Swift にも Github Copilot のような生成AI機能が導入されるとプレスリリースが出た。(Swift AssistはまだBetaでもリリースされてなくて、年内リリース予定)コード補完は、AppleシリコンとmacOS Sequoiaの機械学習の機能強化によって実現されており、デベロッパのデバイス上でローカルに実行される。つまりオフラインでもつかえる。

参考資料

https://www.apple.com/jp/newsroom/2024/06/apple-empowers-developers-and-fuels-innovation-with-new-tools-and-resources/
https://www.publickey1.jp/blog/24/appleswiftswift_assistxcode_16.html

Google Gemini 1.5 Flash Update

Gemini の update として、

  • Gemin-1.5-Pro-002 では価格が 50% 以上引き下げられます (プロンプトの入力と出力の両方が 128K 未満)
  • Gemini-1.5-Flash-002ではレート制限が 2 倍、1.5 Pro ではレート制限が約 3 倍に増加
  • 出力速度は2倍、レイテンシーは3倍
  • デフォルトのフィルター設定を更新しました

また、気づいていなかったのですが、Gemini にもコンテキストキャッシュという機能があり、入力トークンをキャッシュし費用を削減することができるらしい。ただ、明示的にキャッシュを使うかどうかユーザーが指定する必要があり、キャッシュにも費用はかかる。

参考資料

https://x.com/OfficialLoganK/status/1835733218789642555
https://developers.googleblog.com/en/updated-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/
https://ai.google.dev/gemini-api/docs/caching?hl=ja&lang=python

OpenAI O1-preview は人間を超えたかも

Tracking.ai というサイトにて、AIモデルに対して行ったIQテストの結果がまとめられている。
これによると、o1-preview はずば抜けて賢くなんと IQ 120。一般人を超えている気がする。

ちなみに、IQテストはこんな感じ。推論力が優れている o1-preview にとっては朝飯前の問題なのかもしれない。

参考資料

https://trackingai.org/IQ

Cursor で使える o1-mini の回数が異次元

AI モデルを試すことができるプラットフォームはいくつかありますが、Cursor Pro では使い放題らしい。これを機にぜひCursor使いましょう!笑(筆者愛用)

参考資料

https://x.com/sugurukun_ai/status/1836026391785345204

Void: 生成AIエディター

またあたらしいAIエディターが登場していますね。。。多すぎw
9/18 に waitlist 受付開始して 10/13 現在でも受付中

参考資料

https://x.com/tom_doerr/status/1836162177259929787

o1-preview を使う Tips

o1-preview は単体で推論力がずば抜けて高いため、多くを具体的に指示するより、シンプルな問いを投げる方が効果的

  • 複雑なプロンプトは避け、「シンプルで明確に」
  • 「ステップバイステップ」は使わない
  • <context>などの区切り文字を活用する

使い方の流れ

o1-preview は回数制限(週50回)があるので、ここぞという時に使うのが良い

  1. 基本的な会話は「GPT-4o」と行い前準備
  2. 高度な会話の際は「o1-preview」を左上のモデル欄から選択(会話が引き継がれる)
    • 重要なのは左上のモデル欄から選択すること。チャットの回答のドロップダウンから選択すると会話は引き継がれない
  3. それを元に「GPT-4o」を使い小さなタスクを実行していく

参考資料

https://x.com/SuguruKun_ai/status/1834518678144168213
https://x.com/SuguruKun_ai/status/1835479942169235853

We are Hiring!

この件についてもっと詳しく知りたい、議論したい、はたまたナウキャストという会社に興味を持ったという方は、カジュアル面談フォームから連絡ください。その際に「今週の生成AI情報まとめ見た!」と書いていただければ幸いです!

https://herp.careers/v1/finatexthd/vZWzSlI_B-qk
https://herp.careers/v1/finatexthd/KhEf95X_TKvD

Discussion