🍋

Open AI: エージェント構築用の新APIツール

マッサン (Masanori Yoshida)

2025/03/12に公開2件

API

OpenAI

tech

 はじめに現地時間2025年3月11日、OpenAIからエージェント構築用の新APIツールについてアナウンスがありました。

https://www.youtube.com/watch?v=hciNKcLwSes

 Web SearchWeb Search Toolのサンプルコード
from openai import OpenAI
client = OpenAI()

completion = client.chat.completions.create(
    model="gpt-4o-search-preview",
    web_search_options={},
    messages=[
        {
            "role": "user",
            "content": "What was a positive news story from today?",
        }
    ],
)

print(completion.choices[0].message.content)
具体的にChat Completions APIを使うと、ChatGPTが普段ウェブ検索をするのに使っている特別なモデルや機能を直接利用できます。この仕組みによって、AIは質問に答える前に、常に最新の情報をインターネットから取得します。

gpt-4o-search-previewやgpt-4o-mini-search-previewというモデルを使うと、質問に応える前に必ずウェブ検索を行うことが可能です。

また、必要な時だけウェブ検索機能を使いたい場合は、Responses APIを利用して、web_search_previewというツールを呼び出す方法があります。この方法を使うことで、必要に応じてAIが最新情報を取り入れた回答を生成できます。
Chat Completions API (https://platform.openai.com/docs/guides/tools-web-search?api-mode=chat)
Responses API (https://platform.openai.com/docs/guides/tools-web-search?api-mode=responses)

 File SearchFile Search Toolのサンプルコード
from openai import OpenAI
client = OpenAI()

response = client.responses.create(
    model="gpt-4o-mini",
    input="What is deep research by OpenAI?",
    tools=[{
        "type": "file_search",
        "vector_store_ids": ["<vector_store_id>"]
    }]
)
print(response)
Responses APIにはファイル検索というツールもあり、過去にアップロードしたファイルから必要な情報を見つけ出すことができます。ファイル検索は「セマンティック検索」と「キーワード検索」を使って情報を探し出します。ベクトルストアという仕組みにファイルを保存することで、モデルがその知識を参照して、より詳しい情報を提供できるようになります。
ベクトルストアやセマンティック検索の詳しい仕組みについては、OpenAIが提供する検索ガイド(https://platform.openai.com/docs/guides/retrieval) で確認できます。このツールはOpenAIが管理しているため、利用者が特別なコードを作る必要はなく、モデルが必要と判断した場合、自動でファイルから情報を取得して回答します。

 Computer useComputer useのサンプルコード
from openai import OpenAI
client = OpenAI()

response = client.responses.create(
    model="computer-use-preview",
    tools=[{
        "type": "computer_use_preview",
        "display_width": 1024,
        "display_height": 768,
        "environment": "browser" # other possible values: "mac", "windows", "ubuntu"
    }],
    input=[
        {
            "role": "user",
            "content": "Check the latest OpenAI news on bing.com."
        }
        # Optional: include a screenshot of the initial state of the environment
        # {
        #     type: "input_image",
        #     image_url: f"data:image/png;base64,{screenshot_base64}"
        # }
    ],
    truncation="auto"
)

print(response.output)
Computer-Using Agent（CUA） モデル「computer-use-preview」を使って実装していきます。GPT-4oの視覚機能と高度な推論を組み合わせて、画面操作の制御とタスクの実行をシミュレートします。

Responses APIを通じて利用可能です。Chat Completions APIでは利用できないようです。
Computer useの仕組みとしては、click(x,y) や type(text) などのコンピューター操作を送信すると、コードがコンピューターまたはブラウザ環境で送信した操作を実行します。その結果得られたスクリーンショットがモデルに返されます。
この仕組みにより、画面操作する人間の行動をシミュレートし、モデルはスクリーンショットを通じて環境の状況を把握して、次に取るべき行動を提案していきます。
そして、クリックやタイピング、スクロールなどを伴うさまざまなタスクを自動化できます。例えば、フライト予約や製品検索、フォーム入力などが可能です。
Computer useの具体的な統合方法については、サンプルアプリのリポジトリ (https://github.com/openai/openai-cua-sample-app) が参考になりそうです。

 Agent SDKhttps://x.com/OpenAIDevs/status/1899531857143972051

Swarmを改良した、マルチエージェントワークフローを調整するための新しいオープンソースSDKです。組み込みツールでエージェントを設定し、タスクを引き渡し、安全ガードレールを追加し、デバッグとパフォーマンス最適化のために実行トレースを視覚化します。
!OpenAIの「Swarm」は、複数のAIエージェントが協力して複雑なタスクを実行するための実験的なフレームワークです。​各エージェントは特定の役割や専門性を持ち、互いに連携しながら問題を解決します。​この仕組みにより、単一のAIでは難しい複雑な作業を効率的に処理できます。​Swarmは軽量でスケーラブルな設計が特徴で、開発者がエージェントの動作を細かく制御できるため、教育目的やプロトタイプ作成に適しています。
ドキュメント (https://openai.github.io/openai-agents-python/)

サンプルアプリのリポジトリ (https://github.com/openai/openai-agents-python)

 おわりに若干私自身用に整理した感がありますが、みなさんの何かの参考になると幸いです！

Accenture Japan (有志)

アクセンチュア株式会社に所属する社員有志による運営です。アクセンチュアの社員による様々な発信をまとめています。なお、投稿内容は社員個人の見解であり、所属する組織を代表するものではありません。

Discussion

Moriyama, Takayuki

とても興味深い内容でした。ありがとうございます。
特にComputer use、Agent SDKが興味ありますね。
Agent SDKについては、Swarmというのがあり既にチェーンプロンプトなどのプロンプトフローが作成できる状態なんですね。ちょっと調べてみます。

マッサン (Masanori Yoshida)

コメントありがとうございます！ぜひぜひ、探求していけたらと！