NTT DATA TECH
🐼

GPT-5.1を使ってみた

に公開

はじめに

こんにちは!MEKIKI X AIハッカソンもぐもぐ勉強会 Advent Calendar 2025の11日目を担当する株式会社NTTデータグループ 技術革新統括本部 AI技術部の大木と申します。

先日、2025年11月13日にOpenAIの最新モデルであるGPT-5.1がAPIで公開されました。生成AIを利用している顧客からは生成AIが指示通りに動くこと(指示への従属性)が求められており、この観点での改善が見られるかを具体的なタスクを通じて確認していきたいと思います。

本記事では、医療用語抽出タスクを題材に、GPT-5.1と従来モデル(GPT-5)を比較し、

  • 精度(F1スコア)
  • コストに関連するトークン数

の観点からGPT-5.1の特徴を検証します。

想定読者

  • ChatGPTに興味がある方
  • GPT-5.1に興味がある方
  • GPT-5.1をAPIで利用したい方

記事の構成

記事の構成は以下の通りです。

  1. GPT-5.1とは
  2. 検証
  3. さいごに
  4. 参考文献

GPT-5.1とは

GPT-5.1は2025年11月13日に公開されたOpenAIの最新モデルです。OpenAIによると、従来のGPT-5と比べさらに賢くかつトークン効率が上がったとされています。公式HPでは以下のように説明されています。

GPT‑5.1 は、幅広いエージェントタスクやコーディングタスクに対して、知性と速度のバランスを最適化しています。GPT‑5.1 は、タスクの複雑さに応じて思考に費やす時間を動的に調整し、日常的な単純タスクでは大幅な高速化とトークン効率の向上を実現します。また、本モデルには「no reasoning」(推論なし)モードが追加されており、深い思考を必要としないタスクにはより高速に応答しつつ、GPT‑5.1 が持つ最先端の知性を維持します。

https://openai.com/ja-JP/index/gpt-5-1-for-developers より引用

GPT-5.1のパラメータには、主にVerbosity(出力の詳細度)やReasoning level(推論レベル)というパラメータが存在します。
以下のパラメータ調整をすることができます。

  • Verbosity(出力の詳細度):low/medium/highの3段階
  • Reasoning level(推論レベル):none/low/medium/highの4段階

検証

検証を一言でいうと?

API版のGPT-5.1と従来のGPT-5をパラメータを変えながら利用し、医療用語抽出タスクを実施しました。

医療用語抽出タスクについて

本タスクは医療文章から医療用語を抽出し、さらにその用語を12カテゴリに分類します(図1、表1)。これは非常に高い専門文書の読解力と推論力が必要で、医療用語抽出のルールにどれだけ従って出力できるかが精度に直結します。GPT-5.1で強化された推論性能を測るうえで最適なタスクです。以前 GPT-4 を用いて本タスクを実施した際には商用レベル(F1スコア=0.9)の精度が得られませんでした。本検証ではこれをGPT-5と最新のGPT-5.1で検証します。
医療用語抽出タスクにはこちらのMedTxt-CR(症例報告コーパス)*1 *2のデータセットを利用しました。
GPT-5, GPT-5.1のパラメータの変更やプロンプトに回答例を追加することでどのように精度が改善するかを検証し、GPT-5.1の特徴を把握していきます。


図1:医療文章から医療用語を抽出し12カテゴリに分類する様子

1 病名/症状 Disease (d)
2 臓器/部位 Anatomical part (a)
3 特徴/尺度 Feature (f)
4 変化 Change (c)
5 時間表現 TIMEX3
6 検査名 TestTest (t-test)
7 検査項目 TestKey (t-key)
8 検査値 TestVal (t-val)
9 薬品名 MedicineKey (m-key)
10 薬品値 MedicineVal (m-val)
11 処置 Remedy (r)
12 クリニカルコンテキスト ClinicalContext (cc)

表1:12カテゴリの内訳

評価方法

F1スコア(マイクロ平均)及びトークン数で評価を実施しました。
※レスポンス時間は評価観点からは外しました。

検証結果

以下2つのパラメータについて、変更を実施し精度とトークン数にどのような影響があるかを調査しました。

➀Reasoning level(推論レベル)

プロンプトで定義した医療用語抽出のルールにどれだけ従って出力できるかを測るためにReasoning levelを調整し検証しました。

  • パラメータは以下の4つを設定しました
    • none / low / medium / high
モデル名 Verbosity Reasoning level プロンプトの変更 入力トークン数 出力トークン数(そのうち推論) F1-Score(マイクロ平均)
GPT-5.1 medium none fewshot 697054 26148(0) 0.589
GPT-5.1 medium low fewshot 699058 68029(41024) 0.629
GPT-5.1 medium medium fewshot 699058 171411(142848) 0.658
GPT-5.1 medium high fewshot 699058 537232(507840) 0.638

今回のケースでは、Reasoning level を medium に設定したときに最も高い精度が得られました。つまり、Reasoning level は高ければ高いほど良いというわけではないことが分かります。
また、Reasoning level を上げるほど出力トークン数も増加する傾向が確認できました。具体的には、low と high を比較すると、推論に使用されるトークン数は約 12.4 倍に増加しています。

➁モデルの変更

モデルによる違いを測定するために、以下のモデルで検証しました。

  • パラメータは以下の2つを設定しました
    • GPT-5.1 / GPT-5
モデル名 Verbosity Reasoning level プロンプトの変更 入力トークン数 出力トークン数(そのうち推論) トークン数 (合計) F1-Score (マイクロ平均)
GPT-5.1 medium medium fewshot 699058 171411(142848) 870469 0.658
GPT-5 medium medium fewshot 699058 560402(531136) 1259460 0.624

同一条件(プロンプト・Verbosity・Reasoning level)で比較した場合、GPT-5.1はGPT-5よりも精度が3.5%向上しており合計トークン数が30.1%少なくなっています。その分、API利用コストも低く抑えられると考えられます。従来のモデルと比べ非常にコスト効率の優れたモデルであると言えます。

さいごに

本記事ではGPT-5.1を利用し、医療用語抽出タスクにおいて精度とトークン数の両面から評価しました。評価にあたっては、➀Reasoning level(推論レベル)、➁モデルの2つのパラメータに着目し、それぞれ変更しながら検証しました。その結果、GPT-5.1は従来のモデルと比較してコスト効率が大きく改善され、精度も改善されたことがわかりました。

最後までお読みいただきありがとうございました。

参考文献

[*1] Shuntaro Yada, Yuta Nakamura, Shoko Wakamiya, and Eiji Aramaki: Cross-lingual Natural Language Processing on Limited Annotated Case/Radiology Reports in English and Japanese: Insights from the Real-MedNLP Workshop, Methods of Information in Medicine 2024;63:145-163 [OPEN ACCESS]

[*2] Shuntaro Yada, Yuta Nakamura, Shoko Wakamiya, Eiji Aramaki: Real-MedNLP: Overview of REAL document-based MEDical Natural Language Processing Task, In Proceedings of the 16th NTCIR Conference on Evaluation of Information Access Technologies (NTCIR-16), pp. 285-296, 2022 [PDF]

NTT DATA TECH
NTT DATA TECH
設定によりコメント欄が無効化されています