🐼

GPT-5.1を使ってみた

Ikuto Ohki

2025/12/11に公開

 はじめにこんにちは！MEKIKI X AIハッカソンもぐもぐ勉強会 Advent Calendar 2025の11日目を担当する株式会社NTTデータグループ 技術革新統括本部 AI技術部の大木と申します。
先日、2025年11月13日にOpenAIの最新モデルであるGPT-5.1がAPIで公開されました。生成AIを利用している顧客からは生成AIが指示通りに動くこと（指示への従属性）が求められており、この観点での改善が見られるかを具体的なタスクを通じて確認していきたいと思います。
本記事では、医療用語抽出タスクを題材に、GPT-5.1と従来モデル（GPT-5）を比較し、
精度（F1スコア）
コストに関連するトークン数
の観点からGPT-5.1の特徴を検証します。

 想定読者ChatGPTに興味がある方
GPT-5.1に興味がある方
GPT-5.1をAPIで利用したい方

 記事の構成記事の構成は以下の通りです。
GPT-5.1とは
検証
さいごに
参考文献

 GPT-5.1とはGPT-5.1は2025年11月13日に公開されたOpenAIの最新モデルです。OpenAIによると、従来のGPT-5と比べさらに賢くかつトークン効率が上がったとされています。公式HPでは以下のように説明されています。
GPT‑5.1 は、幅広いエージェントタスクやコーディングタスクに対して、知性と速度のバランスを最適化しています。GPT‑5.1 は、タスクの複雑さに応じて思考に費やす時間を動的に調整し、日常的な単純タスクでは大幅な高速化とトークン効率の向上を実現します。また、本モデルには「no reasoning」（推論なし）モードが追加されており、深い思考を必要としないタスクにはより高速に応答しつつ、GPT‑5.1 が持つ最先端の知性を維持します。
https://openai.com/ja-JP/index/gpt-5-1-for-developers より引用
GPT-5.1のパラメータには、主にVerbosity（出力の詳細度）やReasoning level（推論レベル）というパラメータが存在します。

以下のパラメータ調整をすることができます。
Verbosity（出力の詳細度）：low/medium/highの3段階
Reasoning level（推論レベル）：none/low/medium/highの4段階

 検証
 検証を一言でいうと？API版のGPT-5.1と従来のGPT-5をパラメータを変えながら利用し、医療用語抽出タスクを実施しました。

 医療用語抽出タスクについて本タスクは医療文章から医療用語を抽出し、さらにその用語を12カテゴリに分類します（図１、表１）。これは非常に高い専門文書の読解力と推論力が必要で、医療用語抽出のルールにどれだけ従って出力できるかが精度に直結します。GPT-5.1で強化された推論性能を測るうえで最適なタスクです。以前 GPT-4 を用いて本タスクを実施した際には商用レベル（F1スコア=0.9）の精度が得られませんでした。本検証ではこれをGPT-5と最新のGPT-5.1で検証します。

医療用語抽出タスクにはこちらのMedTxt-CR（症例報告コーパス）*1 *2のデータセットを利用しました。

GPT-5, GPT-5.1のパラメータの変更やプロンプトに回答例を追加することでどのように精度が改善するかを検証し、GPT-5.1の特徴を把握していきます。


図１：医療文章から医療用語を抽出し12カテゴリに分類する様子






1
病名/症状 Disease (d)

2
臓器/部位 Anatomical part (a)

3
特徴/尺度 Feature (f)

4
変化 Change (c)

5
時間表現 TIMEX3

6
検査名 TestTest (t-test)

7
検査項目 TestKey (t-key)

8
検査値 TestVal (t-val)

9
薬品名 MedicineKey (m-key)

10
薬品値 MedicineVal (m-val)

11
処置 Remedy (r)

12
クリニカルコンテキスト ClinicalContext (cc)

表１：12カテゴリの内訳

 評価方法F1スコア（マイクロ平均）及びトークン数で評価を実施しました。

※レスポンス時間は評価観点からは外しました。

 検証結果以下2つのパラメータについて、変更を実施し精度とトークン数にどのような影響があるかを調査しました。

 ➀Reasoning level（推論レベル）プロンプトで定義した医療用語抽出のルールにどれだけ従って出力できるかを測るためにReasoning levelを調整し検証しました。
パラメータは以下の4つを設定しました
none / low / medium / high



モデル名
Verbosity
Reasoning level
プロンプトの変更
入力トークン数
出力トークン数（そのうち推論）
F1-Score（マイクロ平均）


GPT-5.1
medium
none
fewshot
697054
26148(0)
0.589

GPT-5.1
medium
low
fewshot
699058
68029(41024)
0.629

GPT-5.1
medium
medium
fewshot
699058
171411(142848)
0.658

GPT-5.1
medium
high
fewshot
699058
537232(507840)
0.638

今回のケースでは、Reasoning level を medium に設定したときに最も高い精度が得られました。つまり、Reasoning level は高ければ高いほど良いというわけではないことが分かります。

また、Reasoning level を上げるほど出力トークン数も増加する傾向が確認できました。具体的には、low と high を比較すると、推論に使用されるトークン数は約 12.4 倍に増加しています。

 ➁モデルの変更モデルによる違いを測定するために、以下のモデルで検証しました。
パラメータは以下の2つを設定しました
GPT-5.1 / GPT-5



モデル名
Verbosity
Reasoning level
プロンプトの変更
入力トークン数
出力トークン数（そのうち推論）
トークン数 (合計)
F1-Score (マイクロ平均)


GPT-5.1
medium
medium
fewshot
699058
171411(142848)
870469
0.658

GPT-5
medium
medium
fewshot
699058
560402(531136)
1259460
0.624

同一条件（プロンプト・Verbosity・Reasoning level）で比較した場合、GPT-5.1はGPT-5よりも精度が3.5%向上しており合計トークン数が30.1%少なくなっています。その分、API利用コストも低く抑えられると考えられます。従来のモデルと比べ非常にコスト効率の優れたモデルであると言えます。

 さいごに本記事ではGPT-5.1を利用し、医療用語抽出タスクにおいて精度とトークン数の両面から評価しました。評価にあたっては、➀Reasoning level（推論レベル）、➁モデルの2つのパラメータに着目し、それぞれ変更しながら検証しました。その結果、GPT-5.1は従来のモデルと比較してコスト効率が大きく改善され、精度も改善されたことがわかりました。
最後までお読みいただきありがとうございました。

 参考文献[*1] Shuntaro Yada, Yuta Nakamura, Shoko Wakamiya, and Eiji Aramaki: Cross-lingual Natural Language Processing on Limited Annotated Case/Radiology Reports in English and Japanese: Insights from the Real-MedNLP Workshop, Methods of Information in Medicine 2024;63:145-163 [OPEN ACCESS]
[*2] Shuntaro Yada, Yuta Nakamura, Shoko Wakamiya, Eiji Aramaki: Real-MedNLP: Overview of REAL document-based MEDical Natural Language Processing Task, In Proceedings of the 16th NTCIR Conference on Evaluation of Information Access Technologies (NTCIR-16), pp. 285-296, 2022 [PDF]


1	病名/症状 Disease (d)
2	臓器/部位 Anatomical part (a)
3	特徴/尺度 Feature (f)
4	変化 Change (c)
5	時間表現 TIMEX3
6	検査名 TestTest (t-test)
7	検査項目 TestKey (t-key)
8	検査値 TestVal (t-val)
9	薬品名 MedicineKey (m-key)
10	薬品値 MedicineVal (m-val)
11	処置 Remedy (r)
12	クリニカルコンテキスト ClinicalContext (cc)

モデル名	Verbosity	Reasoning level	プロンプトの変更	入力トークン数	出力トークン数（そのうち推論）	F1-Score（マイクロ平均）
GPT-5.1	medium	none	fewshot	697054	26148(0)	0.589
GPT-5.1	medium	low	fewshot	699058	68029(41024)	0.629
GPT-5.1	medium	medium	fewshot	699058	171411(142848)	0.658
GPT-5.1	medium	high	fewshot	699058	537232(507840)	0.638

モデル名	Verbosity	Reasoning level	プロンプトの変更	入力トークン数	出力トークン数（そのうち推論）	トークン数 (合計)	F1-Score (マイクロ平均)
GPT-5.1	medium	medium	fewshot	699058	171411(142848)	870469	0.658
GPT-5	medium	medium	fewshot	699058	560402(531136)	1259460	0.624

NTT DATA TECH

NTT DATA公式アカウントです。技術を愛するNTT DATAの技術者が、気軽に楽しく発信していきます。当社のサービスなどについてのお問い合わせは、お問い合わせフォーム nttdata.com/jp/ja/contact-us/ へお願いします。

設定によりコメント欄が無効化されています