🤖

【随時更新】主要な大規模言語モデル比較表

2024/04/27に公開

これはなに?

  • 自著 「つくりながら学ぶ!生成AIアプリ&エージェント開発入門」 に掲載するために作ったOpenAI・Anthropic・GoogleのLLMの一覧表です。
  • 各社が新しいモデルを出すたびに本の内容が陳腐化するため、この記事に最新の情報を更新していきます。
  • 各社のモデルの主要諸元・費用に加えて、自分の印象を書いてあります。
  • 性能の目安としてChatbot Arenaのスコアを参考までに添付しています
    • これはあくまで参考用かつ英語での評価なので、スコアが一番高いものがいい、もしくは低いからダメというわけではありません。
    • 少なくともこの記事に掲載されているモデルは、スコアが低いものでも単純な翻訳などでは十分な性能を持っています。そして何より高性能モデルとは比較にならないほど高速です。
    • 用途や使用言語によって試してみて最適なものを選ぶのが良いでしょう

[PR] 宣伝

本の紹介は↓に書いてるので、モデル一覧表が参考になったなーって方は見てみてください😇

https://zenn.dev/ml_bear/articles/0c4272c9dcaba3

編集履歴

  • '24/10/09
    • OpenAI o1-preview, o1-mini, gpt-4o-realtime-preview 追加
    • Google Gemini Flash-8B 追加
    • 全てのモデルの Chatbot Arena スコアを更新
  • '24/08/09
    • GPT-4o と Gemini 1.5 Flash の費用を更新
    • 全てのモデルの Chatbot Arena スコアを更新
      • Gemini 1.5 Pro が大躍進
  • '24/07/24
    • GPT-4o mini の Chatbot Arena スコアを更新
  • '24/07/20
    • GPT-4o mini を追加
    • GPT-3.5 Turbo instruction を削除
  • '24/07/17
    • Claude 3.5 Sonnetの最大出力長変更(ベータ版)を記載
    • Chatbot Arenaのスコアを更新
      • Claude 3.5 Sonnet, Gemini 1.5 Flash のスコアを新たに追加
      • そのほかのモデルは数値を最新化 (大きな変化なし)
  • '24/06/24
    • Claude 3.5 Sonnet を追加
  • '24/05/24
    • Google I/O 2024 で発表されたGemini 1.5 Flashやその他の価格の変更などを反映
    • それに伴い、Gemini 1.0 系列は表から削除

OpenAI

歴史的経緯もあり、以下の表に掲載するもの以外にも大量のモデルがあります。一旦は最新のモデルを列挙します。

Promptがキャッシュヒットした場合は、入力の費用が半額になることに留意ください。(詳しくはOpenAIのPrompt Cachingの説明をご覧ください)

モデル名
APIでのモデル名
説明 扱えるtoken数 学習データ 費用 (100万tokenあたり) マルチモーダル対応 Chatbot Arena Score
('24/10)
o1-preview
o1-preview
’24/10時点で世界最高の精度 (※1) を誇るOpenAIのベータ版モデル。

複雑な推論を行うために特別に強化学習で訓練されており、さまざまな分野の難問に回答できる。

ベータのため利用者が限られており、また、Function Callingも対応しておらず、(回答の前に長い推論プロセスが入るため) 回答速度も遅い。また、コストも非常に高いので注意が必要。

APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年10月時点ではo1-preview-2024-09-12 を指す)
128,000
(出力は最大32,768)

2023年10月まで
入力: $15
出力: $60
1335
o1-mini
o1-mini
o1-previewの軽量版。コーディング、数学、科学に特に適した高速かつ比較的安価な推論モデル。

APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年10月時点ではo1-mini-2024-09-12 を指す)
128,000
(出力は最大65,536)
2023年10月まで
入力: $3
出力: $12
1314
GPT-4o
gpt-4o
(高価なo1系のモデルを除くと) 最も高性能なOpenAIの旗艦モデル。画像認識機能も備える。

APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年10月時点ではgpt-4o-2024-08-06 を指す)
128,000
(出力は最大16,384)
2023年10月まで 入力: $2.5
出力: $10

画像サイズに応じた追加費用あり
画像 1264 (※2)
GPT-4o mini
gpt-4o-mini
OpenAIの廉価版モデル。2024年7月時点の主要各社の廉価版モデルの中で最も安い上に高性能と言われている。

APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年10月時点ではgpt-4o-mini-2024-07-18 を指す)
128,000
(出力は最大16,384)
2023年10月まで 入力: $0.15
出力: $0.6
画像 1273
GPT-4o Realtime
gpt-4o-realtime-preview
ChatGPTアプリの「高度な音声モード」に利用されているモデル。

WebSocketインターフェースを介した音声およびテキスト入力に対応している。Realtime APIと分類され、他のモデルとはかなり違った扱い方が必要。また、音声入出力はかなりの値段なので注意。

APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年10月時点ではgpt-4o-realtime-preview-2024-10-01 を指す)
128,000
(出力は最大4,096)
2023年10月まで
【テキスト】
入力: $5
出力: $20

【音声】(※3)
入力: $100
出力: $200

音声
GPT 3.5 Turbo
gpt-3.5-turbo
OpenAIのひと世代前の廉価版モデル。LLMブームに火をつけた伝説のモデル。

より安く高性能な GPT-4o mini の登場により役目を終えた感はある。
16,385 (出力は最大4,096) 2021年9月まで 入力: $0.5
出力: $1.5
1106
  • モデル一覧: https://platform.openai.com/docs/models
  • 価格表: https://openai.com/pricing
  • 注記
    • ※1: '24/10/09 時点で ChatGPT-4o-latest (2024-09-03)というモデルが世界最高のスコアだがこれはまだ正式に公開されていない。
    • ※2: なぜかGPT-4o-miniより低い
    • ※3: 英語だと音声入力1分あたり6セント、音声出力1分あたり24セント程度の費用とのこと。

Anthropic

モデル名
APIでのモデル名
説明 扱えるtoken数 学習データ 費用 (100万tokenあたり) マルチモーダル対応 Chatbot Arena Score
('24/10)
Claude 3.5 Sonnet
(claude-3-sonnet-20240229)
2024年6月時点でのAnthropicの最新モデル。本来、Sonnetは廉価版モデルだが、最新バージョン3.5の旗艦モデル(Opus)がまだ公開されていないため、Claudeの中でもっとも高性能なモデルとなっている。 200,000 (出力は最大8,192 (*1)) 2024年4月まで 入力: $3
出力: $15

画像サイズに応じた追加費用あり
画像 1268
Claude 3 Opus
(claude-3-opus-20240229)
1世代前のAnthropicの旗艦モデル。Chatbot Arenaの評価はGPT-4にやや劣るが、非常に賢く、長文に対する理解力や日本語の理解などに優れる。
APIコストは非常に高いので注意が必要。
200,000 (出力は最大4,096) 2023年8月まで 入力: $15
出力: $75

画像サイズに応じた追加費用あり
画像 1248
Claude 3 Sonnet
claude-3-sonnet-20240229
Anthropicの廉価版モデル。 Claude 3.5 Sonnetが登場したので利用するケースはもう無いと思われる。 200,000 (出力は最大4,096) 2023年8月まで 入力: $3
出力: $15

画像サイズに応じた追加費用あり
画像 1201
Claude 3 Haiku
claude-3-haiku-20240307
Anthropicのエントリー版モデル。安価かつ高速。
GPT 3.5 Turboよりも安価であるにもかかわらず、過去のGPT-4モデル(例: GPT-4-0314: Chatbot Arena Score: 1189)に匹敵する性能を出せるとのこと。
200,000 (出力は最大4,096) 2023年8月まで 入力: $0.25
出力: $1.25

画像サイズに応じた追加費用あり
画像 1178

*1 2024年7月時点では出力8192トークンはベータ扱い。以下の例のようにヘッダーに anthropic-beta: max-tokens-3-5-sonnet-2024-07-15 という内容を含める必要がある。これがない場合は最大出力長さは4096トークンになる。


画像出典

最新バージョンのClaude 3.5はSonnetしか公開されていないため、関係性がわかりづらいと思います。以下の図も合わせてご覧いただくと直感的で分かりやすいかと思います。

Googleのモデル

モデル名
(APIでのモデル名)
説明 扱えるトークン数 学習データ 費用 (100万文字あたり) マルチモーダル対応 Chatbot Arena Score
('24/10)
Gemini 1.5 Pro
gemini-1.5-pro-latest
(※1)
Googleの旗艦モデル(※2)

Chatbot Arenaの評価はGPT-4oに敗れているものの、100万トークン以上を扱えるという圧倒的な強みがある。

マルチモーダルにも強く、2024年5月時点で手軽に使えるモデルとしては珍しく動画および音声を処理することができる。

2,097,152
(出力は最大8,192)
2023年初旬 《12.8万トークンまで》

入力: $3.5
出力: $10.5

《12.8万トークン以上》

入力: $7
出力: $21

それぞれ画像・動画・音声に応じた追加費用あり


画像
動画
音声
1304
Gemini 1.5 Flash
gemini-1.5-flash-latest
(※1)
Googleの軽量版モデル。

ChatGPT 3.5 Turboより安価ながら、軽量版モデルとしては非常に高性能、かつ、長いコンテキストやマルチモーダルを扱えるモデル。

Gemini 1.5 Proと同様に動画や音声も処理可能。
1,048,576
(出力は最大8,192)
2023年初旬 《12.8万トークンまで》

入力: $0.075
出力: $0.3

《12.8万トークン以上》

入力: $0.15
出力: $0.6

それぞれ画像・動画・音声に応じた追加費用あり
画像
動画
音声
1265
Gemini 1.5 Flash-8B
gemini-1.5-flash-8b-latest
(※1)
Googleの廉価版モデル。

Gemini 1.5 Flashの半額と非常に安価なので、簡単なタスクを行わせるのに最適。

Gemini 1.5 Proと同様に動画や音声も処理可能。
1,048,576
(出力は最大8,192)
2023年初旬 《12.8万トークンまで》

入力: $0.0375
出力: $0.15

《12.8万トークン以上》

入力: $0.075
出力: $0.3

それぞれ画像・動画・音声に応じた追加費用あり
画像
動画
音声
1209

(※1) 末尾の -latest は最新版を指すエイリアスとして機能します。 -latestを削除すると各モデルの安定版を指すエイリアスとなります(例: gemini-1.5-flash)。モデルの挙動を固定したい場合は詳細なバージョン番号を指定することをお勧めします(例: gemini-1.5-pro-preview-0514
(※2) Gemini 1.0 Ultraというモデルも存在しているようだが、2024年5月時点では一般にリリースされていないのでこれを旗艦モデルと定義した

最新の情報は以下のページもご覧ください

FAQ

  • 間違ってるところあるやんけ!
    • 発見していただいてありがとうございます
    • Twitterで凸していただけると泣いて喜びながら、すぐ修正させていただきます。
    • 皆様の清き凸を心よりお待ちしておりますm(_ _)m
  • 他にもたくさんモデルがあるやろ!なんでこの3社やねん!
    • はい、その通りだと思います
    • 本を書く時に作ったものを転載しているだけです…
    • 随時更新するので勘弁してください
  • Googleのモデルへの印象が薄い気がする。あんま使ってへんやろ!
    • よく分かりましたね、そこまで手が回ってなくてあまり使い込めていません。(何度か試してはいます!)
    • これからちゃんと使います…
  • Chatbot Arenaって何?
    • Chatbot Arenaは、ユーザーがモデルに質問し、回答を比較して投票することで、Eloレーティングシステムを用いてモデルの性能を評価するプラットフォームです。拡張性、追加性、一意な順序づけといった特性を備えており、多数のモデルを効率的にベンチマークすることができます
    • 詳しくは以下をご覧ください

Discussion