🤖
【随時更新】主要な大規模言語モデル比較表
これはなに?
- 自著 「つくりながら学ぶ!生成AIアプリ&エージェント開発入門」 に掲載するために作ったOpenAI・Anthropic・GoogleのLLMの一覧表です。
- 各社が新しいモデルを出すたびに本の内容が陳腐化するため、この記事に最新の情報を更新していきます。
- 各社のモデルの主要諸元・費用に加えて、自分の印象を書いてあります。
- 性能の目安としてChatbot Arenaのスコアを参考までに添付しています
- これはあくまで参考用かつ英語での評価なので、スコアが一番高いものがいい、もしくは低いからダメというわけではありません。
- 少なくともこの記事に掲載されているモデルは、スコアが低いものでも単純な翻訳などでは十分な性能を持っています。そして何より高性能モデルとは比較にならないほど高速です。
- 用途や使用言語によって試してみて最適なものを選ぶのが良いでしょう
[PR] 宣伝
本の紹介は↓に書いてるので、モデル一覧表が参考になったなーって方は見てみてください😇
編集履歴
- '24/10/09
- OpenAI o1-preview, o1-mini, gpt-4o-realtime-preview 追加
- Google Gemini Flash-8B 追加
- 全てのモデルの Chatbot Arena スコアを更新
- '24/08/09
- GPT-4o と Gemini 1.5 Flash の費用を更新
- 全てのモデルの Chatbot Arena スコアを更新
- Gemini 1.5 Pro が大躍進
- '24/07/24
- GPT-4o mini の Chatbot Arena スコアを更新
- '24/07/20
- GPT-4o mini を追加
- GPT-3.5 Turbo instruction を削除
- '24/07/17
- Claude 3.5 Sonnetの最大出力長変更(ベータ版)を記載
- Chatbot Arenaのスコアを更新
- Claude 3.5 Sonnet, Gemini 1.5 Flash のスコアを新たに追加
- そのほかのモデルは数値を最新化 (大きな変化なし)
- '24/06/24
- Claude 3.5 Sonnet を追加
- '24/05/24
- Google I/O 2024 で発表されたGemini 1.5 Flashやその他の価格の変更などを反映
- それに伴い、Gemini 1.0 系列は表から削除
OpenAI
歴史的経緯もあり、以下の表に掲載するもの以外にも大量のモデルがあります。一旦は最新のモデルを列挙します。
Promptがキャッシュヒットした場合は、入力の費用が半額になることに留意ください。(詳しくはOpenAIのPrompt Cachingの説明をご覧ください)
モデル名APIでのモデル名
|
説明 | 扱えるtoken数 | 学習データ | 費用 (100万tokenあたり) | マルチモーダル対応 | Chatbot Arena Score ('24/10) |
---|---|---|---|---|---|---|
o1-previewo1-preview
|
’24/10時点で世界最高の精度 (※1) を誇るOpenAIのベータ版モデル。 複雑な推論を行うために特別に強化学習で訓練されており、さまざまな分野の難問に回答できる。 ベータのため利用者が限られており、また、Function Callingも対応しておらず、(回答の前に長い推論プロセスが入るため) 回答速度も遅い。また、コストも非常に高いので注意が必要。 APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年10月時点では o1-preview-2024-09-12 を指す) |
128,000 (出力は最大32,768) |
2023年10月まで |
入力: $15 出力: $60 |
ー | 1335 |
o1-minio1-mini
|
o1-previewの軽量版。コーディング、数学、科学に特に適した高速かつ比較的安価な推論モデル。 APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年10月時点では o1-mini-2024-09-12 を指す) |
128,000 (出力は最大65,536) |
2023年10月まで |
入力: $3 出力: $12 |
ー | 1314 |
GPT-4ogpt-4o
|
(高価なo1系のモデルを除くと) 最も高性能なOpenAIの旗艦モデル。画像認識機能も備える。 APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年10月時点では gpt-4o-2024-08-06 を指す) |
128,000 (出力は最大16,384) |
2023年10月まで | 入力: $2.5 出力: $10 画像サイズに応じた追加費用あり |
画像 | 1264 (※2) |
GPT-4o minigpt-4o-mini
|
OpenAIの廉価版モデル。2024年7月時点の主要各社の廉価版モデルの中で最も安い上に高性能と言われている。 APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年10月時点では gpt-4o-mini-2024-07-18 を指す) |
128,000 (出力は最大16,384) |
2023年10月まで | 入力: $0.15 出力: $0.6 |
画像 | 1273 |
GPT-4o Realtimegpt-4o-realtime-preview
|
ChatGPTアプリの「高度な音声モード」に利用されているモデル。 WebSocketインターフェースを介した音声およびテキスト入力に対応している。Realtime APIと分類され、他のモデルとはかなり違った扱い方が必要。また、音声入出力はかなりの値段なので注意。 APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年10月時点では gpt-4o-realtime-preview-2024-10-01 を指す) |
128,000 (出力は最大4,096) |
2023年10月まで |
【テキスト】 入力: $5 出力: $20 【音声】(※3) 入力: $100 出力: $200 |
音声 | ー |
GPT 3.5 Turbogpt-3.5-turbo
|
OpenAIのひと世代前の廉価版モデル。LLMブームに火をつけた伝説のモデル。 より安く高性能な GPT-4o mini の登場により役目を終えた感はある。 |
16,385 (出力は最大4,096) | 2021年9月まで | 入力: $0.5 出力: $1.5 |
ー | 1106 |
- モデル一覧: https://platform.openai.com/docs/models
- 価格表: https://openai.com/pricing
- 注記
- ※1: '24/10/09 時点で
ChatGPT-4o-latest (2024-09-03)
というモデルが世界最高のスコアだがこれはまだ正式に公開されていない。 - ※2: なぜかGPT-4o-miniより低い
- ※3: 英語だと音声入力1分あたり6セント、音声出力1分あたり24セント程度の費用とのこと。
- ※1: '24/10/09 時点で
Anthropic
モデル名APIでのモデル名
|
説明 | 扱えるtoken数 | 学習データ | 費用 (100万tokenあたり) | マルチモーダル対応 | Chatbot Arena Score ('24/10) |
---|---|---|---|---|---|---|
Claude 3.5 Sonnet ( claude-3-sonnet-20240229 ) |
2024年6月時点でのAnthropicの最新モデル。本来、Sonnetは廉価版モデルだが、最新バージョン3.5の旗艦モデル(Opus)がまだ公開されていないため、Claudeの中でもっとも高性能なモデルとなっている。 | 200,000 (出力は最大8,192 (*1)) | 2024年4月まで | 入力: $3 出力: $15 画像サイズに応じた追加費用あり |
画像 | 1268 |
Claude 3 Opus ( claude-3-opus-20240229 ) |
1世代前のAnthropicの旗艦モデル。Chatbot Arenaの評価はGPT-4にやや劣るが、非常に賢く、長文に対する理解力や日本語の理解などに優れる。 APIコストは非常に高いので注意が必要。 |
200,000 (出力は最大4,096) | 2023年8月まで | 入力: $15 出力: $75 画像サイズに応じた追加費用あり |
画像 | 1248 |
Claude 3 Sonnetclaude-3-sonnet-20240229
|
Anthropicの廉価版モデル。 Claude 3.5 Sonnetが登場したので利用するケースはもう無いと思われる。 | 200,000 (出力は最大4,096) | 2023年8月まで | 入力: $3 出力: $15 画像サイズに応じた追加費用あり |
画像 | 1201 |
Claude 3 Haikuclaude-3-haiku-20240307
|
Anthropicのエントリー版モデル。安価かつ高速。 GPT 3.5 Turboよりも安価であるにもかかわらず、過去のGPT-4モデル(例: GPT-4-0314 : Chatbot Arena Score: 1189 )に匹敵する性能を出せるとのこと。 |
200,000 (出力は最大4,096) | 2023年8月まで | 入力: $0.25 出力: $1.25 画像サイズに応じた追加費用あり |
画像 | 1178 |
*1 2024年7月時点では出力8192トークンはベータ扱い。以下の例のようにヘッダーに anthropic-beta: max-tokens-3-5-sonnet-2024-07-15
という内容を含める必要がある。これがない場合は最大出力長さは4096トークンになる。
- モデル一覧: https://docs.anthropic.com/claude/docs/models-overview
- 画像の追加コスト詳細: https://docs.anthropic.com/claude/docs/vision#image-costs
最新バージョンのClaude 3.5はSonnetしか公開されていないため、関係性がわかりづらいと思います。以下の図も合わせてご覧いただくと直感的で分かりやすいかと思います。
Googleのモデル
モデル名 (APIでのモデル名) |
説明 | 扱えるトークン数 | 学習データ | 費用 (100万文字あたり) | マルチモーダル対応 | Chatbot Arena Score ('24/10) |
---|---|---|---|---|---|---|
Gemini 1.5 Progemini-1.5-pro-latest (※1) |
Googleの旗艦モデル(※2) Chatbot Arenaの評価はGPT-4oに敗れているものの、100万トークン以上を扱えるという圧倒的な強みがある。 マルチモーダルにも強く、2024年5月時点で手軽に使えるモデルとしては珍しく動画および音声を処理することができる。 |
2,097,152 (出力は最大8,192) |
2023年初旬 | 《12.8万トークンまで》 入力: $3.5 出力: $10.5 《12.8万トークン以上》 入力: $7 出力: $21 それぞれ画像・動画・音声に応じた追加費用あり |
画像 動画 音声 |
1304 |
Gemini 1.5 Flashgemini-1.5-flash-latest (※1) |
Googleの軽量版モデル。 ChatGPT 3.5 Turboより安価ながら、軽量版モデルとしては非常に高性能、かつ、長いコンテキストやマルチモーダルを扱えるモデル。 Gemini 1.5 Proと同様に動画や音声も処理可能。 |
1,048,576 (出力は最大8,192) |
2023年初旬 | 《12.8万トークンまで》 入力: $0.075 出力: $0.3 《12.8万トークン以上》 入力: $0.15 出力: $0.6 それぞれ画像・動画・音声に応じた追加費用あり |
画像 動画 音声 |
1265 |
Gemini 1.5 Flash-8Bgemini-1.5-flash-8b-latest (※1) |
Googleの廉価版モデル。 Gemini 1.5 Flashの半額と非常に安価なので、簡単なタスクを行わせるのに最適。 Gemini 1.5 Proと同様に動画や音声も処理可能。 |
1,048,576 (出力は最大8,192) |
2023年初旬 | 《12.8万トークンまで》 入力: $0.0375 出力: $0.15 《12.8万トークン以上》 入力: $0.075 出力: $0.3 それぞれ画像・動画・音声に応じた追加費用あり |
画像 動画 音声 |
1209 |
(※1) 末尾の -latest
は最新版を指すエイリアスとして機能します。 -latest
を削除すると各モデルの安定版を指すエイリアスとなります(例: gemini-1.5-flash
)。モデルの挙動を固定したい場合は詳細なバージョン番号を指定することをお勧めします(例: gemini-1.5-pro-preview-0514
)
(※2) Gemini 1.0 Ultraというモデルも存在しているようだが、2024年5月時点では一般にリリースされていないのでこれを旗艦モデルと定義した
最新の情報は以下のページもご覧ください
FAQ
- 間違ってるところあるやんけ!
- 発見していただいてありがとうございます
- Twitterで凸していただけると泣いて喜びながら、すぐ修正させていただきます。
- 皆様の清き凸を心よりお待ちしておりますm(_ _)m
- 他にもたくさんモデルがあるやろ!なんでこの3社やねん!
- はい、その通りだと思います
- 本を書く時に作ったものを転載しているだけです…
- 随時更新するので勘弁してください
- Googleのモデルへの印象が薄い気がする。あんま使ってへんやろ!
- よく分かりましたね、そこまで手が回ってなくてあまり使い込めていません。(何度か試してはいます!)
- これからちゃんと使います…
- Chatbot Arenaって何?
- Chatbot Arenaは、ユーザーがモデルに質問し、回答を比較して投票することで、Eloレーティングシステムを用いてモデルの性能を評価するプラットフォームです。拡張性、追加性、一意な順序づけといった特性を備えており、多数のモデルを効率的にベンチマークすることができます
- 詳しくは以下をご覧ください
Discussion