🤖

【随時更新】主要な大規模言語モデル比較表

2024/04/27に公開

これはなに?

  • ひょんなことからOpenAI・Anthropic・GoogleのLLMの一覧表を作りました
  • 手前味噌ながら便利だなと思ったのでZennにも載せておきます
  • 各社のモデルの主要諸元・費用に加えて、自分の印象を書いてあります。
  • 性能の目安としてChatbot Arenaのスコアを参考までに添付しています
    • これはあくまで参考用かつ英語での評価なので、スコアが一番高いものがいい、もしくは低いからダメというわけではありません。
    • 少なくともこの記事に掲載されているモデルは、スコアが低いものでも単純な翻訳などでは十分な性能を持っています。そして何より高性能モデルとは比較にならないほど高速です。
    • 用途や使用言語によって試してみて最適なものを選ぶのが良いでしょう

OpenAI

歴史的経緯もあり、以下の表に掲載するもの以外にも大量のモデルがあります。
一旦は最新のモデルを列挙します。

モデル名
APIでのモデル名
説明 扱えるtoken数 学習データ 費用 (100万tokenあたり) マルチモーダル対応 Chatbot Arena Score
('24/04)
GPT-4 Turbo with Vision
gpt-4-turbo
2024年5月時点で世界最高精度を誇るOpenAIの旗艦モデル。画像認識機能も備える。

APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年5月時点ではgpt-4-turbo-2024-04-09 を指す)
128,000 2023年12月まで 入力: $10
出力: $30

画像サイズに応じた追加費用あり
画像 1257
GPT 3.5 Turbo
gpt-3.5-turbo
OpenAIの廉価版モデル。簡単なタスクでは十分な品質の回答を高速に生成できる。

APIモデル名は利用可能な最新のモデルのエイリアスとして機能する(例: 2024年5月時点ではgpt-3.5-turbo-0125 を指す)
16,385 (出力は最大4,096) 2021年9月まで 入力: $0.5
出力: $1.5
1120
GPT-3.5 Turbo Instruct
gpt-3.5-turbo-instruct
会話ではなく与えられたタスクを解くことに重点が置かれたGPT-3.5 Turboのモデル。単純なタスクに対しては簡潔な回答を行うことが多い。 4,096 2021年9月まで 入力: $1.5
出力: $2.0

Anthropic

モデル名
APIでのモデル名
説明 扱えるtoken数 学習データ 費用 (100万tokenあたり) マルチモーダル対応 Chatbot Arena Score
('24/04)
Claude 3 Opus
claude-3-opus-20240229
Anthropicの旗艦モデル。Chatbot Arenaの評価はGPT-4にやや劣るが、非常に賢く、長文に対する理解力や日本語の理解などはGPT-4を超えている印象がある。
その性能の高さゆえ、APIコストは非常に高いので注意が必要。
200,000 (出力は最大4,096) 2023年8月まで 入力: $15
出力: $75

画像サイズに応じた追加費用あり
画像 1251
Claude 3 Sonnet
claude-3-sonnet-20240229
Anthropicの廉価版モデル。廉価版とはいえ、過去のGPT-4モデル(例: GPT-4-0314: Chatbot Arena Score: 1189)を超える性能を叩き出せるとのこと。 200,000 (出力は最大4,096) 2023年8月まで 入力: $3
出力: $15

画像サイズに応じた追加費用あり
画像 1202
Claude 3 Haiku
claude-3-haiku-20240307
Anthropicのエントリー版モデル。安価かつ高速。
GPT 3.5 Turboよりも安価であるにもかかわらず、過去のGPT-4モデル(例: GPT-4-0314: Chatbot Arena Score: 1189)に匹敵する性能を出せるとのこと。
200,000 (出力は最大4,096) 2023年8月まで 入力: $0.25
出力: $1.25

画像サイズに応じた追加費用あり
画像 1181

Google

Googleのモデルだけ費用が文字数でカウントされるので注意です。他社の1tokenあたり4文字程度とのことなので、比較を容易にするため、100万トークンあたりで換算した費用も合わせて掲載しました。

モデル名
APIでのモデル名
説明 扱えるtoken数 学習データ 費用 (100万文字あたり) マルチモーダル対応 Chatbot Arena Score
('24/04)
Gemini 1.5 Pro
gemini-1.5-pro-latest
Googleの旗艦モデル(※1)

Chatbot Arenaの評価はGPT-4やClaude 3 Opusに僅差で敗れているものの、100万トークン以上を扱えるという圧倒的な強みがある。

マルチモーダルにも強く、2024年5月時点で手軽に使えるモデルとしては珍しく動画および音声を処理することができる。
1,048,576
(出力は最大8,192)
2023年11月 入力: $2.5
出力: $7.5

(token換算(※2):
入力: $10
出力: $30)

画像・動画・音声に応じた追加費用あり


画像
動画
音声
1248
Gemini 1.0 Pro
gemini-pro
Googleの廉価版モデル。OpenAIのGPT 3.5 Turboと価格帯も性能も似ている。

姉妹モデルのUltra(高性能モデル)・Nano(超軽量版モデル)とともに発表されたが、2024年5月現在はPro以外のモデルの詳細はあまり明らかにされていない。
30,720 (出力は最大2,048) 2023年4月 入力: $0.125
出力: $0.375

(token換算:
入力: $0.5
出力: $1.5)
1136
Gemini 1.0 Pro Vision
gemini-pro-vision
Gemini 1.0 Proにマルチモーダル対応が追加されたモデル。 12,288 (出力は最大4,096) 2023年4月 入力: $0.125
出力: $0.375

(token換算:
入力: $0.5
出力: $1.5)

画像・動画に応じた追加費用あり
画像 1136

(※1) Gemini 1.0 Ultraというモデルも存在しているようだが一般にリリースされていないのでこれを旗艦モデルと定義した
(※2)Preview期間中は入力: $7 / 出力: $21 相当と解釈して書いている

FAQ

  • 間違ってるところあるやんけ!
    • 発見していただいてありがとうございます
    • Twitterで凸していただけると泣いて喜びながら、すぐ修正させていただきます。
    • 皆様の清き凸を心よりお待ちしておりますm(_ _)m
  • 他にもたくさんモデルがあるやろ!なんでこの3社やねん!
    • はい、その通りだと思います
    • 別の用事で作ったものを転載しただけです
    • 随時更新するので勘弁してください
  • Googleのモデルへの印象が薄い気がする。あんま使ってへんやろ!
    • よく分かりましたね、そこまで手が回ってなくてあまり使い込めていません。(何度か試してはいます!)
    • これからちゃんと使います…
  • Chatbot Arenaって何?
    • Chatbot Arenaは、ユーザーがモデルに質問し、回答を比較して投票することで、Eloレーティングシステムを用いてモデルの性能を評価するプラットフォームです。拡張性、追加性、一意な順序づけといった特性を備えており、多数のモデルを効率的にベンチマークすることができます
    • 詳しくは以下をご覧ください

Discussion