🤖

Claude3とClaude3.5の違いについて

2024/11/11に公開

この記事の要約

  • Anthropic社のClaude3.5がAWSから使えるようになった。
  • SonnetやHaiku等、能力とコストが違うモデルがある。
  • バージョンと、モデルの違いを調べてみた。
  • どのモデルも3.0→3.5で正当進化してそう。
  • ハルシネーションが減り、わからないことはわからないと答えてくれることが多くなった。
  • 「computer use」という新機能があり、人間がパソコンを操作するような動作の模倣が可能になった(2024/11/11現在β版として公開)
  • とはいえ、AIを何も考えずに使ってると、法整備次第では痛い目見るので、正しい知識を身に着けておきましょう。

はじめに

皆さんこんにちは。
アンプラットです。

当社では、「ANCHAT」というRAG付き激安チャットボットを製品として出しています。
https://anplat.co.jp/anchat/

そもそもこのチャットボットは、売り物ではなく、
学者・研究者に物事を教えないといけないというウルトラC難度の業務を行っている我々アンプラット従業員一同が、日夜とんでもない速度で発展を続ける研究領域の知識を、少しでも楽に情報収集するために、社内Slackと連携する形で使っていたものです。
それが、研究者さんとお話していく中で、「使わせてくれ!」と言われることが多々あって製品化した感じです。

さて、AIにそのまま答えさせると、嘘の回答を生成してしまうことがあります。
それを僕らが研究者にそのまま展開してしまうと、僕らの首は何個あっても足りないので、AIによる生成は内容の要約と文章の構築にほぼ限定し、RAG(Retrieval-Augmented Generation)を最重要視した構成で運用しています。

このANCHATの中では、様々なLLMを検討した結果、Anthropic社のClaudeが採用されているのですが、最近これのアップデートが来たので、検証してみました。

以下、検証結果です。


Claude3とClaude3.5の違い

アンプラットで提供している製品であるAIチャットbot「ANCHAT」は生成AIの中でも「Claude」のAPIを採用しています。
今回新たに「Claude3.5」が登場したので、これまでの「Claude3」との違いをまとめます。

Claudeとは

米国のスタートアップ企業であるAnthropic社が提供する生成AIで、APIの提供もしており、Slackをはじめとしたさまざまなサービスとの連携が可能です。
大量のテキストを一度に処理する能力があるほか、自然な日本語文章を生成する能力が高いことが特徴とされています。

モデルについて

ClaudeにはSonnetとHaiku、Opusの3種類があります。
この記事ではSonnetとClaude3.5が発表されたばかりのHaikuについてまとめます。

Haikuとsonnetの違い

Sonnet
確かな処理能力を持っており、文章生成能力等がHaikuよりも高いです。知能とスピードのバランスが取れており、複雑な分析から創造的なタスクまで幅広く対応可能です。より高度な文章生成が求められるような中程度の複雑なタスクに適していて、商品説明の作成やブログ記事の初稿作成等に向いています。また、Sonnetはユーザーの文体に合わせたカスタマイズも可能なため、より自然な文章生成が可能です。

Haiku
最も高速な応答のが特徴で、情報密度の高い研究論文等を短時間で処理することが可能です​​。メール作成や簡単な質問応答、基本的な分析などの簡単なタスクに最適なため、チャットボットやリアルタイムのカスタマーサポートに向いています。
しかし、文章生成能力は他に比べて低く、長文や高度な内容の生成には向いていません。

実際に検証してみた

まず、回答の難易度の高い日本語での質問かつ日本ではおなじみの過程料理「肉じゃが」について質問し、どのくらい正確な回答を得られるか検証してみました。
ちなみに、基本的な肉じゃがの材料とレシピは以下の通り。

【材料】(4人前)
- 豚肉
- じゃがいも
- にんじん
- 玉ねぎ
- 水
- しょうゆ
- 酒
- 砂糖
- みりん
- 顆粒和風だし

【作り方】
1. じゃがいもと人参を乱切りに切る。
2. 玉ねぎはくし切りで、お肉を一口大に切る。
3. 軽く油を熱して、お肉を炒める。
4. 野菜も加えて炒め合わせ、全体に油がまわったら砂糖とお水を注ぎ入れる。
5. 合わせ調味料を加えて落としぶたをし、弱火で30分ほど煮込む。
6. じゃがいもとにんじんがやわらかくなっていたら完成。

条件①

・AIに与えた役割 老舗日本食点の料理長
・設定数値「温度0.3」「top p 0.3」「top k 1」

プロンプト

あなたは老舗日本食点の料理長です。
美味しい肉じゃがの作り方を教えてください。

回答

①Claude 3.5 Sonnet

材料(4人分):
- 牛肉(薄切り) 300g
- じゃがいも 3個
- 玉ねぎ 1個
- にんじん 1本
- しらたき 1袋
- サラダ油 大さじ1
- 砂糖 大さじ3
- 醤油 大さじ4
- みりん 大さじ2
- 酒 大さじ2
- だし汁 1カップ

作り方
1. じゃがいもは一口大に切り、玉ねぎとにんじんは薄切りにします。しらたきは軽くゆでて食べやすい長さに切ります。
2. 鍋にサラダ油を熱し、牛肉を炒めます。肉の色が変わったら、玉ねぎを加えて炒めます。
3. にんじん、じゃがいも、しらたきを加え、全体を軽く炒めます。
4. だし汁、砂糖、醤油、みりん、酒を加えて混ぜ、蓋をして中火で15分ほど煮込みます。
5. じゃがいもに火が通ったら、蓋を取って弱火にし、煮汁が少なくなるまでさらに10分ほど煮込みます。
6. 味を確認し、必要に応じて調整します。
7. 器に盛り付け、お好みで刻んだ三つ葉やねぎを散らして完成です。

ポイント:
- 煮込む際は、時々優しくかき混ぜて、具材に均等に味をつけます。
- じゃがいもがホクホクになるまで煮込むことが大切です。
- 最後に煮汁を少し残すと、ご飯との相性が良くなります。

②Claude 3 Sonnet

【材料】(4人前)
・豚バラ肉 300g
・じゃがいも 4個
・玉ねぎ 1個
・にんじん 1本
・しょうゆ 大さじ3
・みりん 大さじ2
・砂糖 小さじ1
・だし汁 200ml

【作り方】
1. 豚バラ肉は一口大に切り、じゃがいもは4つ割り、玉ねぎは1cm幅の薄切り、にんじんは斜め薄切りにする。
2. 鍋に豚バラ肉を入れ、火にかけて肉の表面に焼き色がつくまで炒める。
3. 2に玉ねぎ、にんじんを加え、さらに2-3分炒める。
4. 3にじゃがいも、しょうゆ、みりん、砂糖、だし汁を加え、アクを取りながら15-20分程度煮込む。
5. じゃがいもが柔らかくなったら、一度火を止めて味を調える。足りない場合は、しょうゆや砂糖を加える。
6. 器に盛り付け、お好みで七味唐辛子や青ねぎを添える。

ポイントは、肉に焼き色をつけること、じゃがいもが柔らかくなるまで時間をかけて煮込むことです。お箸が通る程度の柔らかさが理想です。味付けは基本の調味料で十分ですが、お好みで八丁味噌や酒、みりんなどを加えても美味しくなります。

③Claude 3.5 Haiku

【材料】(4人分)
・牛肉(薄切り): 300g
・じゃがいも: 4〜5個
・玉ねぎ: 2個
・にんじん: 1本
・糸こんにゃく: 1パック

【調味料】
・醤油: 大さじ4
・みりん: 大さじ3
・砂糖: 大さじ2
・酒: 大さじ2

【作り方】
1. 肉は一口大に切る
2. 野菜は乱切りにする
3. フライパンで肉を軽く炒める
4. 野菜を加えて炒める
5. 調味料を入れ、落し蓋をして30分程度煮込む

コツは、野菜に火を通しすぎないことです。

④Claude 3 Haiku

【材料】
- じゃがいも 500g
- 牛肉 300g
- たまねぎ 1個
- にんじん 1本
- しょうゆ 大さじ2
- みりん 大さじ1
- 砂糖 大さじ1
- 酒 大さじ1
- 水 適量
- 塩 小さじ1

【作り方】
1. じゃがいもは皮をむき、一口大に切る。牛肉は一口大に切る。たまねぎはくし形に、にんじんは乱切りにする。
2. 鍋にごま油を熱し、牛肉を炒める。肉に色がついたら、たまねぎ、にんじんを加えて炒める。
3. 調味料(しょうゆ、みりん、砂糖、酒)を加え、水を足して煮込む。
4. じゃがいもを加え、柔らかくなるまで煮る。
5. 塩で味を調える。
6. 仕上げに、煮汁が少し粘りつくくらいまで煮詰める。

追加で検証してみた

今度は文章の要約能力について検証してみました。

条件②

・AIに与えた役割 一般の方への説明が得意な有能な宇宙物理学者
・設定数値「温度0.3」「top p 0.3」「top k 1」

プロンプト

あなたは一般の方への説明が得意な有能な宇宙物理学者です。
一般相対性理論について簡潔に、一般の方にも分かるように100字以内で説明してください。

回答

①Claude 3.5 Sonnet

重力は、質量のある物体が空間をゆがませることで生じる現象です。例えば、太陽のような大きな質量は周りの空間を歪め、その歪んだ空間に沿って他の物体(惑星など)が動くため、まるで引き寄せられているように見えるのです。

②Claude 3 Sonnet

一般相対性理論は、重力の正体を時空のひずみとして説明する理論です。大きな質量を持つ物体があると、その周りの時間と空間がゆがみます。このゆがみが、他の物体を引き寄せる力、つまり重力となるのです。この理論により、ブラックホールなどの不思議な現象が説明できるようになりました。

③Claude 3.5 Haiku

重力は時空のゆがみであり、質量が大きいほど時間と空間が曲がり、光さえもその影響を受けます。

④Claude 3 Haiku

一般相対性理論は、時間と空間が相対的であり、重力が曲がった時空の中で生じることを示しています。質量のある物体は時空を歪め、その歪みが重力として現れます。この理論は、ニュートンの重力理論を超えて、宇宙の構造や進化を理解する上で重要な役割を果たしています。

検証結果

総評

  • Sonnetはより詳しく説明文を生成しており、長文でありながら日本語に違和感がありません。Haikuはシンプルで短い文章ながら要点をまとめた文章を生成しています。これは、Sonnetが高度な自然言語処理と深い洞察を提供可能としていることに対してHaikuが短い応答や要約、簡潔な情報提供に特化しているために同じ質問でも回答の文章量に明らかな差が出たのではないでしょうか。
  • 「じゃがいもがホクホクになるまで」「お箸が通る程度の柔らかさ」等の分かりやすい表現があり、より日本語の精度が上がったと感じました。
  • 生成速度はとても早く、質問を入力してからすぐに長文の回答が返ってきます。
  • Claude3とClaude3.5の違いとして
    • レシピの正確性の向上を感じました。日本語の質問で世界的にはメジャーでない和食のレシピのため、創作性が出るのではないかと思っていましたが、Claude3.5ではどちらのモデルもおおよそ正しいレシピを回答しました。Claude3ではどちらのモデルも「追加でのお好みのアレンジ内容」や「最後に塩で味を調える」、「煮汁が少し粘りつくくらいまで煮詰める」等の若干違和感を感じる、生成AIによって創作されたような文章の記述がありますが、Claude3.5には創作を感じるポイントはありませんでした。(Claude 3.5 Haikuについては作り方の違和感はないものの、材料に「水」の記述が不足しています。)
    • 要約能力についても、厳しい文字数制限をした際の差が明らかでした。100字以内という制約に対してClaude3.5では文字数をオーバーしながらも5文字以内に収まっていますが、Claude3ではそれぞれ20文字~30文字オーバーしています。文章を細かく分割せず、必要最低限の分割に留めて無駄をかなり省いた要約ができるようになっています。
  • Claude3.5は質問によっては「必要な情報を持ち合わせていない」と返答することがあり、Claude3と比較すると情報が不足しているものに対して回答を創作で生成してしまう事象が減っているのではないかと感じました。

Claude3とClaude3.5の違い

Claude 3.5 Sonnetの性能

  • 大学院レベルの知能
    大学院生レベルの問題解決能力と質問回答能力を測るテストであるGPQA(Graduate-level Problem-solving and Question Answering)というテストで高得点を記録。大学院レベルの推論能力を持っていることを証明しました。
  • 学部レベルの教養
    科学、数学、人文科学、社会科学など、様々な分野の知識を測るテストであるMMLU(Massive Multitask Language Understanding)というテストで高いスコアを記録。歴史や文学から物理学や経済学まで、幅広いトピックについて的確な情報を提供可能な大学学部レベルの幅広い知識を持っていることが証明されました。
  • プログラミング能力が向上
    HumanEvalというコーディング能力を測るテストで高い成績を収めており、プログラムの問題点を見つけてバグの修正を行う等の精度が向上していますAnthropic社の内部テストでは、Claude 3.5 Sonnetは与えられた課題の64%を解決できており、前モデルのClaude 3 Opusの38%を大きく上回っています。
  • ユーモアや微妙なニュアンスも理解
    皮肉や冗談を理解して適切に反応したり、文脈に応じてフォーマルな話し方とカジュアルな話し方を使い分けられるようになったそうです。
  • 2倍の処理速度
    前モデルのClaude 3 Opusと比べて2倍の速度で動作可能で、リアルタイムでの対話がよりスムーズに行えるようになりました。上記の肉じゃがレシピの質問検証でもあの長文が瞬時に返ってきています。

Claude 3.5 Haikuの性能

  • Claude 3 Haikuと同等の生成速度・コストパフォーマンスを維持
    テキスト中心のタスクが得意で、Claude 3.5 Sonnetには一部の点でスコアが劣るものの、コストパフォーマンスとスピードを重視するうえで適しています。
  • コーディング・数学的タスクに強い
    プログラム合成の能力を評価する「HumanEval」テストでは88.1%のスコア、数学の能力を図る「MATH」ベンチマークでも69.2%のスコアを収めており、プログラミングや数学関連のタスクが優れています。
  • 多言語対応力が強化
    Claude 3 Haikuと比べて多言語対応力が強化されたことにより、さまざまな言語で高いパフォーマンスを実現できるようになっているとのことです。
  • 画像入力機能は後日追加予定とのこと。

新機能

Claude 3.5シリーズで特に注目されている新機能は「computer use」です!
この機能はベータ版ですが、AIが人間と同じようにコンピュータを操作することが可能になりました。

  • 可能な操作例
    • スクリーン表示の確認
    • カーソルの移動
    • ボタンのクリック
    • テキストの入力
    • 基本的なコンピュータ操作

Anthropicでは「computer use」機能について、下記の3つのデモ動画を公開しています。公式youtubeはこちら
1.観光プランの作成
2. 個人サイトを作成・編集(コーディング)
3. 取引先申請フォームの処理(業務自動化)
ただしまだベータ版ですので、現時点で公式より下記通り苦手なことや懸念的があります。

  • スクロール、ドラッグ、ズームなどの基本的な操作が苦手
  • エラーが発生する可能性があり
  • 実験的な段階のため、ローリスクなタスクでの利用を推奨(スパムや詐欺への流用が懸念されているため)

まとめ

より会話の応答が速くなり、長文を出力するようなスムーズにやり取りができるようになった印象です。また、プログラミングの面でも精度が向上しつつあり、ますますの活躍が期待できそうです!
…とはいえ、学習元データに含まれる可能性のあるOSSライセンスの問題がグレーゾーンだったりするので、生成AIのみで商業用のアプリを制作するのはまだ難しいかもしれません。

余談ですが、つい先日アンプラットセミナーにてシステムの利用やプログラミングする際に知っておきOSSライセンスについて詳しく講義しました!
このセミナーの中でAIを用いたプログラミングとOSSライセンスの関係についても一部触れています。

このセミナーのアーカイブ動画を「ANCAT」にて公開しておりますので、詳しく知りたい方は是非「ANCAT」にユーザー登録の上ご覧ください。

Discussion