Amazon Bedrock and LangChain Workshopを使って、Claude2と2.1を比較する
Amazon Bedrock and LangChain Workshopとは
10月に、AWSが公開しているBuilding with Amazon Bedrock and LangChain Workshopを使って、Bedrockの社内勉強会とハンズオンを実施しました。
このワークショップ、Bedrockの基本的な使い方だけでなく、LangChainやStreamlitのコーディング、プロンプトエンジニアリングの基礎からClaude独自の文法まで学べる、かなりイケてるものです。Bedrockを学ぶすべての方におすすめです。
注意点として、2023/12/9時点では、Workshopは英語版のみです。よって、ワークショップ中のプロンプトは基本的に英語で指定されています。
ワークショップは、us-west-2 (Oregon)リージョンか、us-east-1 (N. Virginia) リージョンを利用するとwork bestするとドキュメントに記載があります。
また、Bedrockの特徴である、AWS独自のFoundational Model(以下、FM)に加えて3rd PartyのFMも選択して利用できる点を考慮し、ワークショップのコンテンツによって複数のFMが使い分けられています。
ワークショップを実行中、プロンプトを日本語に書き換えて実行すると、利用しているモデルによっては不自然なアウトプットが返ってきたり、そもそもアウトプットが得られないケースがあります。
日本語のプロンプトを利用したい場合は、FMとしてAnthropic社のClaudeを利用するよう、LangChainのコードを書き換える方がよいです。
Claudeを利用するよう、LangChainを書き換える
簡単です。
例えば、ワークショップのLab F-3: Intro to LangChainでは、FMとしてAI21 Labs社のJurassic-2が使われています。
llm = Bedrock( #create a Bedrock llm client
credentials_profile_name=os.environ.get("BWB_PROFILE_NAME"), #sets the profile name to use for AWS credentials (if not the default)
region_name=os.environ.get("BWB_REGION_NAME"), #sets the region name (if not the default)
endpoint_url=os.environ.get("BWB_ENDPOINT_URL"), #sets the endpoint URL (if necessary)
model_id="ai21.j2-ultra-v1" #set the foundation model
)
Claude 2を利用する場合は、model_idを"anthropic.claude-v2"
に変更します。
llm = Bedrock( #create a Bedrock llm client
credentials_profile_name=os.environ.get("BWB_PROFILE_NAME"), #sets the profile name to use for AWS credentials (if not the default)
region_name=os.environ.get("BWB_REGION_NAME"), #sets the region name (if not the default)
endpoint_url=os.environ.get("BWB_ENDPOINT_URL"), #sets the endpoint URL (if necessary)
model_id="anthropic.claude-v2" #set the foundation model
)
モデルにパラメータを与えることもできますが、省略するとデフォルト値が利用されます。
FM毎に利用できるパラメータとデフォルト値はAWSのドキュメントを参照下さい。
Claude 2.1の場合は"anthropic.claude-v2:1"
に変更します。
model_idに指定可能なIDは、AWS CLIでaws bedrock list-foundation-models
を実行することで確認できます。
$ aws bedrock list-foundation-models --region us-east-1 | grep "modelId"
"modelId": "amazon.titan-tg1-large",
"modelId": "amazon.titan-image-generator-v1:0",
"modelId": "amazon.titan-image-generator-v1",
"modelId": "amazon.titan-embed-g1-text-02",
"modelId": "amazon.titan-text-lite-v1:0:4k",
"modelId": "amazon.titan-text-lite-v1",
"modelId": "amazon.titan-text-express-v1:0:8k",
"modelId": "amazon.titan-text-express-v1",
"modelId": "amazon.titan-embed-text-v1:2:8k",
"modelId": "amazon.titan-embed-text-v1",
"modelId": "amazon.titan-embed-image-v1:0",
"modelId": "amazon.titan-embed-image-v1",
"modelId": "stability.stable-diffusion-xl",
"modelId": "stability.stable-diffusion-xl-v0",
"modelId": "stability.stable-diffusion-xl-v1:0",
"modelId": "stability.stable-diffusion-xl-v1",
"modelId": "ai21.j2-grande-instruct",
"modelId": "ai21.j2-jumbo-instruct",
"modelId": "ai21.j2-mid",
"modelId": "ai21.j2-mid-v1",
"modelId": "ai21.j2-ultra",
"modelId": "ai21.j2-ultra-v1",
"modelId": "anthropic.claude-instant-v1:2:100k",
"modelId": "anthropic.claude-instant-v1",
"modelId": "anthropic.claude-v1:3:18k",
"modelId": "anthropic.claude-v1:3:100k",
"modelId": "anthropic.claude-v1",
"modelId": "anthropic.claude-v2:0:18k",
"modelId": "anthropic.claude-v2:0:100k",
"modelId": "anthropic.claude-v2:1:18k",
"modelId": "anthropic.claude-v2:1:200k",
"modelId": "anthropic.claude-v2:1",
"modelId": "anthropic.claude-v2",
"modelId": "cohere.command-text-v14:7:4k",
"modelId": "cohere.command-text-v14",
"modelId": "cohere.command-light-text-v14:7:4k",
"modelId": "cohere.command-light-text-v14",
"modelId": "cohere.embed-english-v3",
"modelId": "cohere.embed-multilingual-v3",
"modelId": "meta.llama2-13b-chat-v1:0:4k",
"modelId": "meta.llama2-13b-chat-v1",
"modelId": "meta.llama2-70b-chat-v1:0:4k",
"modelId": "meta.llama2-70b-chat-v1",
"modelId": "meta.llama2-13b-v1:0:4k",
"modelId": "meta.llama2-13b-v1",
"modelId": "meta.llama2-70b-v1:0:4k",
"modelId": "meta.llama2-70b-v1",
Claude 2.1の変更点
Claude 2.1の主な変更点としては、以下の5点が挙げられています。
- 業界をリードする 200,000 トークンのコンテキストウィンドウ (Claude 2.0 の 2 倍)
- ハルシネーション発生率の低減
- 長いドキュメントの精度の向上
- システムプロンプト
- 関数呼び出しとワークフローオーケストレーションのためのベータツール使用機能を利用
参考: Amazon Bedrock で Anthropic の Claude 2.1 基盤モデルの一般提供を開始
では、ワークショップを題材にClaude 2と2.1の挙動の変化を確認してみましょう。
ワークショップコンテンツの実行結果比較(Claude 2, Claude 2.1)
簡単なプロンプト
Lab F-4: Inference parametersは、Python実行時の引数として「モデルID」と「プロンプト」を渡す仕様になっています。
10月にハンズオン勉強会を開催した時はサンプルコマンドとしてJurassic-2しか書かれていなかった記憶がありますが、現在ではClaude 2.1を利用するサンプルコマンドも記載されています。
python params.py "anthropic.claude-v2:1" "Human:Write a haiku\n\nAssistant:"
Claude 2.1での実行結果(プロンプトは英語)。
Here is a haiku I wrote for you:
Leaves float gently down
Autumn breeze whispers softly
Nature's beauty shines
プロンプトを日本語に修正してみます。
python params.py "anthropic.claude-v2:1" "Human:俳句を書いて下さい。\n\nAssistant:"
Claude 2.1での実行結果(プロンプトは日本語)。
はい、俳句を作ってみましょう。
雪の朝を
鳥の声高く
飛び立つ
季語に「雪の朝」を使い、鳥の活発な様子を表現してみました。自然の景色や季節の移ろいをテーマにしたり、意外性やユーモアを取り入れたりして、俳句らしい表現を心がけました。ご意見いただければ幸いです。
モデルをClaude 2に変更してみます。
python params.py "anthropic.claude-v2" "Human:俳句を書いて下さい。\n\nAssistant:"
Claude 2での実行結果(プロンプトは日本語)。
はい、俳句を作ってみます。
春の日や
木々の芽吹き
生命溢れる
季語「春の日」「芽吹き」を使って、春の訪れと自然の生命力についての俳句を詠みました。自然の美しさと生命の循環を短いフレーズで表現できる俳句は素晴らしいと思います。この俳句が季節の移ろいを感じ取っていただけたら幸いです。
シンプルなプロンプトなので、五七五になってない点含めて大きな違いはありませんが、若干Claude 2の方が俳句っぽい感じがします。
ちなみに、試しにAmazon Titanさんにお願いしてみましょう。
python params.py "amazon.titan-text-express-v1" "俳句を書いて下さい。:"
Sorry, this model is only accessible for English only applications. Please consider revising your content to be in English.
Amazon Qのような冷たい回答が返ってきました。
RAG(Retrieval-Augmented Generation)
アウトプットの内容に大きな違いが現れるのはRAGです。
Lab B-4: Retrieval-Augmented Generationを題材にします。
RAGのベクトルDBはインメモリ型のFAISSを利用します。
LangChainのRecursiveCharacterTextSplitterでPDFドキュメントをチャンク化し、ベクトルデータをFAISSに読み込むかたちになっています。
PDFのソースはおそらくAmazon社のInvestor Relationsサイトにあるこちら。
まず、ワークショップコンテンツではFMとしてJurassic-2が使われていますので、Claude 2に書き換えます。
変更前
def get_llm():
model_kwargs = { #AI21
"maxTokens": 1024,
"temperature": 0,
"topP": 0.5,
"stopSequences": [],
"countPenalty": {"scale": 0 },
"presencePenalty": {"scale": 0 },
"frequencyPenalty": {"scale": 0 }
}
llm = Bedrock(
credentials_profile_name=os.environ.get("BWB_PROFILE_NAME"), #sets the profile name to use for AWS credentials (if not the default)
region_name=os.environ.get("BWB_REGION_NAME"), #sets the region name (if not the default)
endpoint_url=os.environ.get("BWB_ENDPOINT_URL"), #sets the endpoint URL (if necessary)
model_id="ai21.j2-ultra-v1", #set the foundation model
model_kwargs=model_kwargs) #configure the properties for Claude
return llm
変更後
def get_llm():
model_kwargs = { #Claude
"max_tokens_to_sample": 1024,
"temperature": 0.5,
"top_k": 250,
"top_p": 1,
"stop_sequences": ["\n\nHuman:"]
}
llm = Bedrock(
credentials_profile_name=os.environ.get("BWB_PROFILE_NAME"), #sets the profile name to use for AWS credentials (if not the default)
region_name=os.environ.get("BWB_REGION_NAME"), #sets the region name (if not the default)
endpoint_url=os.environ.get("BWB_ENDPOINT_URL"), #sets the endpoint URL (if necessary)
model_id="anthropic.claude-v2", #set the foundation model
model_kwargs=model_kwargs) #configure the properties for Claude
return llm
Streamlitのサンプルアプリを起動し、プロンプトを与えてみます。
What are some key initiatives for the company?
Claude 2 + RAGの回答(プロンプトは英語)
Based on the context provided, some key initiatives for the company seem to be:
Expanding into new international markets, particularly in Africa. The context mentions investing to launch in new countries across parts of Africa as a growth opportunity.
Developing new long-term customer experiences and products in areas like live sports, audio, and grocery. The context talks about continuing to invent and work on long-term customer experiences in these areas.
Reviewing existing businesses and programs and deciding where to invest resources versus cut back or eliminate certain efforts. The context describes an evaluation process where they looked at each business and program to decide if it had long-term potential and where to focus resources.
Embracing change and responding to shifts in the business landscape. The context emphasizes being open to change and adapting when needed.
So in summary, key initiatives seem to revolve around geographic expansion, developing new customer offerings, evaluating where to allocate resources, and being adaptive to change. Let me know if you need any clarification!
このアウトプットですが、中身怪しいですね。
アウトプットには"Expanding into new international markets, particularly in Africa."と書かれていますが、PDFの中身を読むと
"we’ve invested in new international geographies, including India, Brazil, Mexico, Australia, various European countries, the Middle East, and parts of Africa.
https://ir.aboutamazon.com/annual-reports-proxies-and-shareholder-letters/default.aspx
とあるので、アフリカを含めたGeographic locationsも含めて投資してきた、という回答であるべきです。
また、アウトプットの"Developing new long-term customer experiences and products in areas like live sports, audio, and grocery. The context talks about continuing to invent and work on long-term customer experiences in these areas."ですが、
PDFの中身からすると
We also see future opportunity to thoughtfully integrate advertising into our video, live sports, audio, and grocery products.
https://ir.aboutamazon.com/annual-reports-proxies-and-shareholder-letters/default.aspx
と書かれているので、live sports, audio, and grocery関連事業における広告出稿の強化、と明記してほしいです。
英語でこの結果なので心配になりますが、日本語でプロンプトを与えてみましょう。
会社の主な取り組みは何ですか
Claude 2 + RAGの回答(プロンプトは日本語)
この文脈から判断すると、会社の主な取り組みは以下のようです:
長期的な顧客体験を構築し、顧客と会社の両方に意味のある影響を与えること。新しい投資機会を評価する際に、大きな規模と適切な投資収益率が可能か、顧客ニーズが満たされているか、差別化されたアプローチがあるか、能力があるかどうかを問うこと。
事業ごとに詳細なレビューを行い、各イニシアチブの長期的な収益性と投資収益率を評価すること。
コスト構造の合理化に取り組み、社員に少なくとも週3日はオフィスで働くことを要請すること。
顧客、コミュニティ、ビジネスにとっての課題に対処すること。
長期的な成長のために、大規模な既存事業に集中するだけでなく、継続的に新しいことに取り組むこと。
以上が、この文脈から判断できる会社の主な取り組みです。
少なくともRAGを参照し、それっぽい日本語ですが、かなりざっくりとした回答になってしまいました。
RAGに利用しているデータが英語ですので、英語⇒日本語の変換も行う必要があるため、精度が落ちている可能性があります。
では、Claude 2.1を利用すると結果はどうなるでしょうか?
model_idを"anthropic.claude-v2:1"
に修正して保存します。
model_id="anthropic.claude-v2:1", #set the foundation model
英語で質問。
What are some key initiatives for the company?
Unfortunately, I do not have enough context in the passages provided to definitively state the key initiatives for the company. The passages discuss various aspects of the company's business, including closing some physical store concepts, eliminating certain roles, reviewing business performance across the company, expanding geographically into parts of Africa, and investing in AWS and other areas. However, there is no clear statement of what the company's key initiatives or priorities are moving forward. Without more direct information stating their key initiatives, I do not feel comfortable speculation on that. I'd need more explicit information from the company on what they view as their most important strategic priorities going forward.
使っているRAGは同じですが、「コンテキストが不十分なのではっきりとしたことはわからん」と回答するようになりました。このあたりが、Claude 2.1の 「ハルシネーション発生率の低減」 の影響を受けている可能性があります。
では日本語では?
会社の主な取り組みは何ですか
申し訳ありませんが、与えられた文章の中に会社の主な取り組みについての明確な記述は見つかりませんでした。文章はAmazonの事業戦略について述べていますが、会社の主な取り組みに焦点を当てた部分は見当たりません。従って、この質問に答える十分な情報が文章の中にないようです。会社の主な取り組みについては不明です。
同様に、情報が不十分なのでわからん、と回答してきました。
質問を変えてみる。
会社の主な事業戦略は何ですか
申し訳ありませんが、与えられた日本語の文脈から会社の主な事業戦略を特定することはできません。文脈はAmazonのCEOによる手紙の英語の抜粋であり、事業戦略について詳細に述べられている部分がある一方で、主な戦略を1つに絞って述べている箇所は見つけることができませんでした。会社の事業拡大の方向性や投資判断の基準などについて説明があるものの、主要な戦略が何であるかは不明です。ご質問の答えを特定できないことをお詫び申し上げます。
ぐぬぬ。
これではどうか。
会社の主なビジネス戦略は何ですか
申し訳ありませんが、与えられた文脈から会社の主なビジネス戦略を特定するのは難しいです。文脈にはAmazonのさまざまなビジネスや投資についての説明がありますが、明確なビジネス戦略についての記述は見つかりませんでした。「分からない」と答えるべきだと思います。ご質問の趣旨を正しく理解できていない可能性もありますので、もし他に情報があれば教えていただけると助かります。
めちゃめちゃ慎重です。
hallucinationを起こすくらいなら「わからんものはわからん」とcompletionを組み立てる方に比重が強く置かれるようになったと感じます。
ハルシネーションを減らす上では良いアップデートですが、Claude 2ベースでRAGを利用していたシステムのモデルをClaude 2.1に切り替えると、以前はほどよく回答してくれていた質問に対して、「情報が足りないため回答できません」と無慈悲に返される可能性があります。
最後におことわり
今回テストしたPromptとCompletionはほんの一部なので、モデル比較はもっと多面的且つ自社の要件にあった軸とデータで検証が必要です。
Amazon Bedrock and LangChain Workshopのコンテンツは生成AIを活用したアプリ開発の参考になる情報が豊富に含まれているので、ぜひ多くの方々に試していただきたいです!
Discussion