ClaudeのEvaluate prompts - AIがプロンプトを生成! さらにはテストケースを生成してアウトプットの比較・評価!

2024/07/11に公開

はじめに

先日、Anthropic社から「Evaluate prompts in the developer console」という記事が投稿されて生成AI界隈で話題になっているようです。

どういったものかというと、プロンプトに対してテストケースを生成して、各テストケースに対する生成された回答を評価できる機能です。さらに、プロンプトをバージョン管理して、バージョン間の回答を比較することができます。
https://www.anthropic.com/news/evaluate-prompts
公式のデモ動画は下記。
https://youtu.be/KIGBsQqZcNA

この機能ですが、前提としてClaudeに「プロンプトを生成する機能」があります。
私は知らなく、とても便利な機能だなと思いました。
生成AIの回答精度を左右すると言っても過言ではないプロンプトですが、専門知識が無くても、調べたいことを伝えれば高度なプロンプトを生成してくれる機能です。
この機能も合わせてご紹介できたらと思います!

それでは、順を追って見ていきましょう。

どのようにはじめるか

まずは、プロンプトを生成する機能を表示します。
ClaudeのWeb画面ではなく、Claude APIの画面で使用可能です。

1.ClaudeのWeb画面を開き、左上にある「Claude」をクリックする

2.自身のアカウントが表示されている箇所をクリックする

3.「API Console」をクリックする

4.「Generate a prompt」をクリックする

これで準備ができました!

プロンプトを生成する

1.プロンプト生成のインプットとなる方針を記載して、「Generate Prompt」をクリックする

ちなみに、入力した内容は下記

日本の都道府県の特徴をリストアップする。

都道府県の名称を変数とする。

下記観点でリストアップする。
・平均気温
・月ごとの降水量
・主な観光名所
・おすすめのグルメ

2.プロンプト案が生成された

3.回答が英語で出力されそうな雰囲気だったので、日本語で出力するようにプロンプトを追記して、「Continue」をクリックする

4.するとWorkbench画面に遷移する。変数である「PREFECTURE」をクリックする/

プロンプトを試す

1.変数の具体的な値を入力できるようになるので、「北海道」と入力してみる。「Run」をクリックする

2.回答が生成される

プロンプトを評価する

1.「Evaluate」をクリックする

2.変数と回答が記載されている表が表示される。ドロップダウンをクリックする

3.回答の精度を評価できる

プロンプトの評価に必要なテストケースの回答を生成する

1.「Generate Test Case」をクリックする

2.今回2回「Generate Test Case」をクリックした。テストデータが2行作られた

生成されたテストケースを評価する

1.「Run Remaining」をクリックする

2.それぞれのテストケースに対して回答が生成される

3.各テストケースで評価ができる

プロンプトを変更する

1.「Prompt」をクリックする

2.表形式の方が見やすそうなので、表形式で出力するようにプロンプトを変更する

3.「Run」をクリックする

4.表形式で出力された。また、バージョンが「v1」から「v2」に変わった

バージョンアップ前後を比較して評価する

1.「Evaluate」をクリックする

2.「Add Comparison」をクリックする

3.追加された列のドロップダウンをクリックして、v1を選択する

4.「Run Remaining」をクリックする

5.v2でまだ回答が生成されていないテストケースに対して回答が生成される

6.このように、バージョンアップ前後を比較することができる

さいごに

このツールはClaude API利用者向けの機能ですが、プロンプトをきちんと作って生成AIを活用したい方にとっても有益な機能だと思います。
いろいろなパターンのプロンプトを作って、同じテストケースで生成AIからの回答を比較することができます。
ぜひ、この記事を参考に試してみて頂けると幸いです。

Accenture Japan (有志)

Discussion