🤔
AIにタスクを依頼する時、手順指示の有無と日本語・英語の違いを比較した
ここ最近、仕事 / プライベート問わず、AI(GPT)にタスクを依頼することが多くなりました。指示をする際は基本的には日本語ですが、「英語の方が精度が上がる」や、「手順指示をした方が精度が上がる」などの情報をチラッとみたことがあったので、軽い実験をしてみました。
概要
今回の実験では、AIに対して「ブログに載せる1000単語の英語の文章を書いて」という指示を与え、生成された文章の単語数をカウントして、その精度を比較しました。
実験方法
以下の条件で実験をしました。
対象のモデル
gpt-4o-mini-2024-07-18
比較方法
以下の方法でプロンプトを投げて、出力された英文の単語数の精度を比較しました。
- プロンプト:日本語、手順指示:あり
- プロンプト:日本語、手順指示:なし
- プロンプト:英語、手順指示:あり
- プロンプト:英語、手順指示:なし
プロンプトの内容
日本語の手順指示ありプロンプト(手順指示なしverは、4行目と### 手順のブロックを削除)
(json部分の「\」はエスケープ代わり)
ブログに投稿する英語の文章を書いてください。
文章は1000単語で作成してください。
単語は、スペースで区切られたものを1つとして数えます。
文章作成の際は #手順 に従って作成してください。
### 手順
1. 文章を作ります。
2. 文章の単語数を数えます。
3. 単語数が1000単語になるまで、単語を追加したり、削除したりして調整します。
4. 単語数が1000単語になったら、文章を出力します。
### 出力形式
\```json
{{
"content": "作成した文章"
}}
\```
英語の手順指示ありプロンプト(手順指示なしverは、4行目と### 手順のブロックを削除)
(json部分の「\」はエスケープ代わり)
Write an English text for a blog post.
The text should be **1000 words** long.
Each word is counted as a single unit, separated by spaces.
Create the text according to the **#Procedure** below.
### **Procedure**
1. Write the text.
2. Count the number of words in the text.
3. Add or remove words as needed to adjust the word count to exactly **1000 words**.
4. Once the text reaches **1000 words**, output the final version.
### **Output Format**
\```json
{{
"content": "Generated text"
}}
\```
単語の数え方
出力されたJSONの"content"の内容を以下のサイトに貼り付けて、「単語数」を参照しました。
結果
結果は以下の通りでした。
#列が出力回数、2列目以降の表内の数字が単語数です。
# | 英語+手順指示なし | 英語+手順指示あり | 日本語+手順指示なし | 日本語+手順指示あり |
---|---|---|---|---|
1 | 1046 | 982 | 861 | 862 |
2 | 976 | 1021 | 899 | 871 |
3 | 990 | 910 | 1039 | 847 |
4 | 949(232)※ | 985 | 964 | 893 |
5 | 1001 | 879 | 903 | 879 |
6 | 1031 | 952 | 903 | 899 |
7 | 988 | 958 | 911 | 964 |
8 | 943 | 889 | 855 | 925 |
9 | 894 | 966 | 871 | 881 |
10 | 1090 | 877 | 1005 | 831 |
平均 | 990.8(919.1) | 941.9 | 921.1 | 885.2 |
意外な結果が出ました。最も1000単語に近い結果が得られたのは、なんと英語で手順指示なしという条件でした。英語の方が精度が高いのは情報通りでしたが、手順指示は無い方が日本語、英語共に精度が上がっていました。
結論
この結果から、AI、少なくともgpt-4o-miniに対してタスクを依頼する際には、英語+手順指示なしの方が望ましい結果が得られる可能性が高いことが分かりました。ただし、外れ値の除外や再実行が必要な場合もあるため、その点も考慮する必要があります。
※補足
英語の手順指示なし条件で出力された文章の中に、一回だけ、232単語しかない結果がありました。これは外れ値として除外して再度実行しました。
Discussion