🙄
AIに日本語と英語の指示でコンテキストサイズ削減効果を確認してみた
これはなに?
今週、CLAUDE.mdを英語で書いた方がコンテキストサイズが削減出来てコスト的にメリットが〜というのを見たので検証
検証手順
- サンプルの日本語の指示のToken数をカウントする
- サンプルを英語に訳してその指示のToken数をカウントする
- 念のため、英訳を日本語に訳してその指示のToken数をカウントする
- 1~3のToken数を比較
- メリット・デメリット
指示は 適当にこれ https://github.com/classmethod/tsumiki/blob/main/commands/kairo-requirements.md
Token数のカウントに利用するのは https://platform.openai.com/tokenizer
翻訳は Claude Sonnet4 を利用する
検証
- サンプルの日本語の指示のToken数 3,326Token
- 英語に訳した指示のToken数 2,253Token
- 英語を日本語に訳したToken数 3,257Token
4.Token数比較表
項目 | Token数 | 差分 |
---|---|---|
1. サンプルの日本語の指示 | 3,326 Token | - |
2. 英語に訳した指示 | 2,253 Token | -1,073 Token |
3. 英語を日本語に訳した指示 | 3,257 Token | -69 Token |
分析
- 日本語→英語:約32%のToken削減(1,073 Token減)
- 英語→日本語(再翻訳):元の日本語より約2%のToken削減(69 Token減)
- 翻訳効率:英語版は日本語版の約68%のToken数で同等の内容を表現
英語にするメリット・デメリット
日本語と比較して 32%のToken削減効果がある(今回の文書では)
なので削減効果はそれなりにある
英語化するとしたら以下の点が検討ポイントになりそう
- チーム内の人が英語で指示を書く事が出来るか
- 誰かが変更したいと思ったときにも英語で指示を変更できるかどうか
tsumikiを触っていると指示Tokenの量よりもClaude Codeが参照するコード等の総量の方がtoken数に強く影響を与えている気がするので、「指示を英語で書きましょう」とするよりも、みんなが指示を改善できる構成(=そのチームの標準言語)で書いた方が良いのでは?って思った
Discussion
英語でやった方がいいと分かってはいても、現実結構厳しいですよね、、、ユーザーは日本語で入れるけど裏では全部英語でLLMにはIN/OUTする仕組みが出来れば良いなと思いつつ、中々難しいですよね、、、