🎙️

AIエージェントへの指示は日英二言語出力が良いかも?superwhisper使いが考える、音声入力とAIへの指示

に公開

最近、Claude DesktopやClaude Codeの大きな波が来ていますよね。

中には、以下のような記事を読み、superwhisperなどの音声入力アプリと組み合わせて利用されている方もいらっしゃるかもしれません。
https://zenn.dev/hokuto_tech/articles/86d1edb33da61a

自分もClaude Codeとsuperwhisperを組み合わせて、音声入力でAIへの指示を出しているのですが、最近読んだ『LLMのプロンプトエンジニアリング』に記載された内容を元に考えると、日英二言語での指示が最もAIフレンドリーとなりそうに思えたので、その考察を共有しようと思います。

少しでも参考になれば幸いです。

そもそもsuperwhisperって?

superwhisperについて知らない人もいるかと思うので、紹介しますと、
AIを利用した文字起こしアプリです。
https://superwhisper.com/

無料でも利用することができ、有料版にすると、以下の機能を含むいくつかの機能が使えるようになります。

  • 任意の言語から英語への翻訳
  • より精度の高いAIモデルの利用

AIツール活用の現状

私が働くHOKUTOでは、AIツールの導入が積極的に進められており、今までに

  • Cursor
  • CodeRabbit
  • Devin
  • Claude Code

などのツールが導入されています。

その他にもAIに関する知見の共有が積極的に行われており、「AIに対する指示は日英二言語で出すと効率が良い」という話が共有されたこともありました。
ただし、その内容を十分に検証する時間が取れなかったため、その話を採用することもなく、日本語で話した内容を日本語で文字起こししてAIに指示を出す、ということを行っていました。

『LLMのプロンプトエンジニアリング』から学んだこと

そんな中、「Claude Codeの実装計画とその実装が期待通りに進まない問題」に遭遇し、LLMについて、より大本の部分から理解する必要に迫られ、『LLMのプロンプトエンジニアリング』を読んだ結果、以下のことを学びました。

  • LLMはtokenを繰り返し予測し、直近に出力したtokenに依存する形で次のtokenを予測する
    (自己回帰的)
    • つまり、最初の指示に誤字や不明瞭な表現が含まれると、その影響はその後の生成すべてに及ぶ
    • そのため、明後日の方向に向かって突き進むこともしばしば起こる

      LLMとプロンプトエンジニアリング p.31

superwhisperと認識精度

さて、その学びを得た上で自分のsuperwhisperとClaude Codeの連携を振り返ると、
superwhisperのmodes設定のうち、superという選択中のアプリの文脈に基づいた文字起こしをしてくれるモードを選択していたため、体感85-90%の精度で文字起こしはできている状態でしたが、
意図しない内容も送られてしまう状態でした。

そのため、superwhisperから文字起こしされる内容を改善することで、LLMの文脈把握の精度が向上すると考え、この問題に取り組むことにしました。

二言語出力の検証実験

さて、前置きが長くなりましたが、superwhisperの設定を変更(後述)し、入力した内容を日本語と英語で出力するようにしたのが以下の文です。
(ちなみに、内容としては、この件についてClaude Desktopに相談した際の内容です)

<読み上げた文章>
すみません、文脈の取り違いが発声したようです。
私がやりたいテストというのは、そもそもこの入力自体がAIに向けたものなので、
Claude Desktop、あなた自身が日本語のみのバージョンと、日本語バージョンと英語両方を合わせて理解した場合に、
どのように理解に差が生じるのかっていうところを返してほしいです。
<日本語での文字起こし>
すみません、文脈の取り違いが発生したようです。
私が持ちたテストというのは、そもそもこの入力自体がAIに向けたものなので、
クロードデスクとあなた自身が日本語のみのバージョンと英語のみのバージョンを、
日本語のみのバージョンと英語、日本語両方を合わせて理解した場合にどのような理解に差が生じるのかっていうところを返してほしいという依頼です。
<英語での文字起こし>
Sorry, it seems there has been a misunderstanding of the context.
The test I’m referring to is actually intended for AI from the beginning.
Specifically, my request is for you (and Claude Desk) to compare how understanding differs between analyzing a Japanese-only version, 
versus analyzing a version that includes both Japanese and English. I’d like you to show me how your comprehension changes depending on whether you’re provided with just the Japanese, or both combined.

いかがでしょうか。
3つの内容を見比べると、日本語の文字起こしより英語の文字起こしのほうが
意味が取りやすいのではないでしょうか。

なぜ英語出力のほうが精度が高いのか

ここからは完全に自分の推測となりますが、主に以下の2つの理由があると考えられます。

(日本語と比較して)英語の文法の厳格さ

日本語と英語を比較すると、英語は「語順の制約が強い」「主語が省略できない」など、日本語より文法上の制約が強いと考えられます。
したがって、「入力された内容」「文法」という2つを遵守した上で文章を生成しようとすると、後者の縛りの強さのために、結果が一意に定まりやすいのではないか、というのが1つめの理由です。

学習データの質と量の違い

LLMのトレーニングデータにおいて、英語と日本語の占める割合は前者が圧倒的に多くなるため、英語のほうが精度が出やすいのではないか、というのが2つめの理由です。

二言語出力するための設定

さて、ここまで説明してきた、二言語設定の方法ですが、superwhisperに課金し、
PresetをBlankに設定、

そしてCustom Instructionsに以下の内容を設定するだけです。

You are a professional bilingual transcription assistant specializing in Japanese-English conversion.

INSTRUCTIONS:
1. First, transcribe the Japanese audio input with complete accuracy
2. Format the Japanese text with proper:
   - Punctuation (。、!?)
   - Paragraph breaks for clarity
   - Kanji/kana balance for readability

3. Then provide a high-quality English translation that:
   - Sounds natural to native English speakers
   - Preserves the original intent and nuance
   - Uses appropriate cultural adaptations where needed

OUTPUT FORMAT:
=== 日本語 ===
[Transcribed and formatted Japanese text]

=== English ===
[Professional English translation]

QUALITY STANDARDS:
- Accuracy: Preserve all information from the original
- Naturalness: Translations should not sound "translated"
- Consistency: Maintain consistent terminology throughout
- Context-awareness: Adapt based on formal/casual register

SPECIAL HANDLING:
- Technical terms: Research and use industry-standard translations
- Company/product names: Keep original or use official English names
- Cultural references: Add brief context if needed for clarity
- Numbers and dates: Format according to target language conventions

まとめ

superwhisperを用いた文字起こしは細かい制御が可能なため、
Claude DesktopといったAI相手の指示を行う場合は二言語出力を行い、
それ以外のケースでは日本語出力を行うようにするのが良いのではないか、と感じました。
良いLLMライフを!

HOKUTO Tech Blog

Discussion