🌟

音声入力アプリは結局どれが良いの?VoiceInk、Aqua 、Superwhisper、Willow Voice、Whisper Flow

に公開

音声入力:speech-to-textアプリを比較する

たくさんあるのでどれ使えばいいかわからないですよね。とはいえ、どのアプリも「ボタンを押して話すと文字起こしされる」という体験においては、正直あまり大きな違いはありません[1]。

私も使用・比較してみましたが、ほとんどのアプリがカスタムプロンプト、ユーザー辞書などの機能を持っており、精度も申し分ないという印象でした。固有名詞の聞き取り性能や速度に若干の違いはあるものの、そこまで気になることもなかったため、細かい点での比較がメインとなります。

主要音声入力・文字起こしサービス比較

項目 VoiceInk Aqua superwhisper Willow Voice Whisper Flow
無料プラン Trial: 7日間の全機能トライアル、1デバイスのみ Starter: 1,000単語まで、Aqua Engine、カスタム辞書(5個) Free: 基本的な音声入力、会議録音・文字起こし Trial: 2,000単語まで、リアルタイム文字起こし Flow Basic: 2,000単語/週、高速音声入力、辞書登録機能
主な有料プラン Personal / Extended Pro / Team Pro Individual Flow Pro / Flow Teams
料金体系 Personal: $19 (買い切り) / Extended: $29 (買い切り) Pro: $8/月 (年払) / Team: $12/月 (年払) 月額: $8.49 / 年額: $84.99 / 買い切り: $249.99 月額: $15 Pro: $15/月 / Teams: $12/ユーザー/月
主な機能 買い切り型、オフライン処理(Local AI)、プライバシー重視、複数デバイス対応(Extended) カスタム指示でAIをチューニング、チームでの設定共有、新機能への早期アクセス 独自のAPIキー利用可、他言語⇒英語への翻訳、音声/動画ファイルの文字起こし AIによる自動編集・フォーマット、ユーザーの文体・語調を学習、コンテキスト認識 コマンドによる編集、モバイル利用(近日)、エンタープライズ向け機能(SOC 2, SSO等)
特徴 プライバシーを重視するMacユーザー向けの買い切りソフト チーム利用やAIの高度なカスタマイズをしたいユーザー向け 多機能性(翻訳・ファイル文字起こし)と柔軟な支払いプランを両立 文章作成の効率と質を最大限に高めたいライターやクリエイター向け 高度な編集機能や法人での利用を求めるユーザー向け
返金保証 14日間 - 30日間 - -
公式サイト tryvoiceink.com withaqua.com superwhisper.com willowvoice.com wisprflow.ai

※Gemini 2.5 proで生成しました

VoiceInk

ローカルだけで動作し、なんといっても価格が魅力。買い切り19ドルです。ただしMac限定です。
速度・精度とも素晴らしく、外部LLM APIを使用するとカスタム指示などで文字起こし形式を自由に制御できます[2]。7日間の無料トライアル期間で全機能へアクセスできるので、気軽に試せるのも良いところですね。

https://tryvoiceink.com

Aqua Voice

文字起こしが高速なことで人気です。
無料ではトライアルとして1000文字までしか使用できませんが、無制限アクセスは月額8ドルと、サブスクの中では最安値です。
録音中はストリーミングで文字起こしが生成されている様子が見え、最初は便利そうと思ったのですが、機能的には聞き取れているかどうかさえ分かれば十分(ストリーミングは必須ではない)かなと感じました。見た目は好きです。

https://withaqua.com

Superwhisper

月額8.49ドルで、買い切りは249.99ドルです。
学生のメールアドレスを持っていれば149ドルまで割り引かれます。
ロードマップとして、文字起こしだけにとどまらずエージェントの方向に進んでいるという話がありました[9]。今後が楽しみですね。

https://superwhisper.com

Willow Voice

月額15ドルとお高めです。
(おそらく英語では)広範なトピックを理解でき、あらゆるケースに対応できる[10]との評判ですが、個人的には日本語での文字起こし性能は他のものと比べて同程度という印象でした。

https://willowvoice.com

Flow Voice

こちらも月額15ドルとお高めです。
ただし、他のアプリが一つの言語ディクテーションに対応しているのに対して、このアプリのみバイリンガルに優しい唯一のディクテーションアプリらしく、同じ文内で異なる言語の使用を認識して正確に文字起こしができる[11]ようでした。マルチリンガルさんにはおすすめかも知れません。
私の環境ではレスポンスが他のものより遅く、そこが気になりました。

https://wisprflow.ai/integrations

比較してみた

以下の文章を読み上げて、すべてのアプリで比較しました(n=1)

最尤推定(さいゆうすいてい)は、観測データに対する尤度(ゆうど)を最大化するが、過学習(かがくしゅう)を招きやすい。
そのため、L1正則化(えるわんせいそくか)やL2正則化(えるつーせいそくか)を導入し、モデルの複雑性にペナルティを課す手法が用いられる。
VoiceInk(Large v3 Turbo Q)
規定は観測データに対する誘導を最大化するが、科学習を招きやすい。
そのため、L1生息化やL2生息化を導入し、モデルの複雑性にペナルティをかす手法が用いられる。 
Aqua
Io推定は観測データに対する誘導を最大化するが、価格収益を招きやすい。
そのため、L1生息化やL2生息化を導入し、モデルの複雑性にペナルティを課す手法が用いられる。
Superwhisper(Standard)
最有推定は観測データに対する誘導を最大化するが化学習を招きやすい。
そのためL1 生息化やL2 生息化を導入し、モデルの複雑性にペナルティを活用し方が持ち入られる。
Willow
最優推定は観測データに対する誘導を最大化するが、価格集を招きやすい。
そのため、L1生息化やL2生息化を導入し、モデルの複雑性にペナルティを貸す方法が用いられる。
Flow
左右推定は、観測データに対する誘導を最大化するが、学習を招きやすい。
このため、L1生息化やL2生息化を導入し、モデルの複雑性にペナルティを課す手法が用いられる。

総評

発音の問題もあるかもしれませんが、完全一致するものはありませんでした。
最尤推定や正則化は辞書登録しておくといいかもしれませんね。

まとめ

私はメイン用途がAIのプロンプト文字起こしなので、精度より速さ・マルチリンガルは不要と考え

  • VoiceInk(価格破壊)
  • Aqua(シンプルさ、見た目が好き)

を推していきます

参考文献

[1] AI効率を加速させる音声AIサービス4選を徹底比較!結果どれがいいの?SuperWhisper/Aqua Voice/Willow Voice/Wispr Flow

全サービスを検証した中での感想としては、操作性はSuper Wisper以外の3サービスともボタンを押してる間にしゃべったものが入力されるというシンプルUIだったので、正直変わりはないという印象でした。Super Wisperのみモードの切り替えの手間と起動スピードが少し遅い印象ですが、できる機能幅を考えたらかなり優秀な印象です。

[2] 【AI活用術】この音声入力アプリ「VoiceInk」マジでおすすめ!!3,000円買い切りで精度も申し分ない!マジでおすすめ!!
https://www.youtube.com/watch?v=ImZB3R0UE_8

[3] Opensourcing VoiceInk: Alternative to Superwhisper and Wispr Flow

VoiceInk is currently:

  1. Free (Open Source, build yourself) or cheap One-Time-Payment (it's up to you if you want to support the developer)
  2. It works offline, on your device.
  3. Has more features.
  4. Very fast and stable development.

[4] Github VoiceInk Repository
https://github.com/Beingpax/VoiceInk

[5] Build your own Dictation App with VoiceInk Source Code

[6] Building VoiceInk

[7] SuperWhisper vs VoiceInk

Voiceink is free just download source and build it with Xcode and ask gpt to remove trial. It is open source and the dev recommended this way when I talked to him.If you want you can pay to support the project.

[8] 技術的保護手段の回避と権利制限規定の関係

技術的保護手段が施されている著作物等については,その技術的保護手段により制限されている複製が不可能であるという前提で著作権者等が市場に提供しているものであり,技術的保護手段を回避することによりこのような前提が否定され,著作権者等が予期しない複製が自由に,かつ,社会全体として大量に行われることを可能にすることは,著作権者等の経済的利益を著しく害するおそれがあると考えられるため,このような,回避を伴うという形態の複製までも,私的使用のための複製として認めることは適当ではないと考えられる。

[9] Build your own Dictation App with VoiceInk Source Code

I find VoiceInk to be every bit as capable as Super Whisper, but in a fraction of the cost for a lifetime license. I don't know if its future roadmap will be the same as Super Whisper, which appears to be moving in the direction of an agent.

[10] Swimming in AI Dictation Apps - Suggestions?

On macOS, my top recommendation is Willow. It delivers the best comprehension across accents, tones, and speaking speeds, and the AI post-processing is intelligent and readable without sounding artificial. It handles everything from technical and scientific topics to casual speech with ease.

[11] Mac Dictation Still Sucks, What Are You All Using Instead?

But I'm stuck with Wispr Flow for now, because out of everything I've tried, Wispr Flow is the only dictation app that is truly bilingual-friendly. Everything else only supports one language per dictation, Wispr Flow is able to recognise the use of different languages within the same dictation/sentence and transcribe accurately (probably with cloud processing).

Discussion