🎤

【無料】Amical(アミカル)【音声入力革命】

に公開

AI音声入力ソフトAmical(アミカル)

音声入力ソフトとしてはAquaVoiceが人気ですが、オープンソースで無料で使えるAmicalというプロジェクトがかなり精度が高く高速であったため、紹介させていただきます。

はじめに

テレメトリ設定

Advanced > Annoymous Telemetry データを学習に使用するかの設定がありますので、気になる方はオフにしてください。

Amical 公式ドキュメント

https://amical.ai/docs

https://amical.ai/docs のURLをChatGPTやGeminiに渡して読み込ませれば AIに質問できるのでおすすめです。この記事読まなくていいかもしれません。

基本の使い方

ctrl + win 音声入力(押してる間だけ)

ctrl + win + space 音声入力(手を離せる)

もう一度 ctrl + win + spaceを押すと確定

インストール手順

インストーラーのダウンロード方法

https://github.com/amicalhq/amical/releases 公式サイト(GitHub)にアクセス

Windowsの場合 Amical-0.1.16-beta.5.Setup.exe をクリックしてダウンロード

** Macの場合 ** Appleシリコン搭載 (M1 / M2 / M3 / M4 など) → Amical-0.1.16-beta.5-arm64.dmg Intelプロセッサ搭載 (2020年以前のモデルなど) → Amical-0.1.16-beta.5-x64.dmg

MacでHomebrewを入れている場合は下記

brew install --cask amical

インストーラーを起動するとこんな画面が表示されます

→キャプチャを取り忘れたので、和訳だけ記載しておきます。
Amicalは表示設定は英語のみです。
インストーラは適当にポチポチすればよさそうです。

Amicalへようこそ

体験をパーソナライズするために、興味のある機能を選択してください

コンテキストに応じたディクテーション(音声入力) あらゆるアプリケーションでシームレスな音声文字入力が可能なクイック音声入力

ノート作成 スマートな書式設定により、音声で考えやアイデアを記録

会議の文字起こし (近日公開) 会議や会話を高い精度で録音・文字起こし

音声コマンド (近日公開) ハンズフリーでアプリを操作 — 自然な音声コマンドでタスクを実行

少なくとも1つの機能を選択してください

補足: ここでの選択はセットアップをパーソナライズするためのものです。すべての機能はいつでも利用可能です。

とりあえず「Contextual Dictation」を選んでContinueします

権限の設定

Amicalが正常に動作するには、いくつかの権限が必要です

すべての権限が許可されました 準備完了です!次のステップに進むことができます。

マイクへのアクセス オーディオの録音および文字起こしに必要です

権限が許可されました

→マイク入力の許可を求められるのでOKしてContinue

アンケート (How did you discover Amical?)

「Amicalをどこで知りましたか?」という、ユーザー層を把握するための簡単なアンケートです。

How did you discover Amical?(Amicalをどこで知りましたか?) : ユーザーがどこから来たのかを把握するのに役立ちます。

選択肢の内容 :

Search engine (Google, Bing, etc.) : 検索エンジン(Google、Bingなど)

Social media (Twitter, LinkedIn, etc.) : ソーシャルメディア(Twitter、LinkedInなど)

Friend or colleague recommendation : 友人や同僚からの勧め

Blog post or article : ブログ記事やニュース記事

GitHub : GitHub

AI assistant (ChatGPT, Claude, etc.) : AIアシスタント(ChatGPT、Claudeなど)

Other : その他

→Youtubeで知ったので、ソーシャルメディアにておきます

AIモデルの選択 (Choose Your AI Model)

音声処理を「クラウド」で行うか「自分のPC(ローカル)」で行うかを選びます。

推奨事項 : お使いのシステムスペックに基づき、 Amical Cloud を推奨します。ローカルモデルではパフォーマンスが低下する可能性があります。

Amical Cloud (推奨) : 高速、高精度、無料。セットアップ不要。

メリット : 無料、高速、高精度、設定不要。

デメリット : インターネット接続とログインが必要。

Local Models (ローカルモデル) : プライベート、オフライン、無料。デバイス上で完結。

メリット : 完全なプライバシー、オフライン動作。

デメリット : デバイスの負荷(リソース)を使用。

ヒント : 設定は後から変更可能です。迷ったら、まずは推奨されている「Amical Cloud」を選んで右下の Complete setup to continue (セットアップを完了して続行)をクリックするのがスムーズです。

→Amical Cloudにしときます

サインインを求められたので、登録します

Google認証にしました

セットアップ完了! (Setup Complete!)


これが最終ステップの画面です。

クイック設定 (Quick Configuration)

マイク : 使用するマイクを選択します。現在は「System Default(システム既定)」になっています。

プッシュ・トゥ・トーク (Push to talk) : Ctrl + Win キー。

このキーを押している間だけ音声入力(書き起こし)が行われます。右側の鉛筆アイコンから変更も可能です。

コミュニティに参加 (Join our Community)

Discordに参加して、ヘルプの参照やフィードバックの共有、他ユーザーとの交流ができます。

準備が整いました! (You're All Set!)

プッシュ・トゥ・トークのショートカットを使って文字起こしを開始しましょう。

フローティング・ウィジェットをクリックしてクイックアクセス。

設定(Settings)からさらに詳細なカスタマイズが可能です。

Ctrl + Winで音声入力ができるようです

日本語でしゃべったのに、なんか英語に翻訳されました

Dictationから、Auto Detect Languageをオフにして LanguagesをJapaneseにしました

画面・機能紹介

ノート機能

Amicalのアプリケーションの中にノートを付けられる機能がありますね マークダウンではなくて純粋なテキストのようです

設定 Preferences

Launch at login(ログイン時に起動)

PCにログインした際、自動的にアプリケーションを開始します。

Show widget while inactive(非アクティブ時もウィジェットを表示)

録音していない時でも、画面上にウィジェットを表示したままにします。

Theme(テーマ)

好みのカラースキーム(配色)を選択します。

文字起こし Dictation


ここで言語設定やマイク入力の設定ができます

ショートカットキー Shortcuts

Push to talk(プッシュ・トゥ・トーク)

キーを押している間だけ、音声入力(文字起こし)を行います。

現在のキー: Ctrl + Win

Hands-free mode(ハンズフリーモード)

1回押すと開始し、もう一度押すと停止します。押し続ける必要はありません。

現在のキー: Ctrl + Win + Space

→AquaVoiceと同じように、Spaceでハンズフリーにできるんですね

語彙 ボキャブラリー

ここでは、音声入力で正しく認識させたい独自の単語や、言い換えルールを管理します。

Vocabulary : ディクテーション(音声入力)用のカスタム語彙や単語の置換を管理します。

No vocabulary words found. Add your first word to get started. : 登録された単語はありません。最初の単語を追加して始めましょう。

  • Add Word : 単語を追加するボタンです。

活用法 : 専門用語、社内用語、人の名前など、AIが間違えやすい言葉をここに登録しておくと、文字起こしの精度が上がります。

履歴 History



テキストのコピーができる
音声の録音データを聞くことができる(おもしろい)
音声データのダウンロード
削除

検索機能もあって、自分が過去にしゃべった情報を高速にピックアップできます これもおもしろいですね 色々なことをAmicalでしゃべっておけば、データの蓄積・参照が可能になりそう

高度な設定 Advanced


Preload Whisper Model(モデルの事前読み込み) : スイッチをオンにすると、アプリ起動時にあらかじめAIを準備させておけるので、 音声入力の開始がよりスムーズ になります。

Debug Mode(デバッグモード) : 開発者向けの機能です。オンにすると動作の裏側を詳しく記録しますが、通常はオフで問題ありません。

Auto Updates(自動更新) : 常に最新の機能やセキュリティ修正を受け取れるよう、オンにしておくことが推奨されます。

Anonymous Telemetry(匿名データの送信) : アプリの改善のために、個人を特定しない形で「どの機能が使われたか」などの情報を開発チームに送る設定です。

Data Location(データの場所) : ローカル保存データがどこにあるか表示されています。

Danger Zone / Reset App(初期化ボタン) : 赤い枠内の「Reset App」を押すと、これまでの 履歴や設定がすべて消去 されます。文字通り「危険なエリア」なので、やり直したい時以外は触らないようにしましょう。

About


アプリのバージョン情報や、困ったときの連絡先がまとまっています。

Current Version(現在のバージョン)

現在は v0.1.13 です。まだ開発が始まったばかりの初期バージョンであることが分かります。

Resources(リソース)

Change Log : どんな新しい機能が増えたか、どんな不具合が直ったかの記録を見られます。

GitHub Repository : アプリの設計図(ソースコード)が公開されている場所です。

Discord Community : 他のユーザーや開発者とチャットで質問や意見交換ができる場所です。

Contact(連絡先)

不具合の報告や、直接質問したい場合のメールアドレス(contact@amical.ai)が載っています。

AIモデル

モデル設定画面 AI Models

AIモデルの3つのカテゴリー(Speech、Language、Embedding)について説明します。

1. Speech(音声認識モデル)

音声データをテキストに変換する、アプリのメインエンジンです。

主な役割: マイクから入力された音声を解析し、言葉として書き起こします。

選択できるモデル:

Amical Cloud (推奨): 高速で精度が高く、セットアップ不要で利用できます。

Whisper モデル (Local): OpenAIが開発したモデルで、自分のPC内で処理を行えます。精度重視なら「Medium」、速度重視なら「Tiny」など、スペックに合わせて選択・ダウンロード可能です。

2. Language(言語モデル)


書き起こされたテキストを「より自然な文章」に整えるためのモデルです。

主な役割: 音声認識で得られた生データに対して、文脈(Context)を考慮した句読点の挿入、誤字脱字の修正、要約、フォーマットの整形などを行います。

特徴: Amicalは「コンテキスト・アウェアネス(文脈認識)」を強みとしており、使用しているアプリ(Slackやメールなど)に合わせて書き方を最適化する際にこのモデルが活用されます。

→これは、自分でOpenRouterのAPIキーを登録してトークン払ったら、文脈理解の精度を上げることができるみたいですね。おもしろいです。

3. Embedding(埋め込みモデル)


主に「データの検索」や「知識の関連付け」に使われる特殊なモデルです。

主な役割: 文章をコンピュータが理解できるベクトル(数値の羅列)に変換します。

Amicalでの活用: 過去の文字起こし履歴から必要な情報を素早く検索したり、カスタム語彙(Vocabulary)と文脈を照らし合わせて認識精度を向上させたりするために使用されます。

設定のアドバイス: 通常の文字起こし(ディクテーション)であれば、 Speech タブで推奨されている「Amical Cloud」を選択しておけば、日本語でも高い精度で利用可能です。特定の業界用語などを正しく認識させたい場合は、 Vocabulary 画面で単語を登録しておくと、EmbeddingやLanguageモデルがそれらを考慮して処理してくれるようになります。

Q.AmicalはなぜEmbeggingモデルを採用しているのか?

A.**「Amicalは、あなたの過去の発言のすべてを『記憶』していて、それを踏まえた上で今の音声を文字に変えている」**ということです。

もっと直感的に言うと、Amicalは以下のようなことを裏側でやっています。

1. 「初対面の相手」ではなく「長年の相棒」として聞く

普通の文字起こしツールは、毎回「初対面」の状態です。そのため、あなたの専門用語や独特の言い回しをうまく変換できません。 対してAmicalは、 過去の履歴をすべて「予習」してから 今の音声を聞き取ります。だから、あなたの癖や仕事の内容を理解した状態で変換してくれます。

2. 「空気を読んで」文字にする

あなたが「例の件」と言ったとき、Amicalは過去の記録をサッと振り返って、**「あ、この人は今プロジェクトAのことを話しているんだな」**と判断します。 その「空気感(文脈)」を今の変換に反映させることで、ただの文字起こしではなく、あなたの意図に沿った正しい文章にしてくれるわけです。

3. その「記憶」を自分の手元だけに置く

普通、これだけ賢いことをさせようとすると、データをネット上の大きなサーバー(他社の管理下)に送る必要があります。 しかし、Amicalは**「過去の記憶をあなたのパソコンから一歩も出さない」**という仕組みにこだわっています。だから、安心して「何でも話せる」というわけです。

まとめると: Amicalは、**「あなたの全履歴という『カンニングペーパー』を見ながら、今の話をリアルタイムで清書してくれる、口の堅い専属秘書」**のような動きをしています。

その「カンニングペーパーをサッと読み返す機能」の部品の名前が、設定画面にあった「エンベディング」というだけのことですので、ユーザーとしては**「使えば使うほど、私専用の賢い変換ツールになるんだな」**という理解で間違いありません。

Amicalのフォルダ構成

Amicalはローカル・ファーストということで、データの多くをローカルに保存しているようです。AIにきいてみました。 Amicalのローカルデータ(履歴や設定、音声データ)の保存場所についてですね。Amicalは現在、OSごとに標準的なアプリケーションデータフォルダを使用しています。

データの保存場所(ファイルパス)

Windowsの場合、一般的には以下のパスに保存されています。

Windows: C:\Users\(ユーザー名)\AppData\Roaming\amical-desktop または C:\Users\(ユーザー名)\AppData\Local\amical-desktop

[!TIP] エクスプローラーのアドレスバーに %AppData% と入力してエンターを押し、その中の amical 関連のフォルダを探すと早いです。

保存されている内容

そのフォルダの中には、主に以下のようなデータが入っています。

database フォルダ(または .db ファイル) : ここに「履歴(History)」のテキストデータや、先ほどお話しした「エンベディング(ベクトル化したデータ)」が保存されています。

recordings フォルダ(または audio) : ローカルで録音を保持する設定にしている場合、ここに音声ファイル(.wav や .mp3)が保存されます。

models フォルダ : Whisperなどのローカルモデルをダウンロードした場合は、ここに巨大なモデルファイルが保存されます。

確認のポイント

もし、履歴画面で「ダウンロードボタン」を押した際にこのローカルフォルダ内のファイルが増えるのであれば、**「クラウドから手元のPC(上記のパス)へファイルを移動させた」**ということになります。

逆に、最初からSpeechモデルを Local に設定して録音した場合は、最初からこのフォルダに音声が保存され、クラウドへは一切送信されません。

2. どのファイルに何が入っている?

このフォルダ内にある主要なファイル・フォルダの役割は以下の通りです。

amical.db : これが一番重要なファイルです。ここに、これまでの**「履歴(History)」のテキスト**がすべて保存されています。サイズが68KBあるので、すでにいくつかのデータが記録されているはずです。

models フォルダ : 今後、Whisper(音声認識用)やOllama(言語/埋め込み用)などのローカルモデルをダウンロードすると、ここに保存されます。

Local Storage / Session Storage : アプリの設定状態などが保存されています。

3. 音声データのダウンロードについて

画像 の一覧を見る限り、現時点では recordings のような音声ファイル専用のフォルダが見当たりません。

このことから、以下のことが推測できます:

Amical Cloud を使っているため、音声は解析時にクラウドへ送られ、**「手元のPCにはテキスト(amical.db)だけが残っている」**状態です。

履歴画面で「ダウンロード」ボタンが出るのは、クラウド側にある音声ファイルをこのローカルフォルダに持ってくるための機能だと思われます。

補足

たまに「ご視聴ありがとうございました」が出る

これは音声入力AIモデルである「Whisper」などの音声の学習に Youtubeを使っているかららしいです

Q&A

Q. AquaVoiceは音声入力の時に画面キャプチャも一緒に送信して音声変換に役立てているようですがAmicalにもそういう機能があるのでしょうか?

A. 音声入力のときに画面キャプチャは送信していない。

Q.AquaVoiceには入力した音声がプレビューとしてライブで文字起こしされる機能がありますが、Amicalにもありますか?

A. ない。音声波形がうにょうにょするのはある。今後追加される可能性はある。

Q.Amicalはエンベディックモデルを使用していますがこれはモデル指定をしていなくてもそういった過去の音声変換の文脈を考慮して最新の音声変換をするという機能は発動しているのでしょうか?

A.モデルを自分で指定(設定)していない状態では、過去の履歴をふまえた「文脈による補正」は機能していません。 Amicalの「本当の賢さ」を引き出すには、以下の手順が必要です。

Embeddingモデルを指定する : 過去の履歴をAIが読み取れるようにします。

Languageモデルを指定する : 履歴と今の音声を照らし合わせて「空気を読んだ変換」を行う頭脳をセットします。

→ということでした。指定していない場合でもかなり高精度な変換ができるので、指定したらもっと能力を高めることができるということのようです。これは試してみたいですね。

Discussion