完全ローカル運用で安心!WhisperとLM Studioを使った音声認識&AI活用入門
📚 この連載の記事一覧
- 医療AIを使う前に知るべき大前提:“リージョン”と個人情報保護の基本ガイド
- 医療AIを安全に導入!Azure OpenAIで始めるカルテ作成と音声認識のやさしい設定ガイド
- はじめての Google Cloud:AIを日本国内だけで安全に使うためのやさしい設定ガイド
- 完全ローカル運用で安心!WhisperとLM Studioを使った音声認識&AI活用入門
この記事は「医療×AI」連載の第4回です。
前回までは、Google Cloud や Azure を使った「クラウド連携でのAI活用」をご紹介しました。
今回は、個人情報を外に出したくない方向けに、
すべてローカルネットワーク内で完結できるAI構成を Whisper + LM Studio を中心にわかりやすく解説します。
第4章:Whisper + LM Studio で始めるローカル音声認識とLLM活用
ここまで、AzureとGoogle Cloudを使って、日本国内にデータをおいて、ガイドラインや法令を遵守しながらAIサービスを活用する方法を説明してきました。
ですが、すべてをローカルで完結できれば、それが究極の個人情報保護になるのではないでしょうか。
(API使用料も気にせず使えますしね!)
第4章では、ローカルで音声認識とLLMを動かす方法を解説します。
LLMは少しハードルが高いですが、音声認識は実用レベルのものが実装できるかもしれません。
Whisper / Faster Whisper の API サーバーを立てるには?
Whisper や Faster Whisper をローカルで使いたい場合、OpenAI 互換 API を提供する Docker コンテナを使うことで、手軽に導入できます。
おすすめは以下の2つです:
① speaches(旧 faster-whisper-server)
- OpenAI API(
/v1/audio/transcriptions
)と互換性あり。 - なので、カルテメイト2号とも接続して使用できるはずです(未検証です)
- GPU/CPU 両対応で、ローカルでも高速。
- Docker Compose 一発で立ち上がる。
起動方法(CPU 版):
curl -O https://raw.githubusercontent.com/speaches-ai/speaches/master/compose.cpu.yaml
docker compose -f compose.cpu.yaml up -d
② whisper-asr-webservice
- faster-whisper をベースにした REST API サーバー。
- Swagger UI が付いており、ブラウザからも試せる。
-
docker run
一発で起動可能。
起動方法(GPU 版):
docker run -d --gpus all -p 9000:9000 \
-e ASR_ENGINE=faster_whisper \
-e ASR_MODEL=large-v3 \
onerahmet/openai-whisper-asr-webservice:latest-gpu
どちらも、OpenAI の公式 API クライアントや curl でそのまま音声ファイルを送信できます。
例えば:
curl -X POST http://localhost:8000/v1/audio/transcriptions \
-H "Authorization: Bearer dummy" \
-F model=base \
-F file=@sample.wav
これにより、完全ローカルで Whisper の高精度な音声認識を活用できます。
カルテメイト2号から使用する場合は、「http://localhost:8000/v1/audio/transcriptions」などを
設定欄に入力してください。
カルテメイト1号での導入方法
弊アプリ「カルテメイト1号」は、Faster Whisperを簡単に導入できるWindowsアプリです。Windowsストアからダウンロードできます。
インストール手順
- Windowsストアを開き、「カルテメイト1号」で検索します。
- 「入手」ボタンをクリックしてインストールします。
- インストール後、アプリを起動し、初期設定を行います。使用するfaster whisperのモデルは、設定画面から簡単に切り替えられるほか、必要に応じて話者分離も可能です。
ローカルLLMを実行するためのアプリケーション「LM Studio」とは?
LM Studioは、ローカルで大規模言語モデル(LLM)を実行できるソフトウェアです。
Ollamaも有名ですが、インターフェイスがあり、初心者の方でもとっつきやすいのはLM Studioかと思います。
どちらもLLM実行のベースになっているのは、llama.cppという共通のシステムです。
Whisperで音声をテキスト化した後、そのテキストをLM Studioで実行されるLLMに入力することで、要約や文書作成などが可能になります。
LM Studioの導入方法
LM Studioは、ローカルで大規模言語モデルを実行できるソフトウェアです。以下に、LM Studioの導入手順を示します。
- LM Studioの公式サイトからインストーラーをダウンロードします。
- インストーラーを実行し、画面の指示に従ってインストールします。
- インストール後、LM Studioを起動し、使用したい言語モデル(LLM)を選択してダウンロードします。
- ダウンロードしたモデルを、ロードします。
- Whisperで変換したテキストをLM Studioに入力し、要約や文書作成を行います。
✅ 実行するパソコンのスペックが高いほど、高性能なモデルが使用できます。個人的に期待しているのは、Qwen3シリーズですが、まだ未検証です。
使用するLLMの選び方と最新動向(2025年5月時点)
LLM(大規模言語モデル)は、基本的に「モデルサイズが大きいほど高性能」という傾向があります。ただし、大きなモデルほどマシンスペックも要求されます。
その対策として、**量子化(Q4_K_M〜Q5_K_Mなど)**がよく使われ、計算負荷を抑えつつ精度を保つバランスが取れる方法として定評があります。
さらに最近は、MoE(Mixture of Experts)型のモデルも注目されています。たとえば Qwen3-30B-A3B は30Bパラメータを持ちながら、実際の推論では3Bほどしか使わないため、低負荷で高性能です。
また、モデルの進化スピードも非常に速く、数週間〜数ヶ月単位で新しい高性能モデルが登場しています。2025年5月現在では Qwen3シリーズ が高性能なことで話題になっています。
ローカルLLMを試す際は、PCの性能と目的にあったモデルサイズ・量子化形式・構造を選ぶと良いでしょう。興味がある方はぜひ最新情報を調べてみてください。
カルテ作成に耐えるモデルがあれば、私も情報共有するつもりです。
まとめ
WhisperやFaster Whisperを使用することで、音声データを高精度でテキスト化できます。
さらに、LM Studioを組み合わせることで、テキストの要約や文書作成が可能になります。
これらのツールをローカル環境で使用することで、個人情報を外部に送信することなく、安全にAI技術を活用できます。
ぜひ、これらのツールを活用して、日々の診療や文書作成を効率化してください。
カルテメイトのご紹介
カルテメイト1号:
簡単に Faster Whisper サーバーを立てられる Windows アプリです。
Windows ストアで見る
カルテメイト2号:
各種 LLM や文字起こしサービスを活用して、カルテや文書作成を効率化する Windows アプリです。
Windows ストアで見る
ご意見・ご相談はこちらへ
X (旧Twitter) @medrecmate へお気軽にDMどうぞ 📨
Discussion