🩺

完全ローカル運用で安心！WhisperとLM Studioを使った音声認識＆AI活用入門

2025/05/06に公開

📚 この連載の記事一覧
医療AIを使う前に知るべき大前提：“リージョン”と個人情報保護の基本ガイド
医療AIを安全に導入！Azure OpenAIで始めるカルテ作成と音声認識のやさしい設定ガイド
はじめての Google Cloud：AIを日本国内だけで安全に使うためのやさしい設定ガイド
完全ローカル運用で安心！WhisperとLM Studioを使った音声認識＆AI活用入門
この記事は「医療×AI」連載の第4回です。

前回までは、Google Cloud や Azure を使った「クラウド連携でのAI活用」をご紹介しました。
今回は、個人情報を外に出したくない方向けに、

すべてローカルネットワーク内で完結できるAI構成を Whisper + LM Studio を中心にわかりやすく解説します。

 第4章：Whisper + LM Studio で始めるローカル音声認識とLLM活用ここまで、AzureとGoogle Cloudを使って、日本国内にデータをおいて、ガイドラインや法令を遵守しながらAIサービスを活用する方法を説明してきました。

ですが、すべてをローカルで完結できれば、それが究極の個人情報保護になるのではないでしょうか。

(API使用料も気にせず使えますしね！)
第4章では、ローカルで音声認識とLLMを動かす方法を解説します。

LLMは少しハードルが高いですが、音声認識は実用レベルのものが実装できるかもしれません。

 Whisper / Faster Whisper の API サーバーを立てるには？Whisper や Faster Whisper をローカルで使いたい場合、OpenAI 互換 API を提供する Docker コンテナを使うことで、手軽に導入できます。
おすすめは以下の２つです：

 ① speaches（旧 faster-whisper-server）
OpenAI API（/v1/audio/transcriptions）と互換性あり。
弊アプリ「カルテメイト２号」とも接続して使用できるはずです(未検証です)
GPU／CPU 両対応で、ローカルでも高速。
Docker Composeで起動しますが、dockerに馴染みがない方にはとっつきにくいかもしれません。
起動方法（CPU 版）:
curl -O https://raw.githubusercontent.com/speaches-ai/speaches/master/compose.cpu.yaml
docker compose -f compose.cpu.yaml up -d

 ② whisper-asr-webservice
faster-whisper をベースにした REST API サーバー。
Swagger UI が付いており、ブラウザからも試せる。

docker run 一発で起動可能。
起動方法（GPU 版）:
docker run -d --gpus all -p 9000:9000 \
  -e ASR_ENGINE=faster_whisper \
  -e ASR_MODEL=large-v3 \
  onerahmet/openai-whisper-asr-webservice:latest-gpu
どちらも、OpenAI の公式 API クライアントや curl でそのまま音声ファイルを送信できます。

例えば：
curl -X POST http://localhost:8000/v1/audio/transcriptions \
     -H "Authorization: Bearer dummy" \
     -F model=base \
     -F file=@sample.wav
これにより、完全ローカルで Whisper の高精度な音声認識を活用できます。

弊アプリ「カルテメイト２号」から使用する場合は、「http://localhost:8000/v1/audio/transcriptions」などを

設定欄に入力してください。

 カルテメイト1号を使った導入例（参考情報）Windows Store弊アプリ「カルテメイト1号」では、簡単にFaster Whisper のローカルサーバーを構築できます。

興味がある方は検索してみてください。

 ローカルLLMを実行するためのアプリケーション「LM Studio」とは？LM Studioは、ローカルで大規模言語モデル（LLM）を実行できるソフトウェアです。

Ollamaも有名ですが、インターフェイスがあり、初心者の方でもとっつきやすいのはLM Studioかと思います。

どちらもLLM実行のベースになっているのは、llama.cppという共通のシステムです。
Whisperで音声をテキスト化した後、そのテキストをLM Studioで実行されるLLMに入力することで、要約や文書作成などが可能になります。

 LM Studioの導入方法LM Studioは、ローカルで大規模言語モデルを実行できるソフトウェアです。以下に、LM Studioの導入手順を示します。
LM Studioの公式サイトからインストーラーをダウンロードします。
インストーラーを実行し、画面の指示に従ってインストールします。
インストール後、LM Studioを起動し、使用したい言語モデル(LLM)を選択してダウンロードします。
ダウンロードしたモデルを、ロードします。
Whisperで変換したテキストをLM Studioに入力し、要約や文書作成を行います。
✅ 実行するパソコンのスペックが高いほど、高性能なモデルが使用できます。個人的に期待しているのは、Qwen3シリーズですが、まだ未検証です。

 使用するLLMの選び方と最新動向（2025年5月時点）LLM（大規模言語モデル）は、基本的に「モデルサイズが大きいほど高性能」という傾向があります。ただし、大きなモデルほどマシンスペックも要求されます。

その対策として、**量子化（Q4_K_M〜Q5_K_Mなど）**がよく使われ、計算負荷を抑えつつ精度を保つバランスが取れる方法として定評があります。

さらに最近は、MoE（Mixture of Experts）型のモデルも注目されています。たとえば Qwen3-30B-A3B は30Bパラメータを持ちながら、実際の推論では3Bほどしか使わないため、低負荷で高性能です。

また、モデルの進化スピードも非常に速く、数週間〜数ヶ月単位で新しい高性能モデルが登場しています。2025年5月現在では Qwen3シリーズ が高性能なことで話題になっています。

ローカルLLMを試す際は、PCの性能と目的にあったモデルサイズ・量子化形式・構造を選ぶと良いでしょう。興味がある方はぜひ最新情報を調べてみてください。

カルテ作成に耐えるモデルがあれば、私も情報共有するつもりです。

 まとめWhisperやFaster Whisperを使用することで、音声データを高精度でテキスト化できます。

さらに、LM Studioを組み合わせることで、テキストの要約や文書作成が可能になります。

これらのツールをローカル環境で使用することで、個人情報を外部に送信することなく、安全にAI技術を活用できます。
ぜひ、これらのツールを活用して、日々の診療や文書作成を効率化してください。

 ご意見・ご相談はこちらへX (旧Twitter) @medrecmate へお気軽にDMどうぞ 📨

第4章：Whisper + LM Studio で始めるローカル音声認識とLLM活用

Whisper / Faster Whisper の API サーバーを立てるには？

① speaches（旧 faster-whisper-server）

② whisper-asr-webservice

カルテメイト1号を使った導入例（参考情報）

ローカルLLMを実行するためのアプリケーション「LM Studio」とは？

LM Studioの導入方法

使用するLLMの選び方と最新動向（2025年5月時点）

まとめ

ご意見・ご相談はこちらへ

Discussion