⏲️

iPhoneのボイスメモをWindowsでWhisperによって自動文字起こしするバッチ処理

に公開

はじめに

iPhoneの「ボイスメモ」アプリで録音した音声ファイル(.m4a)をWindowsパソコンに転送し、OpenAIが提供する音声認識ツール「Whisper」を用いて自動的に文字起こしを行う手順について詳しく解説します。本記事では、PythonとWhisperの導入方法、バッチファイルを活用した音声処理の自動化、ならびにファイル転送の工夫やトラブルシューティングの基本も含め、Windows環境で完結できる構成を紹介します。


前提環境

本記事の手順を実行するために、以下の環境や条件が整っていることを確認してください。

  • Windows 10 または 11 がインストールされたPC
  • Python 3.8以降がインストールされていること(Miniconda環境での導入を推奨)
  • ffmpegがインストール済みであること(Whisperが音声を処理する際に必要)
  • PowerShell または バッチファイル(.bat)の基本的な実行方法に慣れていること
  • Whisperの実行にGPUは不要ですが、CPU処理では音声長に応じて時間がかかる可能性があります

PythonとWhisperのインストール手順

Pythonの導入(Minicondaを使用)

WhisperはPythonベースのライブラリなので、まずPythonの実行環境を構築する必要があります。Windowsでの推奨手段は、環境構築が簡単な Miniconda を使用する方法です。

  1. 上記リンクから、Windows向けのMinicondaインストーラ(64-bit版)をダウンロードしてインストールします。
  2. インストール後、スタートメニューから Anaconda Prompt を開き、次のコマンドを順に入力します:
conda create -n whisper-env python=3.10 -y
conda activate whisper-env

このコマンドで whisper-env という仮想環境が作成され、そこでPython 3.10が利用可能になります。

Whisperとffmpegのインストール

仮想環境がアクティブになっている状態で、以下のコマンドを順に実行してWhisperとffmpegをインストールします:

pip install -U openai-whisper
conda install -c conda-forge ffmpeg

このステップを終えると、whisper コマンドが仮想環境内で使用可能になります。音声ファイルの変換や読み込みにはffmpegが必要なので、忘れずに導入しましょう。


音声ファイルの転送方法

iPhoneの「ボイスメモ」アプリで録音されたファイルは、通常AirDropを使ってMacに送信しますが、WindowsではAirDropが使えないため、以下のいずれかの方法でファイルをPCに取り込みます:

  • iCloud Drive 経由で共有し、PCからWebブラウザでダウンロードする
  • 自分宛にメールで送信し、添付ファイルをPCで保存する
  • USBケーブルで接続し、iTunesまたはファイル共有アプリを利用して取得
  • または、OneDriveやGoogle Driveなどのクラウド経由でも可能です

音声ファイルは .m4a 形式で保存されますが、Whisperは .mp3.wav にも対応しているため、他形式でも問題ありません。


最小構成のバッチファイル(1ファイル処理)

以下のような .bat ファイルを作成し、対象の音声ファイル(例:voicememo.m4a)と同じフォルダに保存して、ダブルクリックで実行します。

@echo off
cd /d %~dp0
whisper "voicememo.m4a" --model medium --language Japanese
pause

このスクリプトは、現在のバッチファイルのあるディレクトリに移動し、Whisperで音声ファイルを処理してテキストに変換します。pause コマンドは、結果を確認できるようコマンドプロンプトの画面を停止させるためのものです。

注意:whisper コマンドが PATH に通っていない場合は、フルパス(例:C:\Users\YourName\miniconda3\envs\whisper-env\Scripts\whisper.exe)を指定してください。


実行結果と保存場所

  • 変換された .txt ファイルは、元の .m4a ファイルと同じディレクトリに保存されます。
  • Whisperの設定によっては、.json.srt.vtt 形式の字幕ファイルも同時に出力されることがあります。
  • 出力先を変更したい場合は、--output_dir オプションで指定することも可能です。

おわりに

本記事では、Windows環境でWhisperを使ってiPhoneの音声を文字起こしするための手順を、Python環境の構築からバッチファイルを使った実行まで包括的に解説しました。

この手法を使えば、日常のメモや会議記録、インタビューなどの音声を簡単に文字データとして整理できます。バッチファイルにより手作業を大幅に減らすことができ、生産性向上にもつながります。

Discussion