tapon

<h1 id="whisper%E3%81%AE%E3%83%AA%E3%83%9D%E3%82%B8%E3%83%88%E3%83%AA" data-line="0" class="code-line">
<a class="header-anchor-link" href="#whisper%E3%81%AE%E3%83%AA%E3%83%9D%E3%82%B8%E3%83%88%E3%83%AA" aria-hidden="true"></a> Whisperのリポジトリ</h1>
<p data-line="2" class="code-line">READMEにインストール手順が書いてある<br style="display:none">
<span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__d665fc96ba816" src="https://embed.zenn.studio/card#zenn-embedded__d665fc96ba816" data-content="https%3A%2F%2Fgithub.com%2Fopenai%2Fwhisper" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://github.com/openai/whisper" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/openai/whisper</a></p>


<h1 id="python%E3%81%A7%E6%96%87%E5%AD%97%E8%B5%B7%E3%81%93%E3%81%97%E3%81%99%E3%82%8B" data-line="0" class="code-line">
<a class="header-anchor-link" href="#python%E3%81%A7%E6%96%87%E5%AD%97%E8%B5%B7%E3%81%93%E3%81%97%E3%81%99%E3%82%8B" aria-hidden="true"></a> Pythonで文字起こしする</h1>
<p data-line="2" class="code-line">使いたいモデルをロードして、音源のパスを指定して文字起こしを実行する<br>
<code>result["text"]</code>には文字起こしされたテキストが1行で格納されている</p>
<div class="code-block-container"><pre><code class="code-line" data-line="5">import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])
</code></pre></div><p data-line="13" class="code-line"><code>result["segments"]</code>にはセグメント情報が格納されている</p>
<div class="code-block-container"><pre><code class="code-line" data-line="15">for segment in result["segments"]:
    # セグメントの開始時間、終了時間も格納されている
    print(f"[{segment['start']} - {segment['end']}]: {segment['text']}\n")
</code></pre></div>