ソフトウェアが発する音からの文字起こしアプリ(Whisper使用・MicrosoftStore公開)作ったた!
概要
文字起こしソフト(AuText)を作りました。完全にどっからどうみてもn煎じです。
あと、Microsoft Storeで公開しました。
こちらストアページ(Microsoft Store)です。
こちらホームページです。
何を作った!?
文字起こしソフト(無料)を作りました。
「ソフトウェア(プロセス)」「マイク」「音声ファイル」から文字起こしが出来るという代物です。
シンプルなデザインを意識して、インストール・アンインストール簡単なものを意識しました。
なお、私の体質が、ローカルに動いてくれない(パソコン内で処理してくれない)と爆死する体質なので、外部クラウドサービスなどは使用してません。(しんじゃうぅぅ~~)
何で作った?
某氏が、「文字起こしソフトを作った!」と仰っていた。
で、以前途中まで作ってとある要件が達成できず投げ出したソースコードがあったので、「これで需要あるなら、ワイも作ってみるかぁ~」となった次第です。
とある要件って何?
本来は、ゲームしながら、リアルタイムに文字起こしして翻訳してくれるソフトを作りたかったです。
でも、リアルタイムに文字起こしとなると、パソコンスペックを食い、とてもではないが、ローカルでのリアルタイム文字起こしは難しい。(翻訳も同様)
なので、外部のクラウドサービスを利用するのが、最適なのですが……
「ぶっちゃけ、めんどくさいっっっぃいいいい!!!!!」となったです。なぜ面倒くさいのかというと、クラウドサービスを利用するということは、大体の場合、従量課金制で、支払いが発生します。
従量課金制ということは、使用回数を数えないといけません。でも、クライアントのパソコンは、信用できないので、開発側がクッションとしてサーバを設けて、そこからクラウドサービスにリクエストを投げる必要があります。
で……「サーバつくるのめんんどぉおおおおおおおおおお!!!!!サーバ管理もめんどぉぉおおおおおおお!!!」となった。
以上です。
何を使っている?
- 言語:C#
- GUI:WinUI3
- 文字起こしアルゴリズム:whisper
- 文字起こし:whisper.cpp
- 文字起こしC#ラッパー:whisper.net
- 音関係:NAuido
NAuidoには、プロセスから音を取得する機能はありません。なので、NAuidoを改造して作りました。ウェーイ!
プロセスからの音の取得については、以前記事作ったので、どうぞ見てください。
凄く言い忘れてたのですが、Windows11以降の限定機能(プロセスから音取る機能)を使っていまして、Windows10だと動かないかもしれません。
嘘言いました、すみません。
「Windows10 21H2 19044.2846」(Windows11ではありません)では、動作を確認しています。
小まめにWindowsをアップデートしてあれば、動くと思います。
2年以上アップデートしていない人については…ちょっと分からないですね…
どこでソフトを公開してますか?
MicrosoftStoreで公開しました!やったぜ☆
苦労した点はありますか?
ないです。強いて言えば、
- 生の音データ(自前の音取得)とNAuido(音変換)とWinUI3(音表示)とWhisper(文字起こし)間で、上手くデータのやり取りが出来ず、憤死
- データのメモリ解放が上手くできず、C#がちょっと嫌いになった(やっぱりメモリ関係ならこだわれるC++が良き・逆に言うと安全ではあるが…GCが…)
というぐらい。
今後の開発予定は?
こんな感じですね。
タイムライン機能は、必須だと思うので、さっさと作ります。
リアルタイム文字起こしは…、正直に言うと、私のパソコンのスペックが低すぎて、リアルタイムに処理できないので、かなり後回しになるかもです。
後、動画が流し込まれた時は、動画に字幕を張り付けてエクスポートするとか、考えています。
オワリ
皆様、よろしくお願いいたします。
というかさ…「お前、マジでミニアプリ作ってないで、12月に言ってた『コミュGameNews』を作れよwwwアホかwwww」とか言われそう…すまない。
Discussion