🤖

文字起こしサービスを作って1年公開した結果

2023/12/14に公開

この記事は個人開発 Advent Calendar 2023 14日目の記事です。

こんなサービスを作りました。
https://transcription.homisoftware.net/index.html

Whisperすごい

2022/9にwhsiperが公開されました。
無料とは考えられない精度で文字起こしをしてくれます。
https://github.com/ggerganov/whisper.cpp/tree/master
ですが、残念な事にLinuxを扱えないと使えないので、一般ユーザーは無料の恩恵を受けられません。
単純にWeb Api経由でWhisperを動かしてユーザーに公開するのは難しいです。whisperはマシンリソースを食うので、高スペックなサーバーを用意する必要があり、無料で公開するには自己犠牲が高くなってしまいます。
また、whisperに対応する音声形式に変換する前処理も必要になり、サーバー側のリソース消費量がとにかく大きくなってしまいます。

一般ユーザーに無料で公開する方法を思いついた

whsiperffmpegをWebAssembly形式でwebブラウザで実行してしまおう。
そうすれば、すべての処理がwebブラウザ内で完結するから、処理に必要なリソースはユーザー端末から使う事ができます。
これなら、サーバーは静的ファイルを配信するだけなので無料で公開できそうです。

使ってもらうためにした事とか妄想

まず、ユーザーの人物像を考えました。
汎用性はありそうなので人物像をパソコンを毎日使うエンジニアではない職種の人たちにしました。
人物像のカバー範囲は広そうだし、無料だし、外部に音声ファイルをアップロードしないからセキュアなので、使う側はメリットしかなくね?これいけんじゃね?と思いました。
ウキウキで実装しました。

LPもなんかそれっぽい感じにしてみました。
1年くらい放置してユーザーが増えたら広告収入でがっつり稼ごうと思っていました。

1年公開して放置した結果


まったく使ってもらえませんでした。
機能がうんぬんの前に認知されていません。
数人のユーザーは私のtwitterから飛んできた人だと思います。

冷静に考えた問題点

ユーザーの流入経路を考えなかった事

良いものを作ればGoogleがいい感じに検索上位に上げてくれないかなあと淡い期待をしていました。
その期待は裏切られました。

文字起こし中に何もできない問題

whsiperとffmpegはマシンリソースを食います。
営業職、事務職が使っているマシンはメモリ8G程度で破滅的にマシンリソースがたりません。
そんなマシンで文字起こしを動かすと数時間何もできなくなります。
業務時間外で動かせば問題ないですが、業務時間外にマシンを動かしていても良い会社って多くないですよね。

信用問題

すべての処理をブラウザ内で完結しているので、音声ファイルが外部に漏れる事ありません。
ですが、そもそもよくわからんサイトで機密情報を使おうと思うんだろうか?
開発者ツールの通信ログを見れば安全なのは確認できますが、エンジニアでもなければそんな所見ないですよね。

おわりに

認知されないサービスほど悲しいものはないですね。
認知される以前に色々と問題はありますが。

最後までご覧いただきありがとうございました。
完成したコードはこちらです。
https://github.com/ritogk/transcription

GitHubで編集を提案

Discussion