🐼

【毎日生成AIでサービス開発100】13日目開発した音声通話サービスのアーキテクチャやこだわり編🎣

ハイランド髙原

2025/06/05に公開

Next.js

WebRTC

音声認識

記事投稿コンテスト「TypeScriptでやってみた挑戦・学び・工夫」

ミウラニュアン

idea

 自己紹介ユアスタンド株式会社のプロダクトマネージャー、髙原と申します。

 企画趣旨生成AIを使ったサービス開発を題材に100日連続で記事を書こうシリーズ13日目。

これは2025/06/03ぶんの記事です。

 今回の取り組み全3回[1]に分けて、Cursorで開発した自作の音声通話サービスを紹介します。

今回は3回目、いよいよ最後です。
ミウラニュアン

https://miuranuan.vercel.app/

 アーキテクチャ

 1.Vercel言わずと知れたホスティングサービス。GitHubを連携するだけでデプロイしてくれます。

 1-1.React + Next.js今回初めてReact、並びにNext.jsに触れました。(ProviderやuseEffectの習得は骨が折れた)

フロントエンドとバックエンドの両方をVercelにホスティングしています。
1ファイルにロジックとフロントエンドを混在させるため、コンポーネント分割などのリファクタリングがしんどかったです。

 1-2.WebRTC特にライブラリなど入れずに生(?)で実装しました。

後述のシグナリングサーバーとの通信用にWebSocketを使っています。
OfferとAnswerの扱い方を今回完全に理解しました。

 1-3.TailwindCSSビルトインされているCSSクラスが非常に強力なフレームワーク。

しかも実際に使われているクラスしか出力しないので比較的軽量らしい。

 1-4.Web Speech APIブラウザにビルトインされている音声認識のクラス SpeechRecognition()を使っています。

止めたいときに止まらない、再開したいときに再開しない、そんな扱いにくさを感じることも。でもなかなかの精度。

 1-5.Web Audio APIブラウザにビルトインされている音声操作のAPI群です。

ミウラニュアンのトップ画面ではいきなりマイクの入力ONを求められますが、このときマイクの音声を無数のバーで表現しています。

またルーム画面のボイスチェンジャーもこちらで実装しています。

 2.Renderサーバーロジックのホスティングサービス。

Node.js製のサーバーを立てています。(WebRTCにおけるシグナリングサーバー)
ちなみにルーム情報はこのサーバーのメモリだけで管理しています。

無料プランでは5分間アクセスが無いとサーバーが停止されてしまう。仕方ないね

 3.SupabaseデータベースSaas。

会話履歴をログとして記録しています。

 次回こだわり解説編をお送りします。(3回で終わらなかった…)

脚注
概要と経緯編、使い方ガイド編、アーキテクチャやこだわり解説編、を予定しています。 ↩︎

Yourstand BlogPublication

自己紹介

企画趣旨

今回の取り組み

アーキテクチャ

1.Vercel

1-1.React + Next.js

1-2.WebRTC

1-3.TailwindCSS

1-4.Web Speech API

1-5.Web Audio API

2.Render

3.Supabase

次回

Discussion