Closed17
LiveKit

LiveKitの概要
LiveKitは、リアルタイムの音声およびビデオアプリケーションの構築とスケーリングをサポートするプラットフォームを提供。会話型AI、ロボティクス、ライブストリーミングなどに対応し、低遅延(100ms未満)を実現。主要機能にはリアルタイムのテレメトリー、分析、セッション録画、ノイズキャンセリング、エンドツーエンドの暗号化が含まれ、セルフホスティングも可能でベンダーロックインを避けられる。

Meet Kitt

概要
全体手順 Repo
環境変数
必要なもの
サーバー関連
ElevenLabsやDeepgramは、VoiceAssistantの作成時に指定するなら必要
assistant = VoiceAssistant(
vad=silero.VAD(),
stt=deepgram.STT(),
llm=gpt,
tts=elevenlabs.TTS(),
fnc_ctx=AssistantFnc(),
chat_ctx=initial_ctx,
)
実はOpenAIだけでも完結できそう

ElevenLabs
テキストを自然な音声に変換する高度なテキスト・トゥ・スピーチ(TTS)サービスを提供

Deepgram
Deepgramは音声認識サービスを提供しており、音声をリアルタイムでテキストに変換する機能を持っている

Poetry
poetry init
poetry add livekit-agents livekit-plugins-deepgram livekit-plugins-openai livekit-plugins-elevenlabs
poetry shell
poetry run python minimal_assistant.py download-files
poetry run python minimal_assistant.py dev
環境変数
poetry add python-dotenv
from dotenv import load_dotenv
import os
load_dotenv()
# 環境変数の使用
livekit_url = os.getenv('LIVEKIT_URL')
livekit_api_key = os.getenv('LIVEKIT_API_KEY')
# ... 他の環境変数も同様に

STTについて



openaiでsttしたときにメッセージが重複するissue

STT比較
このスクラップは2024/07/17にクローズされました