Source
AI Voice Agents: Automation with Vapi, ElevenLabs, n8n & MCP
章・セクション情報
Section 2: Technology Fundamentals & How Voice Agents Work(47分) Lecture 10: Which Models Fit the Setup - LLMs, TTS, STT
内容・要約
STT → LLM → TTSの流れにおけるAIモデルの選定基準と推奨モデルについて解説されている。
モデル選定の3つの基準
AIモデルを選ぶ際の主要な基準は、Speed(速度)、Accuracy(精度)、Cost(コスト)の3つである。
STTモデルの推奨
STTモデルとしては、Deepgram、ElevenLabs、Azureが推奨される。ただし、Azureには若干のレイテンシがあることが指摘されている。
LLMモデルの推奨
LLMモデルとしては、OpenAIのminiモデル、またはGeminiのFlashモデルが推奨される。OpenAIのminiモデルを使用する場合、ボイスエージェントではreasoningパラメータを高く設定しないことが推奨される。音声でのやり取りにおいて、ユーザーを長く待たせることは体験として好ましくないためである。
TTSモデルの推奨
TTSモデルとしては、ElevenLabsとAzureが推奨されるが、その中でもElevenLabsがベストとされている。
Realtimeモデル
realtimeモデルについても、実際のやり取りを通じて紹介されている。推奨されるのはOpenAIのgpt-4o-realtimeモデルだが、コストが非常に高いことが注意点として挙げられている。