Source

AI Voice Agents: Automation with Vapi, ElevenLabs, n8n & MCP

章・セクション情報

Section 2: Technology Fundamentals & How Voice Agents Work(47分) Lecture 10: Which Models Fit the Setup - LLMs, TTS, STT

内容・要約

STT LLM TTSの流れにおけるAIモデルの選定基準と推奨モデルについて解説されている。

モデル選定の3つの基準

AIモデルを選ぶ際の主要な基準は、Speed(速度)、Accuracy(精度)、Cost(コスト)の3つである。

STTモデルの推奨

STTモデルとしては、Deepgram、ElevenLabs、Azureが推奨される。ただし、Azureには若干のレイテンシがあることが指摘されている。

LLMモデルの推奨

LLMモデルとしては、OpenAIのminiモデル、またはGeminiのFlashモデルが推奨される。OpenAIのminiモデルを使用する場合、ボイスエージェントではreasoningパラメータを高く設定しないことが推奨される。音声でのやり取りにおいて、ユーザーを長く待たせることは体験として好ましくないためである。

TTSモデルの推奨

TTSモデルとしては、ElevenLabsとAzureが推奨されるが、その中でもElevenLabsがベストとされている。

Realtimeモデル

realtimeモデルについても、実際のやり取りを通じて紹介されている。推奨されるのはOpenAIのgpt-4o-realtimeモデルだが、コストが非常に高いことが注意点として挙げられている。