Source

AI Voice Agents: Automation with Vapi, ElevenLabs, n8n & MCP

章・セクション情報

Section 2: Technology Fundamentals & How Voice Agents Work（47分） Lecture 10: Which Models Fit the Setup - LLMs, TTS, STT

内容・要約

STT → LLM → TTSの流れにおけるAIモデルの選定基準と推奨モデルについて解説されている。

モデル選定の3つの基準

AIモデルを選ぶ際の主要な基準は、Speed（速度）、Accuracy（精度）、Cost（コスト）の3つである。

STTモデルの推奨

STTモデルとしては、Deepgram、ElevenLabs、Azureが推奨される。ただし、Azureには若干のレイテンシがあることが指摘されている。

LLMモデルの推奨

LLMモデルとしては、OpenAIのminiモデル、またはGeminiのFlashモデルが推奨される。OpenAIのminiモデルを使用する場合、ボイスエージェントではreasoningパラメータを高く設定しないことが推奨される。音声でのやり取りにおいて、ユーザーを長く待たせることは体験として好ましくないためである。

TTSモデルの推奨

TTSモデルとしては、ElevenLabsとAzureが推奨されるが、その中でもElevenLabsがベストとされている。

Realtimeモデル

realtimeモデルについても、実際のやり取りを通じて紹介されている。推奨されるのはOpenAIのgpt-4o-realtimeモデルだが、コストが非常に高いことが注意点として挙げられている。

Koei's Digital Garden

Explorer

Archive

講義メモ: Technology Fundamentals & How Voice Agents Work - Section 2 - Lecture 10