Source
AI Voice Agents: Automation with Vapi, ElevenLabs, n8n & MCP
章・セクション情報
Section 2: Technology Fundamentals & How Voice Agents Work(47分) Lecture 9: Understanding Voice Agents - How the Technology Works
内容・要約
9. Understanding Voice Agents: How the Technology Works
現在のボイスエージェントの仕組みについて説明されている。大きく2つのアプローチがあり、1つはSTT → LLM → TTSの形式、もう1つはリアルタイムAPIである。動画内ではリアルタイムAPIはmultimodal AIとして説明されている。
LLMの特徴についてもシンプルに解説されていた。LLMはトークンとして入力を理解し、次にくるトークンを予測しているにすぎない。しかし、自然言語を理解した上でFunction callingを利用することで、外部APIを活用してメール送信などのアクションを実行できる。
このUdemyコースでは、STT → LLM → TTSの形式を主に取り扱う。理由としては、この形式の方が安価であり、信頼性が高いためである。