Source

AI Voice Agents: Automation with Vapi, ElevenLabs, n8n & MCP

章・セクション情報

Section 2: Technology Fundamentals & How Voice Agents Work(47分) Lecture 9: Understanding Voice Agents - How the Technology Works

内容・要約

9. Understanding Voice Agents: How the Technology Works

現在のボイスエージェントの仕組みについて説明されている。大きく2つのアプローチがあり、1つはSTT LLM TTSの形式、もう1つはリアルタイムAPIである。動画内ではリアルタイムAPIはmultimodal AIとして説明されている。

LLMの特徴についてもシンプルに解説されていた。LLMはトークンとして入力を理解し、次にくるトークンを予測しているにすぎない。しかし、自然言語を理解した上でFunction callingを利用することで、外部APIを活用してメール送信などのアクションを実行できる。

このUdemyコースでは、STT LLM TTSの形式を主に取り扱う。理由としては、この形式の方が安価であり、信頼性が高いためである。