Voice-AI-for-Beginners – A curated learning path for developers

以下是您要求的英文文章的中文翻译，已按照保留原文结构、技术术语不翻译、代码块保留等要求处理。

面向初学者的语音 AI – 为开发者精选的学习路径

英文版本中文版本一条经过精选、对开发者友好的学习路径，帮助您从第一次 STT 调用到规模化生产级电话系统，构建实时语音 AI 智能体。语音 AI 在不到三年内从研究演示走向了产品交付。现代技术栈正围绕一个清晰的模式收敛：一个实时传输层（WebRTC 或电话系统）、一个流式处理管道（语音转文本 → LLM → 文本转语音），以及一个决定智能体何时发言的轮流说话模型。本列表的结构旨在反映这一学习顺序：从基础开始，选择一个框架，然后深入各个组件和生产关注点。资源使用 🟢 初级、🟡 中级或 🔴 高级进行标记。优先推荐免费的官方文档和供应商中立的指南；在作者有商业利益的地方会进行标注。

如何使用本列表 如果你是新手，请从头到尾阅读。推荐路径：

基础 → 理解管道和延迟预算
框架 → 选择一个（LiveKit Agents 或 Pipecat 是最安全的开源选择）并完成一个 hello-world 示例
组件（STT、TTS、LLM、VAD、话轮检测）→ 替换各个部分以了解每一层的作用
传输与电话系统 → 连接到真实的电话号码
评估、生产、伦理 → 使其足够安全以交付

基础概念与学习路径
框架与编排平台
语音转文本（STT / ASR）
文本转语音（TTS）
用于语音和实时 AI 的 LLM
语音活动检测与话轮切换
WebRTC 基础
电话系统与 SIP
教程与动手项目
GitHub 启动仓库与精选列表
数据集与基准
适合初学者的研究论文
评估与测试
生产、部署与扩展
伦理、安全与法规
博客与新闻通讯
播客
社区
会议与活动
黑客马拉松与竞赛

1. 基础概念与学习路径

从这里开始。这些资源将帮助您建立语音智能体管道的思维模型，以及您将在整个职业生涯中与之斗争的延迟预算。

语音 AI 与语音智能体图解入门 – Kwindla Hultman Kramer 的免费、定期更新的长篇入门指南。该领域的事实标准教科书。🟢 初级
语音智能体架构：STT、LLM 和 TTS 管道解析（LiveKit） – 流式模式、话轮检测以及延迟累积点的可视化讲解。🟢 初级
关于语音 AI 智能体你需要知道的一切（Deepgram） – 端到端入门指南，涵盖特征提取、ASR、LLM 推理和语音合成。🟢 初级
AI 语音智能体（LiveKit 文档） – 权威的“什么是语音智能体”参考文档，涵盖管道与多模态以及智能体状态。🟢 初级
AI 语音智能体中的核心延迟（Twilio） – 关于话轮结束检测、静音阈值和智能端点检测的可视化解释。🟢 初级
2025 年 6 月构建语音 AI 的建议（Daily.co） – 来自 Pipecat 创建者的实用 P50/P95 延迟预算指南。🟡 中级
智能话轮检测如何解决语音智能体中的最大挑战（AssemblyAI） – 端点检测是最被低估的问题；这是最清晰的深度解析。🟡 中级

2. 框架与编排平台

以下框架都允许您将 STT、LLM 和 TTS 连接在一起。对于开源生产工作，LiveKit Agents 和 Pipecat 是两个最安全的选择；对于托管仪表板，Vapi、Retell 和 Bland 在首次通话时间上胜出。

开源框架

LiveKit Agents 语音 AI 快速入门 – 通过 Python 或 TypeScript 在 10 分钟内创建一个可工作的助手，运行在 WebRTC 之上。🟢 初级
Pipecat 快速入门 – 搭建一个 Deepgram + OpenAI + Cartesia 管道，5 分钟内即可在浏览器中与之对话。🟢 初级
Ultravox (fixie-ai/ultravox) – 开源权重多模态语音 LLM（Llama/Gemma/Qwen 变体），跳过独立的 ASR 阶段，TTFT 约为 150 毫秒。🔴 高级

托管平台

Vapi 快速入门 – 仪表板优先；在 5 分钟内即可在免费的美国电话号码上部署一个智能体。🟢 初级
Retell AI 介绍与快速入门 – 电话智能体平台，注册即送 10 美元免费额度。🟢 初级
Bland AI 发送你的第一个电话 – 用于拨打第一个 AI 电话的最小化 API 教程。🟢 初级
ElevenLabs 对话式 AI 快速入门 – 在 5 分钟内构建并嵌入一个语音智能体小部件到任何网站。🟢 初级

实时 / 语音到语音 API

OpenAI Realtime API 指南 – 关于通过 WebRTC、WebSockets 或 SIP 使用 gpt-realtime 的官方指南。🟡 中级
Google Gemini Live API 概述 – 支持插话和工具使用的低延迟、双向语音+视觉智能体。🟡 中级
Twilio ConversationRelay – WebSocket 桥接，处理 STT/TTS，让您专注于 LLM 逻辑；可与任何 LLM 配合使用。🟡 中级

供应商中立对比

Vapi vs Pipecat vs LiveKit（AssemblyAI） – 专注于管道控制和传输选择的架构对比。🟡 中级
11 个语音智能体平台对比（Softcery） – 广泛的市场地图，包含用例推荐。🟢 初级
最佳语音智能体技术栈（Hamming AI） – 购买与构建的决策框架，包含具体的成本、延迟和上线时间数据。🟡 中级

3. 语音转文本（STT / ASR）

选择一个流式 STT 并深入学习，然后再考虑其他选择。Deepgram、AssemblyAI 和 Whisper 衍生品覆盖了大多数用例。

商业 API

Deepgram Nova-3 STT 基准测试 – 关于 WER、延迟和成本的入门指南，同时包含 Deepgram 的产品参考。🟢 初级
AssemblyAI Universal-Streaming – 流式 STT 讲解，同时也是一个函数调用教程。🟡 中级
OpenAI Whisper / gpt-4o-transcribe API 文档 – 如果您已经在使用 OpenAI，这是最简单的云端 STT。🟢 初级
Soniox 多语言基准测试 – 涵盖 60 种语言的公开 WER 对比。🟢 初级
Cartesia Ink 流式 STT – 与 Sonic TTS 配对，形成单一供应商的低延迟技术栈。🟢 初级

开源

openai/whisper – 原始仓库，是任何 DIY ASR 项目的事实起点。🟢 初级
SYSTRAN/faster-whisper – 基于 CTranslate2 的重实现，速度提升高达 4 倍（INT8）；推荐用于自托管 Whisper。🟡 中级
NVIDIA NeMo (Parakeet / ...) – （原文截断，此处保留原文结构）