以下是您要求的英文文章的中文翻译,已按照保留原文结构、技术术语不翻译、代码块保留等要求处理。
面向初学者的语音 AI – 为开发者精选的学习路径
英文版本 中文版本 一条经过精选、对开发者友好的学习路径,帮助您从第一次 STT 调用到规模化生产级电话系统,构建实时语音 AI 智能体。语音 AI 在不到三年内从研究演示走向了产品交付。现代技术栈正围绕一个清晰的模式收敛:一个实时传输层(WebRTC 或电话系统)、一个流式处理管道(语音转文本 → LLM → 文本转语音),以及一个决定智能体何时发言的轮流说话模型。本列表的结构旨在反映这一学习顺序:从基础开始,选择一个框架,然后深入各个组件和生产关注点。资源使用 🟢 初级、🟡 中级 或 🔴 高级 进行标记。优先推荐免费的官方文档和供应商中立的指南;在作者有商业利益的地方会进行标注。
如何使用本列表 如果你是新手,请从头到尾阅读。推荐路径:
- 基础 → 理解管道和延迟预算
- 框架 → 选择一个(LiveKit Agents 或 Pipecat 是最安全的开源选择)并完成一个 hello-world 示例
- 组件(STT、TTS、LLM、VAD、话轮检测)→ 替换各个部分以了解每一层的作用
- 传输与电话系统 → 连接到真实的电话号码
- 评估、生产、伦理 → 使其足够安全以交付
目录
- 基础概念与学习路径
- 框架与编排平台
- 语音转文本(STT / ASR)
- 文本转语音(TTS)
- 用于语音和实时 AI 的 LLM
- 语音活动检测与话轮切换
- WebRTC 基础
- 电话系统与 SIP
- 教程与动手项目
- GitHub 启动仓库与精选列表
- 数据集与基准
- 适合初学者的研究论文
- 评估与测试
- 生产、部署与扩展
- 伦理、安全与法规
- 博客与新闻通讯
- 播客
- 社区
- 会议与活动
- 黑客马拉松与竞赛
1. 基础概念与学习路径
从这里开始。这些资源将帮助您建立语音智能体管道的思维模型,以及您将在整个职业生涯中与之斗争的延迟预算。
- 语音 AI 与语音智能体图解入门 – Kwindla Hultman Kramer 的免费、定期更新的长篇入门指南。该领域的事实标准教科书。🟢 初级
- 语音智能体架构:STT、LLM 和 TTS 管道解析(LiveKit) – 流式模式、话轮检测以及延迟累积点的可视化讲解。🟢 初级
- 关于语音 AI 智能体你需要知道的一切(Deepgram) – 端到端入门指南,涵盖特征提取、ASR、LLM 推理和语音合成。🟢 初级
- AI 语音智能体(LiveKit 文档) – 权威的“什么是语音智能体”参考文档,涵盖管道与多模态以及智能体状态。🟢 初级
- AI 语音智能体中的核心延迟(Twilio) – 关于话轮结束检测、静音阈值和智能端点检测的可视化解释。🟢 初级
- 2025 年 6 月构建语音 AI 的建议(Daily.co) – 来自 Pipecat 创建者的实用 P50/P95 延迟预算指南。🟡 中级
- 智能话轮检测如何解决语音智能体中的最大挑战(AssemblyAI) – 端点检测是最被低估的问题;这是最清晰的深度解析。🟡 中级
2. 框架与编排平台
以下框架都允许您将 STT、LLM 和 TTS 连接在一起。对于开源生产工作,LiveKit Agents 和 Pipecat 是两个最安全的选择;对于托管仪表板,Vapi、Retell 和 Bland 在首次通话时间上胜出。
开源框架
- LiveKit Agents 语音 AI 快速入门 – 通过 Python 或 TypeScript 在 10 分钟内创建一个可工作的助手,运行在 WebRTC 之上。🟢 初级
- Pipecat 快速入门 – 搭建一个 Deepgram + OpenAI + Cartesia 管道,5 分钟内即可在浏览器中与之对话。🟢 初级
- Ultravox (fixie-ai/ultravox) – 开源权重多模态语音 LLM(Llama/Gemma/Qwen 变体),跳过独立的 ASR 阶段,TTFT 约为 150 毫秒。🔴 高级
托管平台
- Vapi 快速入门 – 仪表板优先;在 5 分钟内即可在免费的美国电话号码上部署一个智能体。🟢 初级
- Retell AI 介绍与快速入门 – 电话智能体平台,注册即送 10 美元免费额度。🟢 初级
- Bland AI 发送你的第一个电话 – 用于拨打第一个 AI 电话的最小化 API 教程。🟢 初级
- ElevenLabs 对话式 AI 快速入门 – 在 5 分钟内构建并嵌入一个语音智能体小部件到任何网站。🟢 初级
实时 / 语音到语音 API
- OpenAI Realtime API 指南 – 关于通过 WebRTC、WebSockets 或 SIP 使用 gpt-realtime 的官方指南。🟡 中级
- Google Gemini Live API 概述 – 支持插话和工具使用的低延迟、双向语音+视觉智能体。🟡 中级
- Twilio ConversationRelay – WebSocket 桥接,处理 STT/TTS,让您专注于 LLM 逻辑;可与任何 LLM 配合使用。🟡 中级
供应商中立对比
- Vapi vs Pipecat vs LiveKit(AssemblyAI) – 专注于管道控制和传输选择的架构对比。🟡 中级
- 11 个语音智能体平台对比(Softcery) – 广泛的市场地图,包含用例推荐。🟢 初级
- 最佳语音智能体技术栈(Hamming AI) – 购买与构建的决策框架,包含具体的成本、延迟和上线时间数据。🟡 中级
3. 语音转文本(STT / ASR)
选择一个流式 STT 并深入学习,然后再考虑其他选择。Deepgram、AssemblyAI 和 Whisper 衍生品覆盖了大多数用例。
商业 API
- Deepgram Nova-3 STT 基准测试 – 关于 WER、延迟和成本的入门指南,同时包含 Deepgram 的产品参考。🟢 初级
- AssemblyAI Universal-Streaming – 流式 STT 讲解,同时也是一个函数调用教程。🟡 中级
- OpenAI Whisper / gpt-4o-transcribe API 文档 – 如果您已经在使用 OpenAI,这是最简单的云端 STT。🟢 初级
- Soniox 多语言基准测试 – 涵盖 60 种语言的公开 WER 对比。🟢 初级
- Cartesia Ink 流式 STT – 与 Sonic TTS 配对,形成单一供应商的低延迟技术栈。🟢 初级
开源
- openai/whisper – 原始仓库,是任何 DIY ASR 项目的事实起点。🟢 初级
- SYSTRAN/faster-whisper – 基于 CTranslate2 的重实现,速度提升高达 4 倍(INT8);推荐用于自托管 Whisper。🟡 中级
- NVIDIA NeMo (Parakeet / ...) – (原文截断,此处保留原文结构)