← 返回日报
🌐 机器翻译 · DeepSeek · HN

Voice-AI-for-Beginners – A curated learning path for developers


以下是您要求的英文文章的中文翻译,已按照保留原文结构、技术术语不翻译、代码块保留等要求处理。


面向初学者的语音 AI – 为开发者精选的学习路径

英文版本 中文版本 一条经过精选、对开发者友好的学习路径,帮助您从第一次 STT 调用到规模化生产级电话系统,构建实时语音 AI 智能体。语音 AI 在不到三年内从研究演示走向了产品交付。现代技术栈正围绕一个清晰的模式收敛:一个实时传输层(WebRTC 或电话系统)、一个流式处理管道(语音转文本 → LLM → 文本转语音),以及一个决定智能体何时发言的轮流说话模型。本列表的结构旨在反映这一学习顺序:从基础开始,选择一个框架,然后深入各个组件和生产关注点。资源使用 🟢 初级、🟡 中级 或 🔴 高级 进行标记。优先推荐免费的官方文档和供应商中立的指南;在作者有商业利益的地方会进行标注。

如何使用本列表 如果你是新手,请从头到尾阅读。推荐路径:

目录

  1. 基础概念与学习路径
  2. 框架与编排平台
  3. 语音转文本(STT / ASR)
  4. 文本转语音(TTS)
  5. 用于语音和实时 AI 的 LLM
  6. 语音活动检测与话轮切换
  7. WebRTC 基础
  8. 电话系统与 SIP
  9. 教程与动手项目
  10. GitHub 启动仓库与精选列表
  11. 数据集与基准
  12. 适合初学者的研究论文
  13. 评估与测试
  14. 生产、部署与扩展
  15. 伦理、安全与法规
  16. 博客与新闻通讯
  17. 播客
  18. 社区
  19. 会议与活动
  20. 黑客马拉松与竞赛
  21. 1. 基础概念与学习路径

从这里开始。这些资源将帮助您建立语音智能体管道的思维模型,以及您将在整个职业生涯中与之斗争的延迟预算。

以下框架都允许您将 STT、LLM 和 TTS 连接在一起。对于开源生产工作,LiveKit Agents 和 Pipecat 是两个最安全的选择;对于托管仪表板,Vapi、Retell 和 Bland 在首次通话时间上胜出。

开源框架

托管平台

实时 / 语音到语音 API

供应商中立对比

选择一个流式 STT 并深入学习,然后再考虑其他选择。Deepgram、AssemblyAI 和 Whisper 衍生品覆盖了大多数用例。

商业 API

开源

📖 阅读原文 →