训练我们自己的 AI 模型
James Hawkins 2026年5月27日 CEO 日记
目录
- 我们想构建什么
- 这将如何运作
- 为什么这是默认退出,而非默认加入
我真的认为,在接下来的六个月里,我们正处于一些最佳工作的边缘。过去一年,我们开始在 PostHog 中构建更多 AI 驱动的功能,比如我们的 AI 安装向导、PostHog AI 以及我们的 MCP。它们都非常受欢迎,但这仅仅是个开始。PostHog 的下一个篇章是关于构建更具主动性、更自主运行的产品——那些能为你呈现答案和解决方案、据此采取行动并随时间不断改进的产品。这就是 PostHog Code 的愿景,目前它已进入测试阶段。为了实现这一目标以及更多类似的产品,我们想尝试一些新东西:我们希望基于 PostHog 中的数据来训练模型。
我们想构建什么
我们有两个目标:
- 让我们现有的产品变得更智能、更主动、对你更有用
- 构建全新的产品,比如 PostHog Code,帮助团队更快地打造更好的产品
我们感兴趣的第一个领域是会话回放分析。PostHog AI 已经能够检测回放中的问题,但成本高昂且扩展性不佳。我们希望回放在大规模场景下,能像诊断单个用户问题那样强大。我们认为,基于驱动回放的底层数据训练一个模型,将有助于我们实现这一目标。
另一个我特别兴奋的想法是合成用户测试——即利用我们对用户行为的了解,在代码发布到生产环境之前,识别用户可能感到困惑的地方,或哪些流程可能出问题。随着编码模型的改进,许多人发现测试和审查的工作量大幅增加。我们希望自动化这一过程,让你能专注于自己的产品。
此外,如果我们能更好地预测用户行为,就应该能够针对你已经发布的功能,提出改进转化率、减少用户挫败感的建议。如果我们能为你自动化这些工作,你将花更少的时间在手动分析上,并在过程中消耗更少的 tokens。
我们这里的想法是实验性的。需要反复迭代才能弄清楚如何有效训练模型,以及哪些数据真正有用。但到目前为止,每次我们以让产品更简单或更强大的方式加入 AI,效果都很好,所以我们认为值得一试。
这将如何运作
我们从用户角度花了大量时间思考这个问题,尤其是其中的权衡。
好处在于上述各类改进。大多数工具专注于为你提供最好的代码;我们则希望将精力集中在让你的产品达到最佳状态。这就是为什么我们把 PostHog Code 描述为一个产品编辑器。
坏处在于,这涉及使用 PostHog 中的数据来训练模型。大多数公司会把这个改动埋在一份看似无聊的条款与条件更新中,但我们重视透明度,所以以下是你需要知道的内容,以对互联网友好的编号列表形式呈现:
- 我们 EU 云实例上的用户默认退出
- 同样,有协议(如 BAA、MSA 或类似协议)禁止训练的用户也默认退出
- 我们 US 云实例上的所有其他用户默认加入
- 我们会在所有数据用于训练之前对其进行匿名化处理
- 我们只会使用已经存在于你 PostHog 实例中的数据
- 我们将自行完成所有模型训练,这意味着……
- 我们不会向第三方模型提供商出售或发送你的数据
- 你可以随时通过 PostHog 中的组织设置选择退出(需要管理员权限)
- 训练要到 6 月 29 日才开始,所以有充足的时间做决定
在沟通方面,我们将:
- 给所有客户发送邮件,并让邮件主题一目了然
- 通过应用内通知通知所有用户(以防你不看邮件)
- 非常公开地传达我们的计划(就像在这篇文章中一样)
我想强调,我们的目标是为客户改进 PostHog 这个产品,而不是暴露或出售基于你数据训练的模型,也不是将你的数据变现。
为什么这是默认退出,而非默认加入
简单来说,因为否则我们将没有足够的数据来训练一个真正有用的模型。
如果你选择退出,我们正在用这些模型构建的新功能将对你不可用,因为它们依赖于这些数据。如果你默认是退出的(例如,因为你使用的是我们的 EU 云实例),你可以选择手动加入,前提是你与我们之间的任何法律协议不排除这一选项。
我们选择坦诚地处理这件事,而不是悄悄推出,因为我们认为这是正确的做法。
如果你想讨论这个问题,我的邮箱是 james at 你猜得到。我们也在招聘 AI 研究员,所以如果你想和我们一起做这件事,请与我们联系。
PostHog 是一个用于构建成功产品的全栈开发者平台。我们提供产品分析、网站分析、会话回放、错误追踪、功能开关、实验、调查、AI 可观测性、日志、工作流、端点、数据仓库、CDP 以及一个 AI 产品助手,帮助你调试代码、更快地发布功能,并将所有使用数据和客户数据保留在一个技术栈中。
社区提问 提出一个问题