Training our own AI models

训练我们自己的 AI 模型

James Hawkins 2026年5月27日 CEO 日记

我们想构建什么
这将如何运作
为什么这是默认退出，而非默认加入

我真的认为，在接下来的六个月里，我们正处于一些最佳工作的边缘。过去一年，我们开始在 PostHog 中构建更多 AI 驱动的功能，比如我们的 AI 安装向导、PostHog AI 以及我们的 MCP。它们都非常受欢迎，但这仅仅是个开始。PostHog 的下一个篇章是关于构建更具主动性、更自主运行的产品——那些能为你呈现答案和解决方案、据此采取行动并随时间不断改进的产品。这就是 PostHog Code 的愿景，目前它已进入测试阶段。为了实现这一目标以及更多类似的产品，我们想尝试一些新东西：我们希望基于 PostHog 中的数据来训练模型。

我们想构建什么

我们有两个目标：

让我们现有的产品变得更智能、更主动、对你更有用
构建全新的产品，比如 PostHog Code，帮助团队更快地打造更好的产品

我们感兴趣的第一个领域是会话回放分析。PostHog AI 已经能够检测回放中的问题，但成本高昂且扩展性不佳。我们希望回放在大规模场景下，能像诊断单个用户问题那样强大。我们认为，基于驱动回放的底层数据训练一个模型，将有助于我们实现这一目标。

另一个我特别兴奋的想法是合成用户测试——即利用我们对用户行为的了解，在代码发布到生产环境之前，识别用户可能感到困惑的地方，或哪些流程可能出问题。随着编码模型的改进，许多人发现测试和审查的工作量大幅增加。我们希望自动化这一过程，让你能专注于自己的产品。

此外，如果我们能更好地预测用户行为，就应该能够针对你已经发布的功能，提出改进转化率、减少用户挫败感的建议。如果我们能为你自动化这些工作，你将花更少的时间在手动分析上，并在过程中消耗更少的 tokens。

我们这里的想法是实验性的。需要反复迭代才能弄清楚如何有效训练模型，以及哪些数据真正有用。但到目前为止，每次我们以让产品更简单或更强大的方式加入 AI，效果都很好，所以我们认为值得一试。

这将如何运作

我们从用户角度花了大量时间思考这个问题，尤其是其中的权衡。

好处在于上述各类改进。大多数工具专注于为你提供最好的代码；我们则希望将精力集中在让你的产品达到最佳状态。这就是为什么我们把 PostHog Code 描述为一个产品编辑器。

坏处在于，这涉及使用 PostHog 中的数据来训练模型。大多数公司会把这个改动埋在一份看似无聊的条款与条件更新中，但我们重视透明度，所以以下是你需要知道的内容，以对互联网友好的编号列表形式呈现：

我们 EU 云实例上的用户默认退出
同样，有协议（如 BAA、MSA 或类似协议）禁止训练的用户也默认退出
我们 US 云实例上的所有其他用户默认加入
我们会在所有数据用于训练之前对其进行匿名化处理
我们只会使用已经存在于你 PostHog 实例中的数据
我们将自行完成所有模型训练，这意味着……
我们不会向第三方模型提供商出售或发送你的数据
你可以随时通过 PostHog 中的组织设置选择退出（需要管理员权限）
训练要到 6 月 29 日才开始，所以有充足的时间做决定

在沟通方面，我们将：

给所有客户发送邮件，并让邮件主题一目了然
通过应用内通知通知所有用户（以防你不看邮件）
非常公开地传达我们的计划（就像在这篇文章中一样）

我想强调，我们的目标是为客户改进 PostHog 这个产品，而不是暴露或出售基于你数据训练的模型，也不是将你的数据变现。

为什么这是默认退出，而非默认加入

简单来说，因为否则我们将没有足够的数据来训练一个真正有用的模型。

如果你选择退出，我们正在用这些模型构建的新功能将对你不可用，因为它们依赖于这些数据。如果你默认是退出的（例如，因为你使用的是我们的 EU 云实例），你可以选择手动加入，前提是你与我们之间的任何法律协议不排除这一选项。

我们选择坦诚地处理这件事，而不是悄悄推出，因为我们认为这是正确的做法。

如果你想讨论这个问题，我的邮箱是 james at 你猜得到。我们也在招聘 AI 研究员，所以如果你想和我们一起做这件事，请与我们联系。

PostHog 是一个用于构建成功产品的全栈开发者平台。我们提供产品分析、网站分析、会话回放、错误追踪、功能开关、实验、调查、AI 可观测性、日志、工作流、端点、数据仓库、CDP 以及一个 AI 产品助手，帮助你调试代码、更快地发布功能，并将所有使用数据和客户数据保留在一个技术栈中。

社区提问 提出一个问题