← 返回日报
🌐 机器翻译 · DeepSeek · HN

Training our own AI models


训练我们自己的 AI 模型

James Hawkins 2026年5月27日 CEO 日记

目录

我真的认为,在接下来的六个月里,我们正处于一些最佳工作的边缘。过去一年,我们开始在 PostHog 中构建更多 AI 驱动的功能,比如我们的 AI 安装向导、PostHog AI 以及我们的 MCP。它们都非常受欢迎,但这仅仅是个开始。PostHog 的下一个篇章是关于构建更具主动性、更自主运行的产品——那些能为你呈现答案和解决方案、据此采取行动并随时间不断改进的产品。这就是 PostHog Code 的愿景,目前它已进入测试阶段。为了实现这一目标以及更多类似的产品,我们想尝试一些新东西:我们希望基于 PostHog 中的数据来训练模型。

我们想构建什么

我们有两个目标:

我们感兴趣的第一个领域是会话回放分析。PostHog AI 已经能够检测回放中的问题,但成本高昂且扩展性不佳。我们希望回放在大规模场景下,能像诊断单个用户问题那样强大。我们认为,基于驱动回放的底层数据训练一个模型,将有助于我们实现这一目标。

另一个我特别兴奋的想法是合成用户测试——即利用我们对用户行为的了解,在代码发布到生产环境之前,识别用户可能感到困惑的地方,或哪些流程可能出问题。随着编码模型的改进,许多人发现测试和审查的工作量大幅增加。我们希望自动化这一过程,让你能专注于自己的产品。

此外,如果我们能更好地预测用户行为,就应该能够针对你已经发布的功能,提出改进转化率、减少用户挫败感的建议。如果我们能为你自动化这些工作,你将花更少的时间在手动分析上,并在过程中消耗更少的 tokens。

我们这里的想法是实验性的。需要反复迭代才能弄清楚如何有效训练模型,以及哪些数据真正有用。但到目前为止,每次我们以让产品更简单或更强大的方式加入 AI,效果都很好,所以我们认为值得一试。

这将如何运作

我们从用户角度花了大量时间思考这个问题,尤其是其中的权衡。

好处在于上述各类改进。大多数工具专注于为你提供最好的代码;我们则希望将精力集中在让你的产品达到最佳状态。这就是为什么我们把 PostHog Code 描述为一个产品编辑器。

坏处在于,这涉及使用 PostHog 中的数据来训练模型。大多数公司会把这个改动埋在一份看似无聊的条款与条件更新中,但我们重视透明度,所以以下是你需要知道的内容,以对互联网友好的编号列表形式呈现:

在沟通方面,我们将:

我想强调,我们的目标是为客户改进 PostHog 这个产品,而不是暴露或出售基于你数据训练的模型,也不是将你的数据变现。

为什么这是默认退出,而非默认加入

简单来说,因为否则我们将没有足够的数据来训练一个真正有用的模型。

如果你选择退出,我们正在用这些模型构建的新功能将对你不可用,因为它们依赖于这些数据。如果你默认是退出的(例如,因为你使用的是我们的 EU 云实例),你可以选择手动加入,前提是你与我们之间的任何法律协议不排除这一选项。

我们选择坦诚地处理这件事,而不是悄悄推出,因为我们认为这是正确的做法。

如果你想讨论这个问题,我的邮箱是 james at 你猜得到。我们也在招聘 AI 研究员,所以如果你想和我们一起做这件事,请与我们联系。

PostHog 是一个用于构建成功产品的全栈开发者平台。我们提供产品分析、网站分析、会话回放、错误追踪、功能开关、实验、调查、AI 可观测性、日志、工作流、端点、数据仓库、CDP 以及一个 AI 产品助手,帮助你调试代码、更快地发布功能,并将所有使用数据和客户数据保留在一个技术栈中。

社区提问 提出一个问题

📖 阅读原文 →