How Kepler built verifiable AI for financial services with Claude

以下是您要求的英文文章的中文翻译，已按照保留原文结构、技术术语不翻译、代码块保持原样等要求处理。

如何用 Claude 为金融服务构建可验证的 AI

在一个覆盖 14,000+ 家公司、27 个全球市场，索引了 2600 万+ SEC 文件、财报电话会议记录、投资者关系演示、共识预期及私有数据的平台内部，看看其背后的团队如何构建出一套 AI，能够将每一个数字验证到具体的文件、页面和行项目。

类别企业级 AI 产品 Claude 平台日期 2026 年 4 月 30 日 阅读时间 5 分钟分享复制链接 https://claude.com/blog/how-kepler-built-verifiable-ai-for-financial-services-with-claude

在我们的系列文章《初创公司如何用 Claude 构建》中，我们聚焦于初创公司如何借助 AI 变革其行业。本文分享 Kepler 如何在金融服务领域为 AI 构建信任与验证层。

快速概览

名称 Kepler 成立时间 2025 年 创始人 Vinoo Ganesh（CEO）与 John McRaven（CTO） 技术栈 AWS、Rust、Python、容器化编排 增长情况 在不到三个月内，索引了 2600 万+ SEC 文件、5000 万+ 公开文档、100 万+ 私有文档，覆盖 27 个全球市场的 14,000+ 家公司。

金融公司在高度监管的环境中运营，其报告必须可审计、可问责。监管文件、交易提案或研究报告中的每一个数字，都需要能够与源文档进行核对。金融行业传统依赖的工具可以提取数据，但验证过程仍然需要分析师参与。一个分析系统无法理解自由形式的问题，无法将其分解为多个步骤，也无法识别出某个单一指标需要从特定会计期间中提取三个不同的行项目。

AI 系统能够进行这种解读，但它们将解读与计算放在同一个步骤中处理，因此生成的数字由模型产生，而模型可能会出错。

Vinoo Ganesh 和 John McRaven 曾在 Palantir 工作多年，为国防、能源和金融公司构建数据系统。这段经历塑造了他们对“信任”的理解——尤其是在答案必须可验证的环境中。在创立 Kepler 之前，他们与 147 家金融公司（包括私募股权、对冲基金和投资银行）进行了交流，几乎在所有公司都听到了同样的声音：大家都想用 AI 做研究，但没有人信任 AI 的输出。正如一位董事总经理对他们所说：“如果我不能审计它，我凭什么信任它？”

两人的答案是构建一套确定性基础设施，作为 AI 的信任与验证层。这套基础设施，加上作为推理与解读层的 Claude，共同驱动了 Kepler Finance：一个面向金融服务的研究平台，分析师可以用自然语言提问，并立即获得可验证的答案。

处理长链条、多步骤任务并标记歧义

金融分析涉及复杂的多步骤计算、密集的数据以及含义过载的术语，且对错误零容忍。基于此，Kepler 需要一个能够保持长计划不偏离、并能标记歧义的模型。例如，如果分析师询问某公司过去八个季度的库存周转天数，模型需要弄清楚答案需要什么：正确的公式、正确的会计期间，以及可能影响数字的任何重述。

团队对所有前沿模型进行了基准测试。他们发现，在简单查询上，各模型表现相当。但当涉及具有相互依赖关系的长链条、多步骤计划时，除了 Claude，其他模型在第四或第五步就开始走捷径或丢失约束条件。

“在我们的工作负载上，Claude 是唯一能始终如一保持计划完整的模型，”Ganesh 说。“其他模型一开始表现不错，但到第五步时就会悄悄丢掉一个约束条件。”

最明显的区别在于每个模型如何处理不确定性并保持人类参与。例如，当一个术语可能有两种不同含义时，大多数模型会选择其中一种含义继续执行。而 Claude 会停下来，请分析师做决定。“这种行为比任何基准分数都重要，”Ganesh 说。“在金融分析中，早期的一个错误假设会破坏后续所有结果。”

围绕 Claude 构建上下文工程

Kepler 团队发现，当给 Claude 提供精确定义的任务，并辅以结构化领域知识、定义以及关于哪些问题需要解决、哪些需要上报的硬边界时，Claude 能产生更好的结果。

“在金融领域，模型不能成为整个系统。我们将其视为流水线中的一个阶段，其任务是在那个阶段为模型提供它成功所需的一切，”McRaven 说。“提示工程优化的是单次调用，而内容工程优化的是围绕调用的整个系统。”

团队构建了确定性执行环境，Claude 可以调用这些环境来执行每一个需要可证明正确的操作，例如计算比率或解析会计期间。他们开发了一套专有本体，将金融概念映射到精确的定义和公式，并可按使用场景进行定制。安全性和访问控制限制在每一步都得到执行，控制每个用户可以拉取哪些数据源。

在此基础上，他们为流水线中最常见的工作流构建了可重复、可定制的技能，例如跨复杂资本结构的企业价值计算（如处理优先股、可转债和少数股东权益），以及跨报告期变化的细分收入瀑布对账。这些技能协调确定性与非确定性阶段，并且设计为幂等：相同的输入始终产生相同的输出。

接着，他们将工作流分解为多阶段流水线，将不同的 Claude 模型匹配到不同阶段：Opus 4.7 用于复杂推理，如意图分解、歧义消解和生成结构化执行计划；Sonnet 4.6 用于任务约束更强、吞吐量更高的阶段。他们还训练了自己的专用模型用于召回（部分使用了 Claude 作为

（注：原文末尾“some use Claude as”后内容不完整，翻译已按现有内容处理。）