Frontier AI has broken the open CTF format

← 博客 / 观点 2026年5月1日 CTF 圈已经死了。前沿 AI 已经打破了开放 CTF 的赛制。排行榜不再能纯粹衡量人类技能，旧日的比赛模式也不会回来了。我凭什么这么说？我从 2021 年开始打 CTF，同年我进入大学。我的第一场 CTF 是 HCKSYD，一场 48 小时的单人赛。我用了 2 小时就全部解出并获胜。我彻底上瘾了。这让我后来多次随 Blitzkrieg 赢得澳大利亚最大的 CTF——DownUnderCTF。Blitzkrieg 当时是澳大利亚最强的队伍之一。之后我加入了 TheHackersCrew，这是一支国际顶尖队伍，在 CTFTime（该圈子用作全球排行榜和赛事日历的主要平台）上长期排名靠前。与他们一起，我参加了世界上一些最负盛名的 CTF，直到 2025 年底一直稳定位列前十。我这么说不是因为我不喜欢 CTF。我说这些是因为 CTF 曾让我爱上安全。它们教会我如何学习，给了我衡量自己的方式，并让我结识了许多我在这行最尊敬的人。看着人们假装赛制还好好的，令人沮丧，因为旧日的比赛已经不复存在了。

什么变了？ 随着 AI 工具能力的提升，尤其是 GPT-4 刚推出时，相当一部分中等难度的 CTF 题目开始变得可以“一次提示解决”，也就是说，用户只需一个提示就能得到解法并拿到 flag。你可以把一道密码学题目粘贴进 ChatGPT，10 分钟后回来，就已经有了答案。当时我们没太当回事。难题基本不受影响，节省的时间也不足以破坏比赛。问题从来不是 AI 能帮忙。CTF 玩家一直使用工具。问题在于，当模型自己完成推理、写出解法，留给人类的除了复制 flag 之外毫无有意义的事情可做时。

Claude Opus 4.5 来了 当 Opus 4.5 发布时，情况变了。几乎所有中等难度的题目，以及一些难题，都变成了可被 agent 解决的。Claude Code 把所有功能打包进一个 CLI，并使其易于连接其他 CLI 和 MCP 工具。构建一个编排器变得轻而易举，它利用 CTFd API 为每道题目启动一个 Claude 实例。你可以让系统在第一个小时运行，然后只处理剩下的题目。这改变了游戏规则。拒绝使用 AI 的队伍不仅失去了便利，他们是在玩一个更慢版本的比赛。开放的在线 CTF 开始变成这样一个问题：你能多快自动化简单和中等难度的工作，然后你还有多少人力去处理最难的题目。排行榜开始衡量编排能力和使用前沿模型的意愿，有时这些甚至排在安全技能之上。

影响显而易见 CTFTime 排行榜开始感觉不对劲。一些长期接近顶端的传奇队伍出现频率降低了。玩家活跃度感觉下降了。那些把 CTF 当作艺术形式的题目开发者，如果花数周精心打造的作品几分钟内就被 agent 吃掉，他们也就没什么理由继续了。

GPT-5.5 一锤定音 我在 GPT-5.5 和 GPT-5.5 Pro 发布后大量使用它们。根据基准测试指标，5.5 接近 Claude Mythos 的能力，而 Pro 很可能超越它。这些模型可以一次解决 HackTheBox 上 Insane 难度的无泄漏堆利用题。它们能解决小型 CTF 组织者实际能出的很大一部分题目。如果你在 48 小时的 CTF 中用 Pro 编排去对付 Insane 难度的题目，很有可能在比赛结束前就拿到 flag。这使得开放 CTF 变成了“付费赢”。你在比赛中能投入的 token 越多，你就能越快清空排行榜。像 Alias Robotics 的 alias1 这样的专业网络安全模型，与通用前沿 LLM 相比，正变得不那么重要。比赛正在变成“谁能负担得起运行足够多的 agent、拥有足够长的上下文、持续足够久的时间”。CTF 感觉更像一个可以被轻易钻空子的烂摊子，而不是一场比赛。你在 CTF 中的表现不再像以前那样定义你的技能。通过 CTF 表现来招聘安全从业者正变得越来越没有意义。它甚至不是衡量 AI 技能的好方法，因为 CTF 所需的大部分编排工作已经是开源或可“氛围编码”的。

“初学者没问题”的观点 我见过各种观点，说初学者仍然可以像以前一样从 CTF 中学习。这些观点忽略了排行榜。CTF 不仅仅是一套谜题。它们是一把梯子。即使作为初学者，你也有东西可以攀登。你可以看到自己进步，解决更多题目，排名更高，加入更好的队伍，并随着时间的推移变得更有竞争力。这个反馈循环正在被打破。如果可见的排行榜被使用 AI 的队伍主导，初学者就会被推向在建立 AI 所取代的那些直觉之前就使用 AI。这是一种反模式。它阻止了主动学习，而主动挣扎才是真正教会你东西的部分。付出真正的努力却看不到任何可见的进步，因为头顶的梯子已经被自动化了，这也极其打击积极性。这也改变了题目作者想要构建的内容。如果初学者的 CTF 变成另一个人们悄悄粘贴提示词并爬上排行榜的地方，作者就更有理由把精力投入到学习平台上。至少在 picoGym 和 HackTheBox 这样的平台上，期望是教育，初学者也不太会激励自己去欺骗学习。初学者最好使用 picoGym、HackTheBox 和其他实验室环境，那里的重点实际上是学习，而不是假装公开排行榜仍然反映人类的成长。

“CTF 没死” 我看到一些关于 CTF 没死、只是被 AI 增强了的乐观帖子。他们经常以 DEF CON 这样的 CTF 为例，认为 AI 仍然……