原文
译文 A
译文 B
# When AI builds itself
# 当 AI 构建自身
# 当 AI 开始构建自己
**Our progress toward recursive self-improvement, and its implications.**
**我们在递归式自我改进上的进展及其影响**
此段落在该译文中不存在
For most of AI's history, humans drove every step in its development cycle. But at Anthropic, we are delegating a growing share of AI development to AI systems themselves, which is speeding up our work.
在 AI 发展史的大部分时间里,人类主导着 AI 开发周期中的每一个环节。但在 Anthropic,我们正将越来越多的 AI 开发工作交由 AI 系统自身来完成,这一转变正在加速我们的工作进程。
在 AI 的大部分历史中,开发周期的每一步都由人类驱动。但在 Anthropic,我们正在将越来越多的 AI 开发工作交给 AI 系统自身来完成,而这正在加速我们的工作。
Taken far enough, and given enough compute, that trend points to an AI system capable of fully autonomously designing and developing its own successor. This is called **recursive self-improvement**. We are not there yet, and recursive self-improvement is not inevitable. But it could come sooner than most institutions are prepared for.
如果将这一趋势推向极致,并配以足够的算力,它将指向这样一个未来:AI 系统能够完全自主地设计和开发自己的后继者。这就是所谓的**递归式自我改进**(recursive self-improvement)。我们尚未到达这一步,递归式自我改进也并非必然到来。但它可能比大多数机构所准备的要来得更快。
如果把这个趋势推到极致,并给予充足的算力,它所指向的终点,是一个能够完全自主地设计和开发自己下一代的 AI 系统。这就是所谓的 **递归自我改进** 。我们还没有走到那一步,递归自我改进也并非必然发生。但它到来的速度,可能远超大多数机构的预期和准备。
Using public benchmarks and previously unreported data from within Anthropic, **The Anthropic Institute** is showing that AI is already accelerating the development of AI systems. To take just one example: today, Anthropic engineers on average ship 8x as much code per quarter as they did from 2021-2025.
**Anthropic 研究院**(The Anthropic Institute)利用公开基准测试和此前未曾公开的 Anthropic 内部数据表明,AI 已经在加速 AI 系统自身的开发。仅举一例:如今,Anthropic 工程师每季度的平均代码产出量是 2021 年至 2025 年期间的 8 倍。
借助公开基准测试以及此前从未对外披露的 Anthropic 内部数据,Anthropic 研究院正在展示一个事实:AI 已经在加速 AI 系统自身的开发。仅举一例:如今 Anthropic 的工程师平均每季度交付的代码量,是 2021 年至 2025 年间的 8 倍。
The technical trends discussed in this piece suggest that AI systems are going to become much more capable in coming years. These trends have huge implications. AI that can build itself would be a major development in the history of technology—one that could bring **enormous good for the world** in science, healthcare, and beyond. But full recursive self-improvement also might increase the **risks** of humans losing control over AI systems. If systems are capable of fully building their own successors, the ways we secure them, monitor them, and shape their behavior all grow much more important.
本文所讨论的技术趋势表明,AI 系统的能力在未来几年将大幅提升。这些趋势具有深远的影响。能够自我构建的 AI 将成为技术史上的一个重大里程碑——它可能在科学、医疗及更广泛的领域带来**巨大的福祉**。但完全的递归式自我改进也可能加剧人类对 AI 系统**失控的风险**。如果系统能够完全自主地构建自身的后继者,我们保护它们、监控它们以及塑造它们行为的方式都将变得远比今天更加重要。
本文所讨论的技术趋势表明,AI 系统在未来几年将变得更加强大。这些趋势蕴含着巨大的影响。能自己构建自己的 AI,将是技术史上的重大里程碑,它可能在科学、医疗等领域为世界带来巨大的福祉。但完全的递归自我改进也可能加剧人类失去对 AI 系统控制的风险。如果系统有能力完全自主地构建自己的继任者,那么我们对它们的安全防护、监控和行为塑造就变得更加重要。
## The path to recursive self-improvement
## 递归式自我改进的发展路径
此段落在该译文中不存在
- **2021–2023: Building the first Claude** — In the early days, work at Anthropic looked like work at any other tech company: people writing code and docs on laptops.
- **2023–2025: Chatbots** — People used early chatbots to help with parts of the process, like generating short code snippets and copying the output into text editors.
- **2025–2026: Coding agents** — As the agents became more capable, they were able to write and edit code on their own, sometimes entire files.
- **Today: Autonomous agents** — Agents can now run code themselves and delegate hours of work to other agents.
- **20XX?: Closing the loop** — In the future, agents could become capable enough to build and train models themselves. If this happens, future versions of Claude could be continuously improved by Claude itself.
- **2023–2025: Chatbots** — People used early chatbots to help with parts of the process, like generating short code snippets and copying the output into text editors.
- **2025–2026: Coding agents** — As the agents became more capable, they were able to write and edit code on their own, sometimes entire files.
- **Today: Autonomous agents** — Agents can now run code themselves and delegate hours of work to other agents.
- **20XX?: Closing the loop** — In the future, agents could become capable enough to build and train models themselves. If this happens, future versions of Claude could be continuously improved by Claude itself.
- **2021–2023:构建首个 Claude**——早期,Anthropic 的工作方式与其他科技公司并无不同:人们用笔记本电脑编写代码和文档。
- **2023–2025:聊天机器人**——人们开始使用早期的聊天机器人辅助部分工作流程,比如生成简短的代码片段,然后将其复制到文本编辑器中。
- **2025–2026:编程 agent**——随着 agent 的能力越来越强,它们能够独立编写和编辑代码,有时甚至是整个文件。
- **今天:自主 agent**——agent 现在已经能够自己运行代码,并将数小时的工作委派给其他 agent。
- **20XX?:闭环**——未来,agent 可能变得足够强大,能够自己构建和训练模型。如果这一情景成为现实,Claude 的未来版本将能够被 Claude 自身持续改进。
- **2023–2025:聊天机器人**——人们开始使用早期的聊天机器人辅助部分工作流程,比如生成简短的代码片段,然后将其复制到文本编辑器中。
- **2025–2026:编程 agent**——随着 agent 的能力越来越强,它们能够独立编写和编辑代码,有时甚至是整个文件。
- **今天:自主 agent**——agent 现在已经能够自己运行代码,并将数小时的工作委派给其他 agent。
- **20XX?:闭环**——未来,agent 可能变得足够强大,能够自己构建和训练模型。如果这一情景成为现实,Claude 的未来版本将能够被 Claude 自身持续改进。
2021–2023 **构建初代 Claude** 早期的 Anthropic,工作方式和其他任何科技公司没什么两样:人们在笔记本电脑上写代码、写文档。
2023–2025 **聊天机器人** 人们开始用早期的聊天机器人辅助部分工作流程,比如生成一小段代码片段,然后把输出复制到文本编辑器里。
2025–2026 **编程智能体** 随着智能体能力的增长,它们已经可以自主编写和修改代码,有时甚至能独立完成整个文件。
今天 **自主智能体** 智能体现在可以自己运行代码,并将长达数小时的工作委派给其他智能体。
20XX? **闭合回路** 未来,智能体可能强大到足以自行构建和训练模型。如果这一天到来,Claude 的后续版本将可以由 Claude 自身持续改进。
2023–2025 **聊天机器人** 人们开始用早期的聊天机器人辅助部分工作流程,比如生成一小段代码片段,然后把输出复制到文本编辑器里。
2025–2026 **编程智能体** 随着智能体能力的增长,它们已经可以自主编写和修改代码,有时甚至能独立完成整个文件。
今天 **自主智能体** 智能体现在可以自己运行代码,并将长达数小时的工作委派给其他智能体。
20XX? **闭合回路** 未来,智能体可能强大到足以自行构建和训练模型。如果这一天到来,Claude 的后续版本将可以由 Claude 自身持续改进。
## Evidence from the outside world
## 外部世界的证据
**来自外部世界的证据**
The rate at which AI models improve is accelerating. The length of tasks that they can **reliably complete on their own** has been doubling roughly every four months, up from an earlier trend of **doubling** every seven months. In March 2024, Claude Opus 3 could complete software tasks that take humans about four minutes to complete. A year later, Claude Sonnet 3.7 managed tasks that took about an hour and a half. A year after that, Claude Opus 4.6 managed 12-hour tasks. [^1]
AI 模型的改进速度正在加快。它们能够**独立可靠完成的**任务时长,已从此前每七个月翻一番的趋势,发展到大约每四个月翻一番。2024 年 3 月,Claude Opus 3 可以完成人类大约四分钟才能完成的软件任务。一年后,Claude Sonnet 3.7 可以处理大约一个半小时的任务量。再过一年,Claude Opus 4.6 已能处理 12 小时的任务。[^1]
AI 模型改进的速度正在加快,模型能够独立可靠完成的任务时长,大约每四个月翻一番,比此前每七个月翻一番的趋势明显加速。
If this trend holds, tasks that take a skilled person days could come into range this year. In 2027, AI systems could be capable of tasks that take a person weeks.
如果这一趋势持续下去,熟练人员需要数天才能完成的任务,今年就可能进入 AI 的能力范围。到 2027 年,AI 系统或将能够完成需要数周工作量的任务。
2024 年 3 月,Claude Opus 3 能完成人类大约需要四分钟的软件任务。一年后,Claude Sonnet 3.7 能处理大约一个半小时的任务。再过一年,Claude Opus 4.6 已经能胜任 12 小时的任务。如果这个趋势持续下去,需要一个熟练工程师花几天才能完成的任务,今年内就可能落入 AI 的能力范围。到 2027 年,AI 系统可能有能力处理需要一个人花几周完成的任务。
The same pattern appears on coding and research benchmarks. Benchmarks measure the performance of models in a given domain, and they're "saturated" when models achieve close to 100% performance. [^2]
同样的模式也出现在编程和研究类基准测试中。基准测试衡量的是模型在特定领域的表现,当模型达到接近 100% 的表现时,该基准就被“饱和”。[^2]
同样的模式也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的表现,当模型的得分接近 100%,我们就说基准被"饱和"了。
**SWE-bench** is a standard test of real-world software engineering: it hands a model an actual open-source codebase and a real bug report, and asks it to write a code change that fixes the issue and passes the project's own tests. Models have gone from scoring in the low single digits to saturating the benchmark in two years.
**SWE-bench** 是一项关于真实软件工程能力的标准测试:它交给模型一个真实的开源代码库和一份真实的 bug 报告,要求模型写出修复该问题的代码变更,并通过项目自身的测试。短短两年间,模型从得分仅为个位数出头,走到了将该基准完全饱和的地步。
SWE-bench 是一个标准的真实世界软件工程测试:它给模型一个真实的开源代码库和一份真实的 Bug 报告,要求模型写出修复代码,并通过该项目自己的测试。模型的得分从最初的个位数百分比到饱和整个基准,只用了两年。
**CORE-Bench** tests whether a model can reproduce existing research, a prerequisite for them to conduct original research. It gives an AI model the code and data behind a published paper, and asks it to rerun everything and confirm it can replicate the paper's results. AI systems went from succeeding at reproducing the results roughly 20% of the time in 2024 to saturating the benchmark fifteen months later. METR, which runs the benchmark measuring how well models can complete long-duration tasks, **found** that Claude Mythos Preview could work for "at least" 16 hours and was "at the upper end of what [METR] can measure without new tasks."
**CORE-Bench** 测试的是模型能否复现已有研究——这是模型开展原创研究的前提。该测试将已发表论文背后的代码和数据交给 AI 模型,要求其重新运行所有内容,并确认能够复现论文的结果。AI 系统在 2024 年成功复现研究结果的概率约为 20%,而十五个月之后,该基准已被完全饱和。METR 负责运行衡量模型完成长时段任务能力的基准测试,该机构**发现**,Claude Mythos Preview 可以“至少”连续工作 16 小时,并且“处于 [METR] 在不创建新任务的情况下能够测量的上限范围“。
CORE-Bench 测试的是模型能否复现已有研究,这是开展原创研究的前提条件。它将一篇已发表论文的代码和数据交给 AI 模型,要求它重新运行所有内容并确认能否复现论文的结果。AI 系统的成功率从 2024 年的约 20% 上升到 15 个月后饱和整个基准。运营长时任务基准测试的 METR 机构发现,Claude Mythos Preview 能够"至少"连续工作 16 小时,并且处于"METR 在不增加新任务的情况下所能测量的上限"。
Public benchmarks say a lot about the capabilities of these systems. But they can't reveal the impact AI systems are having on speeding up AI development itself. For that, we need direct evidence from within AI companies like Anthropic.
公开基准测试能够揭示这些系统的大量能力。但它无法揭示 AI 系统对加速 AI 开发本身所产生的影响。要了解这一点,我们需要来自 Anthropic 等 AI 公司内部的直接证据。
公开基准测试能揭示很多关于这些系统能力的信息。但它们无法展示 AI 系统在加速 AI 开发本身方面产生了多大影响。要看到这一点,我们需要来自 Anthropic 这样的 AI 公司内部的直接证据。
## Evidence from within Anthropic
## Anthropic 内部的证据
**来自 Anthropic 内部的证据**
Building a frontier model takes two broad categories of work. There is **engineering**: writing the code, standing up the infrastructure, and overseeing the model training. And there is **research**: deciding what experiments to run, interpreting what comes back, and figuring out which ideas to try next.
构建一个前沿模型需要两大类工作。一类是**工程**:编写代码、搭建基础设施、监督模型训练。另一类是**研究**:决定要运行哪些实验、解读实验结果、判断下一步该尝试哪些思路。
构建一个前沿模型需要两大类工作。
一类是 **工程** :编写代码、搭建基础设施、监督模型训练。另一类是 **研究** :决定运行哪些实验、解读实验结果、想清楚下一步该尝试什么方向。
一类是 **工程** :编写代码、搭建基础设施、监督模型训练。另一类是 **研究** :决定运行哪些实验、解读实验结果、想清楚下一步该尝试什么方向。
Across both engineering and research, the picture is consistent. In engineering, Claude can be handed an underspecified problem and figure out how to solve it; humans supply the goal, but they no longer need to supply the method. In research, Claude can already match or outperform skilled humans at executing a well-specified experiment. However, large performance gaps persist when it comes to Claude exercising judgement in choosing goals in both engineering and research. That's the gap between AI today and a future system that could autonomously design its own successor.
无论是工程还是研究领域,情况都呈现出一致的模式。在工程方面,Claude 可以接收一个描述不完整的问题,并自行找出解决方案;人类提供目标,但已不再需要提供方法。在研究方面,Claude 在执行明确定义的实验时,已经能够匹敌甚至超越熟练的人类研究者。然而,在工程和研究中都需要做出判断抉择的环节——比如选定目标——Claude 与人类之间仍然存在巨大的差距。这正是当今 AI 与未来能够自主设计后继者的系统之间的鸿沟所在。
在工程和研究这两个方面,我们看到的图景是一致的。在工程领域,Claude 可以接手一个描述模糊的问题并自行找到解决方案;人类提供目标,但不再需要提供方法。在研究领域,对于一个定义清晰的实验,Claude 已经能够匹配甚至超越熟练人类的执行水平。然而,在运用判断力来选择目标这件事上,无论是工程还是研究,Claude 与人类之间仍然存在显著差距。这正是今天的 AI 与一个能自主设计自己继任者的未来系统之间的鸿沟。
It's common for employees at Anthropic to receive more open-ended and important tasks as they gain more experience. Early on, they execute a task someone else specified, like, *"The export button isn't working, please fix it."* With experience, they're handed a goal and design the approach themselves, such as, *"Investigate why the network slows down under heavy load."* At the most senior levels, they are deciding which problems are worth working on at all: *"What should the team build next quarter?"*
Anthropic 的员工随着经验增长,往往会承担更开放、更重要的任务,这一点相当普遍。早期,他们执行的是别人给定的任务,比如:*“导出按钮出问题了,请修好它。”* 积累一定经验后,他们会被赋予一个目标,由自己设计实现路径,比如:*“调查一下为什么网络在高负载下会变慢。”* 到最资深的层级,他们需要自己决定哪些问题值得去做:*“下个季度团队应该做什么?”*
在 Anthropic,员工随着经验积累,通常会接手越来越开放、越来越重要的任务。早期阶段,你执行的是别人指定好的任务,比如"导出按钮坏了,请修一下。"积累了经验之后,你会拿到一个目标,然后自己设计实现路径,比如"排查一下网络在高负载时为什么变慢。"到了最高层级,你要决定的是哪些问题值得去解决:"团队下个季度应该做什么?"我们可以用 Anthropic 的内部数据来看看,Claude 在处理这些不同层级的任务时已经走了多远。
We can use internal Anthropic data to see how far Claude has come in being able to handle these different kinds of tasks.
我们可以借助 Anthropic 内部数据,来审视 Claude 在处理这些不同类型任务上已经走得多远。
此段落在该译文中不存在
### Claude writes a significant proportion of Anthropic's code
### Claude 编写了 Anthropic 相当大比例的代码
**Claude 编写了 Anthropic 代码库中相当大的比例。**
As of May 2026, more than 80% of the code we merge into Anthropic's codebase was authored by Claude. [^3] Before Claude Code launched in research preview in February 2025, this number was in the low single digits. That shift also shows up in the amount of output per engineer. Lines of code merged per engineer per day stayed constant through Anthropic's first four years (2021-2024), then began to climb upward in 2025 when Claude began to run code rather than just suggesting it for an engineer to copy and paste. The slope steepened again in 2026 when models began to work autonomously over longer time horizons. These two inflection points are shown in the chart below. In the second quarter of 2026, the typical engineer was merging 8× as much code per day as they were in 2024. [^4] This is because much of the code is written by Claude, with the engineer directing and reviewing, rather than typing it themselves.
截至 2026 年 5 月,我们合并到 Anthropic 代码库中的代码,有超过 80% 出自 Claude 之手。[^3] 在 2025 年 2 月 Claude Code 以研究预览版形式发布之前,这个数字仅为个位数出头。这种转变同样体现在每位工程师的产出量上。在 Anthropic 成立的头四年(2021–2024),每位工程师每日合并的代码行数保持恒定,随后在 2025 年 Claude 开始直接运行代码、而不仅仅是建议工程师手动复制粘贴后,这一数字开始攀升。2026 年,当模型开始在更长的时间跨度内自主工作时,增长曲线再次变得陡峭。下图展示了这两个拐点。2026 年第二季度,典型工程师每日合并的代码量是 2024 年的 8 倍。[^4] 这是因为大量代码由 Claude 编写,工程师的角色变成了指导和审阅,而非亲自敲代码。
截至 2026 年 5 月,我们合并到 Anthropic 代码库中的代码,超过 80% 由 Claude 编写。在 Claude Code 于 2025 年 2 月以研究预览版发布之前,这个数字还在个位数的低端。这一转变也反映在每位工程师的产出上。在 Anthropic 的头四年(2021–2024),每位工程师每天合并的代码行数基本持平,然后在 2025 年开始攀升——因为 Claude 从只是建议代码,变成了可以自己运行代码。2026 年这条曲线再次变陡,因为模型开始在更长的时间跨度上自主工作。
下面的图表展示了这两个拐点。在 2026 年第二季度,一名典型工程师每天合并的代码量是 2024 年的 8 倍。其原因在于,大部分代码是由 Claude 编写的,工程师的角色转向了指导和审查,而非亲手敲代码。
下面的图表展示了这两个拐点。在 2026 年第二季度,一名典型工程师每天合并的代码量是 2024 年的 8 倍。其原因在于,大部分代码是由 Claude 编写的,工程师的角色转向了指导和审查,而非亲手敲代码。
A caveat: Lines of code is an imperfect measure, as it measures quantity over quality. So **8× lines of code/engineer/day** in the second quarter of 2026 is almost certainly an overstatement of the true productivity gain. Nonetheless, it indicates an acceleration. At Anthropic, we don't reward people for how many lines of code they write; rather, team members are producing more code simply because they're using AI systems to write more code.
需要说明一点:代码行数并非完美的衡量指标,它侧重的是数量而非质量。因此,2026 年第二季度**每位工程师每日产出 8 倍代码行数**这一数字,几乎肯定高估了真实的产出效率提升。不过,它确实反映出一种加速态势。在 Anthropic,我们并不以代码行数作为奖励标准;同事们之所以产出更多代码,仅仅是因为他们在用 AI 系统编写更多代码。
一个需要说明的地方是:代码行数是一个不完美的衡量指标,因为它度量的是数量而非质量。所以 2026 年第二季度 *每位工程师每天 8 倍的代码行数* ,几乎可以肯定是对真实生产力提升的高估。尽管如此,它仍然指示了一种加速。在 Anthropic,我们不以代码行数来衡量员工的贡献;团队成员产出更多代码,纯粹是因为他们在使用 AI 系统来编写更多代码。
The increase in lines of code written lines up with subjective impressions of large productivity increases. In a March 2026 poll of 130 employees from across Anthropic research teams, the median respondent estimated that they produced around 4x as much output with Mythos Preview as they would have without access to any AI models, on the kinds of projects they would have been working on regardless. [^5] We expect that the true degree of uplift in March was somewhat lower. [^6] Nevertheless, we find the overall claim plausible, and in line with our other observations: a significant fraction of Anthropic technical staff is accomplishing their core work multiple times faster than they could without AI assistance.
代码行数的增长与主观上对生产力大幅提升的感受是一致的。2026 年 3 月,一项针对来自 Anthropic 各研究团队的 130 名员工的问卷调查显示,在无论是否有 AI 都会开展的同类项目上,受访者估计自己在有 Mythos Preview 辅助时产出的中位数约为没有 AI 模型时的 4 倍。[^5] 我们认为 3 月份的真实提升幅度可能略低于这一水平。[^6] 尽管如此,我们认为这一总体判断是可信的,也与我们观察到的其他现象吻合:Anthropic 相当一部分技术人员完成其核心工作的速度,比没有 AI 辅助时快了数倍。
代码行数的增长与主观感受到的巨大生产力提升是吻合的。2026 年 3 月,一项覆盖 Anthropic 研究团队 130 名员工的内部调查中,受访者的中位数估计是:在他们本来就会去做的那些项目上,使用 Mythos Preview 大约让他们的产出变成了不使用任何 AI 模型时的 4 倍。我们预计 3 月的真实提升幅度会略低一些。但我们认为这个整体判断是可信的,也与我们的其他观察一致:Anthropic 相当比例的技术人员,完成核心工作的速度已经是无 AI 辅助时的数倍。
We also see evidence that people at Anthropic are using Claude to do work that simply wouldn't have happened otherwise, like building exploratory tooling and addressing long-deferred cleanup. For example, in April 2026, Claude shipped over 800 fixes that reduced a class of API errors by a factor of one thousand. The engineer overseeing Claude estimated that a human would have taken four years to complete this work; solving other people's bugs is slow and painstaking, and humans struggle to hold that much unfamiliar context in their head at once.
我们还看到证据表明,Anthropic 的员工正在用 Claude 来完成一些如果没有 AI 根本不会发生的工作,比如构建探索性的工具,以及处理被长期搁置的代码清理任务。例如,2026 年 4 月,Claude 完成了超过 800 个修复,将某一类 API 错误的发生率降低到原来的千分之一。监督 Claude 完成这项工作的工程师估计,换作人类需要四年才能完成。修复别人的 bug 缓慢而繁琐,而且人类很难在脑中同时承载如此大量不熟悉的上下文。
我们还看到,Anthropic 员工在用 Claude 做一些原本根本不会发生的工作:比如构建探索性工具、处理长期积压的清理任务。举个例子,2026 年 4 月,Claude 交付了超过 800 个修复,将一类 API 错误的发生率降低了一千倍。负责监督 Claude 的工程师估计,如果由人类来做,这项工作需要四年才能完成;修复别人的 Bug 是缓慢而痛苦的,人类很难同时在脑中持有那么多不熟悉的上下文。
> *"I started leaning hard into Claudifying about a year ago. That's been a crazy adventure and it's now been ~5 months since I last wrote any code myself."*
>
> — Anthropic employee [^employee]
>
> — Anthropic employee [^employee]
> *"大约一年前,我开始全面转向 Claudifying(全面使用 Claude 的工作方式)。这是一段疯狂的旅程,到现在我已经有大约五个月没有亲手写过一行代码了。"*
>
> ——一位 Anthropic 员工 [^employee]
>
> ——一位 Anthropic 员工 [^employee]
此段落在该译文中不存在
### The code that Claude writes is "good" and improving
### Claude 编写的代码“很好”,而且在不断进步
**Claude 写出的代码"够好",并且还在变好。**
"Good code" means two things: it works, and it is written in a manner that allows another engineer to understand it and build upon it. On the first criterion, the evidence is clear. The rate at which Anthropic staff correct, redirect, or take over mid-task from Claude has been falling steadily for a year, including on the most complex and open-ended tasks. This means problems with no clear specification, where the engineer isn't sure what the answer looks like. This is evident in Claude's success rate over time on tasks of different difficulties, as shown in the graph below. Claude writes code that works.
“好代码”意味着两层含义:它能用,而且写作方式能让其他工程师理解并在其基础上继续开发。就第一层标准而言,证据是清楚的。一年多以来,Anthropic 员工纠正、调整或中途接管 Claude 工作的频率一直在稳步下降,在那些最复杂、最开放的任务上也是如此。这里指的是那些没有明确规格说明、工程师自己也不确定最终答案应该长什么样的问题。从下图可以看出,Claude 在不同难度任务上的成功率随时间不断提升。Claude 写出来的代码确实能用。
"好代码"有两层含义:它能用,而且写法能让另一位工程师看得懂、接着往下开发。在第一个标准上,证据非常清晰。过去一年里,Anthropic 员工纠正 Claude、在任务中途接管、或将 Claude 引回正轨的频率在持续下降,即使是在最复杂、最开放的任务上也是如此。所谓开放的任务,指的是没有明确规格说明的问题,工程师自己也不确定答案长什么样。下面的图表展示了 Claude 在不同难度任务上的成功率随时间的变化。Claude 写的代码确实能用。
*Session success is determined by a Claude judge; a session is deemed successful if the Claude Code agent clearly succeeded at the user's tasks without requiring corrections. Changes in workloads can lead to short-term fluctuations in success rates.*
*是否成功由 Claude 评审员判定;如果 Claude Code agent 无需纠正就明显完成了用户的指令,则该会话被判定为成功。工作负载的变化可能导致成功率出现短期波动。*
此段落在该译文中不存在
On the most open-ended tasks, Claude's success rate reached 76% in May 2026, up 50 percentage points in six months. To give an example of tasks in this difficulty tier, a routine upgrade began crashing tens of thousands of training jobs. An engineer pointed Claude at the live incident with little more than some text content and cluster access. Working through the running jobs and testing one environment setting at a time, Claude isolated the single obscure debugging flag that was triggering the crash, reproduced it reliably, and confirmed a fix. In about two hours, Claude delivered what would normally be two to three days of work.
在最开放的任务上,Claude 的成功率在 2026 年 5 月达到了 76%,六个月内提升了 50 个百分点。举一个此类难度级别的例子:一次常规升级导致数万个训练任务开始崩溃。一位工程师将 Claude 指向这个正在发生的线上事故,提供的只有少量文本内容和集群访问权限。Claude 逐一调试运行中的任务、逐个测试环境设置,最终定位出触发崩溃的那个不起眼的调试标志,进行了可靠复现,并确认了修复方案。Claude 在大约两小时内完成了一般需要两到三天的工作量。
在最开放的任务上,Claude 的成功率在 2026 年 5 月达到 76%,六个月内提高了 50 个百分点。举一个属于这个难度层级的例子:一次常规升级导致数万个训练任务崩溃。一名工程师只给了 Claude 一些文本内容和集群访问权限,就把它指向了这个正在进行中的事故。Claude 逐一检查运行中的任务、逐个测试环境配置项,最终定位到了一个导致崩溃的冷门调试标志位,稳定地复现了问题,并确认了修复方案。Claude 大约花了两小时,完成了通常需要两到三天的工作。
The second criterion is writing code that another engineer can understand and build on. Here the gap between humans and AI persists, but is closing fast. There isn't full consensus among staff at Anthropic, but many believe that the Claude-written code was still worse in quality than human-written code at Anthropic in late 2025, and is roughly at parity today. We expect it to be better within the year.
第二层标准是写出其他工程师能够理解和在其基础上继续开发的代码。在这一点上,人类与 AI 的差距仍然存在,但正在快速缩小。Anthropic 内部的员工尚未形成完全共识,但许多人认为,2025 年底 Claude 编写的代码质量仍低于 Anthropic 的人类代码,而如今已大致持平。我们预计一年之内它将变得更好。
第二个标准是写出其他工程师能看懂并在此基础上继续开发的代码。在这一点上,人类和 AI 之间的差距仍然存在,但正在快速缩小。Anthropic 内部并非完全一致,但许多人认为:2025 年末时 Claude 写的代码质量仍然不如 Anthropic 人类工程师的水平,而到了今天大致达到了同等水平。我们预计年内 Claude 的代码质量将超过人类。
This has changed the way that Anthropic now reviews its own code. Proposed changes to our codebase are now read by an automated Claude reviewer that looks for bugs, security flaws, and other defects before it can merge. Using this tool, we ran a retrospective analysis, and found that an automated Claude review of every change to our codebase would have caught roughly a third of the bugs behind past incidents on **claude.ai** before they ever reached production. The engineers who wrote that code are among the best in the world at building these systems. Claude is now catching the mistakes that they missed.
这也改变了 Anthropic 目前审查自身代码的方式。现在,对代码库的任何变更提交,在合并之前都会由自动化的 Claude reviewer 进行审阅,查找 bug、安全漏洞和其他缺陷。我们利用这套工具进行了一项回溯性分析,发现如果对我们的代码库的每一次变更都进行 Claude 自动审阅,过去 **claude.ai** 线上事故背后的 bug 中,大约有三分之一能在进入生产环境之前被拦截。编写那些代码的工程师堪称全球最顶尖的系统构建者。Claude 正在捕捉他们所遗漏的错误。
这已经改变了 Anthropic 审查自身代码的方式。我们对代码库的变更提交,现在会先经过一个自动化的 Claude 审查器,它会在代码合并前检查 Bug、安全漏洞和其他缺陷。我们用这个工具做了一次回溯分析,发现如果对代码库的每一次变更都做自动 Claude 审查,大约三分之一曾经在 claude.ai 上引发过事故的 Bug 本可以在进入生产环境之前就被拦截。而写出那些代码的工程师,是全世界构建这类系统最优秀的人。Claude 现在正在捕捉他们遗漏的错误。
> *"Claude-written code was somewhat worse than human-written code at Anthropic in late 2025, is roughly at parity today, and we expect it to be strictly better within the year."*
> *"Claude 编写的代码在 2025 年底时,与 Anthropic 的人类代码相比仍稍逊一筹,目前大致持平,我们预计一年之内它将明确超过人类代码。"*
> "2025 年末,Claude 写的代码质量还略逊于 Anthropic 人类工程师的代码,到今天大致持平,我们预计年内将明确超越。"
### Claude is good at running experiments to hit a goal that someone else has set
### Claude 擅长运行实验,以达成他人设定的目标
**Claude 擅长在他人设定好目标后执行实验。**
Every time Anthropic releases a model, we run the same test: we give Claude some code that trains a small AI model, and ask it to make that code run as fast as possible while still passing the same correctness checks. The goal and the success metrics are fixed in advance, so Claude's job is to find speedups by rewriting the code, running it, timing it, and repeating. It's a miniature version of an experimental research loop. In May 2025, **Claude Opus 4** averaged a ~3x speedup over the starting code. By April 2026, **Claude Mythos Preview** was achieving ~52x. For calibration, a skilled human researcher would need four to eight hours to reach 4x. [^7]
每一次 Anthropic 发布新模型时,我们都会运行同样的测试:我们给 Claude 一段训练小型 AI 模型的代码,要求它在保持正确性检查全部通过的前提下,让这段代码运行得尽可能快。目标和成功指标是事先固定的,Claude 的任务是通过重写代码、运行代码、计时、反复迭代来找到加速方法。这相当于实验研究循环的一个微型版本。2025 年 5 月,**Claude Opus 4** 平均实现了约 3 倍的加速。到 2026 年 4 月,**Claude Mythos Preview** 实现了约 52 倍的加速。作为参照,一位熟练的人类研究者需要四到八个小时才能达到 4 倍的加速。[^7]
每次 Anthropic 发布模型,我们都会跑同一套测试:给 Claude 一段训练小型 AI 模型的代码,要求它在通过同样的正确性检查的前提下,让这段代码跑得尽可能快。目标和成功指标是预先固定的,Claude 的任务是通过重写代码、运行、计时、反复迭代来找到加速方案。这是一个微缩版的实验研究循环。
In this part of the research workflow—optimizing steps within a clearly defined experiment—Claude has gone from super helpful to superhuman in under a year.
在研究工作流的这一环节——即在明确界定的实验框架内进行优化——Claude 已在不到一年的时间里,**从“超级有用”跃升到了“超越人类”**。
2025 年 5 月,Claude Opus 4 平均将代码速度提升了约 3 倍。到 2026 年 4 月,Claude Mythos Preview 达到了约 52 倍。作为参照,一名熟练的人类研究员需要四到八小时才能达到 4 倍。在研究工作流的这个环节,在一个清晰定义的实验框架内进行优化。
Claude 在不到一年的时间里,从"非常有帮助"变成了"超越人类"。
Claude 在不到一年的时间里,从"非常有帮助"变成了"超越人类"。
> *"The shape of stuff today is roughly 'humans have ideas, and the models are able to implement, test and evaluate them an [order of magnitude] faster than before.'"*
> *"现在的情况大致是:人类出想法,模型负责实现、测试和评估,速度比以前快了一个数量级。"*
> "现在的格局大致是这样的:人类有想法,模型能够以比以前快一个数量级的速度去实现、测试和验证这些想法。"
### Claude is getting better at proposing its own experiments
### Claude 在自行提出实验方案方面也在进步
**Claude 在自主提出实验方面也越来越强。**
In April 2026, Anthropic **published** the first demonstration of Claude running an open-ended research project end to end. Claude-powered agents were given an open problem in AI safety—roughly, *can a weaker model reliably supervise a stronger one?*—and were left to solve it. This involved proposing hypotheses, testing them, sharing findings with parallel agents, and iterating. The task has a clear performance "floor" and "ceiling": the floor is how well the weak supervisor would do on its own; the ceiling is how the strong model does when trained on correct answers. Two human researchers, over about a week, recovered roughly 23% of that gap; the agents recovered 97% over 800 cumulative hours and used roughly $18,000 in compute. There are some caveats to this work; the result didn't transfer cleanly to production-scale models, and humans still chose the problem and created the scoring rubric. But within those bounds, the agents designed every experiment themselves. Direction-setting was the only meaningful role a human played.
2026 年 4 月,Anthropic **发表**了 Claude 端到端运行开放式研究项目的首次演示。Claude 驱动的 agent 被赋予了一个 AI 安全领域的开放性问题——大致是:*一个更弱的模型能否可靠地监督一个更强的模型?*——然后放手让它们去解决。这涉及到提出假说、测试假说、与并行 agent 分享发现、不断迭代。该任务存在明确的性能“下限”和“上限”:下限是弱监督方独立完成任务的表现;上限是强模型在有正确答案标注的情况下训练后的表现。两位人类研究者在大约一周内夺回了约 23% 的差距区间;agent 在 800 个累计计算小时内夺回了 97%,使用了约 18,000 美元的算力。这项研究存在一些局限:结果未能干净地迁移到生产级规模的模型中,且问题选择和评分标准的设定仍由人类完成。但在此边界内,agent 自行设计了每一个实验。人类扮演的唯一有意义的角色就是设定方向。
2026 年 4 月,Anthropic 发表了首个 Claude 端到端独立完成开放式研究项目的案例。由 Claude 驱动的智能体被交给了一个 AI 安全方向的开放问题,大致是"一个较弱的模型能否可靠地监督一个更强的模型",然后被放手去解决。这个过程涉及提出假设、测试假设、与并行智能体共享发现、反复迭代。
这项任务有一个明确的表现"下限"和"上限":下限是弱监督器独自工作的表现,上限是强模型在正确答案上训练后的表现。两位人类研究员用了大约一周时间,弥合了大约 23% 的差距;智能体们则在累计 800 小时的工作和大约 18000 美元的算力消耗下,弥合了 97%。
这项工作有一些值得注意的局限:结果没有干净地迁移到生产规模的模型上,而且问题的选择和评分标准仍然是人类制定的。但在这些边界之内,每一个实验都是智能体自行设计的。人类唯一实质性发挥的作用,只是确定研究方向。
这项任务有一个明确的表现"下限"和"上限":下限是弱监督器独自工作的表现,上限是强模型在正确答案上训练后的表现。两位人类研究员用了大约一周时间,弥合了大约 23% 的差距;智能体们则在累计 800 小时的工作和大约 18000 美元的算力消耗下,弥合了 97%。
这项工作有一些值得注意的局限:结果没有干净地迁移到生产规模的模型上,而且问题的选择和评分标准仍然是人类制定的。但在这些边界之内,每一个实验都是智能体自行设计的。人类唯一实质性发挥的作用,只是确定研究方向。
> *"Claude did all of this with pretty minimal help from me over the course of 1-2 days. I think if [a junior colleague] came back to me with results like this in the same span of time, I would be mildly impressed. The future is now."*
> *"Claude 完成了所有这些,我在这一两天里几乎没有提供什么帮助。我觉得如果一个初级同事在同样的时间内带着这样的结果回来找我,我会感到有些惊喜。未来已来。"*
> “这些工作 Claude 几乎在一到两天内就完成了,我几乎没怎么插手。我觉得如果一个初级同事在同样的时间里交回这样的结果,我会小有惊喜。未来已经到了。”
### Claude is getting better at steering research sessions towards research findings
### Claude 在研究导向方面正越来越好
**Claude 在将研究会话引向有价值发现方面越来越出色。**
We examined real Claude Code sessions (between January and March 2026) where Anthropic researchers were working with Claude on an open-ended investigative problem, like figuring out why a training run kept crashing, or why a model scored poorly on a benchmark. In each case, we found a moment where the researcher took a detour: they pursued a direction that sent the session sideways before it eventually got back on track. We then showed various Claude models **only** the work from before the session went off-course and asked what it would do next. A separate Claude that was able to see how the session eventually turned out then judged whether the AI or the human suggested the better next step. [^8]
我们检查了 2026 年 1 月至 3 月期间的一些真实的 Claude Code 会话,在这些会话中,Anthropic 研究者正在与 Claude 协作处理某个开放式调查问题,例如搞清楚为什么某个训练任务一直崩溃,或者为什么某个模型在基准测试中得分很差。在每一个案例中,我们都找到了研究者走弯路、将探索方向引偏、随后才回到正轨的时刻。然后我们向不同版本的 Claude 模型**只**展示走偏之前的会话内容,询问它下一步会怎么做。另一个能看到整个会话最终结果的 Claude 再来评判 AI 和人类的下一步方案哪个更优。[^8]
我们检视了 2026 年 1 月至 3 月间的真实 Claude Code 会话,这些会话中 Anthropic 研究员与 Claude 协作解决一个开放式的探索性问题——比如查明某次训练运行为何持续崩溃,或某个模型在基准测试上表现不佳的原因。
Because we deliberately picked moments (n=129) where we know the human's choice had room for improvement, this isn't a like-for-like comparison between model and human judgement. What these moments give us is a set of realistic, challenging situations where the right next step is not obvious, and where the human's choice serves as a useful yardstick to compare model performance over time. On this measure, our best model in November 2025 (Opus 4.5) beat the human choice 51% of the time; in April 2026 (Mythos Preview), this grew to 64%. The day-to-day work of research is largely a chain of these next-step decisions, making this a relevant measure of the model's ability to eventually run an investigation of its own. We view this result as an early signal that AI systems are getting better at making the kinds of judgement calls that AI research depends on.
由于我们刻意挑选了那些已知人类选择有改进空间的时刻(n=129),这并不是一个模型判断力与人类判断力的对等比较。这些时刻为我们提供了一组真实且具有挑战性的场景,正确路径并不显而易见,人类的选择则充当了衡量模型能力随时间变化的有效标尺。在这项指标上,我们 2025 年 11 月最强的模型(Opus 4.5)胜过人类选择的概率为 51%;到 2026 年 4 月(Mythos Preview),这一比例升至 64%。研究的日常工作很大程度上正是由一连串这样的“下一步”决策构成的,因此该指标能够有效衡量模型最终独立开展研究调查的能力。我们认为,这一结果是 AI 系统在做出 AI 研究所依赖的那种判断决策方面正在改进的一个早期信号。
在每个案例中,我们都找到了一个研究员"绕了弯路"的时刻:他们追了一个方向,导致会话偏离正轨,之后才回到正确路径上。然后我们只将偏离之前的工作内容展示给不同版本的 Claude 模型,问它下一步会怎么做。另一个能看到整个会话最终走向的 Claude 实例则负责评判:是 AI 还是人类给出了更好的下一步建议。
由于我们刻意选取的(n=129)都是人类判断有改进空间的时刻,这并不是一个模型与人类判断力之间的公平对比。这些时刻给我们提供的,是一组真实的、有挑战性的情境——正确的下一步并不显而易见,而人类的选择可以作为一个有用的参照标尺来比较模型随时间推移的进步。
由于我们刻意选取的(n=129)都是人类判断有改进空间的时刻,这并不是一个模型与人类判断力之间的公平对比。这些时刻给我们提供的,是一组真实的、有挑战性的情境——正确的下一步并不显而易见,而人类的选择可以作为一个有用的参照标尺来比较模型随时间推移的进步。
*The practical ceiling line measures an "ideal" answer written by a model that could see the whole session (including how it ended).*
*“实践上限”线衡量的是由能看到整个会话(包括其最终结果)的模型所给出的“理想”答案。*
按照这个指标,2025 年 11 月我们最好的模型(Opus 4.5)有 51% 的时间给出了比人类更好的选择;到 2026 年 4 月(Mythos Preview),这个比例增长到 64%。研究的日常工作在很大程度上就是这样一连串"下一步决策"的链条,因此这是一个衡量模型最终能否独立开展调查的相关指标。我们将这一结果视为一个早期信号:AI 系统正在越来越擅长做出 AI 研究所依赖的那种判断。
> *"The comparative advantage of humans as of right now is still in seeing the bigger picture and thinking beyond the confines of the immediate task."*
> *"就当下而言,人类的比较优势仍然在于看清全局、思考超出即时任务边界的问题。"*
> "就目前而言,人类的比较优势仍然在于看到更大的图景,在直接任务的范围之外去思考。"
## What might the future of work at Anthropic look like?
## 未来的 Anthropic 工作形态可能是什么样的?
**未来 Anthropic 的工作可能是什么样?**
The evidence suggests that the human role is narrowing at each step in the AI development process. Once human- and AI-authored code quality reach parity, humans will stop writing code entirely, and shift to only reviewing it. But if they can't review code as quickly as Claude can generate it, human review will become the bottleneck to AI development. Similarly, once Claude can run experiments, the question shifts towards "Which of these experiments is worth running?" Put simply: the **doing** (i.e., writing the code, running the experiment, producing the result) now costs almost nothing in human time, even if it still has costs in compute.
证据表明,在 AI 开发的每一个环节中,人类所扮演的角色都在收窄。一旦人类代码与 AI 代码的质量达到同等水平,人类将完全停止编写代码,转为仅进行审阅。但如果人类的审阅速度跟不上 Claude 生成代码的速度,那么人类审阅将成为 AI 开发的瓶颈。类似地,一旦 Claude 能够自行运行实验,问题就会转向“这些实验中哪些值得做?”。简而言之:**执行层面**(即写代码、跑实验、产出结果)如今几乎不再消耗人类时间——尽管在算力上仍有成本。
证据表明,在 AI 开发流程的每一步中,人类的角色都在收窄。一旦人类和 AI 编写的代码质量达到同等水平,人类将完全停止写代码,转而只做审查。但如果他们审查代码的速度跟不上 Claude 生成代码的速度,人工审查就会成为 AI 开发的新瓶颈。同样的,当 Claude 能够自己运行实验时,问题就变成了"这些实验中哪些值得去做?"
简单来说: **执行层面** 的工作,写代码、跑实验、产出结果,在人力时间上的成本已经趋近于零,尽管在算力层面仍然有成本。
简单来说: **执行层面** 的工作,写代码、跑实验、产出结果,在人力时间上的成本已经趋近于零,尽管在算力层面仍然有成本。
An area of human comparative advantage, for now, is research taste and judgment, including choosing which problems matter, which results to trust, and when an approach is a dead end.
就目前而言,人类的比较优势在于研究品味和判断力,包括判断哪些问题重要、哪些结果可信、哪条路径已经走入死胡同。
人类目前仍保有比较优势的领域是研究品味和判断力:选择哪些问题重要、哪些结果可信、什么时候一条路走不通该及时止损。
> *"Work (and life) ran on a gift economy of small favors between humans. 'Can you help me get this script running?' [...] each one created a little debt, a little mutual awareness. [Claude is] faster, it creates zero debt, but each of these is a lost bid for human collaboration."*
> *"工作和生活建立在人与人之间小恩小惠的礼物经济之上。'你能帮我把这个脚本跑起来吗?'……每一次请求都制造了一笔小小的亏欠、一份小小的相互关注。[Claude] 更快,完全不产生亏欠,但每一次这样的互动,都是一次人际协作的落空。"*
> "工作(和生活)过去运行在人与人之间小恩小惠的礼物经济上。'能帮我把这个脚本跑起来吗?'……每一次都创造一点点人情债,一点点彼此的联结。Claude 更快,它不产生任何人情债,但每一次这样的替代,都是一次人际协作的机会的失去。"
> *"On days where everything works well, I can't help but think nothing I do matters, everything is automated and better and faster than I ever will be. But then there are days where everything breaks and I don't understand why and I realize I have no idea what I've been up to anymore."*
> *"在一切顺利的日子里,我忍不住会想,我所做的一切都不重要,一切都是自动化的,比我做得好、做得快。但也有些日子一切都会乱套,而我完全搞不清为什么,那时候我才意识到,我已经完全不知道自己在做什么了。"*
> "在一切顺利的日子里,我忍不住觉得自己做的事都不重要了,一切都被自动化了,而且比我做得更好更快。但总有些日子,所有东西都在崩溃,我不知道为什么,那时候我才意识到,我已经不太清楚自己到底一直在干什么了。"
## What if we're wrong?
## 万一我们错了?
**如果我们错了呢?**
A natural objection to the evidence presented above is that the work that is still in human hands—choosing which problems to work on—is what matters most. Without that judgment, Claude is a capable assistant, but not a system that could drive AI progress on its own.
对上述证据的一个自然质疑是:那些仍掌握在人类手中的工作——即选择做什么问题——才是最关键的。没有这种判断力,Claude 只是一个有能力的助手,而非一个能够独立推动 AI 进程的系统。
对上述证据一个自然的反驳是:仍然掌握在人类手中的那部分工作,选择要解决哪些问题才是最关键的。没有这种判断力,Claude 只是一个能干的助手,而非一个能独立驱动 AI 进步的系统。
It is genuinely unclear whether today's training methods and architectures could unlock that capacity. But AI is rarely advanced by "eureka!" moments. There have been a few of these in AI's recent history, like the **Transformer architecture**, or mixture-of-experts models, but paradigm-shifting ideas arrive years apart. In between, most progress is incremental: we scale something up, see what breaks, fix it, and try again. That is exactly the kind of workflow Claude now excels at. Edison said that genius is 1% inspiration and 99% perspiration. But we see perspiration becoming increasingly automated. It's becoming clear that much of what advances the frontier is automatable; large-scale research progress is mostly a function of tools and resources, which dictate how fast you can run experiments, how many you can run at once, and how quickly you can get results.
今天的训练方法和架构能否解锁这种能力,确实尚不可知。但 AI 的进步极少以“尤里卡!”式的顿悟时刻发生。在 AI 的近期历史上,确实有过几次这样的时刻,比如 **Transformer 架构**(注:当前所有主流大语言模型的基础神经网络架构)或混合专家模型(mixture-of-experts),但范式级的思想往往要隔数年才会出现一次。在此之间,大部分进步是渐进的:我们将某个东西放大规模,看它什么地方会出问题,修复它,再试一次。而这恰恰是 Claude 如今擅长的那种工作流程。爱迪生说过,天才是百分之一的灵感加上百分之九十九的汗水。而我们看到,汗水正在被日益自动化。越来越清楚的一点是,推动前沿进步的许多工作都是可自动化的;大规模研究进展主要由工具和资源决定——它们决定了你能多快地运行实验、一次能运行多少个实验、多久能拿到结果。
今天的训练方法和架构能否释放这种能力,确实尚不清楚。但 AI 的进步很少依靠"灵光一现"。在 AI 的近代史上确实有过几次这样的时刻,比如 Transformer 架构和混合专家模型,但这种范式级的突破相隔数年才出现一次。在两次突破之间,大部分进展都是渐进式的:我们把某个东西做大,看看哪里会出问题,修好它,再试一次。而这恰恰是 Claude 现在最擅长的工作流。爱迪生说天才是 1% 的灵感加 99% 的汗水。但我们看到的是,那 99% 的汗水正在被越来越多地自动化。
事实已经越来越清楚:推动前沿进步的工作中,相当大一部分是可自动化的。大规模研究进展在很大程度上取决于工具和资源,它们决定了你能多快地运行实验、同时运行多少个、以及多快拿到结果。
事实已经越来越清楚:推动前沿进步的工作中,相当大一部分是可自动化的。大规模研究进展在很大程度上取决于工具和资源,它们决定了你能多快地运行实验、同时运行多少个、以及多快拿到结果。
Even if we suppose that Claude never achieves good research taste, a conservative reading of our evidence still implies compounding acceleration. If humans spend most of their time on the single-digit fraction of work that is direction-setting, while Claude handles the rest, that means each engineer or researcher is steering far more work than before. The evidence we see suggests that people at Anthropic are both moving faster and covering a broader surface. In practice, this means that AI already makes Anthropic move much faster than it did before the advent of effective AI tools.
即使我们假定 Claude 永远无法具备良好的研究品味,对我们证据的保守解读仍然意味着复合式的加速。如果人类将大部分时间花在只占工作量个位数百分比的“方向设定”上,而 Claude 处理其余的一切,这意味着每一位工程师或研究者所驾驭的工作量远超过往。我们看到的证据表明,Anthropic 的员工既在加速前进,又在覆盖更广的地面。在实践中,这意味着 AI 已经让 Anthropic 的进展速度比起 AI 工具真正有效之前快得多。
即使假设 Claude 永远无法拥有良好的研究品味,对我们证据的保守解读仍然意味着一种复合式的加速。如果人类将大部分时间花在仅占个位数百分比的方向设定工作上,而 Claude 处理剩下的一切,那就意味着每位工程师或研究员所驾驭的工作规模远超从前。我们看到的证据表明,Anthropic 的员工既在更快地推进,也在覆盖更广泛的领域。实际上,这意味着 AI 已经让 Anthropic 比有效 AI 工具出现之前运转得快得多。
The less conservative reading is that the early evidence on Claude's improving research judgment—narrow as it is today—is an indicator that this capability is improving as well. "Research taste" might be just another AI capability that AI systems fail at for a time, then get good at. We've seen a similar pattern with other qualitative skills, like AI systems being able to explain why a joke is funny, demonstrate theory of mind, and solve linguistic riddles.
不那么保守的解读则是,Claude 在研究判断力方面改进的这些早期信号——尽管目前还很狭窄——预示着这一能力同样在进步。“研究品味”可能只是又一项 AI 系统暂时做不到、随后会变得擅长的能力。我们在其他定性技能上已经见过类似的模式,比如 AI 系统能够解释笑话为什么好笑、展现心智理论、解决语言谜题等。
更大胆的解读则是:Claude 在研究判断力上的早期改进信号——虽然今天还很有限,但这恰恰说明这项能力本身也在提升。所谓"研究品味"可能只是又一项 AI 能力,AI 系统会在这上面失败一段时间,然后变好。我们在其他定性技能上见过同样的模式,比如 AI 系统理解一个笑话为什么好笑、展现心智理论能力、以及解开语言谜题。
## Possible futures
## 可能的未来
**可能的未来**
What happens next depends on two things: whether the trend continues, and what we choose to do if it does. We can imagine at least three future scenarios:
接下来会发生什么,取决于两件事:趋势是否延续,以及如果它确实延续,我们选择怎么做。我们至少可以设想三种未来情景:
接下来会发生什么,取决于两件事:趋势是否延续,以及如果延续,我们选择如何应对。我们至少可以设想三种未来情景:
**The trend stalls, but today's AI capabilities are widely diffused.**
### 趋势停滞,但当前的 AI 能力已广泛扩散
### 情景一:趋势停滞,但当前 AI 能力已经广泛扩散
This article features many exponential trajectories. But these trajectories may actually turn out to be S-curves. We may be approaching the bend in the curve, where returns to scale diminish and the line straightens, then flattens. The judgment that separates a competent researcher from a great one might be a capability that cannot come from scaling up training inputs like compute and data. If so, getting past this bottleneck would require a new idea, like an architectural approach that supplants the Transformer architecture that all current frontier models use.
本文展示了许多指数级增长曲线。但这些轨迹可能实际上是 S 曲线——我们或许正接近曲线的拐点,在这个点上,规模收益递减,增长线趋于平直,继而变平。区分一名合格研究者和一名杰出研究者的判断力,可能是一种无法通过扩大算力和数据等训练投入来获得的能力。如果事实如此,突破这一瓶颈就需要新的想法,比如一种取代当前所有前沿模型都在使用的 Transformer 架构的全新架构方案。
本文中出现了许多指数级增长的轨迹。但这些轨迹实际上可能是 S 曲线。我们也许正在逼近曲线的拐弯处——回报递减,增长曲线先趋平、再走平。那种区分一个合格研究员和一个卓越研究员的判断力,可能是一种无法通过堆叠算力和数据等训练资源来获得的能力。如果确实如此,突破这一瓶颈将需要新的思路,比如一种取代当前所有前沿模型所使用的 Transformer 架构的全新架构范式。
Alternately, the binding constraint to AI progress could be in the supply chain, not the model: advancing and diffusing the frontier may require more energy and compute than presently exists. The pace of chip fabrication, grid expansion, or interconnect bandwidth may be the constraint, rather than intelligence itself. We also cannot rule out an exogenous shock to the AI ecosystem that dramatically slows things, like a sudden diminishment in the supply of compute or electricity, either of which would slow progress and make forward investment by labs more expensive. Or we may not be anticipating some other barrier to progress.
另一种可能是,制约 AI 进步的关键瓶颈不在模型,而在供应链:推动和扩散前沿能力所需的能源和算力,可能超过了当前现有的水平。芯片制造速度、电网扩张或互联带宽可能才是真正的约束所在,而非智能本身。我们也不能排除 AI 生态系统遭遇外部冲击、导致进展急剧放缓的可能——比如算力或电力供应的突然减少。无论哪一种,都会减缓进展,并推高各实验室进行前瞻性投资的成本。或者,我们可能尚未预料到其他阻碍进步的障碍。
另一种可能是,AI 进步的约束不在模型本身,而在供应链:推进和普及前沿技术所需的能源和算力,可能超出了当前的供给能力。芯片制造、电网扩容或互联带宽的速度可能才是真正的瓶颈,而非智能本身。我们也不能排除某种外部冲击对 AI 生态系统造成严重拖累,比如算力或电力供应的突然收缩,这两者中的任何一种都会减缓进步,并使实验室的前瞻性投资变得更加昂贵。又或者存在某种我们尚未预见到的其他障碍。
Even if model capabilities were frozen at today's level, we would expect major changes to occur in the world. **Project Glasswing** is one early sign: in its first weeks, Mythos Preview found more than ten thousand high- and critical-severity software vulnerabilities across the world's most important systems—enough that the bottleneck in cyber defense has already shifted from finding vulnerabilities to patching them fast enough. And we are still early in the diffusion of today's models into the wider economy, where a 100-person company can increasingly do the work of a 1,000-person one, because each employee will sit atop a pyramid of agents.
即使模型能力冻结在今天的水平,世界也仍会发生重大变化。**玻璃翼计划(Project Glasswing)** 就是一个早期信号:在 Mythos Preview 上线的头几周,就在全球最重要的系统中发现了一万多个高危和严重级别的软件漏洞——数量之多,以至于网络防御的瓶颈已经从发现漏洞转变为修复速度跟不上了。而且,当前模型向更广泛经济的扩散仍处于早期阶段:一家 100 人的公司已经越来越能够完成 1000 人公司才能做的事,因为每个员工都将驾驭一个由 agent 组成的金字塔。
即使模型能力被冻结在今天的水平,我们也预期世界将发生重大变化。Project Glasswing 就是一个早期信号:在启动后的最初几周里,Mythos Preview 在全球最重要的系统中发现了超过一万个高危和严重级别的软件漏洞,以至于网络安全防御的瓶颈已经从发现漏洞转移到了能否足够快地修补它们。而当前这些模型向更广泛经济领域的扩散仍处于早期阶段,在那个世界里,一家 100 人的公司越来越有可能做出 1000 人公司的体量,因为每个员工都将坐在一个由智能体组成的金字塔的顶端。
We include this scenario for completeness, but we don't believe it's likely. Every capability we can measure, including those that feel "squishier," like quality of code and success on open-ended tasks, has so far followed the same curve. We have not yet seen that curve bend. Of the three futures we consider, this one would give governments and societies the most time to adapt. We are more worried about the next two, which would move faster and leave far less room for preparation.
我们列出这一情景是为了完整性,但我们认为它不太可能发生。我们能够衡量的每一项能力——包括那些感觉更“软”、更难量化的能力,比如代码质量和开放性任务上的成功率——到目前为止都遵循同一条曲线。**我们尚未看到这条曲线出现拐点**。在我们考量的三种未来中,这一种会给政府和社会最多的适应时间。我们更担忧的是后两种:它们推进得更快,留给准备的时间要少得多。
我们列出这个情景是为了完整性,但我们并不认为它的可能性很高。我们能测量到的每一项能力,包括那些感觉更"软"的,比如代码质量和开放式任务的成功率,到目前为止都遵循着同一条曲线。我们还没有看到这条曲线出现弯折。在我们考虑的三种未来中,这一种会给各国政府和社会留出最多的适应时间。我们更担心的是接下来两种,它们的推进速度更快,留给准备的窗口也小得多。
**AI labs continue to see compounding efficiency gains.**
### AI 实验室持续获得复利式效率增益
### 情景二:AI 实验室持续获得复合效率增益
In this scenario, AI development becomes substantially automated, but humans continue to set research directions and judge results. Organizations that use AI systems would become much more efficient as time goes on, so we could expect to see significant productivity multipliers on each person in this organization. 100-person companies could do the work of 10,000- or 100,000-person organizations. This would revolutionize knowledge work and government services, but could also be turned to harmful ends, from authoritarian surveillance of whole populations to influence operations that tailor manipulation to each individual and run at a scale no human team could match. The role of humans at companies like Anthropic would shift. People would partner with AI systems to scale up research and generate new insights, and together they would build the systems needed to verify that AI outputs can be trusted.
在这种情景下,AI 开发在很大程度上实现了自动化,但人类继续设定研究方向并评判结果。使用 AI 系统的组织会随着时间的推移变得高效得多,因此我们可以预期,这类组织中的每个人都将获得显著的生产力乘数效应——100 人的公司可以做 10,000 人甚至 100,000 人组织的工作。这将彻底变革知识工作和政府服务,但也可能被用于有害目的:从对全体人口的威权监控,到针对每个个体量身定制的舆论操纵行动,其规模没有任何人类团队可以匹敌。在 Anthropic 这类公司中,人类的角色将发生转变。人们将与 AI 系统协作,扩大研究规模、产生新的洞见,并共同构建验证 AI 输出可信度所需的系统。
在这个情景中,AI 开发被大幅自动化,但人类继续设定研究方向、评判研究结果。使用 AI 系统的组织将随着时间推移变得高效得多,因此我们可以预期每个人身上出现显著的生产力乘数效应。100 人的公司可以完成一万人甚至十万人组织的工作量。这将彻底改变知识工作的面貌,但也可能被用于有害目的,从对全体国民的威权式监控,到针对每一个个体量身定制的操纵行动,这种行动的规模远超任何人类团队的能力上限。Anthropic 这样的公司中,人类的角色将发生转变。人们将与 AI 系统搭档来扩展研究规模、产生新的洞见,并共同构建用于验证 AI 输出可信度的系统。
The evidence we've laid out here suggests that we're likely heading into this scenario. But speeding up one part of a process often just shifts the bottleneck elsewhere: overall pace is capped by the parts that haven't sped up. In computing, this is known as **Amdahl's law**, and the same logic can apply to organizations. Anthropic has already encountered one signature of Amdahl's law: as we've begun to push more code around the organization, human code review has become a new bottleneck.
我们在此呈现的证据表明,我们很可能正走向这一情景。但加速流程中的某一部分,往往只是将瓶颈转移到了别处:整体速度受限于那些尚未加速的部分。在计算机科学中,这被称为**阿姆达尔定律**,同样的逻辑也适用于组织。Anthropic 已经遇到了阿姆达尔定律的一个典型表现:随着我们在组织内部流转的代码越来越多,人工代码审查已成为新的瓶颈。
我们呈现的证据表明,我们很可能正在进入这个情景。但加速一个流程的某个环节,往往只是把瓶颈转移到了别处:整体速度受制于那些没有被加速的部分。在计算机科学中,这被称为阿姆达尔定律,同样的逻辑也适用于组织。Anthropic 已经遭遇了阿姆达尔定律的一个典型症状:当我们在组织内部推送越来越多的代码时,人工代码审查成了新的瓶颈。
We've also encountered this friction outside engineering. There has been an explosion of new ideas, initiatives, tools, and simulations, as a result of Anthropic employees working with highly capable models—far more than we have the capacity to pursue. The rate at which organizations can spot and fix these bottlenecks may be a skill that improves over time, and it may become the most important skill for any organization.
我们在工程之外也遇到了这种摩擦。由于 Anthropic 员工与能力强大的模型协作,新想法、新项目、新工具和新模拟的数量出现了爆炸式增长——远远超出了我们能够跟进的能力。组织识别和消除这些瓶颈的速度,可能是一种会随时间推移而提升的能力,并且可能成为任何组织最重要的能力。
我们在工程之外也遇到了同样的摩擦。由于 Anthropic 员工与高能力模型的协作,新的想法、计划、工具和模拟呈爆发式增长,远远超出了我们有能力去追踪的范围。一个组织能多快地发现并消除这些瓶颈,这本身可能是一种随时间推移会不断精进的技能,也可能成为任何组织最重要的能力。
**AI systems themselves become capable of full recursive self-improvement, and begin building their successors.**
### AI 系统自身具备了完全的递归式自我改进能力,并开始构建自己的后继者
### 情景三:AI 系统自身具备完全的递归自我改进能力,并开始构建自己的继任者
If technical trends in advancing capabilities continue, **and** AI systems are able to develop the capabilities inherent to transformative human ingenuity, then it is plausible that AI systems could design and refine themselves.
如果能力提升的技术趋势持续下去,**并且** AI 系统能够发展出人类变革性创造力所固有的那些能力,那么 AI 系统设计和完善自身就是合理的推论。
如果推动能力进步的技术趋势持续下去, *并且* AI 系统能够发展出蕴含人类变革性创造力的那些能力,那么 AI 系统有可能设计和改进自身。
In this world, the pace of progress in AI development becomes determined entirely by the availability of compute (or the speed of discovering various efficiencies in algorithmic training or inference) for AI systems. Humans play a substantially diminished role in their development, likely moving most of our effort towards oversight, validation, and verification of an expanding "virtual lab" run by AI systems. We expect that systems capable of automated AI research and development would have skills that would transfer to the rest of science, allowing them to begin to revolutionize other fields.
在这样的世界中,AI 发展的节奏将完全由 AI 系统可用的算力(或算法训练和推理中各种效率提升的发现速度)决定。人类在其开发中的角色将大幅缩减,我们的主要精力可能转向对一个由 AI 系统运行的、不断扩展的“虚拟实验室”进行监督、验证和核验。我们预计,具备自动化 AI 研发能力的系统将拥有可迁移到其他科学领域的技能,从而开始变革其他学科。
在这个世界里,AI 发展的速度将完全取决于可用算力(或者在算法训练和推理层面发现各种效率提升的速度)。人类在 AI 开发中的角色将大幅缩减,大部分精力可能转向对一个不断扩张的 AI "虚拟实验室"进行监督、验证和确认。我们预计,一个有能力自动化 AI 研发的系统,其技能也能迁移到其他科学领域,从而开始革新更多学科。
How **the alignment problem** gets solved—or not—in this future is something we are least certain about. Models could prove to be sufficiently aligned and capable enough of research taste that they discover and implement novel solutions that we have not yet reached. They could also be sufficiently wise to halt development if not. Alternatively, the rare occurrences of misalignment present in today's models could compound as the models build their successors, growing more frequent but less understood until we lose control of them. It's possible that we can't build, integrate, and verify the tools that we'd need to understand which trendline we are actually on.
在这种未来中,**对齐问题**如何解决——或未能解决——是我们最不确定的事情。模型可能被证明在足够程度上实现了对齐,并且具备足够的研究判断力,能够发现并实施我们尚未触及的新解决方案。如果对齐不够充分,它们也可能具备足够的智慧来主动停止开发。另一种可能是,当今模型中罕见的对齐失败案例,会随着模型构建后继者而不断累积——变得更加频繁、更加不为人所理解,直到我们失去对它们的控制。也有可能,我们根本无法构建、整合和验证那些所需工具,来帮助我们判断自己究竟处于哪条趋势线上。
在这个未来中,对齐问题会如何被解决——或者无法被解决,是我们最不确定的部分。模型可能被证明足够对齐,也足够具备研究品味,从而发现并实施我们尚未触及的新颖解决方案。它们也可能足够审慎,在条件不成熟时选择暂停开发。另一种可能性是,今天模型中偶尔出现的对齐偏差,在模型构建自己继任者的过程中不断累积,但越来越难以被理解,直到我们失去对它们的控制。也有可能,我们根本无法构建、整合和验证那些我们需要的工具,去判断自己到底处于哪条趋势线上。
We do not have good intuitions for what this world would look like, because our economy is currently driven by humans and human-built tools. By its nature, a world driven by fast recursive self-improvement could become dominated by the self-improving model as its capabilities fully eclipse those of humans and the model proliferates across the broader economy. It is difficult to predict what the economy looks like if human labor stops being competitive.
我们对于这样的世界会是何种面貌缺乏良好的直觉,因为我们当前的经济是由人类和人类制造的工具驱动的。就其本质而言,一个由快速递归式自我改进驱动的世界,可能会被自我改进的模型所主导——随着其能力全面超越人类,并在更广泛的经济中扩散。如果人类劳动不再具有竞争力,经济将呈现何种形态,这是难以预测的。
我们对这个世界会是什么样子缺乏好的直觉,因为我们当前的经济体系是由人类和人类构建的工具驱动的。就其本质而言,随着其能力全面超越人类,一个由快速递归自我改进驱动的世界,可能会被那个自我改进的模型所主导,并在更广泛的经济体系中扩散。如果人类劳动不再具有竞争力,很难预测经济将呈现什么面貌。
But achieving recursive improvement alone does not suggest an immediate change in how industrial production occurs, societies organize, or markets function. More intelligence can't learn what a drug does over decades of use, can't hold elections sooner than a constitution dictates, and can't turn a stranger into an old friend in a weekend. For most people, the felt pace of this future will still be set by the bottlenecks, even if the laboratory upstream runs at the speed of compute. That collision, where recursive intelligence building itself ever faster meets the world of humans, relationships, and governance, is another part of this future we can't predict.
即使模型开发变得完全自动化和递归化,我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在此同样适用。递归式智能可能带来 **《爱的恩典机器》(Machines of Loving Grace)** 中所勾勒的诸多益处,并在某些领域迅速实现。我们预计,具身智能(即机器人技术)可能紧随递归式智能之后出现,并沿着类似的路径发展——以递减的成本获得递增的回报。更强大的智能可能帮助我们更快地建造实体世界中的东西,开展更高效的救命药物临床试验,并发展出新颖的协调形式。
即使模型开发变得完全自动化和递归化,我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让 Machines of Loving Grace 中描绘的许多愿景得以实现,在某些领域甚至很快。我们预计具身智能(即机器人技术)可能会紧随递归智能而来,并走上一条类似的"投入递减而回报递增"的路径。更强大的智能可能帮助我们更快地在物理世界中建造事物、更高效地开展救命药物的临床试验、发展出新型的协作形式。
## What should we do?
## 我们应该怎么做?
**我们应该怎么做?**
If it were possible to effectively slow the development of this technology to give ourselves more time to deal with its immense implications, we think that would likely be a good thing. But if a slowdown simply lets the least cautious actors **catch up** technologically, it could leave everyone less safe. Without a global coordination mechanism, companies and governments will have to make difficult decisions about safety while under competitive and geopolitical pressures.
如果能够有效地延缓这项技术的发展,为自己争取更多时间来处理其巨大的影响,我们认为这很可能是一件好事。但如果减速只是让最不谨慎的行动者在技术上**追赶上来**,反而会让所有人都更不安全。没有全球协调机制,公司和政府将不得不在竞争和地缘政治压力下做出艰难的安全决策。
如果能有效地减缓这项技术的发展速度,从而为我们争取更多时间来应对其巨大影响,我们认为这很可能是一件好事。但如果减速只是让最不谨慎的参与者在技术上追赶上来,那最终可能让所有人都更不安全。在没有全球协调机制的情况下,企业和政府将不得不在竞争压力和地缘政治压力下做出关于安全的艰难决定。
We believe it would be good for the world to have the **option** to slow or temporarily pause frontier AI development to enable societal structures and alignment research to keep up with the advance of the technology. The Anthropic Institute will conduct **research**—in collaboration with many others—and take actions to help build the systems that a credible slowdown or pause would require. These systems would enable frontier AI developers to verify that others globally have actually stopped or slowed, and that a bad actor could not use the auspices of a coordinated slowdown to jump ahead in secret. If such systems existed, we expect that we would slow down or temporarily pause, if other developers at or near the frontier also did so in a verifiable manner.
我们认为,世界拥有**选项**来减缓或暂时暂停前沿 AI 开发,以使社会结构和对齐研究能够跟上技术的进步,这将是有益的。Anthropic 研究院将与众多合作者一道开展**研究**,并采取行动,帮助构建一个可信的减速或暂停所需的体系。这些体系将使前沿 AI 开发者能够验证全球其他开发者确实已经停止或减缓,并且恶意行为者无法利用协调减速的名义秘密抢占先机。如果这样的体系存在,我们预期——在其他处于或接近前沿的开发者也能以可验证的方式这样做的前提下——我们会减缓或暂时暂停。
我们相信,让世界拥有减缓甚至暂时暂停前沿 AI 开发的 **选项** ,从而让社会结构和对齐研究能跟上技术前进的步伐,对世界是有益的。Anthropic 研究院与其他许多机构合作开展研究并采取行动,帮助建立一个可信的减速或暂停所需要的体系。这些体系将使前沿 AI 开发者能够核实其他参与者是否在全球范围内确实已经停止或减速,以及是否有不良行为者利用协调减速的掩护秘密抢跑。如果这样的体系存在,我们预计我们会选择减速或暂时暂停,当然前提是其他处于或接近前沿的开发者也以可验证的方式这样做。
A meaningful slowdown or pause would require multiple well-resourced labs at or near the frontier, in multiple countries, agreeing to stop under the same conditions. It would also require that each can verify that the others have actually stopped. Due to the unique characteristics of AI systems, the detectability (a lower standard than verifiability) element of this arms control problem is **much more challenging** than with other technologies. Training runs are far easier to conceal than missile silos, their inputs are general-purpose, and the incentive to defect quietly is enormous, because whoever continues while others pause could inherit the lead. A credible pause also has to specify what triggers it, what lifts it, and who adjudicates.
一次有意义的减速或暂停,需要多个资源充足、处于或接近前沿的实验室,在多个国家,同意在相同条件下停止。它还需要各方能够验证其他方确实已经停止。由于 AI 系统的独特特性,这一军备控制问题中的可探测性(标准低于可验证性)要素,比面对其他技术时**更具挑战性**。训练运行远比导弹发射井更容易隐藏,其输入是通用性的,而悄悄叛变的激励是巨大的——因为其他方暂停时谁继续,谁就可能继承领先地位。一个可信的暂停还必须明确:什么条件触发暂停,什么条件解除暂停,以及由谁来裁决。
有意义的减速或暂停需要多家分处多个国家、处于或接近前沿资源充沛的实验室在相同条件下达成停止协议。它还要求各方能够验证其他方确实已经停止。由于 AI 系统的独特特性,这个军控问题中的可探测性(一个低于可验证性的标准)要素,比其他技术困难得多。
训练运行比导弹发射井更容易隐藏,其投入物都是通用的,而且在别人暂停时悄悄继续的诱惑巨大,因为谁在别人停下时继续前进,谁就可能继承领先地位。一个可信的暂停还必须明确规定什么条件触发它、什么条件解除它、以及由谁来裁定。
训练运行比导弹发射井更容易隐藏,其投入物都是通用的,而且在别人暂停时悄悄继续的诱惑巨大,因为谁在别人停下时继续前进,谁就可能继承领先地位。一个可信的暂停还必须明确规定什么条件触发它、什么条件解除它、以及由谁来裁定。
None of this is necessarily impossible in principle—the world has built verification regimes for other complex technologies (e.g., the Intermediate-Range Nuclear Forces Treaty)—but those regimes took decades to build both the infrastructure and the trust. We don't have that long. A unilateral pause by one lab, by contrast, is achievable immediately, but accomplishes much less: it would change who the front-runner is, but it would not create the wider deliberative process that is currently missing.
这些原则上并非不可能实现——世界已为其他复杂技术建立过验证体制(例如《中程核力量条约》)——但这些体制花费了数十年时间才建立起基础设施和信任。我们没有那么长时间。相比之下,单个实验室的单边暂停可以立即实现,但效果要小得多:它会改变谁处于领先地位,但无法创造当前所缺失的更广泛的审议进程。
这些在原则上都未必是不可能的,世界曾经为其他复杂技术建立过核查机制(例如中导条约),但那些机制花了几十年才建立起基础设施和信任。我们没有那么多时间。
相比之下,一家实验室的单方面暂停可以立即执行,但效果要有限得多:它会改变谁是领跑者,但不会创造出当前所缺少的更广泛的审议进程。
相比之下,一家实验室的单方面暂停可以立即执行,但效果要有限得多:它会改变谁是领跑者,但不会创造出当前所缺少的更广泛的审议进程。
In the coming months, we will organize conversations where policymakers, researchers, civil society, and other AI companies can help answer some of the questions this piece raises, especially around full recursive self-improvement and how to create better options for coordination and deliberation. We'll publish what comes out of it. The window to investigate the questions together is here, and people outside AI companies should be involved in this deliberation.
在接下来的几个月里,我们将组织对话,让政策制定者、研究人员、公民社会和其他 AI 公司共同帮助回答本文提出的一些问题,尤其是围绕完全的递归式自我改进,以及如何为协调和审议创造更好的选项。我们将公布对话的成果。共同探讨这些问题的窗口就在这里,AI 公司之外的人也应该参与到这种审议中来。
在未来几个月,我们将组织政策制定者、研究者、公民社会和其他 AI 公司之间的对话,共同帮助回答本文提出的一些问题:尤其是围绕完全递归自我改进以及如何创造更好的协调与审议选项。
我们会公开讨论的成果。共同探究这些问题的窗口就在眼前,而 AI 公司之外的人也应该参与这场讨论。
我们会公开讨论的成果。共同探究这些问题的窗口就在眼前,而 AI 公司之外的人也应该参与这场讨论。
---
---
此段落在该译文中不存在
*Marina Favaro and Jack Clark co-authored this piece, with editorial support from Santi Ruiz. Shan Carter, Romello Goodman, and Nikki Makagiansar created the visuals from data collected by Brian Calvert and Jun Shern Chan. Daniel Freeman, Jim Baker, Max Young, Sarah Pollack, Francesco Mosconi, Holden Karnofsky, Andy Jones, Kevin Troy, Anton Korinek, Meg Tong, Andrew Ho, Dan Altman, Drake Thomas, Jack Shen, Sasha de Marigny, and Avital Balwit provided feedback.*
*Marina Favaro 和 Jack Clark 合作撰写本文,Santi Ruiz 提供编辑支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 根据 Brian Calvert 和 Jun Shern Chan 收集的数据制作图表。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反馈。*
此段落在该译文中不存在
## Footnotes
## 脚注
此段落在该译文中不存在
[^1]: METR's key measure tells you the time horizon over which AI systems can be 50% reliable at a basket of tasks, though the trendline looks the same at 80% reliability.
[^1]: METR 的核心指标衡量的是 AI 系统在一组任务上达到 50% 可靠性所需的时间窗口,不过在 80% 可靠性下趋势线看起来相同。
此段落在该译文中不存在
[^2]: Especially as they shift toward more open-ended formats and more difficult tasks (e.g., Olympiad-level mathematics), **benchmarks often saturate below 100%** due to errors in the question and answer sets like ambiguous problem statements and unsolvable questions.
[^2]: 特别是当基准测试转向更开放的格式和更困难的任务(如奥林匹克级别的数学竞赛题)时,**基准测试的饱和点通常低于 100%**,原因是问题和答案集中存在错误,例如模棱两可的问题陈述和无法解答的题目。
此段落在该译文中不存在
[^3]: Anthropic leadership have publicly **estimated** that 90% or more of our code is written by Claude, including scripts and experimental code. Our >80% figure measures the share of lines merged to production that can be attributed to Claude. This is a more conservative measurement in two ways: our attribution pipeline has gaps, and the lines not attributed to Claude include auto-generated code and other artifacts that were not hand-written by humans either.
[^3]: Anthropic 领导层曾公开**估计**,我们 90% 或以上的代码由 Claude 编写,包括脚本和实验代码。我们超过 80% 的数据衡量的是可以归因于 Claude 的、合并到生产环境的代码行数占比。这是一个在两方面更为保守的度量:我们的归因管线存在缺口,且未归因于 Claude 的代码行包括自动生成的代码和其他并非人工手写的制品。
此段落在该译文中不存在
[^4]: This surge in code production is straining the infrastructure everyone shares. GitHub—the platform most of the world's software is built on—saw roughly one billion code commits in all of 2025; by mid-2026 it saw 275 million a week, on pace for roughly 14 billion over the year. The company's COO has **said** that it is "pushing incredibly hard" on capacity just to keep up.
[^4]: 代码产出的激增正在给所有人共享的基础设施带来压力。GitHub——全球大多数软件的构建平台——在 2025 年全年约有十亿次代码提交;到 2026 年年中,每周达到 2.75 亿次,按此速度全年约 140 亿次。该公司的首席运营官**表示**,仅仅为了跟上节奏,公司就已经在"极其努力地"提升容量。
此段落在该译文中不存在
[^5]: Additional details on the methodology of this survey are discussed in section 2.3.5 of the **Claude Opus 4.7 System Card**.
[^5]: 关于本次调查方法的更多细节,参见 **Claude Opus 4.7 系统卡**第 2.3.5 节。
此段落在该译文中不存在
[^6]: Many respondents may not have thought carefully about how to account for various biases or subtleties in the question definition, and **recent research by METR** shows that developer estimates of AI productivity uplift can be overestimated.
[^6]: 许多受访者可能并未仔细思考如何考虑问题定义中的各种偏差或微妙之处,**METR 的最新研究**表明,开发者对 AI 生产力提升的估计可能会偏高。
此段落在该译文中不存在
[^7]: How large the speedup gets depends heavily on how much room for improvement the starting code leaves, and it should not be read as a real-world training speedup. So the absolute multiple is not the figure to anchor on here. What is more informative is the like-for-like comparison that this experimental setup makes possible, both across models (~3x to ~52x over the past year) and against a skilled human (~4x in four to eight hours on the same task).
[^7]: 加速幅度在很大程度上取决于起始代码留下了多少改进空间,不应将其理解为真实世界的训练加速。因此,绝对倍数不是这里需要锚定的数字。更具信息价值的是这种实验设置所实现的同类比较——既包括不同模型之间的跨期比较(过去一年间从约 3 倍到约 52 倍),也包括与熟练人类的比较(在相同任务上,四至八小时内约为 4 倍)。
此段落在该译文中不存在
[^8]: As a check on judge bias, we ran the same test on a separate set of 127 moments where the human's next move was already strong (as opposed to the original set, where the human's direction had room for improvement). There, the models' suggestions were judged better only about 20% of the time.
[^8]: 作为对评判偏差的检验,我们在另一组 127 个时刻上进行了相同的测试,在这些时刻中,人类的下一步行动已经很强(与原始数据集中人类方向有改进空间的情况相反)。在这些情况下,模型的建议仅被评判为更优的比例约为 20%。
此段落在该译文中不存在
[^employee]: Quotes from Anthropic employees throughout this article are drawn from internal discussions and used with permission. They reflect individual views as of May 2026, not official company positions.
[^employee]: 本文中 Anthropic 员工的引语均来自内部讨论,并经许可使用。引语反映截至 2026 年 5 月的个人观点,不代表公司官方立场。
此段落在该译文中不存在