在 AI 讨论中，最容易被放大的往往是结论，最容易被忽略的则是结论的生成方式。围绕递归自我改进（RSI）的争议也是如此。表面看，争论集中在一个醒目的判断：到 2028 年前，AI 出现自我强化研发能力的概率不低。更深层的问题却是：我们是否已经观察到足够多的“系统性早期信号”，使这一情景不再属于边缘假设，而进入主流决策者必须纳入的风险区间。

这个问题之所以具有政策和产业意义，是因为 RSI 并不等同于抽象的“通用智能神话”，它更接近一个工程命题：AI 能否在研发流程中承担越来越多高价值环节，并将这些环节串联成持续迭代的闭环。一旦闭环形成，技术进步的速度函数会发生变化，组织能力差距将被重新定义，传统监管节奏也会面临挑战。

因此，讨论 RSI 不应停留在“相信或不相信”，而应转入“证据是否充分、外推是否审慎、准备是否到位”。

证据基础：多基准一致上升的意义与局限

支持 RSI 预期的核心证据，并非单一模型的性能跃迁，而是跨任务、跨场景、跨评估框架的同步进步。以当前常被引用的几类基准为例：研究复现能力、后训练优化能力、真实竞赛任务求解能力、软件工程问题解决能力，都在不同程度上呈现向上趋势。其价值在于“同向性”而非“绝对值”：当多个代理指标在一段时期内共同改善，通常意味着底层能力结构发生了广泛提升。

但需要同时看到三层局限。

基准环境与真实环境存在分布差异。基准任务边界清晰、反馈稳定、评价标准可重复；现实研发中存在目标漂移、跨团队协作、隐性知识传递、资源约束与制度摩擦。模型在可控环境中的成功，不自动转化为组织级可靠产出。
指标可见性不等于能力完备性。当前基准更容易测量“解题能力”，较难完整覆盖“问题定义、优先级权衡、失败归因、跨周期治理”等高阶研发行为。换言之，模型可能更快地“做对题”，但未必已具备“持续做对事”的能力。
趋势外推可能被瓶颈迁移打断。历史经验显示，技术曲线并非总是线性延展。一个瓶颈消失后，新的瓶颈会在数据质量、算力成本、系统可靠性、合规边界或社会许可层面出现。若忽视这些二阶约束，预测容易高估速度、低估阻力。

因此，多基准一致上升是强信号，但不是终局证据。它提示“方向应重视”，而非“时间已锁定”。

关键分歧：能力提升能否跨越闭环鸿沟

关于 RSI 的核心分歧，本质上不是“AI 是否在变强”，而是“变强是否足以形成闭环”。所谓闭环，至少包含五个连续环节：信息摄取与文献理解、假设生成、实验设计与实现、结果评估与误差诊断、策略更新与再迭代。单环节优化带来效率提升，跨环节稳定衔接才会触发复利。

目前可观察到的进展，主要集中在前三项与部分第四项：模型在代码生成、实验脚本构造、文献摘要、参数搜索等任务上的边际效率持续改善。但闭环最难处通常出现在两类能力上：

稳健诊断能力：面对噪声数据、冲突信号、偶发失败时，系统是否能准确定位原因，而非仅提供表面修补；
目标对齐能力：在多目标约束下，系统是否能稳定执行“长期有效但短期不最优”的策略，而非追逐局部分数最大化。

这也是为什么“能做”不等于“能负责”。研发闭环不是模型能力的简单加和，而是技术能力、流程设计、责任结构三者耦合的结果。若责任机制与审计体系缺位，即便技术上接近闭环，组织也难以安全放权。

方法论校准：概率表达、情景分析与决策阈值

“2028 年前 60%”这类表达有沟通价值，因为它迫使公众意识到时间窗口可能比预期更短；但在决策语境中，它仍应被理解为主观概率，而非统计意义上的精确估计。更实用的方法是将单点概率转化为“情景-阈值”框架。

可采用三层情景：

基线情景：AI 深度嵌入研发流程，但关键决策仍由人类主导，形成“高自动化、人类兜底”模式；
加速情景：AI 能在若干领域完成准闭环迭代，组织研发周期显著缩短，领先者形成复利优势；
高冲击情景：跨领域闭环能力出现，模型迭代速度快于制度更新速度，治理压力集中爆发。

对应地，应设定明确阈值指标，而不是围绕年份争论。例如：无人值守连续迭代时长、跨任务迁移成功率、异常检测召回率、自动回滚成功率、关键节点人工接管比例等。阈值达到时触发治理动作，阈值回落时释放约束。这样才能把抽象预测转化为可执行管理。

产业影响：研发组织将如何被重塑

若 RSI 或准 RSI 逐步成形，产业竞争将从“模型性能竞争”转向“闭环运营竞争”。决定胜负的，不再只是谁拥有更大的模型，而是谁能在真实组织中构建更短、更稳、更可控的研发循环。

组织边界会重绘。传统由多岗位串联完成的研发流程，将被重构为“少量关键人 + 大规模 AI 代理”的协同网络。岗位不会简单消失，而是向系统编排、质量门控、风险治理迁移。

效率红利将呈现非线性分布。能够率先实现流程级自动化的机构，可能在迭代频率、成本结构、试错规模上形成代差；而仅在局部引入 AI 的机构，收益更接近线性改良，难以对冲结构性差距。

再次，“可信研发能力”将成为新护城河。未来高价值竞争力不只是“做得快”，而是“快且可证明地安全”。可追溯日志、实验可复现性、策略变更审计、事故响应机制，会从合规成本转变为市场信任资产。

治理议程：在加速期保持可控性的制度设计

面对可能的加速期，治理目标不应是阻断进步，而是建立“可验证的可控性”。这需要技术治理与制度治理同步推进。

在技术层面，应把安全能力前置到研发流水线：默认记录关键决策链路、对高风险动作设置双重授权、对模型自改写行为设置沙箱边界、对异常性能跃迁触发强制复审。核心原则是“先可观测，再可放权”。

在制度层面，应采用分级治理而非一刀切。对低风险应用维持创新弹性，对高影响系统实施更高透明度与责任要求，并建立动态更新机制。静态规则难以匹配快速迭代，监管本身需要“持续校准”的能力。

在组织层面，必须明确“人类责任锚点”。当 AI 参与研发与部署决策时，关键节点必须有可识别、可追责的人类签署主体。没有责任锚点的自动化，只会放大速度，不会提升质量。

结论：以“高警觉、低确定”应对 RSI 时代

回到最初问题：这一观点是否可取？答案是，方向上可取，表达上应审慎。可取在于它提醒我们，AI 正在多个研发相关维度同步进步，闭环临界点可能比传统预期更近；审慎在于，任何具体年份与概率都不可避免地包含主观假设，且易低估现实摩擦。

对决策者而言，最佳姿态不是在乐观与悲观之间摇摆，而是在不确定性中建立稳健性：

一方面，按“可能提前发生”进行准备，避免在关键窗口被动应对；另一方面，用分层情景、可量化阈值和责任锚点约束系统扩张，确保能力增长不脱离可控轨道。

如果说上一阶段 AI 的主命题是“让机器能完成任务”，那么下一阶段更关键的命题将是：当机器开始参与创造下一代机器时，人类能否同步进化其治理与责任体系。

这不是单纯的技术预测问题，而是未来创新秩序如何被重新定义的问题。

作者： Max

免责声明

* 投资有风险，入市须谨慎。本文不作为 Gate 提供的投资理财建议或其他任何类型的建议。

* 在未提及 Gate 的情况下，复制、传播或抄袭本文将违反《版权法》，Gate 有权追究其法律责任。

问题提出：为什么“60% 概率”值得认真对待

证据基础：多基准一致上升的意义与局限

关键分歧：能力提升能否跨越闭环鸿沟

方法论校准：概率表达、情景分析与决策阈值

产业影响：研发组织将如何被重塑

治理议程：在加速期保持可控性的制度设计

结论：以“高警觉、低确定”应对 RSI 时代

快讯

OpenAI 发布 GPT-5.6 系列，包含 Sol、Terra、Luna 模型；Sol 在关键基准测试中比 Anthropic 的 Fable 5 高出 7.6 分

2026-06-28 04:37

苹果寻求特朗普政府批准从中国的长鑫存储购买芯片

2026-06-28 04:37

中级

GateClaw 与 AI Skills：Web3 AI Agent 的能力体系解析

GateClaw AI Skills 是一种面向 Web3 AI Agent 的模块化能力体系，用于将市场数据分析、链上信息查询以及交易执行等功能封装为可调用的智能模块，使 AI Agent 能够在统一系统中执行自动化任务。通过 AI Skills，复杂的 Web3 操作逻辑可以被转化为标准化能力接口，从而让 AI 模型不仅能够分析信息，还可以直接执行市场相关操作。

2026-03-24 11:58:44

中级

GateClaw 的核心功能：Web3 AI Agent 工作站能力解析

GateClaw 是一种面向 Web3 生态设计的 AI Agent 工作站，通过整合 AI 模型、模块化 Skills 与加密交易基础设施，使智能体能够在统一环境中执行数据分析、自动化交易和链上监控等任务。与传统 AI 工具主要用于信息处理不同，GateClaw 更强调 AI Agent 的执行能力，使其能够在真实市场环境中运行自动化流程。

2026-03-24 17:51:06