# Anthropic聯合創始人預測「自我發展的人工智慧」將於2028年出現到2028年,市場上可能出現能夠自主開發和訓練自己繼任者的人工智慧系統,無需人類參與。這一預測由Anthropic的聯合創始人傑克·克拉克提出> > *「這非常重要。我不知道如何去理解這一點。我帶著不情願得出這個結論,因為後果如此重大,以至於我感到被它壓倒,我不確定社會是否已準備好迎接自動化AI開發所帶來的變革」,—他指出* > > > 克拉克描述了完全自動化AI研究的場景——模型自主:* 設定研究任務;* 設計實驗;* 編寫並測試代碼;* 優化學習;* 改進下一版本AI的架構專家稱這是「幾乎不可預測未來的里程碑」,並估計在未來兩年內實現此場景的概率為60%## 評估的依據克拉克的結論建立在多個基準測試的動態上:* SWE-Bench——基於GitHub存儲庫解決實際工程問題的測試。到2023年底,最優模型約能解決2%的案例;到2026年春季,這一比例達到94%;* CORE-Bench——重現科學AI論文的結果,包括設置環境、運行代碼和分析結論。據克拉克所述,該基準實際上已「封閉」:現代代理人約能達到95.5%;* MLE-Bench——完成Kaggle層級的機器學習任務。最先進的代理系統已達到64-65%。根據Anthropic聯合創始人的說法,這三個指標都表明:AI正迅速從單純的代碼撰寫轉向完整的工程和研究任務。## 自主性增長另一個理由是AI模型能完成的任務持續延長,且不需人類干預。根據METR數據,2022年系統能完成耗時數十秒的人類任務。到2024年,這一指標約提升到40分鐘,2025年則達到六小時。目前,先進模型能連續進行約12小時的工程工作。克拉克將此與代理工具在編程中的普及聯繫起來。模型持續追蹤目標、檢查中間結果和修正錯誤的時間越長,可委託的研究流程階段就越多。## 為何這對AI開發很重要現代AI開發流程基本遵循一個模式:學習資料、重現結果、組合實驗、訓練或微調模型、評估指標、找出瓶頸並重複。SWE-Bench、CORE-Bench和MLE-Bench的成長表明,模型已能應付整個流程的部分階段。克拉克特別指出在更專門化的任務上的進展。例如,AI已開始用於GPU核心設計——這是決定模型訓練和推理效率的代碼。另一個方向是模型微調。在PostTrainBench基準中,AI系統能提升開源小型大型語言模型(LLM)的性能。截至2026年春季,最優神經網絡已達到目標增長的25-28%(人類團隊為51%)。克拉克認為這一結果具有重要意義:指標由經驗豐富的研究者打造的實用模型設定。Anthropic測量了其模型在CPU上優化LLM訓練的情況。一年內,速度提升從2.9倍(Claude Opus 4)到52倍(Claude Mythos Preview)。人類完成類似任務通常需要四到八個小時。## AI已開始學會管理AI克拉克指出,現代系統已開始協調其他代理的工作。這種方法已在Claude Code或OpenCode等產品中應用:一個助手分配任務給多個子助手,監控它們並收集結果。對於AI開發來說,這很重要:它們很少是單一線性任務——通常是數十個並行流程,包括撰寫代碼和設置環境。如果模型能自主管理這些流程,人工參與將大幅減少。## 神經網絡是否需要創造力根據Anthropic聯合創始人的看法,一個關鍵問題是:AI的開發更像是發現廣義相對論,還是像拼裝樂高。克拉克承認,當前的LLM尚無法產生根本性的新科學思想。然而,對於自動化AI研發的很大一部分來說,這可能並非必要。> > *「AI主要通過人類有條不紊地執行某個循環來推進:拿一個運作良好的系統,擴展其某個方面,觀察擴展中的錯誤並修正它們。這個過程中很少需要非標準的想法,大部分工作都像是粗糙的工程工作」,—專家指出* > > > ## 科學貢獻的早期跡象克拉克認為,AI模型已開始展現早期的科學直覺。他舉了幾個數學和計算機科學的例子:* 一個數學團隊利用Gemini驗證了約700個艾爾米特數問題,並得到13個解答,其中一個被研究人員稱為「略微非平凡」的對未解問題的貢獻;* 來自不列顛哥倫比亞大學、澳大利亞新南威爾士大學、斯坦福和Google DeepMind的科學家,發表了由Gemini工具大幅參與的數學證明。## 若預測成真會怎樣克拉克指出,最大型的AI實驗室已在推進研究自動化。OpenAI計劃打造一個自主進行科學研究的AI實習生,Anthropic則推出了針對人類價值的自動調整工作。如果目前的速度持續,專家預測行業將進入全面自動化階段——每一代新AI都會加速下一代的出現。他表示,如果到2028年底這一轉變實現,世界不僅會迎來技術飛躍,還將面臨安全、資本分配、人類勞動角色和系統控制等根本性問題,這些問題的發展速度甚至超過了創造者。> > *「如果讓我預測2027年的概率,我會說30%。如果到2028年底還未實現,我認為我們會發現現有技術範式存在某些缺陷,未來的推進將需要人類的發明」,—克拉克總結* > > > 提醒一下,去年一月,Anthropic的CEO達里奧·阿莫迪預言了AGI的快速出現和就業崗位的縮減
Anthropic 的聯合創始人預測到 2028 年將出現「自我學習的人工智慧」 - ForkLog:加密貨幣、人工智慧、奇點、未來
到2028年,市場上可能出現能夠自主開發和訓練自己繼任者的人工智慧系統,無需人類參與。這一預測由Anthropic的聯合創始人傑克·克拉克提出
克拉克描述了完全自動化AI研究的場景——模型自主:
專家稱這是「幾乎不可預測未來的里程碑」,並估計在未來兩年內實現此場景的概率為60%
評估的依據
克拉克的結論建立在多個基準測試的動態上:
根據Anthropic聯合創始人的說法,這三個指標都表明:AI正迅速從單純的代碼撰寫轉向完整的工程和研究任務。
自主性增長
另一個理由是AI模型能完成的任務持續延長,且不需人類干預。
根據METR數據,2022年系統能完成耗時數十秒的人類任務。到2024年,這一指標約提升到40分鐘,2025年則達到六小時。目前,先進模型能連續進行約12小時的工程工作。
克拉克將此與代理工具在編程中的普及聯繫起來。模型持續追蹤目標、檢查中間結果和修正錯誤的時間越長,可委託的研究流程階段就越多。
為何這對AI開發很重要
現代AI開發流程基本遵循一個模式:學習資料、重現結果、組合實驗、訓練或微調模型、評估指標、找出瓶頸並重複。SWE-Bench、CORE-Bench和MLE-Bench的成長表明,模型已能應付整個流程的部分階段。
克拉克特別指出在更專門化的任務上的進展。例如,AI已開始用於GPU核心設計——這是決定模型訓練和推理效率的代碼。
另一個方向是模型微調。在PostTrainBench基準中,AI系統能提升開源小型大型語言模型(LLM)的性能。
截至2026年春季,最優神經網絡已達到目標增長的25-28%(人類團隊為51%)。克拉克認為這一結果具有重要意義:指標由經驗豐富的研究者打造的實用模型設定。
Anthropic測量了其模型在CPU上優化LLM訓練的情況。一年內,速度提升從2.9倍(Claude Opus 4)到52倍(Claude Mythos Preview)。人類完成類似任務通常需要四到八個小時。
AI已開始學會管理AI
克拉克指出,現代系統已開始協調其他代理的工作。這種方法已在Claude Code或OpenCode等產品中應用:一個助手分配任務給多個子助手,監控它們並收集結果。
對於AI開發來說,這很重要:它們很少是單一線性任務——通常是數十個並行流程,包括撰寫代碼和設置環境。如果模型能自主管理這些流程,人工參與將大幅減少。
神經網絡是否需要創造力
根據Anthropic聯合創始人的看法,一個關鍵問題是:AI的開發更像是發現廣義相對論,還是像拼裝樂高。
克拉克承認,當前的LLM尚無法產生根本性的新科學思想。然而,對於自動化AI研發的很大一部分來說,這可能並非必要。
科學貢獻的早期跡象
克拉克認為,AI模型已開始展現早期的科學直覺。他舉了幾個數學和計算機科學的例子:
若預測成真會怎樣
克拉克指出,最大型的AI實驗室已在推進研究自動化。OpenAI計劃打造一個自主進行科學研究的AI實習生,Anthropic則推出了針對人類價值的自動調整工作。
如果目前的速度持續,專家預測行業將進入全面自動化階段——每一代新AI都會加速下一代的出現。
他表示,如果到2028年底這一轉變實現,世界不僅會迎來技術飛躍,還將面臨安全、資本分配、人類勞動角色和系統控制等根本性問題,這些問題的發展速度甚至超過了創造者。
提醒一下,去年一月,Anthropic的CEO達里奧·阿莫迪預言了AGI的快速出現和就業崗位的縮減