一文讀懂GPT-5.5:從今天起OpenAI“不賣”Token了

作者:李海倫,騰訊科技

當地時間4月23日,OpenAI正式發布新一代旗艦模型GPT-5.5,官方將其定位為“面向真實工作的全新智能層級”,也是邁向全新計算機工作方式的重要一步。

這次發布核心關注的有兩點:

  • 一是效率層面的突破:同等延遲下,模型更大了,速度卻沒慢。GPT-5.5上下文窗口達到100萬Token,但它不是GPT-5.4簡單能力升級,而是在效率上做到了同等延遲下的更高智能。

  • 二是GPT-5.5 在訓練過程中,參與了自身推理基礎設施的優化。簡而言之,AI第一次學會幫自己調參數。

在測試複雜命令行工作流的Terminal-Bench 2.0中,GPT-5.5得分82.7%,Claude Opus 4.7的69.4%超過13個百分點;在測試AI獨立操作真實電腦的OSWorld-Verified中,成功率78.7%,超越人類基線;在測試跨44種職業知識工作的GDPval中,84.9%的任務達到或超過行業專家水平。

不過,GPT-5.5的價格也明顯漲了。

API定價為每百萬Token輸入5美元、輸出30美元,是GPT-5.4(每百萬Token輸入2.50美元、輸出15美元)的兩倍,但官方強調GPT-5.5完成相同任務所需Token數量大幅減少,綜合成本未必顯著上升。GPT-5.5 Pro API定價為每百萬Token輸入30美元、輸出180美元。批量處理和彈性定價享受半價優惠,優先處理為標準價格的2.5倍。

在ChatGPT中,GPT-5.5以“GPT-5.5 Thinking”形式上線,逐步取代此前版本。

一個新增的小設計是:模型開始思考前會先給出一段思路概述,使用者可以在執行過程中隨時插話,調整方向。

如果用一句話概括GPT-5.5的意義:過去的模型是能力的集合,GPT-5.5更接近一個會規劃、會檢查、會持續推進的工作系統。

84.9%的任務,達到專業人士水準

圖:GPT-5.5與各競品在Terminal-Bench 2.0、GDPval、OSWorld-Verified等核心基準測試中的對比

先看評估模型在真實職業場景中的表現。OpenAI用了一个叫“GDPval”的基準測試,它要求模型完成一整套職業任務。測試涵蓋44種職業場景,包括財務建模、法律分析、數據科學報告、運營規劃等等。

結果顯示:GPT-5.5在84.9%的任務中達到或超過行業專業人士水平。作為對比,GPT-5.4是83.0%,Claude Opus 4.7是80.3%,Gemini 3.1 Pro 只有67.3%。

這種差距不止體現在總分上。電子表格建模任務中,GPT-5.5內部測試拿到88.5%;投資銀行級別的建模任務同樣領先前代。早期測試者的反饋也挺一致:GPT-5.5 Pro 的回答在全面性、結構性和實用性上比 GPT-5.4 Pro 有明顯提升,商業、法律、教育和數據科學領域尤其明顯。

光看數字容易麻木,OpenAI這次乾脆掀開自家工位給你看。

OpenAI表示,公司內部超過85%的員工每週都在用Codex,覆蓋財務、傳播、市場、產品、數據科學等多個部門。傳播團隊拿它分析了六個月的演講邀約數據,搭起了一套自動化分級流程;財務團隊用它審閱了24,771份K-1稅務表格、合計71,637頁,比去年提前兩週完工;市場拓展團隊靠自動化周報生成,每人每週省下5到10小時。

這不是實驗室demo,已經變成一種工作日常。

最強自主編程模型

OpenAI稱,GPT-5.5目前是其最強的自主編程模型。

在Terminal-Bench 2.0上(測試複雜命令行工作流,需要規劃、迭代與工具協調),GPT-5.5得分82.7%,對比GPT-5.4的75.1%,提升幅度接近8個百分點,同時Token消耗更少。在SWE-Bench Pro上(評估真實GitHub問題的一次性解決能力),GPT-5.5得分58.6%。在內部Expert-SWE評測上(長周期編程任務,中位人工完成時間約20小時),GPT-5.5同樣超越GPT-5.4。

圖:Terminal-Bench 2.0和Expert-SWE散點圖

Codex在GPT-5.5的驅動下,已經能夠從一句話的提示詞出發,獨立完成從代碼生成、功能測試到視覺調試的完整開發流程。

OpenAI官方展示的演示案例顯示,太空任務應用基於NASA真實軌道數據構建,支持3D交互操控,軌道力學模擬達到真實物理精度;地震追蹤器接入實時數據源並完成可視化,說明模型已具備調用外部API、處理動態數據並實時渲染的完整能力。

對於使用反饋方面。Every創始人兼CEO Dan Shipper 講了一段經歷:他之前遇到過一個上線後的bug,自己調了好幾天沒搞定,最後只能請公司最強的工程師出手,重寫了一部分系統。GPT-5.5 出來後,他做了一個實驗——把模型放回bug還沒修的那個狀態,看它能不能自己得出和工程師一樣的方案。GPT-5.4做不到,GPT-5.5做到了。他評價:“這是我用過的第一個真正具備概念清晰度的編程模型”。

一位英偉達工程師的評價更直白:“失去GPT-5.5的訪問權限,感覺就像截肢”。

Cursor聯合創始人兼CEO Michael Truell對此的補充是:GPT-5.5比GPT-5.4更聰明、更堅韌,在複雜長時任務中能堅持更久而不提前停下——而這恰恰是工程工作最需要的。

知識工作:AI第一次真正能“用”電腦

在OSWorld-Verified測試中(測試模型能否獨立操作真實計算機環境),GPT-5.5成功率78.7%,高於GPT-5.4的75.0%,也優於Claude Opus 4.7的78.0%。

這不是截圖分析,而是真正的螢幕操控:看到界面、點擊、輸入、在多個工具之間切換,直到任務完成。GPT-5.5讓人第一次感受到,AI可以真正與你共同使用同一台電腦。

在電信客服工作流測試Tau2-bench上,GPT-5.5在無提示詞調優情況下準確率達98.0%,GPT-5.4僅為92.8%。

這意味著模型對任務意圖的理解足夠深入,不需要精心設計提示詞就能處理複雜的多步驟對話流程。

在工具搜尋能力上,GPT-5.5在BrowseComp測試中得分84.4%,GPT-5.5 Pro更達90.1%,意味著在需要跨多個資訊來源綜合理推的研究類任務中,模型表現出了相當強的持續檢索和資訊整合能力。

科學研究:協助發現數學新證明

在這次發布中,GPT-5.5在科研領域的表現,可能是最出人意料的一部分。

過去我們談AI做科研,更多是“輔助工具”,用來查文獻、寫程式、整理資料。但這一次,它的角色明顯前移,開始參與更核心的環節:複雜推理,甚至是發現本身。

在GeneBench上(遺傳學和定量生物學多階段資料分析評測),GPT-5.5得分25.0%,GPT-5.4為19.0%。這些任務通常對應科學專家數天的工作量,模型需要在幾乎沒有監督的情況下推理可能存在錯誤的資料、應對隱藏的混雜因素,並正確實施現代統計方法。

從圖表曲線可以看出,隨著輸出Token數量的增加,GPT-5.5的得分提升幅度始終領先於GPT-5.4,且在約15,000Token處出現明顯拉開——這意味著面對需要深度推理的長任務,GPT-5.5的優勢會隨任務複雜度的提升而進一步放大。

在BixBench(真實世界生物資訊學和資料分析基準測試)上,GPT-5.5以80.5%的得分領先於GPT-5.4的74.0%,在已發布得分的模型中位居前列。

真正引發關注的是一個具體案例:配備自訂工具框架的GPT-5.5內部版本,協助發現了一項關於拉姆齊數的新數學證明,並在形式化證明工具Lean中得到驗證。拉姆齊數是組合數學的核心研究對象,該領域的成果十分罕見,技術難度極高。這不是AI提供程式碼或解釋,而是真正貢獻了一個數學論證。

實際應用層面同樣有說服力。Jackson實驗室免疫學教授Derya Unutmaz用GPT-5.5 Pro分析了一個包含62個樣本、近28,000個基因的基因表達資料集,生成詳細研究報告,提煉出關鍵發現和研究問題——他表示這項工作通常需要團隊耗費數月。

波茲南亞當·米茨凱維奇大學數學系助理教授Bartosz Naskręcki,僅憑一條提示詞,用Codex中的GPT-5.5在11分鐘內構建出一款代數幾何應用,可視化兩個二次曲面的交線並將所得曲線轉化為魏爾斯特拉斯模型。右側實時顯示的方程係數可直接用於後續數學研究,從提示詞到可運行的研究工具,全程由模型獨立完成。

圖:Bartosz Naskręcki教授構建的代數幾何應用截圖——二次曲面相交可視化與魏爾斯特拉斯方程實時計算界面

Axiom Bio聯合創始人Brandon White的評價更為直接:“如果OpenAI保持這一勢頭,年底前藥物發現的基礎將會發生改變。”

推理效率:AI第一次幫自己優化了基礎設施

這次發布有一個容易被忽視的細節,但它可能是技術層面最值得關注的進展。

GPT-5.5是一個更大、更強的模型,但它在實際服務中的單Token延遲與GPT-5.4持平。要在更強的能力下維持同等延遲,OpenAI將推理系統作為整體重新設計——而Codex和GPT-5.5本身在這一過程中直接參與了優化。

從Artificial Analysis智能指數圖可以直觀看出這一點:橫軸是輸出Token總量(對數刻度),縱軸是綜合智能得分。GPT-5.5的曲線不僅在得分上全面領先GPT-5.4、Claude Opus 4.7和Gemini 3.1 Pro Preview,更關鍵的是,它在Token消耗較少的區間就已經達到其他模型需要消耗更多Token才能達到的得分水平——更強的能力,更低的成本,這正是“效率提升”的直觀體現。

圖:Artificial Analysis智能指數折線圖

具體來說,團隊面臨的問題是負載平衡:此前將請求拆分為固定數量的塊以均衡GPU工作,但靜態分塊對所有流量形態並非最優。Codex分析了數周的生產流量數據,編寫了自訂啟發式算法,將Token生成速度提升超過20%。

GPT-5.5與NVIDIA GB200和GB300 NVL72系統協同設計、協同訓練和協同部署。換句話說,這一代模型參與優化了服務自身的推理架構——這不是比喻,是字面意義上的“AI改進了跑自己的系統”。

網路安全:能力提升,管控同步收緊

GPT-5.5在網路安全能力上有明確提升。在CyberGym測試中,GPT-5.5得分81.8%,GPT-5.4為79.0%,Claude Opus 4.7為73.1%。在內部“奪旗”(CTF)挑戰任務中,GPT-5.5得分88.1%,GPT-5.4為83.7%。

配圖:CyberGym柱狀圖與CTF挑戰任務散點圖

OpenAI將GPT-5.5的網路安全和生物/化學能力評級定為應急準備框架下的“高”級,尚未達到“關鍵”級,但相比前代有明確提升。與此同時也坦承,新部署的更嚴格風險分類器“部分用戶最初可能會覺得有些不便”,並將持續調整。

為平衡防禦需求與存取限制,OpenAI推出了“網路安全可信存取”計畫:符合條件的安全研究人員和關鍵基礎設施防禦者可申請更寬鬆的存取權限,以更少摩擦使用高級網路安全能力。

這背後的邏輯是:能力擴散是不可逆的趨勢,比限制擴散更現實的路徑,是讓防禦者比攻擊者先用上最強的工具。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆