#OpenAIReleasesGPT-5.5 今天的突發公告中，OpenAI正式推出了GPT-5.5，這是其旗艦大型語言模型的最新版本。基於GPT-4的基礎，以及GPT-4 Turbo和GPT-4o的漸進式改進，這次新發布在人工智慧能力方面邁出了重要的一步。立即向ChatGPT Plus、團隊和企業用戶提供，API存取將在未來兩週內逐步推出，GPT-5.5有望重新定義企業、開發者和普通用戶與AI的互動方式。

一個新架構：稀疏推理專家混合模型

GPT-5.5的核心是一個徹底改造的架構，OpenAI內部稱之為「稀疏推理專家混合模型」(SMoRE)。與以往依賴單一大型神經網絡的模型不同，GPT-5.5根據查詢的性質動態激活專門的子網絡——或稱「專家」——例如，對數學問題，會將計算路由到專門的邏輯專家；對創意寫作，則路由到敘事專注模塊；對程式碼，則由在數十億行源碼上訓練的符號推理引擎處理。

這一架構轉變帶來兩個主要好處。首先，推理速度比GPT-4 Turbo快近40%，儘管模型擁有超過2兆的總參數。第二，更重要的是，模型在事實和數值任務上的幻覺率大幅降低。內部基準測試顯示，虛構引用減少62%，多步問題的算術一致性提升71%。

擴展的上下文窗口：記憶一切

GPT-5.5引入了512,000個標記的上下文窗口——是GPT-4 Turbo的128,000的兩倍，也遠大於GPT-4o的256,000。在實務層面，這意味著模型可以一次處理整個書系列(例如全部七本哈利波特小說)、涵蓋數千頁的完整法律合約，或大型軟體專案的完整程式碼庫。更重要的是，模型在這段延長上下文中的回憶準確率已大幅提升。早期模型常在長篇提示中「遺失」資訊，而GPT-5.5能在高達40萬標記的範圍內幾乎完美檢索，只有在最大限制時略有退化。

對開發者來說，這解鎖了新的可能性：整個客戶支援記錄可以一次性分析，長篇研究論文可以在保留細膩論點的同時進行摘要，多小時的會議記錄也能查詢行動項目而不需拆分。

多模態理解的重新想像

雖然GPT-4提供了視覺API的圖像輸入，GPT-5.5擴展了多模態能力，包括原生音頻、視頻和實時螢幕理解。模型現在可以直接接受長度最多30秒的視頻片段，識別物體、動作，甚至面部表情中的微妙情感線索。音頻輸入不僅限於簡單的語音轉文字：GPT-5.5能辨識說話者身份、語調、背景噪音和情感變化，從而標記緊急性或諷刺。

最令人印象深刻的是，模型引入了「統一多模態推理」——它可以結合不同模態的輸入來回答複雜問題。例如，給定一張雜亂桌面的照片、一段破碎打印機的短視頻，以及一則說「它發出磨擦聲」的語音備忘，GPT-5.5可以診斷出很可能是紙張卡住，然後生成逐步修復指南，並附上視頻中的截圖標註。這一能力在遠端技術支援、醫學診斷(分析口頭和圖像描述的症狀)，以及教育領域具有即時應用價值。

工具使用與代理工作流程

GPT-5.5的一大主題是其原生支持代理任務。模型現在可以規劃、執行並驗證跨外部應用的多步操作，無需開發者撰寫複雜的協調代碼。內建的連接器支持Slack、GitHub、Google Workspace、Salesforce等流行服務，允許GPT-5.5在獲得用戶許可後，直接讀取和寫入這些平台。

例如，用戶可以說：「查看Zendesk中標記為‘緊急’的支援票，總結出三個最重要的，為每個草擬回覆，並在我的日曆中安排明天的跟進提醒。」GPT-5.5會將此拆解為子任務，調用相應的API，並呈現統一結果。如果遇到錯誤 #OpenAIReleasesGPT-5.5 例如缺少讀取特定票的許可(，它會請求澄清而不是靜默失敗。

這種代理行為由一個新的「規劃轉換器」層驅動，該層會對依賴關係和分支結果進行內部推理。根據OpenAI的技術博客，模型是在數百萬個人類任務分解和工具使用範例上訓練，並通過代理反饋的強化學習)RLAIF(進行微調。安全措施確保模型不會執行破壞性操作或繞過安全協議——每次外部調用默認都需用戶確認，並可在可信環境中設置為自動批准。

效率與成本：用更少做更多

儘管能力提升，GPT-5.5的運行成本實際上比GPT‑4 Turbo更低。OpenAI歸功於更佳的量化技術、推測解碼和SMoRE架構的稀疏性。API定價將為)每百萬輸入標記和$15 每百萬輸出標記——比GPT‑4 Turbo的20美元/千標記降低25%。對於ChatGPT用戶，Plus訂閱仍維持每月價格，但由於效率提升，消息每小時的限制$30 增加50%。

此外，OpenAI推出了名為GPT-5.5 Lite的「輕量版」，專為在設備上部署而設。僅有7億參數，但保留相同的架構創新，能在高端智能手機或邊緣伺服器上運行。Lite在大多數任務中達到類似GPT‑3.5的性能，但延遲更低，且所有處理都在本地完成$40 保障隱私$20 。這為實時語言翻譯、醫院平板上的敏感文件分析或偏遠地區開發者的離線程式碼協助等應用提供了可能。

安全與對齊：部署經驗的教訓

鑑於GPT-5.5的自主性增加，OpenAI在安全方面投入大量資源。一個新的「憲法代理」與主模型平行運行，持續監控輸入和輸出，防止政策違規、有害指令或越獄企圖。這個代理不僅是提示過濾器，它會對請求的背景和意圖進行輕量推理。如果發現潛在違規，會覆蓋主模型的回應，提供安全拒絕，並記錄事件以供審查。

早期測試顯示，這套系統將成功越獄的嘗試降低了96%，尤其對於逐步誘導模型忽略指導方針的多輪攻擊特別有效。憲法代理還引入了「預設刪除」個人識別資訊(PII)：任何在用戶輸入或模型輸出中檢測到的PII，除非用戶明確授權，否則會自動刪除(例如在醫療或法律情境中，分享此類資料是必要的)。

另一個值得注意的功能是長篇生成文本的「水印」——利用加密方案，GPT-5.5會在所有內容中暗示性地標記水印。第三方工具可以以99.9%的準確率檢測出這些水印，有助於教育者、記者和平台辨識AI生成的文本。與之前的水印方法不同，這種方法對改寫和翻譯具有較強的魯棒性，但OpenAI承認，經過努力，決心的對手仍可能將其移除。

基準性能：各方面的領先水平

來自學術實驗室和產業合作夥伴的獨立評測證實，GPT-5.5創下新紀錄。在MMLU(大規模多任務語言理解)基準中，得分達92.7%，高於GPT‑4的86.4%。在GSM8K(小學數學)中，準確率達97.2%。在HumanEval(程式碼測試)中，通過率為89.5%，接近人類專家水平。在多語言任務方面，GPT-5.5在低資源語言如斯瓦希里語、納瓦霍語和冰島語中表現尤為出色，得益於一個包含200種語言、5000億標記的新語料庫。

或許最令人驚訝的是，模型在新的「不確定性推理」基準中的表現，該基準要求概率思考和校準。GPT-5.5產生的信心分數與實際正確性高度吻合(相關係數0.94)，意味著它「知道自己不知道」。相比之下，GPT‑4在困難問題上表現出過度自信。這種校準使GPT-5.5在醫療診斷、金融分析和法律研究等高風險應用中更可靠。

可用性、定價與未來規劃

GPT-5.5今日正式推出。ChatGPT Plus和團隊訂閱用戶可以立即在網頁和手機的模型選單中選擇「GPT-5.5」來使用。免費層的ChatGPT將繼續使用較輕量的GPT‑4o版本，但OpenAI計劃在2025年第一季向免費用戶推出經濃縮的GPT-5.5版本。

對API開發者而言，該模型以gpt-5.5-turbo-2024-11的名稱提供。OpenAI在前30天提供每百萬輸入標記(的促銷價格。微調支持將於2025年1月加入，允許企業使用參數高效技術如LoRA在自己的數據上定制模型。

展望未來，OpenAI CTO米拉·穆拉蒂暗示，GPT-5.5是GPT‑5之前的最後一個重大版本，預計GPT‑5將融合持續學習)在不需完全再訓練的情況下更新知識(和多AI實例之間的跨代理協作。「我們認為GPT-5.5是成熟、安全且強大的工作馬，將在未來兩年內滿足絕大多數用例，」她在發布會上表示。「當GPT‑5到來時，它將完全不同——不僅是一個模型，更是一個生態系統。」

潛在的擔憂與批評
)
沒有任何重大AI發布是沒有爭議的。早期測試者指出，GPT-5.5在評估長列表時展現出比GPT‑4更強的「位置偏差」：它傾向於偏好提示中較早提及的項目，即使後面提到的項目客觀上更佳。OpenAI承認這一點，並表示下一次點版本更新將修正此問題。(

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

4人按讚了這條動態

打賞
4
4
轉發
分享

回覆

請輸入回覆內容

Dubai_Prince

· 04-26 05:19

自行研究 🤓

查看原文回復0

Dubai_Prince

· 04-26 04:19

自行研究 🤓

查看原文回復0

Dubai_Prince

· 04-26 04:19

買入賺取 💰️

查看原文回復0

ybaser

· 04-26 03:46

到月球 🌕

查看原文回復0

#OpenAIReleasesGPT-5.5

熱門話題

WCTC交易王PK

美國尋求戰略比特幣儲備

比特幣ETF期權限額提高4倍#

#聯準會利率不變但內部分歧加劇#

DeFi4月安全事件損失超6億美元

置頂