MIT Kaiming He 的團隊釋出 ELF 語言擴散模型,使用 450 億個訓練代幣

根據 Beating,MIT Kaiming He 的團隊近期發布了 ELF(Embedded Language Flows),一種語言擴散模型,它偏離了 GPT 類模型所採用的自回歸「預測下一個 token」做法。相較之下,ELF 會在連續的嵌入空間中執行文字生成,僅在最後一步才轉換為離散 token。

在 OpenWebText 的無條件生成基準測試中,具備 105M 參數的 ELF-B 以 32 步採樣達成約 24.1 的生成困惑度(Gen. PPL),超越多個離散與連續擴散語言模型基準。值得注意的是,ELF-B 僅需要約 450 億個訓練詞元(training tokens),約比可比方法少一個數量級;而這類方法通常會超過 5,000 億 tokens。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆