根據 Beating,MIT Kaiming He 的團隊近期發布了 ELF(Embedded Language Flows),一種語言擴散模型,它偏離了 GPT 類模型所採用的自回歸「預測下一個 token」做法。相較之下,ELF 會在連續的嵌入空間中執行文字生成,僅在最後一步才轉換為離散 token。
在 OpenWebText 的無條件生成基準測試中,具備 105M 參數的 ELF-B 以 32 步採樣達成約 24.1 的生成困惑度(Gen. PPL),超越多個離散與連續擴散語言模型基準。值得注意的是,ELF-B 僅需要約 450 億個訓練詞元(training tokens),約比可比方法少一個數量級;而這類方法通常會超過 5,000 億 tokens。
Related News