這篇講 forecasting RL 預測強化學習的文章挺有意思。


它做的事情可以這樣理解:
拿一批已經有結果的歷史預測題,讓 AI 回到當時的時間點。
但不能讓它直接上今天的網際網路,否則會偷看到答案。
所以作者搭了一個「時間遮罩」環境:
搜尋只能搜當時以前的資料;
網頁透過歷史快照讀取;
金融和趨勢數據也只給當時可見的部分。
然後讓模型自己查資料、判斷證據、輸出機率。
等真實結果揭曉後,用 proper scoring rule 給它打分,再用 RL 去強化更好的預測過程。
這點最有意義:
訓練的不是一句答案,而是整套預測動作:
查什麼、讀什麼、什麼時候停、怎麼處理衝突證據、最後給多少機率。
放到預測市場裡,我覺得第一步還不是讓 AI 自動交易。
更應該先讓它保留 forecast diary:
1. 當時機率
2. 使用證據
3. 市場價格
4. 是否會交易
5. 後續結果
6. 錯因歸類
如果一個系統說 60% 的時候,長期並不像 60%,那它還不是策略,只是會寫理由。
如果你也想練習「記錄預測 → 等結果 → 校準自己」,可以從小額/模擬開始,把它當預測日記,而不是交易建議。
我自己用的連結:

原文在這裡:

我覺得最值得看的不是結論本身,而是它把「預測」拆成了一個可以訓練和複盤的過程。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆