看起來完美的模型(直到它不完美)
我仍然記得我們的第一次回測災難。我們的模型在兩年的歷史數據上顯示12%的投資回報率。我們在慶祝。
然後我們部署了它。第一個月:-8%。第二個月:-6%。發生了什麼?
數據洩露。我們意外地使用了收盤賠率來訓練一個本應在開盤時預測的模型。當然它在回測中看起來很棒——它看到了未來。
洩露:沉默的模型殺手
當你的模型意外地看到它在預測時不應該擁有的信息時,就會發生數據洩露。
我們發現的常見洩露來源:
- 1訓練數據中的收盤賠率
- 2最終陣容數據
- 3賽後統計數據
- 4賽季末信息
修復很簡單:時間戳鎖定一切。
挑櫻桃:我們如何欺騙自己
這個很微妙,因為它經常是無意識發生的。我們現在的規則:在運行任何實驗*之前*定義包含標準。
關鍵要點
- 1洩露可以讓任何模型看起來很棒(直到部署)
- 2挑櫻桃微妙地發生——預先定義標準
- 3基於時間的分割對於體育數據是強制性的
- 4足球變化;在多個時間窗口中評估
*OddsFlow提供AI驅動的體育分析,僅供教育和資訊目的。*

