完璧に見えたモデル(そうでなくなるまで)
最初のバックテストの災害を今でも覚えています。モデルは2年間の履歴データで12%のROIを示しました。お祝いしていました。
そしてデプロイしました。最初の月:-8%。2ヶ月目:-6%。何が起こったのか?
リーケージ。オープニングで予測するはずのモデルを訓練するために、誤ってクロージングオッズを使用していました。もちろんバックテストでは素晴らしく見えました——未来を見ていたのですから。
リーケージ:サイレントモデルキラー
データリーケージは、モデルが予測時に持つべきでない情報を誤って見たときに発生します。
私たちが発見した一般的なリーケージソース:
- 1オープニングで予測するときのトレーニングデータのクロージングオッズ
- 2ラインナップ発表前のタイムスタンプでの最終ラインナップデータ
- 3特徴計算に忍び込む試合後の統計
- 4シーズン中の予測に漏れるシーズン終了情報
修正は簡単ですが規律が必要:すべてをタイムスタンプロック。
チェリーピッキング:自分に嘘をつく方法
これは微妙で、しばしば無意識に起こります。
私たちの現在のルール:実験を実行する*前に*包含基準を定義し、何があってもそれを守る。
重要なポイント
- 1リーケージはどんなモデルも素晴らしく見せることができる(デプロイまで)
- 2チェリーピッキングは微妙に起こる——事前に基準を定義
- 3時間ベースの分割はスポーツデータに必須
- 4サッカーは変化する;複数の時間ウィンドウで評価
📖 関連記事: モデル評価 • 特徴エンジニアリング
*OddsFlowは教育および情報目的でAI駆動のスポーツ分析を提供しています。*

