Model yang Tampak Sempurna (Sampai Tidak Lagi)

Saya masih ingat bencana backtesting pertama kami. Model kami menunjukkan ROI 12% selama dua tahun data historis. Kami merayakan.

Kemudian kami deploy. Bulan pertama: -8%. Bulan kedua: -6%. Apa yang terjadi?

Kebocoran. Kami secara tidak sengaja menggunakan odds penutupan untuk melatih model yang seharusnya memprediksi saat pembukaan. Tentu saja terlihat luar biasa dalam backtest—ia melihat masa depan.

Kebocoran: Pembunuh Model yang Diam

Kebocoran data terjadi ketika model Anda secara tidak sengaja melihat informasi yang tidak seharusnya dimiliki pada saat prediksi. Ini sangat mudah dilakukan.

Sumber kebocoran umum yang kami temukan:

1Odds penutupan dalam data pelatihan saat Anda memprediksi saat pembukaan

2Data lineup final saat timestamp prediksi Anda sebelum pengumuman

3Statistik pasca-pertandingan yang menyusup ke perhitungan fitur

4Informasi akhir musim yang bocor ke prediksi tengah musim

Perbaikannya sederhana tapi memerlukan disiplin: kunci timestamp semuanya.

Cherry-Picking: Bagaimana Kita Berbohong pada Diri Sendiri

Yang ini halus karena sering terjadi secara tidak sadar.

"Mari kita uji hanya di 5 liga teratas—di situlah datanya paling bersih."

"Kita akan buang musim COVID—itu memang aneh."

Masing-masing terdengar masuk akal. Tapi bersama-sama, mereka menciptakan dataset yang tidak mewakili kenyataan.

Aturan kami sekarang: definisikan kriteria inklusi *sebelum* menjalankan eksperimen apa pun, dan patuhi apa pun yang terjadi.

Masalah Pembagian Berbasis Waktu

Praktik machine learning standar adalah membagi data secara acak menjadi set latih/uji. Untuk prediksi olahraga, ini salah.

Mengapa? Karena pertandingan dari musim yang sama berbagi konteks. Pendekatan yang benar: latih pada periode waktu sebelumnya, uji pada yang lebih baru.

Poin Kunci

1Kebocoran dapat membuat model apa pun terlihat luar biasa (sampai deployment)
2Cherry-picking terjadi secara halus—definisikan kriteria di muka
3Pembagian berbasis waktu wajib untuk data olahraga
4Sepak bola berubah; evaluasi di berbagai jendela waktu
5Selalu bandingkan dengan baseline, bukan hanya dengan acak

📖 Bacaan terkait: Evaluasi Model • Feature Engineering

*OddsFlow menyediakan analisis olahraga bertenaga AI untuk tujuan edukasi dan informasi.*

Model yang Tampak Sempurna (Sampai Tidak Lagi)

Saya masih ingat bencana backtesting pertama kami. Model kami menunjukkan ROI 12% selama dua tahun data historis. Kami merayakan.

Kemudian kami deploy. Bulan pertama: -8%. Bulan kedua: -6%. Apa yang terjadi?

Kebocoran. Kami secara tidak sengaja menggunakan odds penutupan untuk melatih model yang seharusnya memprediksi saat pembukaan. Tentu saja terlihat luar biasa dalam backtest—ia melihat masa depan.

Kebocoran: Pembunuh Model yang Diam

Kebocoran data terjadi ketika model Anda secara tidak sengaja melihat informasi yang tidak seharusnya dimiliki pada saat prediksi. Ini sangat mudah dilakukan.

Sumber kebocoran umum yang kami temukan:

1Odds penutupan dalam data pelatihan saat Anda memprediksi saat pembukaan

2Data lineup final saat timestamp prediksi Anda sebelum pengumuman

3Statistik pasca-pertandingan yang menyusup ke perhitungan fitur

4Informasi akhir musim yang bocor ke prediksi tengah musim

Perbaikannya sederhana tapi memerlukan disiplin: kunci timestamp semuanya.

Cherry-Picking: Bagaimana Kita Berbohong pada Diri Sendiri

Yang ini halus karena sering terjadi secara tidak sadar.

"Mari kita uji hanya di 5 liga teratas—di situlah datanya paling bersih."

"Kita akan buang musim COVID—itu memang aneh."

Masing-masing terdengar masuk akal. Tapi bersama-sama, mereka menciptakan dataset yang tidak mewakili kenyataan.

Aturan kami sekarang: definisikan kriteria inklusi *sebelum* menjalankan eksperimen apa pun, dan patuhi apa pun yang terjadi.

Masalah Pembagian Berbasis Waktu

Praktik machine learning standar adalah membagi data secara acak menjadi set latih/uji. Untuk prediksi olahraga, ini salah.

Mengapa? Karena pertandingan dari musim yang sama berbagi konteks. Pendekatan yang benar: latih pada periode waktu sebelumnya, uji pada yang lebih baru.

Poin Kunci

1Kebocoran dapat membuat model apa pun terlihat luar biasa (sampai deployment)
2Cherry-picking terjadi secara halus—definisikan kriteria di muka
3Pembagian berbasis waktu wajib untuk data olahraga
4Sepak bola berubah; evaluasi di berbagai jendela waktu
5Selalu bandingkan dengan baseline, bukan hanya dengan acak

📖 Bacaan terkait: Evaluasi Model • Feature Engineering

*OddsFlow menyediakan analisis olahraga bertenaga AI untuk tujuan edukasi dan informasi.*

The Backtesting Mistakes That Fooled Us (And How We Fixed Them)

Model yang Tampak Sempurna (Sampai Tidak Lagi)

Kebocoran: Pembunuh Model yang Diam

Cherry-Picking: Bagaimana Kita Berbohong pada Diri Sendiri

Masalah Pembagian Berbasis Waktu

Poin Kunci

Ready to get AI-powered predictions?

Artikel Terkait

How to Interpret Football Odds: Turn Prices Into Probabilities

Why Win Rate Is a Misleading Metric: Calibration and Proper Evaluation

Data Pembukaan vs Penutupan: Bagaimana Waktu Mempengaruhi Kualitas Informasi

Ready to Try AI-Powered Predictions?

The Backtesting Mistakes That Fooled Us (And How We Fixed Them)

Model yang Tampak Sempurna (Sampai Tidak Lagi)

Kebocoran: Pembunuh Model yang Diam

Cherry-Picking: Bagaimana Kita Berbohong pada Diri Sendiri

Masalah Pembagian Berbasis Waktu

Poin Kunci

Ready to get AI-powered predictions?

Artikel Terkait

How to Interpret Football Odds: Turn Prices Into Probabilities

Why Win Rate Is a Misleading Metric: Calibration and Proper Evaluation

Data Pembukaan vs Penutupan: Bagaimana Waktu Mempengaruhi Kualitas Informasi

Ready to Try AI-Powered Predictions?