Model yang Tampak Sempurna (Sampai Tidak Lagi)
Saya masih ingat bencana backtesting pertama kami. Model kami menunjukkan ROI 12% selama dua tahun data historis. Kami merayakan.
Kemudian kami deploy. Bulan pertama: -8%. Bulan kedua: -6%. Apa yang terjadi?
Kebocoran. Kami secara tidak sengaja menggunakan odds penutupan untuk melatih model yang seharusnya memprediksi saat pembukaan. Tentu saja terlihat luar biasa dalam backtest—ia melihat masa depan.
Kebocoran: Pembunuh Model yang Diam
Kebocoran data terjadi ketika model Anda secara tidak sengaja melihat informasi yang tidak seharusnya dimiliki pada saat prediksi. Ini sangat mudah dilakukan.
Sumber kebocoran umum yang kami temukan:
- 1Odds penutupan dalam data pelatihan saat Anda memprediksi saat pembukaan
- 2Data lineup final saat timestamp prediksi Anda sebelum pengumuman
- 3Statistik pasca-pertandingan yang menyusup ke perhitungan fitur
- 4Informasi akhir musim yang bocor ke prediksi tengah musim
Perbaikannya sederhana tapi memerlukan disiplin: kunci timestamp semuanya.
Cherry-Picking: Bagaimana Kita Berbohong pada Diri Sendiri
Yang ini halus karena sering terjadi secara tidak sadar.
"Mari kita uji hanya di 5 liga teratas—di situlah datanya paling bersih."
"Kita akan buang musim COVID—itu memang aneh."
Masing-masing terdengar masuk akal. Tapi bersama-sama, mereka menciptakan dataset yang tidak mewakili kenyataan.
Aturan kami sekarang: definisikan kriteria inklusi *sebelum* menjalankan eksperimen apa pun, dan patuhi apa pun yang terjadi.
Masalah Pembagian Berbasis Waktu
Praktik machine learning standar adalah membagi data secara acak menjadi set latih/uji. Untuk prediksi olahraga, ini salah.
Mengapa? Karena pertandingan dari musim yang sama berbagi konteks. Pendekatan yang benar: latih pada periode waktu sebelumnya, uji pada yang lebih baru.
Poin Kunci
- 1Kebocoran dapat membuat model apa pun terlihat luar biasa (sampai deployment)
- 2Cherry-picking terjadi secara halus—definisikan kriteria di muka
- 3Pembagian berbasis waktu wajib untuk data olahraga
- 4Sepak bola berubah; evaluasi di berbagai jendela waktu
- 5Selalu bandingkan dengan baseline, bukan hanya dengan acak
📖 Bacaan terkait: Evaluasi Model • Feature Engineering
*OddsFlow menyediakan analisis olahraga bertenaga AI untuk tujuan edukasi dan informasi.*

