Saat Saya Menyadari Win Rate Berbohong Kepada Saya
Di awal karir data science saya, saya membangun apa yang saya pikir model prediksi yang hebat. Model itu memiliki win rate 68% pada data uji. Saya sangat senang.
Kemudian seseorang mengajukan pertanyaan sederhana: "Berapa skor Brier Anda?"
Saya tidak tahu apa itu. Jadi saya menghitungnya. Ternyata model saya yang "68% akurat" sebenarnya *lebih buruk* daripada hanya menggunakan probabilitas konsensus pasar. Bagaimana?
Karena model saya terlalu percaya diri. Ketika seharusnya mengatakan 60%, ia mengatakan 85%. Win rate yang tinggi menyembunyikan estimasi probabilitas yang buruk.
Hari itu saya belajar perbedaan antara akurasi dan kalibrasi.
Apa Arti Kalibrasi Sebenarnya
Definisi paling sederhana:
Prediksi 60% dari model yang terkalibrasi harus menjadi kenyataan sekitar 60% dari waktu.
Jika Anda memprediksi 60% untuk 100 pertandingan berbeda, sekitar 60 harus terjadi. Bukan 80. Bukan 40. Sekitar 60.
Kedengarannya jelas, kan? Tapi kebanyakan model gagal dalam tes ini.
Mengapa Win Rate Saja Berbahaya
Win rate memberi tahu Anda seberapa sering prediksi teratas Anda benar. Tapi mengabaikan yang lainnya:
Masalah 1: Tingkat kepercayaan
Jika Anda memprediksi 51% kemenangan kandang dan itu terjadi, itu kemenangan. Jika Anda memprediksi 90% kemenangan kandang dan itu terjadi, itu juga kemenangan. Kredit sama, kualitas sangat berbeda.
Masalah 2: Distribusi probabilitas
Model yang mengatakan "setiap pertandingan adalah 50/50" akan sangat tidak berguna.
Masalah 3: Memberi hadiah kepercayaan berlebihan
Model belajar menjadi ekstrem karena terlihat bagus setelahnya.
Bagaimana Kami Sebenarnya Mengevaluasi Model Kami
Skor Brier: Mengukur selisih kuadrat antara probabilitas yang diprediksi dan apa yang benar-benar terjadi.
Bucket kalibrasi: Kami mengelompokkan semua prediksi berdasarkan tingkat kepercayaan dan memeriksa tingkat hit aktual.
Poin Kunci
- 1Win rate dapat menyembunyikan model yang terlalu percaya diri dan terkalibrasi buruk
- 2Kalibrasi berarti probabilitas Anda sesuai dengan kenyataan
- 3Skor Brier mengukur kualitas probabilitas, bukan hanya kebenaran
- 4Uji kalibrasi model Anda pada tingkat kepercayaan yang berbeda
- 5Bandingkan dengan baseline—mengalahkan acak tidak cukup
📖 Bacaan terkait: Bagaimana Kami Membangun Fitur • Backtesting yang Benar
*OddsFlow menyediakan analisis olahraga bertenaga AI untuk tujuan edukasi dan informasi.*

