El Modelo Que Se Veía Perfecto (Hasta Que No Lo Fue)
Todavía recuerdo nuestro primer desastre de backtesting. Nuestro modelo mostraba un 12% de ROI en dos años de datos históricos. Estábamos celebrando.
Luego lo desplegamos. Primer mes: -8%. Segundo mes: -6%. ¿Qué pasó?
Fuga de datos. Accidentalmente usamos cuotas de cierre para entrenar un modelo que se suponía debía predecir en la apertura. Por supuesto que se veía increíble en backtests—estaba viendo el futuro.
Fuga: El Asesino Silencioso de Modelos
La fuga de datos ocurre cuando tu modelo accidentalmente ve información que no debería tener en el momento de la predicción. Es sorprendentemente fácil de hacer.
Fuentes comunes de fuga que hemos detectado:
- 1Cuotas de cierre en datos de entrenamiento cuando predices en la apertura
- 2Datos de alineación final cuando tu timestamp de predicción es antes del anuncio
- 3Estadísticas post-partido colándose en cálculos de características
- 4Información de fin de temporada filtrándose en predicciones de mitad de temporada
La solución es simple pero requiere disciplina: bloquear todo por timestamp.
Cherry-Picking: Cómo Nos Mentimos a Nosotros Mismos
Este es sutil porque a menudo ocurre inconscientemente.
"Probemos solo en las 5 ligas principales—ahí es donde los datos son más limpios."
"Eliminaremos las temporadas COVID—esas fueron raras de todos modos."
Cada una suena razonable. Pero juntas, crean un conjunto de datos que no representa la realidad.
Nuestra regla ahora: definir criterios de inclusión *antes* de ejecutar cualquier experimento, y atenernos a ellos sin importar qué.
El Problema de la División Temporal
La práctica estándar de machine learning es dividir datos aleatoriamente en conjuntos de entrenamiento/prueba. Para predicción deportiva, esto es incorrecto.
¿Por qué? Porque los partidos de la misma temporada comparten contexto. El enfoque correcto: entrenar en períodos de tiempo anteriores, probar en posteriores.
Puntos Clave
- 1La fuga puede hacer que cualquier modelo se vea increíble (hasta el despliegue)
- 2El cherry-picking ocurre sutilmente—define criterios por adelantado
- 3Las divisiones basadas en tiempo son obligatorias para datos deportivos
- 4El fútbol cambia; evalúa a través de múltiples ventanas de tiempo
- 5Siempre compara con líneas base, no solo con aleatorio
📖 Lectura relacionada: Evaluación de Modelos • Ingeniería de Características
*OddsFlow proporciona análisis deportivo impulsado por IA con fines educativos e informativos.*

