O Modelo Que Parecia Perfeito (Até Não Parecer)
Ainda lembro do nosso primeiro desastre de backtesting. Nosso modelo mostrava 12% de ROI em dois anos de dados históricos. Estávamos comemorando.
Então implantamos. Primeiro mês: -8%. Segundo mês: -6%. O que aconteceu?
Vazamento. Acidentalmente usamos odds de fechamento para treinar um modelo que deveria prever na abertura. Claro que parecia incrível nos backtests—estava vendo o futuro.
Vazamento: O Assassino Silencioso de Modelos
O vazamento de dados acontece quando seu modelo acidentalmente vê informações que não deveria ter no momento da previsão. É surpreendentemente fácil de fazer.
Fontes comuns de vazamento que detectamos:
- 1Odds de fechamento em dados de treinamento quando você prevê na abertura
- 2Dados de escalação final quando seu timestamp de previsão é antes do anúncio
- 3Estatísticas pós-partida entrando nos cálculos de features
- 4Informações de fim de temporada vazando para previsões de meio de temporada
A correção é simples mas requer disciplina: bloquear tudo por timestamp.
Cherry-Picking: Como Nos Enganamos
Este é sutil porque frequentemente acontece inconscientemente.
"Vamos testar apenas nas 5 principais ligas—é onde os dados são mais limpos."
"Vamos descartar as temporadas de COVID—essas foram estranhas mesmo."
Cada uma soa razoável. Mas juntas, criam um conjunto de dados que não representa a realidade.
Nossa regra agora: definir critérios de inclusão *antes* de executar qualquer experimento, e mantê-los não importa o quê.
O Problema da Divisão Temporal
A prática padrão de machine learning é dividir dados aleatoriamente em conjuntos de treino/teste. Para previsão esportiva, isso está errado.
Por quê? Porque partidas da mesma temporada compartilham contexto. A abordagem correta: treinar em períodos de tempo anteriores, testar em posteriores.
Pontos-Chave
- 1Vazamento pode fazer qualquer modelo parecer incrível (até a implantação)
- 2Cherry-picking acontece sutilmente—defina critérios antecipadamente
- 3Divisões baseadas em tempo são obrigatórias para dados esportivos
- 4O futebol muda; avalie através de múltiplas janelas de tempo
- 5Sempre compare com baselines, não apenas com aleatório
📖 Leitura relacionada: Avaliação de Modelos • Engenharia de Features
*OddsFlow fornece análise esportiva alimentada por IA para fins educacionais e informativos.*

