O Momento em Que Percebemos Que Odds Não Eram Suficientes
Cerca de seis meses após construir nossos modelos de previsão, batemos em uma parede. Nossa precisão era decente, mas continuávamos vendo partidas onde nossos modelos ignoravam fatores óbvios que qualquer fã de futebol consideraria. Um time jogando sua quarta partida em doze dias. Um elenco sem três titulares chave. Coisas básicas.
As odds capturavam bem o sentimento do mercado, mas comprimiam muito contexto em um único número. Precisávamos descomprimir esse contexto e dar aos nossos modelos acesso aos fatores subjacentes.
Por Que xG Se Tornou Nossa Primeira Feature Não-Odds
Gols Esperados (xG) mede a qualidade dos chutes em vez dos gols reais. Um time que gera 2.5 xG mas marca apenas um está criando boas chances—apenas teve azar. Com o tempo, xG tende a prever a produção de gols futura melhor que contagens de gols brutas.
Começamos a rastrear médias móveis de xG—quantos gols esperados um time cria e concede nos últimos cinco jogos.
A parte difícil foi acertar o timing. Você só pode usar dados de xG de partidas que já terminaram no ponto em que faz uma previsão.
Lesões: Mais Nuançadas Do Que Esperávamos
Nossa primeira tentativa com features de lesões foi grosseira: simplesmente contar quantos jogadores estão lesionados. Não ajudou muito.
O que funcionou melhor:
- Ponderação por posição: A ausência de um goleiro titular ou centroavante tem mais impacto que um reserva
- Minutos jogados: Codificar quantos minutos os jogadores ausentes tipicamente contribuem
- Imediatez: Quando a informação de lesão foi publicada? Isso é importante para integridade do modelo
Congestionamento de Calendário: A Feature Mais Simples Que Funciona
Isso foi quase vergonhosamente simples, mas melhorou notavelmente nossos modelos:
- Dias desde o último jogo
- Número de jogos nos últimos 14 dias
- Se o time teve um jogo europeu no meio da semana
Um time jogando seu terceiro jogo em 7 dias mostra uma queda mensurável de desempenho, especialmente no segundo tempo.
Como Combinamos Tudo
A abordagem em camadas que surgiu da experimentação:
Camada 1 - Base: Probabilidades derivadas de odds dão a avaliação do mercado.
Camada 2 - Ajustes: Dados de xG, lesões e calendário podem deslocar probabilidades quando sugerem que o mercado pode estar perdendo algo.
Camada 3 - Confiança: Padrões de movimento de odds e consenso das casas ajudam a calibrar quanta confiança depositar.
O Que Aprendemos
- 1Features simples frequentemente superam complexas se implementadas corretamente
- 2Timing e higiene de dados são tão importantes quanto as features em si
- 3Cada fonte de dados adiciona valor incremental—não há um único "sinal secreto"
- 4As melhores features são as que você pode explicar logicamente
Ainda experimentamos novas fontes de dados, mas essas três—xG, lesões e calendário—têm consistentemente provado seu valor ao longo de múltiplas temporadas.
*OddsFlow fornece análise esportiva alimentada por IA para fins educacionais e informativos.*

