배당률만으로는 부족하다는 것을 깨달은 순간
예측 모델을 구축한 지 약 6개월 후, 벽에 부딪혔습니다. 정확도는 괜찮았지만, 축구 팬이라면 누구나 고려할 명백한 요소를 모델이 놓치는 경기가 계속 나타났습니다. 12일 동안 네 번째 경기를 치르는 팀. 주요 선발 3명이 빠진 스쿼드. 기본적인 것들입니다.
배당률은 시장 심리를 잘 포착했지만, 많은 맥락을 하나의 숫자로 압축하고 있었습니다. 그 맥락을 풀어내고 모델에 기저 요인에 대한 접근권을 주어야 했습니다.
xG가 첫 번째 비배당률 피처가 된 이유
기대골(xG)은 실제 골이 아닌 슈팅 품질을 측정합니다. 2.5 xG를 만들면서 한 골만 넣은 팀은 좋은 기회를 만들고 있는 것입니다—단지 운이 없었을 뿐입니다. 시간이 지남에 따라 xG는 원시 골 수보다 미래 골 생산을 더 잘 예측하는 경향이 있습니다.
우리는 롤링 xG 평균 추적을 시작했습니다—팀이 지난 5경기에서 몇 개의 기대골을 창출하고 실점했는지.
어려운 부분은 타이밍을 맞추는 것이었습니다. 예측하는 시점에 이미 끝난 경기의 xG 데이터만 사용할 수 있습니다.
부상: 예상보다 더 복잡했다
부상 피처에 대한 첫 시도는 조잡했습니다: 단순히 몇 명의 선수가 부상당했는지 세는 것. 별로 도움이 되지 않았습니다.
더 효과적이었던 것:
- 포지션 가중치: 선발 골키퍼나 센터포워드의 부재는 백업 윙어보다 더 큰 영향
- 출전 시간: 부재 선수들이 보통 기여하는 분 수 인코딩
- 즉시성: 부상 정보가 언제 공개되었는지? 모델 무결성에 중요
일정 혼잡: 작동하는 가장 간단한 피처
이것은 거의 부끄러울 정도로 간단했지만, 모델을 눈에 띄게 개선했습니다:
- 마지막 경기 이후 일수
- 지난 14일간 경기 수
- 팀이 주중에 유럽 대회 경기가 있었는지
7일 동안 세 번째 경기를 치르는 팀은 특히 후반에 측정 가능한 성능 저하를 보입니다.
모든 것을 어떻게 결합하는가
실험을 통해 나타난 계층화된 접근법:
레이어 1 - 베이스라인: 배당률에서 파생된 확률이 시장 평가를 제공합니다.
레이어 2 - 조정: xG, 부상, 일정 데이터는 시장이 뭔가를 놓치고 있을 수 있음을 시사할 때 확률을 이동시킬 수 있습니다.
레이어 3 - 신뢰도: 배당률 움직임 패턴과 북메이커 컨센서스는 얼마나 자신감을 가져야 하는지 보정하는 데 도움이 됩니다.
배운 것
- 1올바르게 구현되면 간단한 피처가 복잡한 것을 능가하는 경우가 많음
- 2타이밍과 데이터 위생은 피처 자체만큼 중요
- 3각 데이터 소스는 점진적 가치를 추가—단일 "비밀 신호"는 없음
- 4최고의 피처는 논리적으로 설명할 수 있는 것
아직 새로운 데이터 소스를 실험하고 있지만, 이 세 가지—xG, 부상, 일정—은 여러 시즌에 걸쳐 일관되게 그 가치를 증명해왔습니다.
*OddsFlow는 교육 및 정보 제공 목적으로 AI 기반 스포츠 분석을 제공합니다.*

