예측 모델 구축: 우리의 접근법
수년간의 반복 끝에, OddsFlow에서 실제로 축구 예측에 어떻게 접근하는지 공유하고 싶습니다. 마법 같은 것은 없습니다—세심한 데이터 작업과 정직한 평가만 있을 뿐입니다.
데이터 기반
모든 것은 데이터 품질에서 시작됩니다. 여러 소스에서 집계합니다:
경기 수준 데이터:
- 역사적 결과 (5년 이상)
- xG 및 고급 지표
- 라인업 정보
- 경기 중 이벤트
시장 데이터:
- 다중 소스 배당률 스냅샷
- 가격 움직임 이력
- 시장 타이밍 정보
맥락 데이터:
- 리그 순위와 맥락
- 휴식일과 이동
- 대회 단계 중요도
특성 엔지니어링: 작업이 있는 곳
원시 데이터는 유용하지 않습니다. 진짜 작업은 이를 예측 특성으로 변환하는 것입니다.
팀 강도 특성:
- 롤링 xG 평균 (홈/원정별)
- Elo 스타일 파워 레이팅
- 최근 폼 지표
시장 파생 특성:
- 오프닝 배당률의 내재 확률
- 오프닝에서 마감까지의 움직임
- 교차 시장 불일치
맥락 특성:
- 경기 중요도 지수
- 피로 지표
- 상대 전적 조정
수백 개의 특성을 테스트했습니다. 대부분은 가치를 추가하지 않습니다. 규율은 *포함하지 않는* 것에 있습니다.
모델 아키텍처
앙상블 접근법을 사용합니다—여러 모델 결합:
기본 모델:
- 테이블 특성용 그래디언트 부스팅 트리 (XGBoost)
- 골 기대값용 푸아송 모델
- 시장 합의 기준선
결합:
샘플 외 성능 기반 가중 평균. 가중치는 리그와 시장 유형에 따라 조정됩니다.
우리는 의도적으로 과도하게 복잡한 아키텍처를 피합니다. 축구는 노이즈가 많습니다. 단순하고 잘 보정된 모델이 종종 복잡한 모델을 능가합니다.
정말 중요한 것
수년간의 실험 후, 차이를 만드는 것:
- 1양보다 데이터 품질: 깨끗하고 일관된 데이터가 더 많은 특성을 이김
- 2정확도보다 보정: 잘 보정된 확률이 승률보다 더 중요
- 3시장 인식: 배당률을 특성으로 사용하는 것은 강력하지만 주의가 필요
- 4정직한 평가: 역사적 곡선이 아닌 최근 데이터에 대한 샘플 외 테스트
우리의 한계
어떤 모델도 완벽하지 않습니다. 우리 모델의 어려움:
- 시즌 초반 (작은 최근 샘플)
- 감독 교체와 스쿼드 변화
- 매우 이례적인 경기 맥락
- 골키퍼가 지배하는 경기
우리는 불확실성에 대해 투명합니다. 신뢰도가 낮을 때 그렇게 말합니다.
📖 관련 글: 예측 모델 평가 • 특성 엔지니어링 심층 분석
*OddsFlow는 교육 및 정보 목적으로 AI 기반 스포츠 분석을 제공합니다.*

