대부분의 사람들이 하는 실수
사람들이 처음 예측 모델링에 접근할 때, 원시 숫자를 직접 사용하는 경향이 있습니다. "배당률이 2.50이니까, 2.50을 모델에 넣으면 되겠지."
이것은 밀가루가 뭔지 모르는 사람에게 레시피를 주는 것과 같습니다. 모델에는 맥락이 없습니다. 2.50이 약 40% 확률을 의미한다는 것, 2시간 전에 같은 확률이 45%였다는 것을 이해하지 못합니다.
우리의 피처 엔지니어링 철학 전체는 하나의 원칙을 중심으로 구축되어 있습니다: 모델에 숫자만이 아닌 맥락을 제공하는 것.
실제로 구축하는 것
시스템을 통과하는 모든 경기는 8개의 변환 단계를 거칩니다.
단계 1: 형식 표준화
소수점, 분수, 미국 형식으로 데이터를 받습니다. 모든 것이 먼저 소수점으로 변환됩니다.단계 2: 확률 변환
소수점 배당률이 내재 확률이 됩니다. 공식은 간단합니다: 1을 배당률로 나눕니다.단계 3: 마진 제거 (De-vigging)
마진을 제거하여 "공정한" 확률을 얻습니다.단계 4: 타임스탬프 정렬
일관된 간격으로 스냅샷을 저장합니다: 오프닝, 정오, 클로징.단계 5: 움직임 피처
Delta, 속도, 변동성, 늦은 강도를 계산합니다.단계 6: 컨센서스 메트릭
여러 데이터 소스에서 집계합니다.단계 7: 크로스마켓 검증
다른 시장 유형은 일관된 이야기를 해야 합니다.단계 8: 평가 메트릭
자체 예측을 평가하는 데 도움이 되는 신호를 추가합니다.핵심 포인트
- 1원시 데이터는 지저분; 피처는 구조화
- 2확률 변환과 디비깅이 공정한 기준선 생성
- 3움직임과 컨센서스가 시간적 및 크로스소스 맥락 추가
- 4크로스마켓 체크가 불일치 감지
- 5좋은 피처가 모델을 더 똑똑하게 만듦
📖 관련 기사: 오프닝 vs 클로징 • 시장 컨센서스
*OddsFlow는 교육 및 정보 제공 목적으로 AI 기반 스포츠 분석을 제공합니다.*

