Aufbau von Vorhersagemodellen: Unser Ansatz
Nach Jahren der Iteration möchte ich teilen, wie wir bei OddsFlow tatsächlich an Fußballvorhersagen herangehen. Keine Magie—nur sorgfältige Datenarbeit und ehrliche Bewertung.
Das Datenfundament
Alles beginnt mit Datenqualität. Wir aggregieren aus mehreren Quellen:
Spieldaten:
- Historische Ergebnisse (5+ Jahre)
- xG und fortgeschrittene Metriken
- Aufstellungsinformationen
- Spielereignisse
Marktdaten:
- Multi-Source-Quoten-Snapshots
- Preisbewegungshistorie
- Markt-Timing-Informationen
Kontextdaten:
- Ligastandings und Kontext
- Ruhetage und Reisen
- Wichtigkeit der Wettbewerbsphase
Feature Engineering: Wo die Arbeit Liegt
Rohdaten sind nicht nützlich. Die eigentliche Arbeit ist die Transformation in prädiktive Features.
Team-Stärke-Features:
- Rollende xG-Durchschnitte (heim-/auswärtsspezifisch)
- Elo-Stil Powerratings
- Aktuelle Form-Indikatoren
Marktabgeleitete Features:
- Implizite Wahrscheinlichkeiten aus Eröffnungsquoten
- Eröffnung-zu-Schluss-Bewegung
- Cross-Market-Diskrepanzen
Kontextfeatures:
- Match-Wichtigkeitsindex
- Ermüdungsindikatoren
- Direktvergleich-Anpassungen
Wir haben Hunderte von Features getestet. Die meisten fügen keinen Wert hinzu. Die Disziplin liegt darin, was Sie *nicht* einbeziehen.
Modellarchitektur
Wir verwenden einen Ensemble-Ansatz—mehrere kombinierte Modelle:
Basismodelle:
- Gradient Boosted Trees (XGBoost) für tabellarische Features
- Poisson-Modelle für Torerwartungen
- Marktkonsens-Baselines
Kombination:
Gewichteter Durchschnitt basierend auf Out-of-Sample-Performance. Gewichte passen sich nach Liga und Markttyp an.
Wir vermeiden bewusst übermäßig komplexe Architekturen. Fußball ist verrauscht. Einfache, gut kalibrierte Modelle übertreffen oft komplexe.
Was Wirklich Zählt
Nach Jahren des Experimentierens, hier ist was den Unterschied macht:
- 1Datenqualität über Quantität: Saubere, konsistente Daten schlagen mehr Features
- 2Kalibrierung über Genauigkeit: Gut kalibrierte Wahrscheinlichkeiten zählen mehr als Gewinnrate
- 3Marktbewusstsein: Quoten als Features zu verwenden ist mächtig, erfordert aber Sorgfalt
- 4Ehrliche Bewertung: Out-of-Sample-Tests mit aktuellen Daten, nicht historische Kurven
Unsere Grenzen
Kein Modell ist perfekt. Unseres hat Schwierigkeiten mit:
- Saisonbeginn (kleine aktuelle Stichprobe)
- Trainerwechsel und Kaderumbruch
- Sehr ungewöhnliche Spielkontexte
- Torwart-dominierte Spiele
Wir sind transparent über Unsicherheit. Wenn das Vertrauen gering ist, sagen wir es.
📖 Weiterführende Lektüre: Bewertung von Vorhersagemodellen • Feature Engineering Vertiefung
*OddsFlow bietet KI-gestützte Sportanalysen für Bildungs- und Informationszwecke.*

