Der Moment, Als Wir Erkannten, Dass Quoten Nicht Ausreichten
Etwa sechs Monate nach dem Aufbau unserer Vorhersagemodelle stießen wir an eine Wand. Unsere Genauigkeit war ordentlich, aber wir sahen immer wieder Spiele, bei denen unsere Modelle offensichtliche Faktoren übersahen, die jeder Fußballfan berücksichtigen würde. Ein Team, das sein viertes Spiel in zwölf Tagen spielt. Ein Kader ohne drei wichtige Stammkräfte. Grundlegende Dinge.
Die Quoten erfassten die Marktstimmung gut, aber sie komprimierten viel Kontext in eine einzige Zahl. Wir mussten diesen Kontext dekomprimieren und unseren Modellen Zugang zu den zugrunde liegenden Faktoren geben.
Warum xG Unser Erstes Nicht-Quoten-Feature Wurde
Expected Goals (xG) misst die Schussqualität statt tatsächlicher Tore. Ein Team, das 2,5 xG erzeugt, aber nur einmal trifft, erzeugt gute Chancen—es hatte nur Pech. Im Laufe der Zeit sagt xG die zukünftige Torproduktion tendenziell besser voraus als rohe Torzahlen.
Wir begannen, rollende xG-Durchschnitte zu verfolgen—wie viele erwartete Tore ein Team in den letzten fünf Spielen erzielt und kassiert.
Der knifflige Teil war, das Timing richtig hinzubekommen. Sie können nur xG-Daten von Spielen verwenden, die zum Zeitpunkt der Vorhersage bereits beendet sind.
Verletzungen: Nuancierter Als Erwartet
Unser erster Versuch mit Verletzungs-Features war grob: einfach zählen, wie viele Spieler verletzt sind. Das half nicht viel.
Was besser funktionierte:
- Positionsgewichtung: Das Fehlen eines Stammtorwarts oder Mittelstürmers hat mehr Auswirkung als ein Ersatzspieler
- Spielminuten: Kodieren, wie viele Minuten die fehlenden Spieler typischerweise beitragen
- Aktualität: Wann wurde die Verletzungsinformation veröffentlicht? Das ist wichtig für Modellintegrität
Spielplan-Dichte: Das Einfachste Feature, Das Funktioniert
Das war fast peinlich einfach, verbesserte aber unsere Modelle merklich:
- Tage seit dem letzten Spiel
- Anzahl der Spiele in den letzten 14 Tagen
- Ob das Team ein Europaspiel unter der Woche hatte
Ein Team, das sein drittes Spiel in 7 Tagen spielt, zeigt einen messbaren Leistungsabfall, besonders in der zweiten Halbzeit.
Wie Wir Alles Kombinieren
Der geschichtete Ansatz, der aus der Experimentierung entstand:
Schicht 1 - Baseline: Quoten-abgeleitete Wahrscheinlichkeiten geben die Marktbewertung.
Schicht 2 - Anpassungen: xG-, Verletzungs- und Spielplan-Daten können Wahrscheinlichkeiten verschieben, wenn sie darauf hindeuten, dass der Markt etwas übersieht.
Schicht 3 - Konfidenz: Quotenbewegungsmuster und Buchmacher-Konsens helfen zu kalibrieren, wie viel Vertrauen zu setzen ist.
Was Wir Gelernt Haben
- 1Einfache Features übertreffen oft komplexe, wenn sie richtig implementiert werden
- 2Timing und Datenhygiene sind genauso wichtig wie die Features selbst
- 3Jede Datenquelle fügt inkrementellen Wert hinzu—es gibt kein einzelnes "geheimes Signal"
- 4Die besten Features sind die, die man logisch erklären kann
Wir experimentieren immer noch mit neuen Datenquellen, aber diese drei—xG, Verletzungen und Spielplan—haben über mehrere Saisons hinweg beständig ihren Wert bewiesen.
*OddsFlow bietet KI-gestützte Sportanalysen für Bildungs- und Informationszwecke.*

