Warum Eine Datenquelle Nicht Ausreicht
Früh beim Aufbau unseres Vorhersagesystems machten wir einen Anfängerfehler. Wir wählten einen Quotenanbieter und bauten alles darum herum. Es war sauber, einfach und völlig falsch.
Das Problem wurde an einem Wochenende offensichtlich, als dieser Anbieter einen Fehler hatte. Seine Preise wurden für einige Stunden seltsam, und unser gesamtes Modell begann Müll auszugeben. Da wurde uns klar: Sich auf eine einzige Quelle zu verlassen ist wie ein Haus auf einem Pfeiler zu bauen.
Jetzt aggregieren wir Daten aus mehreren Quellen, und alles ist robuster geworden.
Die Kraft Des Konsenses
Denken Sie so darüber nach. Wenn Sie eine Person nach der Außentemperatur fragen, bekommen Sie eine Schätzung. Fragen Sie zehn Personen, und Sie bekommen etwas, das näher an der Wahrheit liegt—besonders wenn die meisten übereinstimmen.
Das gleiche Prinzip gilt für Marktdaten. Verschiedene Anbieter haben verschiedene Eigenheiten:
- Manche reagieren schneller auf Nachrichten
- Manche haben höhere Margen
- Manche spezialisieren sich auf bestimmte Ligen
Wenn wir sie kombinieren, gleichen sich die Eigenheiten aus. Was bleibt, ist ein saubereres Signal.
Wie Wir Konsens-Features Erstellen
Das ist unser tatsächlicher Prozess:
Schritt 1: Quoten aus mehreren Quellen für dasselbe Spiel sammeln.
Schritt 2: Alles in implizierte Wahrscheinlichkeit umwandeln (um Äpfel mit Äpfeln zu vergleichen).
Schritt 3: Die Median-Wahrscheinlichkeit über alle Quellen berechnen. Warum Median statt Durchschnitt? Weil er resistent gegen Ausreißer ist.
Schritt 4: Streuung messen—wie weit die Quellen auseinander liegen.
Diese Streuungsmetrik erwies sich als überraschend nützlich. Wenn Quellen eng beieinander liegen (niedrige Streuung), ist der Markt zuversichtlich. Wenn sie überall verteilt sind (hohe Streuung), gibt es echte Unsicherheit.
Streuung Als Feature
Lassen Sie mich ein reales Beispiel geben. Zwei Spiele haben beide eine mediane Heimsieg-Wahrscheinlichkeit von 55%.
Spiel A: Quellen reichen von 53% bis 57%. Niedrige Streuung.
Spiel B: Quellen reichen von 48% bis 62%. Hohe Streuung.
Spiel A ist Konsens. Spiel B hat Meinungsverschiedenheiten—vielleicht gibt es unklare Verletzungsnachrichten.
Wir speisen die Streuung als separates Feature in unsere Modelle ein. Es hilft dem Modell zu verstehen, nicht nur was der Markt denkt, sondern wie zuversichtlich der Markt ist.
Wichtige Erkenntnisse
- 1Einzelquelldaten sind fragil; Konsens ist robust
- 2Median handhabt Ausreißer besser als Durchschnitt
- 3Streuung ist ein Feature, nicht nur Rauschen
- 4Verfolgen Sie, wie sich die Übereinstimmung im Laufe der Zeit ändert
📖 Weiterführende Lektüre: Wie Margen Berechnet Werden • Quotenbewegung
*OddsFlow bietet KI-gestützte Sportanalysen für Bildungs- und Informationszwecke.*

