オッズだけでは不十分だと気づいた瞬間
予測モデルを構築して約6ヶ月後、壁にぶつかりました。精度はまずまずでしたが、サッカーファンなら誰でも考慮する明らかな要素をモデルが見逃す試合が続きました。12日間で4試合目を戦うチーム。主力3人を欠くスカッド。基本的なことです。
オッズは市場センチメントをうまく捉えていましたが、多くのコンテキストを1つの数字に圧縮していました。そのコンテキストを解凍し、モデルに基礎となる要因へのアクセスを与える必要がありました。
なぜxGが最初の非オッズ特徴になったか
期待ゴール(xG)は実際のゴールではなく、シュートの質を測定します。2.5xGを生み出しながら1点しか取れなかったチームは良いチャンスを作っている——ただ運がなかっただけです。時間が経つにつれ、xGは生のゴール数よりも将来のゴール出力をよく予測する傾向があります。
私たちはローリングxG平均の追跡を始めました——チームが過去5試合で何点の期待ゴールを創出し、何点失ったか。ホーム/アウェイの差も重要でした:一部のチームはホームで著しく良いチャンスを生み出します。
難しい部分はタイミングを正しく把握することでした。予測を行う時点で既に終わった試合のxGデータしか使えません。当たり前に聞こえますが、この種の時間的リーケージはスポーツモデリングでよくある間違いです。
負傷:予想以上に複雑だった
負傷特徴への最初の試みは粗雑でした:単に何人の選手が負傷しているかを数えるだけ。あまり効果がありませんでした。第3ゴールキーパーと控え中盤を欠くチームと、キャプテンと先発ストライカーを欠くチームは全く違います。
より効果的だったのは:
- ポジション重み付け:先発ゴールキーパーやセンターフォワードの欠場は、バックアップウィンガーの欠場より影響が大きい
- 出場時間:欠場選手が通常貢献する分数をエンコード
- 即時性:負傷情報はいつ公開されたか?これはモデルの完全性に重要
タイミングの問題はここでさらに重要でした。負傷データのタイムスタンプを注意深く記録し、試合前に公開されていた情報のみを使用しています。
日程混雑:機能する最もシンプルな特徴
これはほとんど恥ずかしいほどシンプルでしたが、モデルを著しく改善しました:
- 前回の試合からの日数
- 過去14日間の試合数
- チームが週中にヨーロッパの試合があったかどうか
7日間で3試合目を戦うチームは、特に後半に測定可能なパフォーマンス低下を示します。効果は大きくありませんが、利用できるほど一貫しています。
ヨーロッパ大会の移動距離特徴も試しましたが、シグナルは予想より弱かったです。休息日数だけで混雑効果のほとんどを捉えていました。
すべてをどう組み合わせるか
実験を通じて生まれた階層化アプローチ:
レイヤー1 - ベースライン:オッズ由来の確率が市場の評価を提供。これが出発点です。
レイヤー2 - 調整:xG、負傷、日程データは、市場が何かを見逃している可能性を示唆する場合に確率をシフトできます。
レイヤー3 - 信頼度:オッズ変動パターンとブックメーカーのコンセンサスは、予測にどれだけ自信を持つべきかを測るのに役立ちます。
各レイヤーは少量の情報を追加します。どれも魔法ではありません——xGだけで予測の専門家にはなれません。しかし、体系的に組み合わせることで、各試合についてより豊かな視点をモデルに与えます。
学んだこと
- 1正しく実装すれば、シンプルな特徴が複雑なものを上回ることが多い
- 2タイミングとデータ衛生は特徴自体と同じくらい重要
- 3各データソースは増分的な価値を追加——単一の「秘密のシグナル」はない
- 4最良の特徴は論理的に説明できるもの
まだ新しいデータソースを試していますが、この3つ——xG、負傷、日程——は複数のシーズンにわたって一貫してその価値を証明しています。
*OddsFlowは教育および情報提供を目的としたAI駆動のスポーツ分析を提供しています。*

