Das steckt hinter dem NDR Fußball-Datenprojekt
Um Fußball besser analysieren zu können, arbeitet der NDR mit GSN (Global Soccer Network) in einem crossmedialen Datenprojekt zusammen.
Mit der Hilfe von umfangreichen und detaillierten GSN-Daten wird der Fußball genauer als bislang unter die Lupe genommen. Die wichtigesten Informationen zum Data-Projekt.
Was ist Global Soccer Network (GSN)?
2013 gegründet ist GSN eine der führenden Datenscouting-Agenturen weltweit mit ca. 100 Klienten auf allen fünf Kontinenten, darunter Inter Mailand, Chelsea London, Manchester City, Paris Saint Germain oder Atletico Madrid. Gründer und Geschäftsfüher ist Dustin Böttger, der früher als Talentscout unter anderem für TSG Hoffenheim und den SV Sandhausen gearbeitet hat.
Was macht GSN?
Hauptbestandteil der Arbeit von GSN ist das Analysieren und Einschätzen von ca. 500.000 Fußballspielern weltweit sowie aller relevanten Clubs und Wettbewerbe basierend auf Einschätzungen von Scouts, Big Data, Algorithmen und künstlicher Intelligenz.
Was steckt genau hinter den GSN-Daten?
Die GSN-Datenbank greift in seinen Analysen mittlerweile auf ungefähr 35 Milliarden einzelne Datenpunkte zurück. Grob zusammengefasst gibt es dabei vier Bereiche:
- "Persönliche Basisdaten": Daten wie Größe, Gewicht oder Alter der Spieler werden erfasst.
- "Scoutingdaten": Ein weltweites Scoutingnetzwerk liefert Einschätzungen zu ca.130 fussballspezifischen Eigenschaften (technisch, taktisch, physisch, mental) von Spielern.
- "Performance-Daten": Jede Aktion jedes Spielers während eines Spiels wird erfasst - u.a. Pässe, Torschüsse, Sprints oder auch Fouls.
- "Advanced analytics": Damit sind Datenmodelle gemeint, die auch mit Hilfe von künstlicher Intelligenz berechnet werden. Diese Modelle sollen den "Performance-Daten" Kontext verleihen. Ein Beispiel ist der sogenannte "Action score", bei dem berechnet wird, wie positiv oder negativ jede Aktion eines einzelnen Spielers für das jeweilige Team ist.
Was ist der GSN-Index?
Vier-Säulen-Prinzip:
- 1. "fußballerische Eigenschaften": Technik, Spielübersicht oder der erste Kontakt: Einschätzungen über 130 fußballspezifische Eigenschaften von mehr als 300 Scouts weltweit.
- 2. "fußballerisches Potenzial": Wo werden Spieler besser, wo stagnieren sie oder entwickeln sich zurück? Ein Algorithmus analysiert Daten aus der ersten Säule und vergleicht Spielertypen.
- 3. "Performance auf dem Spielfeld": Tore, Pässe, Fouls, Schüsse oder auch Abseitspositionen: die Spiel-Basisdaten und weiterführende Analysen wie "Expected goals" oder "Action scores" werden durch einen Algorithmus in einen übergeordneten Kontext gesetzt - zum Beispiel positionsbezogen.
- 4. "Spielniveau": Jede Mannschaft oder Liga hat einen Zahlenwert, der ihre Stärke bemisst. Oberliga oder Champions League: Umso höher das Spielniveau des Gegners, desto positiver wirkt es sich auf den GSN-Index aus.
- 85 - 100: Weltklasse
- 70 - 85: internationale Klasse
- 60 - 70: Durchschnitt Bundesliga bzw. der Top 5 Ligen
- 50 - 60: Durchschnitt 2. Bundesliga
- 40 - 50: Durchschnitt 3. Liga
- 30 - 40: Durchschnitt Regionalliga
- aktueller GSN-Index: zeigt die aktuelle, allumfassende Qualität eines Spielers basierend auf den Daten der vier Säulen und Algorithmus-Berechnungen.
- möglicher GSN-Index: Künstliche Intelligenz ermittelt anhand der Daten das bestmögliche, zukünftige Leistungsniveau eines Spielers.
Wie wird der GSN-Index bei Trainern erstellt?
Der GSN-Index bei Trainern setzt sich aus unterschiedlichen Faktoren zusammen. Relevanz haben:
- die Stärke des eigenen Teams im Verhältnis zur Stärke der Liga - geholte Punkte werden faktorisiert.
- die Spielerentwicklung - entwickeln sich Spieler unter einem bestimmten Trainer weiter, stagnieren sie oder werden gar schlechter?
- taktische Flexibilität - schafft es ein Trainer, sein Team situationsbedingt taktisch umzustellen, um damit erfolgreich zu sein?
- statistische Werte der Mannschaft - auch taktisch und technisch.
- 85 - 100: Weltklasse-Trainer wie Klopp, Guardiola oder Flick
- 70 - 85: Trainer, die die Fähigkeiten haben, eine Nationalmannschaft zu coachen oder einen Club, der international spielt (innerhalb der Top-Fünf-Ligen)
- 60 - 70: Bundesliga-Trainer
- ...
Das "Expected goals"-Modell
"Expected goals" sind "zu erwartende Tore" und werden anhand eines Datenmodells berechnet, in das eine Vielzahl von Faktoren einfließt - unter anderem von wo auf dem Platz der Abschluss erfolgte, wie der Winkel zum Tor war und wie viele Gegenspieler noch zwischen Ball und Tor standen. Jede Torchance erhält dabei einen Wert zwischen 0 und 1, um die Wahrscheinlichkeit zu bestimmen, mit der der Ball von diesem Punkt aus im Tor landet. "Expected goals"-Werte sind so aussagekräftiger als die normale Torschuss-Statistik, die alle Abschlüsse gleich behandelt. GSN hat zur Berechnung mehr als 3 Millionen Tore ausgewertet.
Was ist das "Expected points"-Modell?
Die Expected points ermitteln die Anzahl der Punkte, die eine Mannschaft aus einem Spiel hätte holen "müssen", basierend auf den Torchancen, also den "Expected goals", die sie in diesem Spiel generierte bzw. hätte bekommen müssen. Jedes Team bekommt zwischen 0,1 und 2,7 Expected points, je nachdem, wie einseitig das Spiel aus Sicht der "Expected goals" war.
Was ist der "Performance-Score"?
- Tore, Pässe, Fouls, Schüsse oder auch Abseitspositionen: die Spiel-Basisdaten und weiterführende Analysen wie "Expected goals" oder "Action scores" werden beim "Performance-Score" durch einen Algorithmus in einen übergeordneten Kontext gesetzt - zum Beispiel positionsbezogen.
- Beim "Performance-Score" sind alle Spieler zunächst einmal auf 0 gesetzt und werden anhand der reinen Leistungsdaten, kombiniert mit Datenmodellen, bewertet.
- Damit liefert dieser Wert eine Einschätzung, wie gut oder schlecht ein Spieler aktuell spielt.
- Der "Performance-Score" ist ein Baustein des GSN-Index, der wiederum eine generelle, langfristige Bewertung aller Fähigkeiten, Potenziale und Qualitäten eines Spielers ist.
Wie wird das Matching von Spielern zu Clubs berechnet?
- Es wird analysiert, in welchem taktischen System der Spieler am besten in der Vergangenheit performt hat.
- Es wird analysiert, mit welchen Mitspielern der Spieler am besten performt hat in der Vergangenheit.
- Es wird analysiert, welche Fähigkeiten und welche Spielweise der Spieler individuell mitbringt.
- Es wird analysiert, welche Fähigkeiten und welche Spielweise die Mitspieler des Spielers individuell mitbringen.
- Dies wird übertragen auf jede x-beliebige Mannschaft in der Datenbank, das System berechnet dann die Deckungsgleichheit der oben genannten vier Punkte.
Berechnung Aufstiegswahrscheinlichkeit
Ausgehend vom GSN-Index zweier Mannschaften werden die Wahrscheinlichkeiten für einen Sieg, eine Niederlage oder ein Unentschieden für ein bestimmtes Spiel ermittelt.
Basierend auf den Expected goals, Expected goals on target und der Mannschaftsstärke wird die Anzahl der Tore, die jedes Team während des Spiels schießen wird berechnet (anhand der Poisson-Verteilung). Der Heimvorteil oder die Wichtigkeit bestimmter Spiele (wie etwa Derbys) fließen ebenfalls mit ein.
Daraus wird berechnet, wie hoch die Wahrscheinlichkeit auf einen Sieg, Niederlage oder Unentschieden für jedes Team in jeder Partie ist und welches Endergebnis am wahrscheinlichsten ist.
Aus dem so ermittelten Endergebnissen wiederum lassen sich die Expected points für jedes Team berechnen, welche zu den bisherigen, tatsächlich erzielten Punkten dazugerechnet werden. So bekommt man eine wahrscheinliche Endtabelle.
Simuliert man die Saison nun mit verschiedenen Variablen (unterschiedliche Aufstellungen, vermeintliche Trainerwechsel, Verletzungen etc.) 100.000 Mal mit Hilfe sogenannter Monte-Carlo-Simulationen, so kann am Ende eine Aufstiegswahrscheinlichkeit für die Teams wiedergegeben werden.
Wie wird die "Squad stability" bestimmt?
Die "Squad stability", also die Stabiliät der Mannschaft oder des Kaders, setzt sich in der GSN-Analyse aus zwei Komponenten zusammen:
- Wie oft wird die taktische Formation zu Spielbeginn geändert? Läuft ein Team immer im gleichen System auf, oder ändert es sich von Spiel zu Spiel?
- Wie oft werden die einzelnen Positionen von den gleichen Spielern besetzt? Gibt es eine Stammelf, oder ändert der Trainer je nach Gegner oder aus anderen Gründen die personelle Besetzung?
Umso höher die Werte und umso näher an 100, umso stabiler ist die Mannschaft. Ein Wert von 100 wäre gleichbedeutend mit der immer gleichen taktischen Formation und der immer gleichen Startelf.
Dieses Thema im Programm: