Data-driven performance analysis in soccer: A compilation of data science and machine learning techniques for pre-processing and knowledge discovery

Publikation: Buch/BerichtDissertationsschrift

479 Downloads (Pure)

Abstract

Big Data hat sich als zunehmend einflussreich in einer Vielzahl von Entscheidungsfindungs- und Erkenntnisgewinnung in verschiedenen Bereichen erwiesen. Die Sammlung, Vorverarbeitung und Analyse von Daten zur Entscheidungsfindung oder im Erkenntnisgewinnung ist eine komplexe Aufgabe. Mit dem zunehmenden Zugang zu Rechenleistung sind eine Vielzahl von Datenwissenschaftstechniken als Problemlösungswerkzeuge in vielen Bereichen der Gesellschaft entstanden. In den letzten zehn Jahren wurde eine große Menge an Daten im Bereich des Sports gesammelt. Mehrere Labore weltweit haben diese Daten in Verbindung mit Machine Learning/Data Science (ML/DS)-Techniken genutzt, um einen erheblichen Mehrwert für die Sportindustrie und die Wissenschaft zu schaffen. Im Vergleich zum Potenzial der verfügbaren Daten wurde jedoch nur ein kleiner Teil genutzt. Dies liegt hauptsächlich an mangelnden Kenntnissen in der Programmierung, die erforderlich sind, um die Daten in einer Form zu erhalten, die optimal ist, um Modelle zur Beantwortung spezifischer Fragestellungen von Interesse zu erstellen. Das Problem des Engpasses bei der Vorverarbeitung wurde teilweise durch Datenressourcen wie OPTA, STATSBomb und FBRef.com gelöst, die saubere Tracking-, Ereignis- und Notationsdaten bereitstellen. Darüber hinaus bieten Bibliotheken in Python und R wie Floodlight, AMIE und SoccerAction Pakete an, die Vorverarbeitungs- und Visualisierungsschritte vereinfachen und damit Experten in bestimmten Bereichen mit begrenzten Codierkenntnissen einen großen Zugang zur Big Data-Analyse bieten. Vor dem Hintergrund dieser Entwicklungen zielt die vorliegende Arbeit darauf ab, ML/DS-Methoden wie Regression, binäre Klassifikation, Feature-Engineering und k-fold Kreuzvalidierung in den Bereich der Sportanalytik einzuführen. Dies kann Fachleuten in bestimmten Bereichen die notwendigen technischen Werkzeuge bieten, um die steigende Datenmenge in der Sportindustrie zu nutzen.

Durch veröffentlichte Fallstudien, die jeweils eine spezifische Hypothese behandeln, erklärt die Arbeit die Bedeutung der Normalisierung von KPIs als Schritt des Feature-Engineering vor statistischer Modellierung. Sie erläutert auch den Wert der Verwendung von k-fold Kreuzvalidierung als Modellbewertungskriterium für Regression und Klassifikationsprobleme. Die Arbeit betont weiterhin den Wert der Verwendung mehrerer ML-Modelle zur Lösung spezifischer Probleme als Modellrobustheit, um falsche Ergebnisse aufgrund von Verzerrungen eines einzelnen Algorithmus zu vermeiden. Die bereitgestellten Methoden können potenziell auf die Forschung im Allgemeinen angewendet werden, aber der Bereich der Schlag- und Ballsportarten wie Cricket und Baseball scheint für die Big-Data-Analyse unter Verwendung von ML besonders geeignet zu sein. Dies liegt an ihrer einzigartigen geschlossenen Handlungsstruktur (eine Handlung, eine Reaktion, die zu einem Ergebnis dieses Handlungs-Reaktions-Paares führt), da sie im Vergleich zu Invasionssportarten einen geringeren Grad an Zufälligkeit aufweisen. Die vorliegende Arbeit hat jedoch einige Einschränkungen aufgrund ihres Umfangs. Sie umfasst nur die binäre Klassifikation und zwei verschiedene Regressionsmethoden, die vergleichsweise geringe Rechenleistung erfordern. Komplizierte Methoden wie neuronale Netze und Deep Learning fallen außerhalb des Rahmens der Arbeit, die möglicherweise zu verbesserten Ergebnissen führen könnten. Obwohl umfassend, stellt die Arbeit immer noch keine End-to-End-Pipeline dar. Sie behandelt lediglich die Modellierungsphase des Wissensentdeckungszyklus auf Match- oder Saisonebene. Zukünftige Forschung muss die in der vorliegenden Arbeit beschriebenen Techniken auf Ereignis- oder Spiel-für-Spiel-Daten anwenden. Darüber hinaus sollten die Schritte der Vorverarbeitung und Visualisierungen im Zusammenspiel mit den Ergebnissen der aktuellen Arbeit Gegenstand zukünftiger Forschung sein. Zusammenfassend muss die Sportforschung die Möglichkeiten von Big Data nutzen, um neuartige Lösungen für eine Vielzahl von Problemen in verschiedenen Sportbereichen zu finden, wobei ML/DS-Methoden das ideale Werkzeug dafür zu sein scheinen. Insbesondere sind die Normalisierung von Notationsdaten, die Verwendung mehrerer Modelle zur Robustheit und die k-fold-Kreuzvalidierung zur Bestimmung der außerhalb des Musters liegenden Gültigkeit der Ergebnisse wichtige Schritte. Darüber hinaus gibt die Arbeit eine Einführung in die Möglichkeiten, wie Datenwissenschaftstechniken und multidisziplinäre Ansätze der Sportindustrie und -forschung helfen können.
OriginalspracheEnglisch
ErscheinungsortKöln
VerlagDeutsche Sporthochschule Köln
Seitenumfang25
PublikationsstatusVeröffentlicht - 13.07.2023

Fingerprint

Untersuchen Sie die Forschungsthemen von „Data-driven performance analysis in soccer: A compilation of data science and machine learning techniques for pre-processing and knowledge discovery“. Zusammen bilden sie einen einzigartigen Fingerprint.

Zitation