News

Il calcio giocato a disposizione della scienza

29/10/2019

La comunità che si occupa di sports analytics, la branca della scienza dei dati che si occupa dell’analisi di prestazioni sportive, ha da oggi a disposizione un dataset unico nel suo genere, il più grande mai rilasciato al pubblico. Grazie alla collaborazione, infatti, tra Cnr, Università di Pisa e Wyscout/Hudl, è stata resa pubblica una notevole serie di dati relativi al mondo del calcio giocato. Una stagione completa per tutti i principali campionati europei, oltre alle ultime edizioni di europei e mondiali: per tutte queste competizioni, sono disponibili al pubblico i dati relativi ad ogni singola giocata (o evento) effettuata sul campo da un calciatore. Questo tipo di dato, chiamato soccer-logs, è raccolto da Wyscout/Hudl e per la prima volta è liberamente accessibile alla comunità scientifica.

Il dataset -realizzato all’interno del progetto SoBigData- è stato pubblicato dalla prestigiosa rivista internazionale Nature Scientific Data, ed è disponibile a questo indirizzo: https://www.nature.com/articles/s41597-019-0247-7. Nell’articolo sono illustrate le principali metodologie di analisi conducibili su questo tipo di dati, incluso l’algoritmo PlayeRank, sviluppato da ricercatori di Cnr-Isti, Università di Pisa e Wyscout/Hudl e recentemente pubblicato sulla rivista ACM Transaction on Intelligent Systems and Technology.  PlayeRank permette di analizzare e confrontare le performance di ogni calciatore presente nel dataset, utilizzando tecniche di Intelligenza Artificiale per comprendere l’importanza di ogni singolo evento presente nei dati. L’algoritmo ha consentito agli scienziati di identificare giovani talenti italiani, come Moise Kean e Sebastiano Esposito, prima della loro 'esplosione' mediatica. Anche il codice sorgente di Playerank è open source, disponibile su github insieme ad un tutorial interattivo che mostra come acquisire il dataset pubblico ed applicare, passo passo, l’algoritmo di valutazione della performance. Il dataset è stato utilizzato, recentemente, dai partecipanti della seconda edizione di Soccer Data Challenge, organizzata all’interno del Festival dello Sport di Trento.

Blog post: bit.ly/soccerdata_post

Dataset: A public data set of spatio-temporal match events in soccer competitions, Nature Scientific Data, DOI: 10.1038/s41597-019-0247-7

Algoritmo: PlayeRank: data-driven performance evaluation and player ranking in soccer via a machine learning approach, ACM Transactions on Intelligent Systems and Technology (TIST). Source code: github

Per informazioni:
Luca Pallalardo
Cnr-Isti
luca.pappalardo@isti.cnr.it
Paolo Cintia, Università di Pisa, email: cintia@di.unipi.it