Esclusive per gli abbonati
Newsletters
About
UU è una rivista di sport fondata a luglio del 2013, da ottobre 2022 è indipendente e si sostiene grazie agli abbonamenti dei suoi lettori
Segui UltimoUomo
Cookie policy
Preferenze
→ UU Srls - Via Parigi 11 00185 Roma - P. IVA 14451341003 - ISSN 2974-5217.
Menu
Articolo
Un nuovo modello di Expected Goals
08 set 2016
Un indice statistico che useremo su l'Ultimo Uomo nei prossimi mesi.
(articolo)
10 min
Dark mode
(ON)

Introduzione for dummies

Per chi ha confidenza con le statistiche calcistiche gli Expected Goals non sono una novità. Si tratta, in estrema sintesi, di un indice (cioè di un’insieme di statistiche “base” che vengono messe in relazione e “pesate” all’interno di un algoritmo) in grado di rappresentare il potenziale offensivo prodotto da una squadra in una determinata partita o in un numero scelto di partite; relativamente a un singolo giocatore, invece, rappresenta le occasioni potenzialmente da gol avute. Il risultato finale è un numero che traduce i gol che ci si sarebbe aspettato (in questo senso i “goals” sono “expected”) che quella squadra o quel giocatore avrebbe segnato. Se tutto fosse andato bene. Se non fossero intervenuti, cioè, tutti quei fattori che rendono il calcio (come ogni altro sport, anche quelli più adatti alle analisi statistiche) in gran parte imprevedibile.

A cominciare dal fatto che gli esseri umani possono comportarsi in maniera migliore o peggiore di come ci si aspetta in base al contesto, raccogliendo risultati superiori o inferiori alle aspettative. In quei casi si parla, rispettivamente, di “overperformance” e “underperformance”, di un giocatore o di una squadra, e sono situazioni che possono durare anche per periodi più o meno lunghi. I fattori che possono influenzare la discrepanza tra le attese e la realtà di una performance sportiva sono troppi per essere citati uno per uno, ai fini del nostro discorso basti considerare la grande importanza che riveste la fortuna, in uno sport come il calcio in cui i “punti” (cioè i gol) sono eventi rari all’interno di una partita, e la differenza tra un gol e un non-gol a volte sta in pochi centimetri.

Gli Expected Goals sono una misura, il più vicino possibile alla realtà, di quanti gol una squadra avrebbe meritato di realizzare, uno strumento utile per analizzare la perfomance al di là del risultato.

Come scriveva Flavio Fusi in un articolo di qualche tempo fa sulle statistiche avanzate, all’inizio gli xG (abbreviazione di Expected Goals) furono pensati per superare uno dei limiti delle metriche utilizzate fino a quel momento: le occasioni da gol non sono tutte uguali, ciascuna ha la propria specifica pericolosità. Lo scopo primario di un’analisi simile, quindi, è il calcolo della probabilità che un qualsiasi tiro ha di diventare un gol.

Fine dell’introduzione

Di modelli di Expected Goals ce n’è più di uno, quello di riferimento appartiene a Michael Caley che scrive sul Washington Post ma si concentra quasi esclusivamente sulla Premier League; ma posso citare anche quello di Paul Riley, il primo a rendere pubblico il proprio metodo di calcolo. Nell’ultimo anno ho lavorato alla concezione e alla messa a punto di un indice originale di valutazione delle prestazioni di tipo Expected Goals per l’Ultimo Uomo (ribattezzato per l’occasione xG UU). Quella che segue è una breve spiegazione dei punti principali del mio metodo, che nei prossimi mesi useremo in maniera sperimentale su Ultimo Uomo.

La prima variabile da tenere in conto, quando si deve valutare la probabilità di un tiro di diventare gol, è la posizione dalla quale ogni tiro viene calciato. La posizione può essere scomposta in due componenti: distanza e angolo di tiro. È chiaro a tutti che, da una distanza ravvicinata, un calciatore ha maggiori probabilità di segnare; ma anche l’angolo di tiro conta, perché le chances di un attaccante cambiano se il suo tiro parte da una posizione centrale oppure da una defilata, a parità di distanza.

Il punto di partenza di questo lavoro è stato il database di tiri messo insieme e reso pubblico da Christopher Long, un personaggio molto noto nell’ambito del mondo dell’analitica americana e che al momento è in forza ai Detroit Tigers, franchigia della Major League Baseball, come Data Scientist.

Il database di Long contiene le coordinate x e y di ciascun tiro, come se il campo da calcio fosse un enorme sistema cartesiano con l’origine degli assi in uno dei calci d’angolo. Le coordinate estratte dal database hanno rappresentato i dati di input al mio modello matematico e mi ha permesso di ricavare un’equazione con cui calcolare la probabilità di fare gol, una volta conosciuta la posizione di tiro.

Quello che ho realizzato non è un modello “discreto”, cioè non fa affidamento su una suddivisione in zone del campo da gioco, assegnando a tutti i tiri calciati da un certo settore la medesima probabilità di realizzazione (come accadeva nel modello SPAM di Paul Riley). La probabilità di segnare è una funzione “continua” delle coordinate: ad ogni variazione di x e y corrisponde una differente percentuale di realizzazione. Il modello continuo è più preciso: in pratica ogni tiro può essere valutato singolarmente. Inoltre è un modello “adattativo" (anche detto machine learning), cioè man mano che si aggiungono dati dalle nuove partite, i suoi parametri vengono ricalcolati per tenere conto delle nuove informazioni e per migliorare le proprie previsioni.

Ma non basta la posizione per rendere affidabili gli Expected Goals: se il tiro viene effettuato di piede o di testa, se l’assist viene servito con un cross dal fondo o con un lancio dalla difesa, pur mantenendo invariata la posizione di calcio, le probabilità di segnare cambiano drasticamente. Per questo motivo ho suddiviso ulteriormente i dati di input secondo differenti tipologie, quelle che ritenute calcisticamente più rilevanti, analizzando il modo in cui la probabilità di gol cambiava caso per caso, a parità di tutte le altre condizioni.

Tra tutti quelli poi inclusi nel modello, tre di questi modificatori hanno mostrato i risultati più interessanti.

Fattore #1: il valore dell’assist

Per fare un gol, come detto, calciare da una posizione di tiro vantaggiosa conta moltissimo. Ma anche ricevere l’assist giusto ha il suo peso. Nel grafico sopra, la linea nera rappresenta la probabilità di gol per un tiro di piede in un’azione “regolare”, non successiva ad un calcio piazzato e non assistita da un compagno: ad esempio, un attaccante che calcia verso la porta dopo aver dribblato il difensore. Man mano che aumenta la distanza dalla porta, la probabilità di segnare crolla.

La linea blu rappresenta la probabilità di successo per un tiro (di piede) successivo ad un calcio piazzato. Al di sotto di una certa distanza, fare gol su assist da calcio piazzato è molto meno probabile che nel caso precedente. È facile individuare in un’area affollata di difensori la causa di questa diminuzione di efficacia. Al di sopra di una certa distanza, le linee sono sovrapposte, cioè le due situazioni di gioco si equivalgono.

La linea verde mostra i valori di Expected Goals in seguito ad un assist su azione. Al di sopra di una certa distanza, ricevere un assist aumenta drasticamente le probabilità di segnare: pensate ad una verticalizzazione, che taglia fuori almeno una linea avversaria e mette l’attaccante uno contro uno con il proprio marcatore, o che addirittura lo manda da solo contro il portiere.

Fattore #2: il risultato conta

Il risultato in corso di partita (game state) modifica l’atteggiamento in campo delle squadre. A parità di altre condizioni, solitamente chi è in vantaggio nel punteggio prende tiri migliori: la linea verde nel grafico sopra mostra la maggior probabilità di fare gol, a parità di altre condizioni, delle squadre che sono avanti di 2 reti nel punteggio. È un discorso qualitativo quindi, non quantitativo: le squadre che sono sotto nel punteggio, soprattutto nei minuti finali, tendono a tirare di più. Ma nella foga di recuperare il risultato, prendono anche occasioni con poche chances di successo (linea blu). Il discorso fatto vale identicamente per le squadre in vantaggio o in svantaggio di una sola rete.

Fattore #3: il fattore campo esiste

Sarebbe meglio dire: il fattore campo esiste ancora. Esistono studi che dimostrano come il vantaggio domestico, nel corso dei decenni, stia via via diminuendo la sua influenza: la tendenza è stata accelerata dall’introduzione dei tre punti per la vittoria in tutti i campionati ed è particolarmente vera nelle competizioni europee. Il fattore campo resiste ed è dimostrato anche in termini di Expected Goals: anche qui, a parità di altre condizioni, le squadre di casa (anche per ragioni tattiche: come potrebbe essere una maggiore aggressività: a nessun allenatore piace subire davanti al proprio pubblico) hanno un leggero vantaggio statistico sulle avversarie.

Precisione del modello

Tra i modelli pubblici, quello di Michael Caley è stato giudicato quello più affidabile di tutti, anche in termini predittivi della prestazione futura di una squadra. Per questo, per testatare l’affidabilità del modello xG UU, ho deciso di confrontarlo col quello di Caley. Semplificando, ho calcolato la differenza media tra le reti segnate e le reti, secondo le due metriche xG diverse, per ognuna delle 380 partite che compongono un campionato.

Il risultato è dato dal grafico sopra. L’errore quadratico medio è, in alcuni casi, inferiore a quello ottenuto da Caley, in generale si può dire che il livello di affidabilità tra i due modelli è molto simile. Anche per questo mi permetto di presentarvi il mio modello, senza questa verifica avrei rischiato di farvi perdere tempo..

Scenari di utilizzo

Gli Expected Goals in generale, e quindi anche gli xG UU, sono sì una misura delle qualità di una squadra nella fase offensiva, ma lo sono anche in quella difensiva. Sono molto più affidabili, ad esempio, del semplice computo dei gol fatti e subiti. Ovviamente è troppo presto, dopo sole due giornate, pensare di individuare dei trend che si manterranno nel prosieguo del campionato (cosa che cercheremo di fare nei prossimi mesi), ma alcuni segnali di questa Serie A 2016-17 possono già essere colti.

Ad esempio l’impermeabile fase difensiva della Juventus, che lo scorso anno le è valsa uno Scudetto, è ancora lì: contro Fiorentina e Lazio, la Juventus ha concesso occasioni di basso valore, per un totale di 0,4 xG in due partite. È come dire che, in media, ciascuno dei 10 tiri scagliati verso la porta di Buffon da Fiorentina e Lazio aveva una probabilità di diventare gol del 4%.

Anche la Sampdoria, come la Juventus, ha segnato 3 reti e ne ha subita 1 nelle prime 2 partite; ma la squadra di Giampaolo ha concesso 1 xG, cioè ha concesso tiri più pericolosi alle avversarie.

Gli xG UU permettono anche di comprendere meglio l’andamento di un match. Magari anche per valutare dichiarazioni come quella di Montella, che dopo la sconfitta del suo Milan a Napoli ha detto che avrebbero meritato il pareggio. O De Boer, che ha detto che l’Inter contro il Palermo avrebbe potuto segnare 4 gol.

Il grafico sopra mostra gli Expected Goals di Napoli e Milan nel corso della partita: il Milan è partito meglio, poi dal quindicesimo del primo tempo il Napoli si è reso costantemente più pericoloso. La doppietta di Callejon, con le reti al 74’ e al 94’, ha scavato un solco deciso tra le due squadre, che alla fine della partita avevano rispettivamente 2,7 e 0,9 xG.

Gli xG sono una statistica, rappresentano un valore medio rispetto a un certo numero di eventi, ci dicono che se 100 squadre avessero tirato come l’Inter contro il Palermo, solo 8 di loro avrebbero segnato 4 gol. Quindi l’affermazione di De Boer non è falsa, è semplicemente improbabile.

Allo stesso modo possiamo valutare le prestazioni individuali. Ho scelto come primo esempio Edin Dzeko, il numero 9 della Roma, l’attaccante di tutta la Serie A che finora ha tirato più volte verso la porta avversaria (7,4 tiri per 90 minuti) e con il più alto indice Expected Goals (2,1 xG per 90 minuti). Il bosniaco, però, ha segnato una sola rete, quindi il suo rapporto di conversione degli xG in gol reali è pari a 0,48 (per semplificare ulteriormente: Dzeko ha realizzato la metà delle occasioni avute), praticamente lo stesso che aveva lo scorso anno.

Possiamo già dire che Dzeko avrà un’altra brutta stagione dal punto di vista realizzativo? Ovviamente no, un paio di partite potrebbero cambiare tutto, ma i suoi numeri attualmente sono questi, e non sono positivi. L’unica consolazione è che il valore di ciascun tiro preso da Dzeko mediamente è aumentato (da 0,14 xG a 0,19 xG), sintomo del fatto che l’attaccante si sta procurando occasioni migliori.

La presentazione finisce qui. Gli Expected Goals sono una metrica in continua evoluzione, che permette già la valutazione precisa delle performance delle squadre e dei singoli, di cui si fa già ampiamente uso su Ultimo Uomo e altrove. Questo modello originale, per quanto sia ancora in fase di sperimentazione, farà da supporto alle nostre analisi per i match della Serie A 2016-17, speriamo che costituirà anche un valore aggiunto per i nostri lettori.

Si ringrazia Opta per i dati forniti per la redazione dell'articolo.

Attiva modalità lettura
Attiva modalità lettura