La sabermetrica (da S.A.B.R., Society for American Baseball Research), ovvero l’analisi empirica di ciò che avviene sul diamante tramite l’uso di statistiche avanzate, ha radicalmente cambiato le modalità di analisi della performance e dello scouting nel mondo del baseball. Bill James, uno dei primi e più convinti sostenitori di questo approccio, ha definito l’analisi sabermetrica “la ricerca della conoscenza oggettiva sul baseball”. Aggregando statistiche semplici che molto spesso hanno una natura unicamente descrittiva e che da sole non consentono di determinare se un certo giocatore sia migliore di un altro, la sabermetrica si propone di creare metriche avanzate che ben correlano con la probabilità di ottenere risultati vincenti e che di conseguenza sono in grado non solo di valutare la prestazione di un giocatore nelle stagioni passate, ma anche di predire il livello di prestazioni future.
Sulla scia del successo della sabermetrica nel baseball testimoniato dalla notoria vicenda di Billy Beane, general manager degli Oakland Athletics, sulla cui storia è basato il libro, poi diventato film “Moneyball: the Art of Winning an Unfair Game”, l’uso delle statistiche avanzate si è propagato anche agli altri sport, partendo da quelli americani, come basket e hockey, fino ad arrivare anche al calcio. Ma nel rettangolo verde questo tipo di analisi non ha trovato lo stesso terreno fertile offerto dagli altri sport in cui è letteralmente fiorita.
Il principale problema, almeno a livello di analytics “pubbliche”, è che nel calcio, pur avendo a disposizione un ampio spettro di statistiche semplici, si registra un volume di eventi individuali nettamente inferiore. Mike L. Goodman in uno dei suoi ultimi pezzi prima della chiusura di Grantland, citava come nella passata stagione di MLB ben 143 giocatori avessero fatto registrare più di 500 apparizioni al piatto: una cifra nemmeno paragonabile a quella degli appena 7 giocatori con almeno 100 tiri nell’ultima stagione di Premier League, tantomeno a quella dei soli 2 calciatori con almeno 50 tiri in porta.
Nella scorsa stagione di Serie A, la distribuzione dei volumi di tiro individuali è risultata essere molto simile a quella della Premier citata da Goodman. Solo 7 calciatori hanno effettuato più di 100 tiri totali e solo uno (Gonzalo Higuaín) ha effettuato più di 50 tiri in porta.
Anche il paragone con i volumi degli altri sport americani rimane impietoso. L’anno scorso in NBA, Stephen Curry ha tentato 1341 tiri a canestro. Allo stesso modo nell’NHL, Alexander Ovechkin ha tirato per ben 795 volte. Gli unici calciatori ad aver toccato quota 1000 tiri complessivi (senza considerare i rigori) negli ultimi sei anni (!) sono Cristiano Ronaldo e Lionel Messi.
“Se non tiri, non puoi segnare”
Si è quindi cercato di aggirare questo ostacolo tutt’altro che indifferente tramite l’uso di statistiche di squadra, piuttosto che relative ai singoli, lavorando principalmente sui tiri. Aggregando grandi quantità di dati su più stagioni, diversi analisti sono giunti alla stessa (prevedibile) conclusione: le squadre migliori sono quelle che tirano di più, tanto meglio se in porta e che allo stesso tempo subiscono meno tiri. D’altronde un citazione curiosamente attribuita sia a Johan Cruyff che a Wayne Gretzky (!) recita pragmaticamente “Se non tiri, non puoi segnare”.
Partita per partita l’esito dei tiri effettuati e concessi (ovvero il tasso di conversione che determina il numero di gol fatti o subiti) è soggetto ad una consistente livello di varianza, ma nel corso di tutta una stagione la differenza tra tiri effettuati e subiti tende a correlare bene con i punti in classifica. In parole povere, se una squadra concede pochi tiri e ne effettua tanti, potrebbe non vincere ogni partita in cui riuscirà ad imporre la propria superiorità, ma a fine stagione, salvo un notevole influsso della varianza e di conseguenza della sorte, si ritroverà molto probabilmente nella parte alta della classifica (e viceversa).
La statistica avanzata che misura la superiorità al tiro è il Total Shots Ratio (TSR). Il TSR è il rapporto tra il numero di tiri effettuati e la somma tra il numero di tiri effettuati e di tiri subiti. Il risultato può essere espresso sia in forma decimale che in forma percentuale: ogni 10 tiri complessivi, una squadra con un TSR del 70% (o dello 0,7) effettua 7 tiri e ne subisce 3. Analogo al TSR è lo Shots on Target Ratio (SoTR), in quanto rappresenta la percentuale di tiri in porta effettuati rispetto alla somma di tiri in porta fatti e subiti.
Entrambe queste statistiche derivano in qualche modo da statistiche equivalenti già esistenti nell’hockey (in particolare da indici come Corsi, Fenwick, FenClose…), così come il PDO. In questo caso non si tratta di un acronimo, ma l’ideatore dell’indice Vic Ferrari, ribattezzò così la somma, espressa in percentuale, tra il tasso di conversione (il numero di reti segnate diviso per il numero di tiri effettuati) e di tasso salvataggio di una squadra (1 meno il numero di reti subite diviso per il numero di tiri subiti) moltiplicata per 10, in onore di uno dei commentatori del suo blog Irreverent Oiler Fans. In generale il PDO medio in un campionato è sempre di 1000, quindi, alla luce di quanto sia relativamente aleatoria e rapida la regressione verso la media di questo indice, potremmo considerare, in maniera alquanto approssimata, “sfortunate” le squadre con un PDO inferiore a 1000 e “fortunate” quelle con un PDO superiore a 1000.
Queste prime metriche avanzate applicate al calcio hanno dimostrato di avere una propria valenza predittiva, seppur tra loro diversa. Indagando su TSR e PDO, sia James Grayson che Sander Ijtsma sono giunti alla conclusione che il TSR dipende fortemente dalle abilità di una squadra, in quanto anche su più stagioni consecutive, i valori del TSR di una determinata squadra tendono a mantenersi abbastanza costanti. Al contrario il PDO e le sue componenti (tasso di conversione e tasso di salvataggio), tendono a subire fluttuazioni anche considerevoli già tra partita e partita, quindi possono rappresentare solo una misura rudimentale di quanto la fortuna (sottoforma di varianza) influisca sulle prestazioni a breve termine di una squadra.
Quality over quantity
Indici come TSR, SoTR e PDO sono strettamente legati all’assunto che tutti i tiri siano uguali tra loro, cioè che ogni tiro abbia la stessa probabilità di essere convertito in gol, senza considerare aspetti determinanti del tiro stesso quali la distanza dalla porta, la posizione, la situazione di gioco ecc. Un tiro da dentro l’area piccola dopo aver scartato il portiere influenza il calcolo di queste pur avanzate statistiche, allo stesso modo di un tiro scagliato da 40 metri tra una selva di gambe.
A livello puramente intuitivo è lecito affermare che alcuni tiri “valgano” più di altri. Leggere in un report statistico che una squadra ha effettuato 20 tiri in una partita potrebbe far pensare che essa si sia resa molto pericolosa, creando molte opportunità per segnare. Ma se 15 di quei tiri sono velleitarie conclusioni dalla distanza, anche un semplice test visivo ci permette subito di contestualizzare, e soprattutto riconsiderare, la “pericolosità” di quelle occasioni.
I 21 tiri della Viola in Fiorentina 1-2 Roma farebbero pensare ad una sconfitta profondamente immeritata, ma considerato che solo 6 su 21 sono stati effettuati dentro l’area (di cui 2 bloccati), gli uomini di Sousa non possono certo maledire la propria sfortuna.
Ma in un’analisi empirica niente può essere lasciato al caso, e tantomeno all’intuizione. Ecco perché anche l’assunto per cui la posizione influenza l’esito del tiro necessitava di essere corroborata da una base statistica. In questo senso, uno degli studi più noti è lo Shot Position Average Model (SPAM) di Paul Riley. Analizzando oltre 30’000 tiri su tre stagioni di Premier League, Riley è riuscito a determinare quanti tiri sono necessari per segnare un gol da fuori area, dai lati dell’area di rigore e dal centro dell’area di rigore oltre che da situazioni quali un calcio di rigore o un calcio di punizione diretto. L’importantissimo risultato dello studio è stato che il numero di tiri necessari in media a segnare un gol da ciascuna posizione rimanesse sostanzialmente invariato da stagione a stagione.
Il modello SPAM di Paul Riley, riassunto nella semplicità di questo esplicativo diagramma.
L’ulteriore passo compiuto da Riley, di fatto in contemporanea con molti altri membri della community della analytics pubbliche è stato quello di aumentare la “granularità”del modello, cioè nel caso di un “modello discreto” come quello di Paul, di suddividere il campo in ulteriori zone, oppure massimizzando il livello di dettaglio scegliendo un “modello continuo” in cui ogni tiro non è più valutato in base alla zona da cui è stato effettuato, ma singolarmente.
Sono così nati i primi modelli di Expected Goals (abbreviati con xG o ExpG) un metodo di misurazione della qualità delle occasioni create (o concesse) da una squadra con l’obiettivo di misurare quanti gol quella stessa squadra avrebbe segnato (o subito) in media in base alla qualità e alla qualità dei tiri effettuati (o concessi). Assegnando ad ogni tiro presente, passato o futuro la rispettiva probabilità di essere convertito in rete, siamo ora in grado di valutare ogni tiro in una scala che va da 0 a 1: ovviamente più alto sarà il valore, più alta sarà la possibilità che il tiro venga convertito in gol. Tutti i modelli (pubblici e non) di Expected Goals arrivano al medesimo risultato. La discriminante essenziale che differenzia un modello dall’altro è quella del metodo di calcolo e dei parametri impiegati nel calcolo stesso. Fattori di utilizzo comune sono la posizione e la tipologia del tiro (ad esempio di piede o di testa), dopodiché le strade divergono anche notevolmente. Prenderemo quindi in analisi due modelli pubblici, cercando di evidenziarne particolarità e differenze.
Il modello di xG di Paul Riley
Come anticipato, Paul Riley ha continuato i suoi studi sull’argomento ed è giunto all’elaborazione di un modello di Expected Goals unicamente per la Premier League, ma che ha il vantaggio di essere “pubblico al 100%”. Nel suo modello Riley ha abbandonato l’idea di considerare tutti i tiri, ma ha preso in esame solo i tiri in porta: d’altronde se un tiro non finisce nello specchio della porta non può nemmeno finire in rete.
Gli altri fattori determinanti nel modello di Riley sono la posizione e la tipologia del tiro. La posizione è fondamentale nel calcolo in quanto Riley esaminando un campione di 13'000 tiri in porta, ha diviso il campo in 46 differenti settori, calcolando per ognuno di essi la probabilità che ha un tiro in porta scagliato da quel determinato settore di terminare in rete. L’altra discriminante fondamentale, la tipologia del tiro, distingue invece tra tiro su azione, su punizione diretta o su calcio di rigore.
La pubblicità del modello di Riley consiste nel fatto che chiunque può verificare i risultati (aggiornati periodicamente) del modello e verificare i dati sugli Expected Goals di tutte le squadre di Premier League e di tutti i calciatori con almeno un tiro in porta in stagione, semplicemente consultando i grafici interattivi accessibili dal suo blog dove è anche disponibile una spiegazione maggiormente dettagliata del suo modello.
Secondo il modello di Riley, in media i tiri in porta di Jamie Vardy avrebbero dovuto generare 10,97 xG “virtuali”, contro i 15 effettivamente segnati dall’attaccante del Leicester. In questo senso Vardy sta andando oltre le aspettative (è cioè un “over-performer”).
Il modello di Michael Caley
Uno dei più noti e sofisticati modelli pubblici di Expected Goals è quello di Michael Caley. Nel corso degli anni Caley ha aggiornato costantemente il suo modello, sia affinando il metodo di computazione che ampliando la base statistica (allargando sempre più il data-set aggiungendo via via sempre più tiri), oltre che aggiornando i fattori presi in considerazione dal modello stesso. Una dettagliatissima spiegazione dell’ultima versione del suo metodo è disponibile a questo indirizzo.
Rispetto a Riley, Caley considera tutti i tiri, senza distinzione tra quelli fuori e nello specchio della porta, suddividendoli a secondo della tipologia, ma senza tenere conto di rigori e, come del resto anche Riley, autoreti. Il suo modello distingue tra 6 tipologie di tiro e a ciascuna di esse corrisponde una differente equazione.
1. Tiri da punizione diretta
2. Tiri conseguenti ad un dribbling sul portiere
3. Tiri di testa assistiti da un cross
4. Tiri di testa non assistiti da un cross
5. Tiri non di testa assistiti da un cross
6. Tiri non di testa non assistiti da un cross (o “tiri regolari”)
I primi due fattori presi in considerazioni all’interno di queste categorie sono la distanza dalla porta e l’angolo di tiro (sotto forma di “angolo relativo di tiro”).
In questa mappa di conversione elaborata da Caley è evidente l’importanza di distanza e angolo di tiro sulla probabilità di segnare un gol.
Altro importante fattore è la tipologia di assist che ha portato al tiro. Nei suoi studi Caley ha dimostrato la superiorità delle palle filtranti e della danger zone come componenti determinanti della qualità dell’assist, in termini di probabilità di conversione dell’occasione creata. Partendo da queste considerazioni, Caley ha diviso in varie tipologie i passaggi chiave che hanno determinato la creazione dell’occasione, assegnando a ciascuna tipologia un’efficienza differente calcolata sulla base di evidenze empiriche.
Le ricerche di Caley hanno dimostrato empriricamente tutta l’inefficienza dei cross.
Un altro fattore di differenziazione è la tipologia di azione offensiva (ad esempio contropiedi o possessi consolidati) che anche una misura indiretta della pressione difensiva, uno dei più importanti fattori che allo stato attuale sono tenuti in considerazione solo indirettamente dai modelli pubblici di Expected Goals. Altri indicatori indiretti di pressione difensiva e di classificazione, sono le cosidette “big chances” definite da Opta come le occasioni che ragionevolmente ci aspetta vengano convertite, il dribbling prima del tiro e gli errori difensivi tutti fattori che solitamente incrementano la probabilità di segnatura. Infine Caley prende anche in considerazione l’abilità di finalizzazione del singolo giocatore, misurata tramite una sofisticata regressione (i risultati collocano Messi e Yaya Touré fra i migliori al mondo e Jesus Navas tra i peggiori) e i “league effects” sotto forma di coefficienti che variano da campionato a campionato.
Gli expected goals permettono di misurare qualsiasi tipo di occasione da gol. Nel modello di Caley, questo incredibile errore sottoporta di Luis Suaréz ha fatto registrare un valore di 0,91 xG.
Caley aggiorna periodicamente il suo database, dove oltre agli xG annota anche altre importanti statistiche avanzate per la Premier League e gli altri tre maggiori campionati europei. Inoltre è molto attivo su Twitter, dove rilascia con continuità le mappe degli xG di singole partite, calciatori o squadre che probabilmente avrete già visto sulle pagine de l’Ultimo Uomo.
Arsenal Leicester visto attraverso gli Expected Goals di Caley. In alto possiamo leggere il “punteggio virtuale”, calcolato come la somma del valore di xG di ogni conclusione (da cui sono esclusi rigori e autogol), rappresentate sulla mappa dai indicatori a forma di quadrato. Tanto più grande è l’indicatore, tanto è maggiore l’xG di quel tiro.
Nel suo ultimo aggiornamento del modello, Caley ha illustrato quanto gli xG siano efficaci in termini predittivi rispetto ad altre statistiche avanzate, tanto che lui stessa simula l’esito dei campionati tramite simulazioni di Monte Carlo, basate sugli xG di questa e della passata stagione e il monte ingaggi di ogni squadra.
In Premier League, Bundesliga, Serie A e nella Liga il modello di Caley da ottimi valori di correlazione con la classifica finale. In campionati di livello inferiore, come la Ligue 1, l’Eredivise e l’MLS la correlazione è però decisamente più debole, tanto da far preferire altre statistiche. Probabilmente una qualità media più bassa determina un significativa ingerenza della varianza in termini di conversione tale da compromettere la capacità predittiva degli Expected Goals.
Misura della performance e problemi degli xG
Gli expected goals permettono di valutare il livello di performance determinando se una squadra (o un singolo calciatore) sta andando oltre le aspettative (over-performing) oppure sta viaggiando al di sotto delle aspettative (under-performing), semplicemente calcolando la differenza tra gol segnati (o subiti) e gol attesi.
La differenza reti e la differenza reti attesa delle squadre di Serie A. Secondo il modello di Caley, Chievo e Bologna stanno andando oltre la performance attesa, mentre Udinese e Carpi stanno notevolmente deludendo le aspettative.
A causa della regressione verso la media, possiamo quindi dire, in base a quanto la performance attesa si discosta da quella osservata, se la squadra in esame subirà realisticamente gli effetti della regressione e valutare quanto e in quale direzione essi potrebbero influire. Per fare un esempio pratico pensiamo all’Inter, che già a Natale pareva destinata a un’inesorabile regressione negativa della propria percentuale di salvataggio.
A livello di club potrebbe l’impiego degli xG potrebbe consentire di conoscere in anticipo la potenziale regressione per apportare correttivi che permettano perlomeno di “attutire la caduta” causata ad esempio da una potenziale discesa del proprio tasso di conversione, oppure per posticipare (o perché no anticipare) decisioni, magari anche drastiche, come l’esclusione di un attaccante o persino l’esonero di un allenatore. Gli xG sono già utilizzati nel calcio professionistico, tanto che ormai è (quasi) normale sentire parlare Tuchel di gol attesi in un’intervista a Die Zeit, o Wenger dire che ad agosto l’Arsenal stava raccogliendo poco a giudicare da quanto creava in termini di xG.
Il non trascurabile limite degli xG è che un analisi di questo tipo non può dirci come e perché il livello della prestazione osservata non stia rispettando quello delle attese. La misura del differenziale di prestazione è un fondamentale punto di partenza che fino a pochi anni fa sembrava poco più che fantascienza (sempre per quanto concerne il livello pubblico), ma una analisi approfondita con l’obiettivo di ottenere la risposta alle domande del come e del perché non può prescindere da un'analisi tattica di quello che avviene in campo.
Un’altra delle principali critiche mossa verso l’utilizzo degli Expected Goals è la mancanza nel calcolo di un indicatore (perlomeno di un indicatore diretto) della pressione difensiva. Detta in soldoni di dove si trovano i difensori al momento del tiro. Esistono già studi che vanno in questa direzione, ma contrariamente al basket NBA, nel calcio ancora non viene impiegata in maniera massiccia la tracciabilità spazio-temporale dei movimenti, tantomeno a livello pubblico, limitando le possibilità di sviluppo di questa intuizione.
Ci sono poi gli effetti dovuti ai giocatori di classe mondiale che come abbiamo visto Caley ha provato a correggere (ad esempio sappiamo che Messi in carriera ha un rapporto tra gol e gol attesi di circa 1,3) e quelli dovuti alle “super-squadre” (Barcellona, Real Madrid e Bayern Monaco), cioè quelle formazioni che riescono con continuità ad andare oltre la prestazione attesa calcolata con l’utilizzo di un modello basato sugli xG.
Si potrebbe inoltre obiettare che durante una partita, non tutte le azioni pericolose si traducono in un tiro e che quindi i gol attesi tendano a sottovalutare la pericolosità complessiva delle occasioni create. Per rispondere a questa esigenza sono stati quindi creati modelli in grado di integrare i modelli basati sui tiri calcolando la pericolosità dei passaggi in termini di xG, oppure veri e propri indice di progressione della palla nel campo da gioco (quindi anche tramite dribbling e conduzione del pallone), come nel caso del BPI ideato da Daniel Altman.
In uno sport con punteggi bassi come il calcio, tutto ciò che permette di guadagnare un margine anche minimo sull’avversario diventa fondamentale. In questo senso le statistiche avanzate, di cui gli xG sono l’espressione principe, stanno già rivoluzionando il lavoro dietro le quinte dell’analista e dell’osservatore. Gli Expected Goals sono una statistica sicuramente perfezionabile oltre che molto malleabile e hanno il non trascurabile pregio di ben rappresentare la realtà di quello che avviene sul campo da gioco. La loro superiorità rispetto a tutte le altre statistiche pubbliche basate sui tiri è comprovata e ora come ora sono ciò che di più avanzato offre la football analytics, disciplina che rispetto allo sviluppo che ha avuto in altri sport, si trova ancora nella sua infanzia.