čtvrtek 17. září 2015

SCoRe - o co se jedná?

SCoRe je zkratka pro Seasonal Comparative Results a vymyslel ji Simon Gleave (@simongleave), analytik společnosti Infostrada zabývající se sběrem a analýzou sportovních statistik. Není to žádná novinka, Gleave o SCoRe psal na stránkách Infostrady poprvé zhruba před třemi lety a napadlo ho to už mnoho let před tím. Jedná se velmi jednoduchou metodu, jak porovnat výsledky probíhající sezóny s výsledků ze sezóny předchozí.

Obvykle, co vídáme v médiích je to, že se porovnává bodový zisk klubu např. z prvních šest kol s bodovým ziskem z úvodních šest kol sezóny předchozí. Problémem je, že tato metoda nebere do úvahy rozlosování ligy (resp. sílu soupeřů), a to se snaží právě SCoRe.

Gleavova metoda porovnává bodový zisk z dosud odehraných kol s bodovým ziskem ve stejných zápasech v předchozí sezóně. Myšlenka je taková, že síla jednotlivých klubů se mezi dvěma sezónami často až tak moc nemění, takže porovnání podle SCoRe bere víc do úvahy sílu soupeřů. Když se to graficky znázorní, tak hned jasně vidíme, zda třeba Slavia nasbírala se stejnými soupeři více či méně bodů.

Výsledky nováčků

Trochu problémem je, že ve fotbale kluby sestupují a postupují, Gleave to vyřešil tak, že nejhorší tým ligy nahradil nejhorším postupujícím, druhý nejhorší sestupující tým druhým postupujícím. V případě Synot ligy ve SCoRe Sigma Olomouc nahradila Hradec Králové a Fastav Zlín nahradil České Budějovice. Kdyby byli sestupující tři, jako je tomu v Premier League, tak 18. tým je nahrazený 1. postupujícím, 19. tým 2. postupujícím a 20. tým třetím postupujícím.

Můžeme tak porovnat i to, jak si vedou nováčci v porovnání s bodovým ziskem sestoupivších týmů. Na příkladě Synot ligy vidíme, že Zlín má po šesti odehraných zápasech o 9 bodů více než ve stejných zápasech minulé sezóně nasbíraly Budějovice, což je pro Ševce slušná vizitka. Naopak Sigma, které se věřilo více, má zatím ze stejných utkání o bod méně než Hradec.

SCoRe Synot ligy po šesti odehraných kolech



Grafika inspirovaná Simonem Gleavem (ještě v Tableau trochu tápu, takže to není úplně věrná kopie toho, co na svém twitterovém profilu obvykle zveřejňuje on) obsahuje nejen porovnání bodového zisku/ztráty se stejnými zápasy sezóny 2014/15 ale i jednoduchou predikci toho, kolik bude mít ten který klub bodů na konci sezóny.

Predikce je fakt jednoduchá, není to žádná rocket science, v případě zbývajících zápasů předpokládáme, že bodový zisk bude stejný jako v minulé sezóně.

Co nám SCoRe říká o dosavadním průběhu Synot Ligy
-    Viktoria Pzeň nasbírala o tři body méně, než ve stejných zápasech minulé sezóny, Sparta je lepší jen o bod. Kdyby byly bodový zisk obou klubů ve zbývajících zápasech stejný jako v minulé sezóně, tak to i přesto bude Plzni stačit. Opět rozhodnout vzájemné zápasy.
-    nejlepší bodový nárůst má už zmíněný Fastav Zlín a vede si zatím lépe než před sezónou více vyzdvihovaná Sigma, ta zatím jede na sestup.
-    nejvíc si bodově pohoršil Baník a je největším kandidátem na druhou ligu
-    bodově dost v porovnání s minulou sezónou ztrácí i Jihlava a Bohemians, první jmenovaný klub už přistoupil k odvolání trenéra.

Na závěr

Jak jsem uvedl, jedná se o velmi jednoduchou metodu porovnání výsledků mezi dvěma sezónami a bodová predikce je velmi jednoduchá, i tak mi SCoRe přijde užitečné, takže jej budu v dalším průběhu sezóny Synot ligy pravidelně aktualizovat a zveřejňovat na svém twitterovém účtu.
---

* Oprava 19.9. 2015: Zjistil jsem, že jsem prohodil při úpravě v Tableau čísla u projekce bodů po 6. kole u Sigmy a Baníku - u Ostravy má být 25 bodů, u Olomouce 24 (Hradec získal v minulé sezóně celkem 25 bodů, Olmík má ve stejných odehraných zápasech o bod míň, takže 24)

úterý 15. září 2015

Trápení Chelsea pokračuje

Pět okol odehraných a jeden z kandidátů na titul už ztrácí na vedoucí pozici neuvěřitelných jedenáct bodů.

Vraťme se napřed o rok zpět. V úvodních pěti kolech ročníku 2014/15 nasbírala Chelsea 13 bodů za čtyři výhry a jednu remízu. Nastřílela v nich 16 gólů a 6 inkasovala, z toho tři v přestřelce s Evertonem (6:3). Body ztratila Chelsea, o které se v průběhu podzimu začalo mluvit jako o nových Invincibles, jen na půdě obhájce titulu Manchesteru City (1:1).  Přemožitele našli Blues až v 15. kole, kdy podlehli venku Newcastlu 1:2.

A bilance po pěti kolech sezóny 2015/16 – jedna výhra, jedna remíza a tři prohry, skóre 7:12. Zatímco před rokem tým Josého Mourinha bavil diváky na poměry portugalského kouče až nezvykle ofenzivní hrou (i nadále doplňovanou kvalitní defenzivou), v této sezóně zatím hra Blues nefunguje ani dozadu ani dopředu. Je sice odehráno jen pět kol a je brzy na vyvozování velkých závěrů, ale prostě není to ono.

Před rokem zářila ofenzíva tažená tvořivým Cescem Fabregasem, rychlým Edenem Hazardem a chladnokrevným Diegem Costou, hráči v záložní řadě v čele s Nemanjou Matičem si do puntíku plnili své povinnosti, pro soupeře nebylo při přechodu do útoku snadné přihrát míč dopředu do volných prostorů a čtyřčlenná obrana vedená 34 letým Johnem Terrym se díky tomu nedostávala do většího počtu ošemetných situací.

Uplynul rok a Fabregas, jenž na podzim 2014 vytvářel střelecké příležitosti a šance, sbíral jednu asistenci za druhou, je označován za přítěž pro tým zejména kvůli své slabší hře dozadu. Diego Costa se dosud strefil jen jednou a dohromady za 438 odehraných minut vyslal na soupeře jen 9 střel (jen 3 do prostoru brány)  - 1,85 střely/90min (hodně málo). To samozřejmě není jen jeho vina, na vině jsou zejména jeho spoluhráči, kteří mu mají vytvářet střelecké pozice.

Pro srovnání – například Olivier Giroud má zatím bilanci 5,60 střely/90, Graziano Pellé 4,50 střely/90, Bafetimbi Gomis 3,25 střely/90. V minulé sezóně Costa střílel stejným tempem jako teď Gomis.

Jako jedno z možných vysvětlení problémů Chelsea včera Daily Telegraph zmínil, že tým do letní přípravy nastoupili oproti ostatní týmům později. Zdůvodnění bylo, že si hráči po náročné sezóně, v níž Mourinho hráče v sestavě příliš nerotoval, zasloužili více odpočinku. Avšak tým tak zdá se nevstoupil do začátku sezóny optimálně fyzicky připraven.

Abychom se ještě vrátili k obranné hře, zde je pár statistik. V minulé sezóně čelila Chelsea v průměru 3,23 střelám na bránu (lepší už byl jen Southampton), po dosud odehraných kolech má průměr 7,8 (nejhorší). Je to hodně, třebaže hrála dvakrát část zápasu v oslabení, ale stejně, taková číslo bychom očekávali spíš od kandidáta na sestup. 

Asi i díky větší propustnosti obrany a menšímu defenzivnímu tlaku se zatím soupeřům daří střílet z nebezpečných pozic a umisťovat střely mezi tyče. Ze všech střel vyslaných proti Chelsea jich jde do prostoru brány zhruba 51 %, což je vysoce nadprůměrné číslo, které časem klesne.

Podle expected goals modelu Paula Rileyho patří Chelsea po posledním kole k nejhorším týmů v lize, což by mohlo indikovat, že nejde o krizi výsledkovou či nedostatek štěstí, ale že problémy mohou být hlubší. Ale opět je třeba zdůraznit, že máme za sebou pět kol a s přibývajícím počtem zápasů se situace může změnit.

Střely na bránu Chelsea 2015/16. Čím větší bublina, tím větší hodnota Expg (expected goal).
Interaktivní dashboard Paula Rileyho naleznete zde: https://public.tableau.com/profile/paul.riley#!/vizhome/PremierLeague201516xGMap/PremierLeague201516ShotonTargetxGDashboard

Jako další ligový soupeř čeká Chelsea v sobotu Arsenal mající společně s Manchesterem City nejnebezpečnější útok v lize, jemuž schází jen lepší muška a trochu štěstí. V Community Shield zvítězili Gunners ve Wembley 1:0, tentokrát se hraje na Stamford Bridge a při rozdílné formě obou rivalů by byla výhra Chelsea překvapením.

pondělí 7. září 2015

Pokročilé fotbalové statistiky: Expected Goals (a Premier League)

Expected goals modely jsou hodně využívaným nástrojem v rámci fotbalové analytiky. O co jde a kde najít čísla pro jednotlivé týmy Premier League?




Expected goals (ExpG, xG)

Česky bychom to mohli nejlépe přeložit jako Očekávané (předpokládané) góly. Ukazatel měří, kolik gólů měl tým v zápase a v průběhu sezóny vstřelit a inkasovat, a to na základě počtu a kvality střel. Každému ze střeleckých pokusů je dána pravděpodobnost, s jakou mohl skončit gólem. Například pokud měla střela 20 % pravděpodobnost, že skončí gólem, její hodnota je 0,2 ExpG.

Modely ExpG se vlastně snaží kvantifikovat kvalitu šancí a střeleckých pokusů a dávají nám lepší obrázek o vývoji zápasu a výkonech jednotlivých týmů v průběhu sezóny, než jen pohled na počty střel (či často zavádějící pohled na ligovou tabulku).

Právě to, že ExpG modely neberou střelu jako střelu je pokrokem oproti starším pokročilým statistikám Total shots ratio (TSR) a Shots on target ratio (SoTR). I když i ty jsou stále užitečné a využívané. Pro připomenutí, výpočet TSR (a podobně pak SotR) je následující:

TSR = střely pro / (střely pro+střely proti)

Existují různé modely ExpG, ale obvyklými vstupními parametry jsou lokace střely, typ střely (noha, hlava, přímý kop), rychlost útoku, informace o typu přihrávky (např. centr, přihrávka mezi obránce). Ale třeba Paul Riley vytvořil model, který využívá jen střely jdoucí na bránu a kde parametrem je jen místo, odkud střela šla (+ přímé kopy).

Nakolik modely založené na expected goals využívají kluby Premier League netuším (tipnul bych si že jo, určitě Arsenal), ale na internetu jsou k dispozici informace o modelech vytvořených lidmi zabývajícími se fotbalovou analytikou. Kromě Paula Rileyho svůj model celkem podrobně popisuje Michael Caley. Stejně jako Riley i zveřejňuje konkrétní čísla pro Premier League.

- Vysvětlení a využití modelu Paula Rileyho

- Popis modelu vytvořeného Michaelem Caleym

Riley šel dokonce dál než Caley a publikuje nejen čísla, ale přes Tableau i lokace střel plus některá další data. Doporučuji si s tím pohrát – data naleznete buď zde a nebo embedovaná o něco níž v tomto příspěvku. Na screenshotu vidíte Expected goals čísla pro jednotlivé kluby v dosavadním průběhu Premier League (po 4 kolech).



Na ukázku jsem vyfiltroval Arsenal. Čím větší bublina, tím větší hodnota ExpG dané střely. Gunners zatím v koncovce zaostávají za svými ExpG čísly.

Na této stránce pak je mnoho pokročilých statistik za předchozích pět sezón, taktéž od Rileyho. Blog Football in the clouds tato čísla nedávno podrobil statistické analýze a Rileyho model z toho vyšel dobře.



ExpG Ratio (Difference)

Obvykle se u expected goals využívá jejich poměr, případně rozdíl mezi nimi, jedná se o Expected goals Ratio a Expected goals Difference. Výpočet ExpG Ratio je obdobný jako u TSR:

ExpG Ratio = ExpG pro / (ExpG pro+ExpG proti)

ExpG Difference = ExpG pro – ExpG proti

ExpG Ratio a ExpG Difference vykazují vysokou korelaci s počtem získaných bodů a gólovým rozdílem (goal difference), takže tyto ukazatele do značné míry odrážejí skutečnou sílu týmů. Nabízí se zde paralela s analýzou fundamentů při investování do akcií.

Síla těchto ukazatelů je i v jejich schopnosti předvídat – ligová tabulka často lže, týmu se nemusí zrovna dařit (výsledkově, střelecky), ale pokud vykazuje dobré hodnoty ExpG, je zde velká šance, že půjde výsledkově nahoru.

A naopak, u týmu výsledkově či střelecky výrazně překonávajícího ExpG hodnoty může dojít brzy k obratu k horšímu. Předvídatelnost je využitelná v průběhu sezóny, ale i mezi předchozí a novou sezónou.

Ukazatele ExpG se dá využít i u jednotlivých hráčů, zejména těch ofenzivních (útočníci, křídla, ofenzivní záložníci…). Pokud se hráči gólově daří ale jeho ExpG čísla jsou nízká, může to naznačovat, že jeho střelecká forma není udržitelná. A naopak, útočníkovi to tam zrovna nemusí padat, ale pokud vykazuje dobrá ExpG čísla, dá se očekávat obrat k lepšímu.

Své využití to může mít při skautingu. Je dobré porovnat počet skutečně vstřelených branek s ExpG čísly. Můžete mít vytipovaného forvarda, který v předchozí sezóně nastřílel 20 gólů, ale pokud byla hodnota jeho ExpG výrazněji nižší, může to být varovný signál, že jeho střelecká forma se nemusí opakovat.

Velmi dobré je k tomuto tématu video s přednáškou od Omara Chaudhuriho, analytika společnosti Prozone.


Prozone Performance.Lab - Science + Football 2014 Omar Chaudhuri, Data Scientist from Prozone Sports on Vimeo


Nevýhody ExpG modelů

Samozřejmě Expected goals modely nejsou dokonalé a mají své slabiny (o nichž se v analytické komunitě hodně diskutuje). Za prvé, mezi jednotlivými hráči jsou rozdíly v jejich schopnosti zakončit. Střelecký pokus dvou hráčů může mít stejnou ExpG hodnotu, ale pravděpodobněji se strefí šutér typu Sergia Aguera než Phil Jones.

Ale to zas není tak fatální slabina, protože analýzy ukázaly, že špičkoví střelci střílejí více gólů primárně kvůli tomu, že se dostávají (vytvoří si) do větších počtu kvalitních šancí, což se odrazí i v ExpG číslech.

Modely (alespoň ty veřejně prezentované) také neberou do úvahy postavení obránců a jejich počet okolo zakončovatele. Ale je dost možné, že kluby mají k dispozici více dat, a dokáží to zohlednit nebo na tom jejich týmy analytiků pracují. Našly by se i další mouchy (vliv počasí, hrací plochy), ale to už bych se zbytečně zamotával do detailů.

Expected goals modely nám neprozradí vše, nejsou žádným Svatým grálem, ale je to jeden z nástrojů, jak objektivně hodnotit výkony týmů (případně ofenzivních hráčů).


---


Některé další odkazy

- On the topic of Expected Goals and the repeatability of finishing skill (Ted Knutson, analytik Brentford FC)

- The limits of expected goals models based on shots (Dan Altman, North Yard Analytics)