čtvrtek 22. října 2015

Synot liga: předpokládaný vs. skutečný bodový zisk


Nejvyšší česká fotbalová soutěž má za sebou deset kol, tedy třetinu soutěže. Ideální čas bilancovat. Po grafech znázorňujících počty střel, efektivnost střelby atd. jsem se rozhodl ještě podívat, jak si vedou jednotlivé týmy v porovnání s tím, co se od nich z hlediska bodového zisku očekávalo.

Asi tušíme, že například Jablonec nebo Bohemians nasbírali v dosavadním průběhu ligy méně bodů, než by se čekalo, a naopak Zlín či Slavia jich mají na svém kontě překvapivě víc. Ale o kolik konkrétně jich má ten který tým víc nebo míň jsem nikde neviděl a tak je na čase to spočítat.

Postup je jednoduchý. Porovnáme skutečný bodový zisk s tím, co od klubů očekávali bookmakeři, případně rating Elo. Spočítal jsem obě varianty, výsledky jsou vesměs podobné plus mínus. V případě bookmakerů jsem použil předzápasové kurzy ze stránek liga.cz a u ELO ratingu jsem použil server clubelo.com.

Co je to Elo? Použiji definici z wikipedie: Elo (též koeficient Elo nebo rating Elo) je statistické ohodnocení výkonnosti hráče či týmu na základě výsledků jeho her podle systému, jehož autorem byl Arpad Elo. Systém Elo byl zaveden nejdříve v šachu (v USA od roku 1959, celosvětově od roku 1970), lze ho však použít pro jakoukoli hru, v níž se střetávají dvojice hráčů nebo družstev. Může se také použít v jiných oblastech, například pro hodnocení obtížnosti otázek a schopností žáků při učení.

Club Elo do koeficientu započítává nejen výsledky z domácí ligy a poháru, ale i z evropských soutěží (Ligy mistrů, Evropské ligy) a umožňuje porovnávat sílu klubů nejen v rámci jednotlivých lig, ale i napříč mezi soutěžemi. Nejvyšší Elo v české lize mají Viktoria Plzeň (1660) a Sparta Praha (1669) a z tohohle pohledu by se svou silou neztratily oba české velkokluby ani v Bundeslize.

Rating českých klubů podle Elo Club (k 22.10.)



Ale pojďme k výpočtu předpokládaných bodů. Použil jsem metodologii Simona Gleavese, kterou před pár lety zveřejnil na svém blogu Scoreboard Journalism. Připomenu, že Simon Gleave se zabývá analýzou sportovních statistik ve společnosti Infostrada. Na twitteru má handle @SimonGleave.

Postup výpočtu

1.    Vezmeme předzápasové kurzy k jednotlivým zápasům na výhru domácích, remízu, výhru hostí.
2.    Číslo 1 vydělíme kurzy a dostaneme pravděpodobnost (šance) každé z variant.
3.    Výsledné číslo ale ještě je obvykle třeba upravit, protože součet pravděpodobností bývá zpravidla větší než 1 kvůli ziskové marži sázkové kanceláře (bookmakera).
4.    Pokud nám např. součet pravděpodobností vyjde 1,07, tak tímto číslem podělíme čísla, která nám vyšla v bodě 2. Teď už nám součet bude vycházet 1.
5.    Vypočítáme předpokládaný bodový zisk obou týmů v daném zápase tím, že pravděpodobnost výhry vynásobíme 3 a pravděpodobnost remízy vynásobíme 1.

V případě stránek clubelo.com už jsou u zápasů k dispozici předzápasové pravděpodobnosti, takže můžeme přejít rovnou k bodu 5. Konkrétně před utkání  Jablonec – Slavia Praha byla podle eloclub.com pravděpodobnost výhry domácích 63 % (použijeme desetinná čísla, tedy 0,63), remízy 22 % (0,22) a výhry hostů 15 % (0,15).

V případě Jablonce byl předpokládaný bodový zisk 3*0,63+0,22, tedy 2,11 bodu. V případě Slavie 3*0,15+0,22, tedy 0,67 bodu. Takhle to spočítáme pro všechny dosud odehrané zápasy, sečteme předpokládané body a porovnáme je se skutečným bodovým ziskem.

Dobré je, že porovnání skutečného bodového zisku s předpokládaným bodovým ziskem nám zohlední náročnost rozlosování. Vidíme tak např., zda mají Liberec či Slavia tolik bodů na svém kontě díky tomu, že měli snadný los, nebo díky tomu, že na rozdíl od předpokladů dokázali bodovat i proti silnějším soupeřům.

Rozdíl mezi skutečným a předpokládaným bodoým ziskem se tak dá využít i při vytváření pořadí aktuální formy klubů.

Teď se dostáváme ke konkrétním číslům ze Synot ligy po deseti odehraných kolech. Podle Club Elo si nejlépe nad očekávání vedou Slavia, Liberec, Mladá Boleslav a Zlín. Naopak nejhůře si vedou Jablonec, Jihlava, Baník a Bohemians. V ligové tabulce je sice se 4 body poslední Baník Ostrava ale nejvíce za očekáváními zaostávají Klokani.

Předpokládaný bodový zisk vs. skutečnost (Club Elo)



U Jablonce vyšel rozdíl mezi skutečností a předpoklady jen zhruba mínus tři body (podle Club Elo). V případě kurzů bookmakerů to vychází víc, mínus 4,56. Každopádně Club Elo i bookmakeři ve svých předpokladech považovali a nadále považují Jablonec z hlediska síly za český klub číslo tři.

Jinak, Sparta a Plzeň jsou lehce v plusu. Vzhledem k tomu, že oba kluby jdou v každém kole do zápasů jako velcí favorité, se u nich nedá očekávat příliš vysoký kladný bodový rozdíl.

Předpokládaný bodový zisk vs. skutečnost (bookmakeři)


Pro porovnání ještě přidávám tabulku s tím, jak to vychází podle kurzů přebraných z liga.cz. Ale u těchto dat si nejsem jistý, kdy před zápasem byly zaznamenány. Kurzy se jak víme hýbou, do budoucna budu raději používat při výpočtu předpokládaných bodů stránky Club Elo.

Jarek Krejčí (@championship365)



úterý 20. října 2015

Statistický souhrn Synot ligy po 10. kole


Česká první liga má odehráno deset kol, tedy třetinu soutěže. Při té příležitosti jsem připravil pár grafů znázorňující sílu jednotlivých týmů podle základních statistik, jako jsou počty střel pro a proti, efektivita střelby, držení míče či přesnost přihrávek.

Bohužel mainstream média často končí popis statistik u vstřelených a inkasovaných branek, získaných bodů, ale to jsou věci, které nemusí zcela odrážet fundamenty nebo jinak řečeno skutečnou sílu týmů v lize.

Na grafech není myslím nic komplikované, tak alespoň si dovolím základní popis a můj názor na to, kdo si to rozdá o titul, kdo by mohl bojovat o poháry a kdo naopak bude hrát o udržení. Plus trochu teorie.

Musím upozornit, že českou ligu nesleduju tak bedlivě jako Premier League, ale řekl bych, že statistiky dokáží leccos napovědět a jen škoda že jejich není k dispozici více.

Pro inspiraci se stačí podívat na statistické servery whoscored.com, squawka.com, Objective Football a analytické blogy jako např. statsbomb.com nebo fotbollssiffror.wordpress.com.

Všechny statistiky ze Synot ligy jsem přebral ze stránek synotliga.cz, takže jsou oficiální. Počty střel proti a střely na bránu proti si počítám po každém kole, protože ve statistické sekci nejsou k dispozici.

Pro grafy mi byl inspirací Ben Mayhew (@experimental361), ale ten je má mnohem hezčí.

Počty střel pro a proti (všechny střely včetně těch co šly mimo nebo byly zblokované)



Čtveřice Plzeň, Sparta, Mladá Boleslav a Jablonec ukazují svou střeleckou dominanci. Nejenže jsou na tom nejlépe, co se střeleckých příležitostí týče, ale také umožní svým soupeřům nejméně střel. Jablonec však zaostává v gólové produkci (jak uvidíme na dalším grafu).

Na tomhle grafu chcete být co nejvíc vpravo a co nejvíc dole a naopak nechcete být hodně vlevo a hodně nahoře. Liberec zatím zaostává za hlavními kandidáty na titul Spartou a Plzní zejména v obranné fázi. Proto si nemyslím, že by i přes dosavadní bodový zisk zasáhl do boje o titul, ale na pohárových příčkách by skončit mohl.

Graf nám nic neříká o kvalitě střel, tenhle faktor může hrát určitou roli. Počet střel pro a proti mohou také částečně ovlivnit tzv. score effects. Tým, který dotahuje náskok soupeře má tendenci relativně víc střílet ve snaze srovnat nebo otočit vývoj utkání. Může to být způsobeno větší útočnou aktivitou a taky defenzivnějším pojetím hry vedoucího týmu. (Tohle by vydalo na samostatný článek.)

Efektivita útoku



Graf znázorňuje počet střel a počet střel nutných v průměru na vstřelení jednoho gólu. Hlavně Příbram dokázala vytěžit z mála maximum, otázka zda jí to vydrží. Spíš ne a na jaře bude hrát o záchranu, ale Starka si to ošetří.  Pěkně vidět je slabá efektivita Jablonce v porovnání s týmy z čela tabulky. Nejhůř je na tom Bohemka. S dalším průběhem sezóny by ale mohlo dojít k regresi k průměru, jinak řečeno góly přijdou.

Zjednodušeně se dá říct, že lepší týmy střílí více gólů, protože více střílí a inkasují méně gólů, protože na jejich bránu jde méně střel. S přibývajícím počtem kol se rozdíly v efektivitě snižují, i když ne zcela.

Opět na efektivitu mohou mít určitý vliv score effects, na datech z Premier League se ukázalo, že kvalita střel dotahujícího týmu má relativně nižší kvalitu. Ale tahle data nemáme pro Synot ligu k dispozici.

Takhle nějak fungovala regrese k průměru v Premier League v sezóně 2014/15.


Efektivita obrany


Graf ukazuje, kolik střel jde v průměru na zápas na bránu daného týmu a kolik střel potřebují soupeři ke vstřelení jedné branky. Jak vidno na branku do sítě Sparty se soupeři hodně nadřou. Může to být smůla soupeřů ale i kvalitou defenzívy Sparty. Asi kombinace obojího, zvlášť když to porovnáme Plzeň a Jablonec se v tomhle od zbytku ligy nijak neodlišují.

Gólů v síti Sparty asi mohlo být o něco víc, možná to teprve přijde. Zase ta regrese (doporučuji přečíst např. příslušnou pasáž ve Thinking, Fast and Slow od Kahnemana). Tu bych očekával u Slavie, myslím, že nízký počet obdržených branek neodpovídá kvalitě obranné hry. To samé se dá říci i o Liberci.

Držení míče, střelecká aktivita v útočné třetině



Do posledního grafu jsem vměstnal tři ukazatele. Na ose x je Total Shots Ratio (TSR – poměr střel a proti) znázorňující střeleckou dominanci týmu ve finální třetině hřiště. Na ose y je obvyklý ukazatel Držení míče (v %). Takže můžeme porovnat, jak dokáže ten který tým přeměnit držení míče ve střeleckou aktivitu.

TSR tu slouží jako náhrada za držení míče ve finální třetině hřiště. To jak je tým schopen kontrolovat hru ve finální třetině hřiště mi přijde důležitější, než to jestli má vysoké % držení míče, ale míč si přitom mohou mezi sebou sterilně ťukat obránci a defenzivní záložník na svojí půlce neb ve středu hřiště.

Barva kolečka znázorňuje % úspěšnost přihrávek. Kvalitní týmy by měly mít vysokou úspěšnost a být tedy co nejvíce napravo a nahoře. Opět mi to vychází, že Jablonec patří výš, než ukazuje ligová tabulka. Zlín i přes dobrý start je spíš kvalitou tým zralý na záchranářské práce. Slavie bude muset v dalších přestupových oknech hodně nakupovat, aby se kvalitou vyrovnala čtveřici, co je nejvíc napravo.

Toť vše. Všechna data jsou k dispozici ke shlédnutí i ke stažení zde: https://public.tableau.com/profile/jarek3913#!/vizhome/Synotliga-stats201516/Potystel1516
Jarek Krejčí (jarek.krejci@gmail.com, @championship365)

středa 7. října 2015

Na úspěšnost zásahů u fotbalových gólmanů moc nekoukejte

Na twitterovém účtu společnosti Opta, která se zabývá sběrem a analýzou sportovních statistik, se v úterý objevil údaj, že Petr Čech má po osmi kolech této sezóny Premier League nejvyšší úspěšnost zásahů ze všech gólmanů – 82 %.



Čech je špičkový gólman, to všichni víme, a ani tedy nehodlám jeho výkony v tomto blogu rozebírat. Zaměřit se chci na skutečnost, že u fotbalových brankářů není % úspěšnost zásahů příliš spolehlivou statistikou.

Problémem % úspěšnosti fotbalových brankářů je to, že číslo u jednotlivých gólmanů často hodně kolísá sezónu od sezóny. Jednak střel je ve fotbale daleko méně než v hokeji (kde nejsou mezi špičkovými gólmany v NHL velké rozdíly). A pak to jakou má brankář % úspěšnost ovlivňují i jiné faktory než jen jeho schopnost zastavovat střely reflexivními zákroky nebo robinzonádami.

Od statistik ať už základních či moderních požadujeme relativní stabilitu, opakovatelnost a schopnost předvídat budoucí výkony. To nám % úspěšnost zákroků ve fotbale narozdíl od hokeje nenabízí.

Vezměme si například Tima Howarda z Evertonu. V sezóně 2013/14 měl úspěšnost zásahů 74,5 % a v následující sezóně jen 59,3 %. Roli mohl hrát pokles formy, ale na tak výrazném propadu se podepsala výrazně horší hra celého týmu.

Petr Čech si dlouhodobě drží nadprůměrnou úspěšnost zásahů, ale v ročníku 2011/12 spadla jeho úspěšnost na pouhých 68,8 % oproti 74,2 % v předchozí sezóně.  Hned následující sezónu se jeho Save % vrátila na slušných 76,9 %.

Pokles měl hodně co dočinění s účinkováním manažera André Villas-Boase. Pod jeho vedením hrála Chelsea s vysunutější obranou a v případě jejího překonání se soupeři dostávali do kvalitnějších střeleckých příležitostí. Podobně Hugo Lloris měl za dobu působení Villas-Boase v Tottenhamu úspěšnost zásahů jen 65,1 %, přitom je považován za jednoho z nejlepších brankářů v lize.



(zahrnuti brankáři, kteří v každé ze sezón odchytali alespoň 900 minut, zdroj dat STATS LLC)

Ve výši % úspěšnosti zákroků hrají velkou roli kvalita týmu, defenzívy, styl obranné hry i náhoda. V průměru slabší týmy mají tendenci pouštět soupeře do kvalitnějších šancí a naopak silnější týmy umožňují soupeřům méně kvalitní střelecké příležitosti.

Ale nemusí to tak platit vždy. Obrana Southamptonu patří v Premier League ke špičce a přesto má Maarten Stekelenburg po osmi kolech úspěšnost jen 47,4 %. Mezi tyče Saints šlo jen 19 střel a z toho padlo 9 gólů – řekl bych, že v tom hodně hrála roli smůla Saints, třeba Man United do prostoru brány vypálil třikrát a byly z toho tři góly, stejně tak Everton ze 4 střel na bránu dal Saints tři branky.

Vrátím se ještě trochu k Čechovi. Jeho konkurent David Ospina měl v minulé sezóně také velmi slušné % zásahů – 80,7 %. To zas není tak velký rozdíl oproti 82 % Petra Čecha v této sezóně, a přesto se asi shodneme, že Čech je kvalitnější gólman a že přestup na Emirates byl ze strany Arsena Wengera výborný obchod.

Abych dal i nějaké příklady o kolísavosti této statistiky ze Synot ligy, tak Matúš Kozáčik z Plzně měl v mistrovské sezóně 2013/14 úspěšnost 81,1 %, v dalším ročníku mu klesla na pouhých 68,8 %. Aleš Hruška měl v Příbrami úspěšnost jen 63,7 %, v Mladé Boleslavi mu následující sezónu vyskočila na 78,4 %. A naopak, Milan Hečo ze Slovácka – v sezóně 13/14 úspěšnost 81,4 %, v další sezóně pouze 70,3 %.

Na rozdíl od hokejových brankářů se ti fotbaloví daleko více zapojují do hry chytáním a boxováním centrů, zapojením do rozehrávky či zachycováním pasů soupeřů za obranu. Takže zachytit schopnosti fotbalového brankáře do jednoho čísla není tak jednoduché.

I tak se ale řada analytiků snaží údaj o úspěšnosti zákroků vylepšit. Například Garry Gelade v loňském příspěvku pro OptaPro Blog upravil úspěšnost zákroků podle náročnosti zásahů. Do úvahy vzal vzdálenost střely od brány, kam střela mířila, jak vysoko šla nad zemí, zda se jednalo o prudkou nebo slabou střelu, zda jí bylo dosaženo po postupném útoku či brejku atd.

Paul Riley píšící na svůj blog Different Game na to šel trochu jinak. Při výpočtu úspěšnosti zákroků vzal do úvahy z jaké zóny (celkem rozdělil hrací plochu na 46 zón) byla střela vyslána a pak spočítal kolika gólům ten který brankář chytil na 100 střel v porovnání s průměrem.

Na závěr ještě přidávám ze pár dalších odkazů k tématu:

- Goalkeepers’ save percentage an unreliable stat (Sam Gregory)
- Goalkeepers: How repeatable are shot saving performances? (Colin Trainor)
- Predicting future performance – revisited (James Grayson)
- Never judge a goal keeper by his saves (11tegen11)

čtvrtek 1. října 2015

PDO


Statistika je to dosti jednoduchá, ale při základní analýze výkonů fotbalových týmů z pohledu čísel může být PDO často velmi užitečné. Co PDO znamená? Nic. Není to zkratka, název je odvozený od přezdívky vynálezce tohoto ukazatele Briana Kinga. Svůj původ má PDO v hokeji a vypočítá se jako součet úspěšnosti střelby a úspěšnosti zásahů. Průměr pro ligu je 100.



Proč se PDO využívá?  Úspěšnost střelby a úspěšnost zásahů mají v hokeji i ve fotbale tendenci kolísat a je v nich mnohem větší prvek nahodilosti, než v případě statistik týkajících se toho, kolik si tým vytvoří střeleckých příležitostí či naopak kolik střel proti němu vyšlou soupeři. Trochu jinak řečeno, korelace s kvalitou týmu je v případě PDO mnohem menší, než v případě počtu střel či třeba poměrových ukazatelů jako jsou Total shots ratio či Shots on target ratio.

Síla PDO spočívá v regresi (návratu) k průměru. Příliš vysoké či naopak příliš nízké PDO nám hlavně v krátkém období může pomoci vysvětlit dobré či špatné výsledky. Vezměme si konkrétní jednoduchý příklad z Premier League, kde je odehráno sedm kol a na třetí příčce je West Ham United, který dokázal vyhrát venku nad Arsenalem, Liverpoolem a Man City.

PDO West Hamu po sedmém kole je 128,4, výrazně nad stovkou. Kladiváři skórovali z každé druhé střely směřující na bránu soupeře (dlouhodobý průměr v PL je okolo 30 %) a úspěšnost zásahů mají taktéž nadprůměrných 78,4 %. Jejich skóre je kladné 15:9, ale poměr střel na bránu pro a proti (Shots on target ratio - SoTR) je pouze 43,3 %, když vyslali 29 střel na bránu (až 12. nejlepší v PL) a naopak dovolili soupeřům 38 střel (6. nejhorší v PL).

Jak vidno, vysoké postavení Kladivářů v tabulce není dáno tím, že by soupeře přehrávali, přestříleli, ale nadprůměrnou a dlouhodoběji neudržitelnou efektivitou v útoku a naopak podprůměrnou střeleckou efektivitou soupeřů.

Pravda poměr střel je částečně negativně ovlivněn tím, že West Ham ve zmíněných zápasech obvykle skóroval jako první (a hned z první či druhé střely na bránu) a soupeři ve snaze vyrovnat či zápas otočit zvýšili ofenzivní nasazení a i když defenzivní výkon Kladivářů byl hodně disciplinovaný, dlouhodobě se dá s jistotou očekávat, že PDO West Hamu klesne někam blíže ke stovce.

Takže, pokud by chtěl West Ham pomýšlet na umístění v horních patrech Premier League, musel by více střílet a naopak dovolit soupeřům méně střel, což jsou kvality týmů končících na předních pozicích.

Dobré týmy nedávají více gólů primárně proto, že by měly výrazně nadprůměrnou úspěšnost střelby či zásahů, ale proto, že si vytvářejí více střeleckých příležitostí než jejich soupeři. I když najdou se výjimky, zejména mezi kluby, které ve svých ligách vyčnívají (Barcelona, Real, Bayern a asi i Sparta).

Druhým extrémem je Southampton, tomu vstup do sezóny oproti očekáváním výsledkově příliš nevyšel. Na kontě má klub z jihu Anglie 9 bodů a oproti Kladivářům horší skóre 10:9. Přitom poměr střel na bránu má 70,2 %. PDO Svatých však je pouhých 71,4. Gólem skončila jen každá čtvrtá střela na bránu a naopak soupeři dokázali skórovat z každého druhého pokusu směřujícího na bránu.

Už jen z PDO se dá usuzovat, že s přibývajícím počtem se postavení West Hamu a Southamptonu v tabulce změní. Jinak konkrétní hodnoty PDO naleznete třeba zde. Nadprůměrně vysoké PDO mají momentálně také Man Utd či Everton, naopak podprůměrné Liverpool nebo Bournemouth.

Na závěr ještě jeden gif přebraný z blogu Objective Football. Gif pěkně znázorňuje regresi k průměru v průběhu ročníku Premier League 2014/15. Jeden obrázek toho vysvětlí víc než desítky slov. Jinak v angličtině toho hodně o PDO ve fotbale napsal James Grayson – tady je jeho úvod do PDO.



Další související odkazy
- What is a normal PDO? (11tegen11)