čtvrtek 28. ledna 2016

Must read: odkazy na zajímavé články a podcasty o fotbalové analytice (Vol. 2)

Přehled nejzajímavějších článků blogů a podcastů na téma fotbalová analytika, jež vyšly v poslední době. Enjoy!

----------------------------

How will that new signing perform? (26.1., North Yard Analytics)

http://www.northyardanalytics.com/blog/2016/01/26/how-will-that-new-signing-perform/

Daniel Altman (@altmandaniel), jenž pracuje jako konzultant pro kluby v Evropě i USA, píše o tom, jak pomocí analytických nástrojů odhadnout, jak si hráč povede po přestupu do jiné ligy. V blogu jsou uvedeny i konkrétní příklady hráčů, kteří do Premier League zamířili v letním přestupním období.

Finding the weak link (28.1., North Yard Analytics)

http://www.northyardanalytics.com/blog/2016/01/18/finding-the-weak-link/

Ještě jednou D. Altman. Tentokrát se věnuje tomu, jak pomocí Shapleyho hodnot (Shapley value) nalézt nejslabší článek týmu. Opět nechybí příklady hráčů z velkých klubů.

The ten traits of ideal soccer metrics (18.9.2013, North Yard Analytics)

http://www.northyardanalytics.com/blog/2013/09/18/the-ten-traits-of-ideal-soccer-metrics/

Starší blog. Jaké vlastnosti by podle Altmana měly mít ideální fotbalové statistické ukazatele. Každopádně stojí za to projít i další příspěvky na Altmanově blogu.

Norwich City: Backing Towards the Cliff´s Edge (25.1., StatsBomb)

http://statsbomb.com/2016/01/norwich-city-backing-towards-the-cliffs-edge/

Analýza výkonů Norwich City z pohledu statistik od Jamese Yorka (@jair1970). Kanárci jsou podle něj týmem vážně ohroženým sestupem.

Settled team one of the keys to Leicester’s success (22.1., Infostrada)

http://infostradalive.com/2016/01/22/analyse-this-settled-team-one-of-the-keys-to-leicesters-success/

Blog zaměřený na současný Leicester City a předchozí týmy, které v historii Premier League využily v průběhu sezóny nejnižší počet hráčů.

Visualising defensive involvement in the Eredivisie (14.1., OptaPro) 

http://www.optasportspro.com/about/optapro-blog/posts/2016/blog-visualising-defensive-involvement-in-the-eredivisie/

Jak název napovídá, blog se zabývá vizualizací defenzivních činností v Eredivisie. Ale je tam i porovnání s dalšími ligami, takže si na své přijdou i "milovníci" Bundesligy, EPL či Serie A. Autorem je Michiel Jonsma (@JongsmaJongsma).

Louis van Gaal’s Manchester United – The Stats (27.1., Mark Thompson)

http://eastbridge-sb.com/louis-van-gaals-manchester-united-the-stats-wednesday-27th-january-by-etnar_uk/

Pohled na statistiky herně i výsledkově se trápícího Manchesteru United od @ETNAR_uk.

Is the Premier League Level Playing Field (23.1., Peter Owen)

http://statsbomb.com/2016/01/is-the-premier-league-a-level-playing-field/

Jak vyrovnaná je Premier League. Analýza od Petera Owena (@_PeteOwen).


-----

Podcasty, videa, knihy atd.

Stats & Sports Class (Skidmore College)

http://statsbylopez.com/stats-sports-class/

Syllabus a další materiály k novému kurzu Michaela Lopeze (@StatsbyLopez) vyučujícího Statistics and Sports na Skidmore College.

Planet Fútbol Podcast (25.1., SI.com)

http://www.stitcher.com/podcast/panoply/planet-futbol-podcast/e/factchecking-klinsmann-feilhaber-42198084?autoplay=true

Půlhodinový rozhovor o fotbalové analytice s @altmandaniel. Začíná od času 13:20.


Rozhovor se Simonem Gleavem ze společnosti Infostrada (27.1., Analytics FC)

https://soundcloud.com/analytics-fc-podcast/episode-20-simon-gleave


Podcast od StatsBomb (25.1., StatsBomb)

https://soundcloud.com/statsbomb-pod/statsbomb-podcast-january-2016?utm_source=soundcloud&utm_campaign=share&utm_medium=twitter

Zejména se v něm vede diskuze okolo formy a statistik týmů první čtyřky.


Soccermatics: Mathematical Adventures in the Beautiful Game (vyjde v květnu, Bloomsbury)

http://www.bloomsbury.com/uk/soccermatics-9781472924124/

Knížka od švédského profesora aplikované matematiky Davida Sumptera (@Soccermatics) vyjde v květnu. Obsah vypadá lákavě.

Chasing Perfection: A Behind-the-Scenes Look at the High-Stakes Game of Creating an NBA Champion (vyjde v březnu, Da Capo Press)

http://www.amazon.com/Chasing-Perfection-Behind-Scenes-High-Stakes/dp/0306824027

A jelikož moje žena trénuje basket a občas se kouknu na NBA či Euroligu, tak i něco o basketbalové analytice od Andyho Glocknera (@AndyGlockner) zakladatele serveru The Cauldron (@TheCauldron)

Wenger Eyes Up The Stats (19. 12., BeIn Sports)

http://www.beinsports.com/en/premier-league/video/wenger-eyes-up-the-stats/159293

Rozhovor manažera Arsenalu Arsene Wengera pro TV stanici BeIn Sports. Baví se například o expected goals.

---

Jarek Krejčí (@championship365)

pondělí 25. ledna 2016

Bill James, Pythagorova věta a česká fotbalová liga

Využití Pythagorovy věty ve sportu má původ u Billa Jamese, známého to nestora baseballové analytiky. Pomocí rovnice se James snažil odhadnout předpokládaný počet výher jednotlivých týmů na základě počtu doběhů (runs).

U týmů s menším počtem výher oproti předpokladu se dá říci, že mají smůlu, naopak o týmech se větším počtem výher, že jim přeje štěstí. (Smůla a štěstí asi nejsou těmi správnými výrazy, ale naznačuji tím, že týmy se mohou často nacházet v tabulce výše či níže, než by odpovídalo jejich výkonům). Jamesova rovnice pro baseball vypadá následovně:

počet výher=doběhy.týmu^2/(doběhy.týmu^2+doběhy.soupeře^2)

Později upřesněná verze rovnice používá mocninu 1,81 či 1,83, dlouhodobá přesnost Jamesova teorému je +/- 3 zápasy, což je slušné, když vezmeme v potaz, že v základní části MLB odehraje každý tým 162 utkání. Pythagorova věta byla postupem času aplikována v upravené podobě i na další sporty – americký fotbal, basketball a v neposlední řadě fotbal (soccer).

Hodně se využití Pythagorovy věty ve fotbale v minulosti věnoval Martin Eastwood (@penaltyblog), a to dost důkladě, jelikož se Eastwood profesně pohybuje v oblasti práce s daty. Na základě analýzy čísel z Premier League a dalších lig dospěl k upravené rovnici, která se dá aplikovat na různé fotbalové ligy a tedy i na tu českou, momentálně stále ještě nazývanou Synot liga.

Místo doběhů se ve fotbale do rovnice dosazují vstřelené a inkasované góly, mocniny jsou jiné a při výpočtu je také vzít v potaz, že mnoho fotbalových utkání končí remízou. Přesnost samozřejmě není stoprocentní, rozptyl (střední kvadratická odchylka, RMSE) Eastwoodovi vyšel na necelé 4 body . Rovnice vypadá takto:

Předpokládaný počet bodů= vstřelené.góly^1,2299/(vstřelené.góly^1,16793+inkasované.góly^1.20053)*2,29761*počet.utkání

Skóre bývá v tabulce leckdy opomíjený ukazatel a vzorec je jedním ze způsobů (společně třeba s pokročilými statistikami), jak se podívat, zda ten který tým není v tabulce výše, než by odpovídalo jeho hře.

Rozdíl mezi skutečným a předpokládaným bodovým ziskem



Například Zlín je po podzimní části šestý se záporným skóre (22:25), naopak Jablonec má o 4 body méně, přitom jeho skóre je kladné (26:21). Řekl bych, že postavení Jablonce v tabulce neodpovídá kvalitě týmu a že na jaře Zlín předhoní, i když je otázka, zda se dokáže vzhledem k devítibodové ztrátě dotáhnout na pohárové příčky.

Jablonec a Baník jsou kluby nejvíce zaostávající za předpokládaným bodovým ziskem. Naopak bodový zisk “nad poměry” mají Zlín, Brno či Plzeň.

Teoreticky by na jaře mělo dojít k regresi – u významně zaostávajících týmů se dají čekat lepší výsledky, naopak u klubů výrazně předčících očekávání horší výsledky. I když u Titaniku jménem Baník Ostrava bych na to i přes příchod Vlastimila Petržely moc nesázel.

------

Související odkazy

- Using the Pythagorean Expectation Across Leagues Wordwide 
- Applying the Pythagorean Expectation to Football: Part One
- Applying the Pythagorean Expectation to Football: Part Two 
How Early In The Season Can Pythagorean Predictions Be Made?

středa 20. ledna 2016

Kolik extra bodů zajistil Čech Arsenalu?

Petr Čech odvedl o víkendu další výborný výkon, když Arsenalu pomohl svými zákroky k bodu na Brittania Stadium. V reakci na to ostrovní i česká média (Daily Mail, Deník Sport) připomněla letní výrok kapitána Chelsea Johna Terryho, že Čech zajistí Gunners v průběhu sezóny 12 až 15 bodů navíc.

Na isport.cz si dali tu práci a prošli Čechovy klíčové zákroky (i zaváhání) a došli k závěru, že Čech přinesl navíc už 9 bodů. A to je odehráno teprve 22 kol. Mimochodem Daily Mail Čechovi přiznal ještě o bod víc.

Musím přiznat, že jsem k tak vysokému číslu skeptický. Znamenalo by to, že bez Čecha v bráně by měli Gunners na svém kontě jen 35 bodů. Tedy o 4 méně než v po 22 kolech minulé sezóny, kdy byl v bráně k chybám náchylný Wojciech Szczęsny. To by naznačovalo, že zbytek týmu se zhoršil a jediné co jej drží nad vodou je Čech. Ale tak tomu není.

Také redaktoři isport.cz nezohlednili, že jimi spočítané body je třeba porovnat s tím, kolik z šancí soupeřů by vychytali zmíněný Szczęsny nebo David Ospina.

Objektivnější způsob výpočtu použil na svém blogu Chad Murphy (Is Petr Čech Worth 15 points? A Rough, Back of the Envelope Calculation) a využil při něm i expected goals modely Michaela Caleyho a Paul Rileyho. Pro podrobnější popis metody bych doporučil přímo daný článek.

* Pro vysvětlení Expected goals modelů doporučuji např. můj blog ze září. *

Zjednodušeně, každý gól, kterému brankář zabrání navíc v porovnání s hodnotou expected goals, má hodnotu 0,6723 bodu. Murphy upozorňuje, že jedním z předpokladů jeho následných výpočtů je, že gólman má 100 % podíl na rozdílu mezi expected goals a skutečně inkasovanými góly. Což samozřejmě nemusí být vždy pravda.

Podle Rileyho tabulky zveřejněné na začátku ledna Čech zabránil za poslední 5 a půl sezóny (nebo spíš 4 a půl sezóny, protože minulou sezónu byl v Chelsea náhradníkem) přibližně 17 gólům oproti předpokladům (
(ActGA – ExpGA). Těch 17 gólů vynásobíme 0,6723 (vyjde 11,42) a následně vydělíme 4,5 sezónami. Výsledek dělá 2,5 bodu.  

Rileyho statistiky ukazují, že při Szczęsneho přítomnosti v bráně Gunners během několika sezón obdrželi o tři góly vice, než by naznačovaly expected goals (ActGA – ExpGA), takže z hlediska bodů svému týmu za dobu svého působení bodově nic navíc nepřinesl, možná něco málo ubral (ale není to nic významného).

Takže bychom se mohli dostat k čistému přínosu Čecha v porovnání s Szczęsnym ve výši 3 bodů. Jak Murphy naznačuje v nadpisu a v úvodu, jedná se o hrubý výpočet, ale zdá se být mnohem blíž pravdě než nerealistických 12 až 15 bodů. Ale bezpochyby i tři body navíc mohou sehrát v účtování na konci sezóny důležitou roli.


---

Jak jsem byl na twitteru správně upozorněn, u gólmanů hrají roli nejen zákroky, ale i organizace hry, další faktory. U gólmanů je to s čísly prostě složitější. Ale tři body se zdají být reálnější než 12-15.

čtvrtek 7. ledna 2016

Stokealona: přehnané řeči o Champions League

Pozornost budí v této sezóně výkony a výsledky Stoke City. Dávno jsou doby, kdy měli Potters pod vedením Tonyho Pulise pověst důrazného týmu pořízků sázejícího na nakopávané míče a Rory Delapem prudce házené auty.

Pod Markem Hughesem je hra nadále postavená na důrazu, solidní defenzívě, ale oproti minulosti je v ní více kombinace a individuálních technických dovedností. A není divu, když v kádru má Velšan dva bývalé hráče Barcelony Bojana Krkiče a Ibrahima Affelaye, které dobře doplňují například Xherdan Shaqiri či Marko Arnautovič.

Úvod sezóny Stoke nevyšel, v úvodních šesti kolech dokázal tým jen třikrát remizovat. První výhra přišla v 7. kole doma proti Bournemouthu. V dalším průběhu sezóny pak Stoke dokázalo naplno bodovat proti Chelsea, Southamptonu a nejvíce ceněné jsou asi dvě domácí výhra 2:0 nad manchesterskými kluby.

Stoke pak v 19. kole přestřílelo v Goodison Parku Everton 4:3 a Shaqiri posléze prohlásil, že tým může bojovat o top four, což nevyloučil ani manažer Hughes. Vysoké ambice následně zchladila prohra na půdě West Brom.

Při pohledu na některé statistiky Stoke se však zdají být řeči o top four a Champions League hodně přehnané. Pravda, na umístění v první čtyřce by letos mohlo stačit méně bodů, než v sezónách předešlých (očekává se, že okolo 65), ale z pohledu čísel je Stoke týmem nanejvýš do středu tabulky. A před Stoke jsou v tabulce silnější a vážnější kandidáti na prestižní umístění.

Pokud se podíváme na herní statistiky, tak nic nenapovídá tomu, že by mělo být Stoke kandidátem na účast v Lize mistrů. V počtu vyslaných střel je Stoke až 15. (10,9 střely na zápas), horší jsou už jen o záchranu hrající Sunderland, Newcastle a Aston Villa a pak West Brom, které vede Pulis, jehož týmy se taktickým pojetím hry statistikám obvykle vymykají. V počtu střel na bránu (SoT F) je Stoke až 16. s průměrem 3,4 střely na utkání.


Zdroj: Objective Football

Gólů nastřílelo Stoke v Premier League 21, což jej z hlediska ofenzívy opět řadí do horší poloviny střeleckých tabulek. Gólová úspěšnost střel na bránu (Scoring%) je 30,9 %, lehce nad ligovým průměrem, takže z tohoto pohledu není na co si stěžovat.

Když se zaměříme na opačnou stranu hřiště, tak Stoke v dosavadním průběhu sezóny čelilo v průměru 15,4 střelám (5. nejhorší) a 5 střelám na bránu (SoT A, 4. nejhorší). Z hlediska počtu inkasovaných branek vypadá obrana solidněji. Potters dostali jen 21 gólů, stejně jako Manchester City, o gól méně než třeba Watford.

Velkou zásluhu na tom má  gólman Jack Butland, podle názoru mnohých expertů nejlepší brankář první poloviny této sezóny. Co může být paradoxně znepokojující je fakt, že Stoke, resp. Butland má nejvyšší úspěšnost zásahů – 79 %, což je vysoce nad ligovým průměrem 69,9 %. U střel z danger zone pak 72 % (víc má už jen Adrian - 76.20 %).

U ukazatelů jako jsou úspěšnost střelby (Scoring%) a úspěšnost zásahů (Save%) mají extrémní hodnoty tendenci k regresi k průměru a mohou se výrazně lišit například při porovnání první a druhé poloviny sezóny.

Dá se očekavat, že úspěšnost zákroků Stoke (Butlanda) půjde v dalším průběhu sezóny dolů, což povede k vyššímu počtu inkasovaných branek. Pokud teda Stoke neomezí počet střel směřujících na jeho bránu.

Poměr střel na bránu (Shots on target Ratio - SoTR) má Stoke 40,50 (v minulé sezóně 48,80), horší jsou v tomto směru už jen kluby pobývající na sestupových příčkách. A při pohledu na posledních šest sezón obvykle týmy s tak nízkým číslem nepatří ani zdaleka ke klubům bojujícím o pohárovou Evropu, spíš mají sestupové starosti.


Zdroj: Objective Football

Analýzu můžeme vylepšit pohledem na ukazatel  expected goals (ukazatel beroucí do úvahy kvalitu střel). Podle modelu Paula Rileyho (@footballfactman), jenž u střel na bránu zohledňuje lokaci, z které byla střela vyslána, mohlo Stoke nastřílet 22 gólů (12. nejlepší). Tedy o jeden víc, než ve skutečnosti.

U obrany Rileyho model expected goals naznačuje, že Stoke inkasovalo méně, než by si jeho obranná hra asi zasloužila, na druhou stranu už byla zmíněna Butlandova výborná forma (a úspěšnost zákroků). Rileyho model naznačuje, že v síti Stoke mohlo skončit 27 gólů. Horší bilanci má z tohoto ohledu 9 týmů, takže v tomto ohledu patří Stoke do průměru. Rozdíl (xGD) mezi xG For a xG Aga dělá ze Stoke 15. tým v lize. 


Zdroj: Paul Riley

Pokud kvůli lepšímu porovnání mezi sezónami použijeme xG Ratio (poměr expected goals For a Against), tak letos má Stoke zatím poměr 44,90, za celou minulou sezónu mělo xG Ratio 47,80, takže i zde došlo ke zhoršení.


Zdroj: Objective Football a Chelsea Stats

Nutno dodat, že Rileyho model je poměrně jednoduchý, jsou i komplexnější modely (např. tady od Michaela Caleyho), které kromě lokace střely berou do úvahy například i rychlost útoku či typ přihrávky, ale pro představu o kvalitách týmu je to vylepšení oproti základním statistikám o střelách.

Stoke má na nyní kontě 29 bodů, o tři více než ve stejné fázi minulé sezóny a je o skóre za devátým Watfordem. Euro Club Index (ECI) momentálně predikuje, že Potters zakončí sezónu na 9. příčce s 54 body, tedy stejné umístění a stejná bodová bilance jako v sezóně 2014/15 a o 4 body lepší než v sezóně 13/14.

Takže stabilní průměr, což by byl svým způsobem pro klub velikosti Stoke úspěch. Stačí se podívat na Swansea, která v minulé sezóně skončila 8. a letos je nebezpečně blízko sestupovým příčkám.

Zdroj: Euro Club Index

Bude zajímavé sledovat, jak se bude Stoke v probíhající sezóně Premier League dál dařit. Při pohledu na statistiky se zdá být Stoke horším týmem než v sezóně minulé.

Některé vydařené zápasy (a hlavně výhry nad United či City), dosavadní bodový zisk a technické kousky a pěkné góly hvězd Stoke mohou být klamem zastírajícím skutečnou sílu mužstva. Rozhodující pro konečné umístění bude forma Butlanda, devátá příčka z předchozích dvou sezón se však zdá být pro tento tým stropem.