pondělí 25. ledna 2016

Bill James, Pythagorova věta a česká fotbalová liga

Využití Pythagorovy věty ve sportu má původ u Billa Jamese, známého to nestora baseballové analytiky. Pomocí rovnice se James snažil odhadnout předpokládaný počet výher jednotlivých týmů na základě počtu doběhů (runs).

U týmů s menším počtem výher oproti předpokladu se dá říci, že mají smůlu, naopak o týmech se větším počtem výher, že jim přeje štěstí. (Smůla a štěstí asi nejsou těmi správnými výrazy, ale naznačuji tím, že týmy se mohou často nacházet v tabulce výše či níže, než by odpovídalo jejich výkonům). Jamesova rovnice pro baseball vypadá následovně:

počet výher=doběhy.týmu^2/(doběhy.týmu^2+doběhy.soupeře^2)

Později upřesněná verze rovnice používá mocninu 1,81 či 1,83, dlouhodobá přesnost Jamesova teorému je +/- 3 zápasy, což je slušné, když vezmeme v potaz, že v základní části MLB odehraje každý tým 162 utkání. Pythagorova věta byla postupem času aplikována v upravené podobě i na další sporty – americký fotbal, basketball a v neposlední řadě fotbal (soccer).

Hodně se využití Pythagorovy věty ve fotbale v minulosti věnoval Martin Eastwood (@penaltyblog), a to dost důkladě, jelikož se Eastwood profesně pohybuje v oblasti práce s daty. Na základě analýzy čísel z Premier League a dalších lig dospěl k upravené rovnici, která se dá aplikovat na různé fotbalové ligy a tedy i na tu českou, momentálně stále ještě nazývanou Synot liga.

Místo doběhů se ve fotbale do rovnice dosazují vstřelené a inkasované góly, mocniny jsou jiné a při výpočtu je také vzít v potaz, že mnoho fotbalových utkání končí remízou. Přesnost samozřejmě není stoprocentní, rozptyl (střední kvadratická odchylka, RMSE) Eastwoodovi vyšel na necelé 4 body . Rovnice vypadá takto:

Předpokládaný počet bodů= vstřelené.góly^1,2299/(vstřelené.góly^1,16793+inkasované.góly^1.20053)*2,29761*počet.utkání

Skóre bývá v tabulce leckdy opomíjený ukazatel a vzorec je jedním ze způsobů (společně třeba s pokročilými statistikami), jak se podívat, zda ten který tým není v tabulce výše, než by odpovídalo jeho hře.

Rozdíl mezi skutečným a předpokládaným bodovým ziskem



Například Zlín je po podzimní části šestý se záporným skóre (22:25), naopak Jablonec má o 4 body méně, přitom jeho skóre je kladné (26:21). Řekl bych, že postavení Jablonce v tabulce neodpovídá kvalitě týmu a že na jaře Zlín předhoní, i když je otázka, zda se dokáže vzhledem k devítibodové ztrátě dotáhnout na pohárové příčky.

Jablonec a Baník jsou kluby nejvíce zaostávající za předpokládaným bodovým ziskem. Naopak bodový zisk “nad poměry” mají Zlín, Brno či Plzeň.

Teoreticky by na jaře mělo dojít k regresi – u významně zaostávajících týmů se dají čekat lepší výsledky, naopak u klubů výrazně předčících očekávání horší výsledky. I když u Titaniku jménem Baník Ostrava bych na to i přes příchod Vlastimila Petržely moc nesázel.

------

Související odkazy

- Using the Pythagorean Expectation Across Leagues Wordwide 
- Applying the Pythagorean Expectation to Football: Part One
- Applying the Pythagorean Expectation to Football: Part Two 
How Early In The Season Can Pythagorean Predictions Be Made?

Žádné komentáře:

Okomentovat