Muutama sananen sarjataulukoista, joukkueiden pistejakaumista ja tasoeroista.
Hoksasin tuossa viime perjantaina mielenkiintoisen jutun, jonka avulla voidaan tarkastella sitä, miten tasainen tai epätasainen jokin mielenkiintoinen koripallosarja on. Seuraava analyysi toimii yleisemmin lajeissa, joissa tasapelit eivät ole mahdollisia (esim. järjestelmällisesti tasapeliin päättyvään jalkapalloon seuraavaa analyysia ei voida soveltaa ilman merkittäviä muutoksia). Luonnollisesti sovelsin keksimiäni juttuja sarjoista analyyttisimpaan eli eteläisen alueen kakkosdivariin.
Esittämäni tarkastelu perustuu kahteen mielikuvitukselliseen koripallosarjaan ja helppoon, perustodennäköisyyslaskentaan.
Tasaisin mahdollinen sarja:
Oletetaan, että on olemassa koripallosarja, jonka kaikki joukkueet ovat täsmälleen yhtä hyviä. Tässä tasaisimmassa mahdollisessa sarjassa joukkueiden välillä ei siis ole minkäänlaisia tasoeroja ja jokaisen ottelun lopputuloksen ratkaisee sattuma siten, että kummankin joukkueen voiton todennäköisyys on yhtä suuri 50%. Tällöin satunnaisesti valitun joukkueen voittojen (ja sitä kautta myös pisteiden) jakauma noudattaa binomijakaumaa parametreilla "otteluiden lkm" ja "0.50". Suomeksi tämä tarkoittaa sitä, että joukkueiden pisteiden jakauman muoto on kuvan 1
sinisen jakauman kaltainen. Joukkueet voittavat siis tyypillisesti noin puolet otteluistaan ja saavat näin todennäköisimmin noin puolet mahdollisista maksimisarjapisteistä. Tapaukset, joissa joukkue on voittanut tai hävinnyt lähes kaikki ottelunsa olisivat tällaisessa sarjassa hyivn epätodennäköisiä.
Selvin mahdollinen sarja (l. "läpihuuto"-sarja):
Edellisen mielikuvitussarjan täydellinen vastakohta olisi sarja, jossa joukkueiden väliset tasoerot ovat niin suuria, että "parempi joukkue" voittaa huonomman 100% todennäköisyydellä. Tällöin esim. 22 ottelun kakkosdivarissa paras joukkue saisi 22*2=44 sarjapistettä, toiseksi paras joukkue saisi 20*2=40 pistettä, ... , huonoin joukkue saisi 0*2=0 pistettä. Jos tästä sarjasta valitaan satunnaisesti joku joukkue noudattaa tämän joukkueen sarjapisteiden lukumäärä tasajakaumaa joukossa {0,4,8, ... ,40, 44}, jossa siis kukin mahdollisista pistemääristä on yhtä todennäköinen. Tätä jakaumaa on havainnollistettu kuvassa 1
punaisella jakaumalla.
(Oikeasti nämä jakaumat ovat tietysti diskreettiarvoisia, mutta nyt tyydymme tutkimaan jakaumien muotoja kuvaavia jatkuvia tiheysfunktioita.)
Kuva 1: Joukkueiden pisteiden teoreettiset jakaumat tasaisessa ja "läpihuuto"-sarjassa,
joissa voitosta saa 2 pistettä ja pelataan 22 ottelua.
No miksi helvetissä tämän pitäisi kiinnostaa ketään?
Vertailemalla eri kausiin perustuvia empiirisiä pistejakaumia voidaan tutkia, onko joku tietty kausi ollut "tasainen" vai "läpihuuto"-kausi. (Itse asiassa vertailemalla havaitun jakauman etäisyyttä kahdesta edellä esitellystä ääripäästä saadaan kätevä metriikka, jonka avulla voidaan vertailla sarjan/sarjojen tiukkuuksia eri kausilla...)
Kuvassa kaksi on esitetty pistemäärien jakaumat kausilla 2001-02, 2002-03, 2003-04 ja 2004-05. Kuviin on myös piirretty tasaista sarjaa ja "läpihuuto"-sarjaa vastaavat kuvaajat silloin kuin se on tarpeellista. (Empiiriset jakaumat ovat pistejakaumien histogrammeista kernel-siloiteltuja jakaumia, jos jota kuta kiinnostaa...)
Tulokset ovat häkellyttävän upeita.
Kausi 2001-02 vaikuttaa tarkasteluajanjakson epätasaisimmalta sarjalta, sillä havaittu jakauma mukailee punaista tasajakaumaa todella kauniisti. Tietenkään tulos ei ole aivan täydellinen ja poikkeamaa esiintyy jakauman kummassakin laidassa. Tälle löytyy kuitenkin selitys: paskinkin joukkue voittaa kauden aikana jonkun pelin ja vastaavasti parhaallekin joukkueelle sattuu silloin tällöin ns. tilastotappioita. Tämän takia tarkastelluilla kausilla ei ole havaittu 22-0 tai 0-22 kausia. (ToPoLan perseilyä lukuunottamatta.)
Kauden 2002-03 kuvaajat ovat niin upeita kuin vain voi olla. Yhtenevyys tiukan kauden odotettuun kuvaajaan on lähes täydellinen lukuunottamatta tuolla kaudella M2D:tä dominoineen ToPoLan 21-1 rekordia, joka aiheuttaa pienoisen pullotuksen jakauman oikeaan laitaan.
Vastaavasti kaudella 2003-04 joukkueiden pistejakauma lähentelee binomijakaumaa (tai siis sen normaalijakauma-approksimaatiota) eli sarjassa kilpailivat tuolloin suurin piirtein tasavahvat joukkueet. Jakauman muoto on hienossa sopusoinnussa oletetun kanssa, mutta todellisten joukkueiden väliset tasoerot aiheuttavat joukkueiden jakauman suuremman hajonnan (paksummat hännät vasemmalla ja oikealla). Tuon vuotisen sarjan tasaisuus on selvää myös sarjataulukon perusteella, sillä parhaan joukkueen saldo oli 18-4 ja huonoimpien vastaavasti 6-16 (TJEU tämän vuoden taulukko).
Viime kaudella pistejakauma oli todella lähellä "läpihuuto"-sarjan ennustamaa jakaumaa. Kaksi joukkuetta oli todella ylitse muiden (WB ja Kollit) ja ToPoLa toteutti oletuksen, jonka mukaan sarjan huonoin joukkue häviää kaikki pelinsä. Tietenkään "täydellinen nokkimisjärjestys", jossa parempi aina voittaa huonomman, ei täysin toteutunut: esim. keskikastin joukkueita oli useampia kuin "läpihuuto"-sarjassa tulisi olla.
Kuva 2: M2D:n pistejakaumat vuosina 2002-05.
Luonnollisesti vastaavat käppyrät voidaan vääntää myös käynnissä olevasta kaudesta venyttämällä jo pelattuja pelejä vastaavat jakaumat kattamaan koko kauden. Tulos on esitetty kuvassa 3. Kuvan jakauma on erittäin lähellä "läpihuuto"-kauden tasaista jakaumaa lukuunottamatta muutamia yllätysvoittoja (esim. Akatemia-KaU Namupojille!!!), jotka pienentävät jakauman tiheysfunktion arvoja arvojoukon reunamilla.
Itse haksahdin ansaan ja luulin piirtäneeni kuvaajat väärin, kun vertasin tätä jakaumaa kauden 2001-2002 jakaumaan, sillä jakaumat ovat lähes identtisiä. Mutta näiden kuvaajien perusteella voitaisiin väittää tämän vuoden M2D-sarjaa samanlaiseksi läpihuutosarjaksi kuin kautta 2001-2002. Tämä on mielenkiintoista esim. sen takia, että vuonna 2002 putoamiskarsintojen välttämiseen vaadittiin kahdeksan voittoa, mikä vaikuttaa ihan ihan uskottavalta limitiltä tänäkin vuonna.
Kuva 3: M2D:n pistejakauman ennuste kaudelle 2005-06.
Ja ennen kuin joku tekstin tänne asti lukenut sankari alkaa ryppyilemään tämän kirjoituksen alussa tehtyjen oletusten epärealistisuudesta, muistuttaisin, että tämän tekstin pointti ei siis ole, että "kaikki joukkueet ovat yhtä hyviä" tai "parempi joukkue voittaa aina".
Kirjoitelman pääpointtina on osoittaa, että välillä M2D-kaudet ovat tasaisempia ja välillä epätasaisempia, mikä voidaan nähdä vertaamalla pistejakaumia kahteen teoreettiseen jakaumien ääripäähän, identtisten joukkueiden sarjaan ja "läpihuuto"-sarjaan.
Erityisen oleellista on, että tämän kaltaisia havaintoja voidaan tehdä mistä tahansa palloilusarjasta, jossa tasureita ei tule. Joukkueiden tasoerojen kokonaisvaltaiseksi hahmottamiseksi suosittelen siis simppelin histogrammin piirtämistä seuraavan kerran, kun tuijottelette sitä SM-sarjan sarjataulukkoa.