Koripallo.com

Mielenkiintoisia NBA-tilastoja

Viestejä
7 503
Vs: Mielenkiintoisia NBA-tilastoja

Oppikirjaesimerkki siitä, miten EI tulisi tehdä koripallon tilastollista analyysiä:

http://wagesofwins.com/2012/10/04/what-will-the-nuggets-look-like-next-season/

Koripallotilastot eivät yksinkertaisesti toimi sillä tavalla, että otetaan pelaajien viime kauden tilastot (per minuutti), jaetaan tulevan kauden minuutit pelaajille (jotenkin arvaamalla) ja kerrotaan minuuttitehot pelaajille jaetuilla minuuteilla.

Ensiksikin minuuttikohtaiset tilastot ovat erittäin kohinaisia.

Toiseksi minuuttikohtaisia tilastoja ei voi noin vain ekstrapoloida suuremmille tai pienemmille minuuttimäärille (vrt. "ensimmäisen minuutin jälkeen JaVale oli 96 pisteen vauhdissa", toisaalta pelaajat väsyvät ja yhden poustiliikkeen kaveri ei voi hieroa sitä samaa muuvia koko ottelun läpi).

Kolmanneksi edellisen kauden minuuttitehot ovat ehdollisia edellisen kauden joukkuekavereille ("ei paljoa palloa näkynyt heittohakuisen pointin sutiessa" vs. "jonkun oli pakko ottaa heittoja").

Neljänneksi pelaajien tilastot eivät ole additiivisia (ts. kaksi edellisellä kaudella 10 rpg -tahdilla levaroinutta kaveria ei yhdessä kisko riboja 20 per peli). Tämä pätee erityisesti pisteisiin!

Viidenneksi pelaajien roolituksia ei voi noin kopioida edelliseltä kaudelta seuraavalle -- ei erityisesti silloin, kun joukkueen kokoonpano on radikaalisti muuttunut!!!

Kuudenneksi tilastot pitävät sisällään myös kulloisenkin valmentajan sekä joukkueen pelityylin vaikutukset. Näin ollen esimerkiksi Iguodalan tilastojen siirtäminen suoraan Denverin tilastotauluihin (Mitä on "box score" suomeksi?) ei ole perusteltua.

Seitsemänneksi minuuttitehojen suora siirtäminen tulevalle kaudelle ei huomioi mitenkään pelaajien suoritustason myönteistä tai kielteistä kehitystä. Tällä oletuksella junnut kannattaisi aina vaihtaa veteraanipelaajiin, jotka vielä tänään tuottavat junnuja parempia tilastoja.

(Listaa voisi varmaankin jatkaa paremmalla ajalla vielä huomattavasti pidemmäksi.)

Tässä Denveriä käsittelevässä esimerkkitapauksessa silmäänpistäviä yksityiskohtia on mm. se, että esitetty tilastoennuste tarjoaa kolmelle pelaajalle "jotain viittä assistia per peli" (Lawson 6.2 apg, Miller 6.1 apg, Iguodala 4.9 apg). Jotenkin on vaikea kuvitella kolme kaveria käsittelee niin paljon palloa, että tuollaiset assistikeskiarvot olisivat mahdollisia. Vertailukohtana viime kauden Heatissä vastaavat keskiarvot olivat: James 6.2 apg, Wade 4.6 apg ja Chalmers 3.5 apg. Toisena esimerkkinä 1996 Chicago Bulls: Pippen 5.8 apg, Kukoc 4.9 apg ja Jordan 4.1 apg.

Toisaalta tuossa Denverin ennusteessa vain kahden kaverin levarikeskiarvo on hikisesti yli viiden: Faried 5.7 rpg ja McGee 5.4 rpg. (Viidelle tyypille ennustetaan yli neljää levyä per matsi.) Vertailukohtana voisi käyttää viime kauden Nuggetsia (olettaen, että joukkueen pelityyli pysyy entisellään), jossa oli viisi yli viiden levarin miestä (Faried 7.7 rpg, Harrington 6.1 rpg, McGee 5.8 rpg / Nene 7.4 rpg, Koufos 5.4 rpg, Chandler 5.1 rpg) ja kahdeksan kaveria yli neljän levarin per peli (edelliset + Gallinari 4.7 rpg, Andersen 4.6 rpg ja Mozgov 4.1 rpg). Kysymys siis kuuluu, minne nämä levarit katoavat tuossa projektiossa?

Oikea vastaus on, että eivät minnekään, koska esitetyssä ennusteessa ei ole mitään järkeä!

Tärkeimpänä pointtina tässä mouhotuksessa kuitenkin on se, että koska tilastoja ei voi venyttää, summata tai pitää vakioina, tämä pitää pitää mielessä myös tällaisiin laskutoimituksiin perustuvia pelaajien hyvyysmittareita konstruoitaessa.

Toisin sanoen "Wins of Wages"-sivuston pelaajien tilastoista ennustetut joukkueiden voittoprossat ovat täyttä kuraa. Sama pätee Hollingerin pelaajakauppa-analyyseihin, joissa povataan jollekin joukkueelle X kpl lisävoittoja, koska se sai kaupassa tilastoiltaan parhaat pelaajat.
 
Viestejä
2 913
Vs: Mielenkiintoisia NBA-tilastoja

hamahakkimies sanoi:
Oppikirjaesimerkki siitä, miten EI tulisi tehdä koripallon tilastollista analyysiä:

Voisiko tämän laittaa suoraan wikipediaan?-)
 
Viestejä
1 228
Vs: Mielenkiintoisia NBA-tilastoja

hamahakkimies sanoi:
Oppikirjaesimerkki siitä, miten EI tulisi tehdä koripallon tilastollista analyysiä:

Vaikea tuohon on lisätä mitään. Metsään meni ja pahasti.

The Wages of Wins Journal] Taking aim at the lies and damned lies in sports with stories written by the numbers. [/quote] Eli valheellisia uskomuksia yritetään kaataa vielä suuremmilla valheilla? [quote author=hamahakkimies sanoi:
Mitä on "box score" suomeksi?

Basket.fi käyttää termiä ottelutilasto.

hamahakkimies sanoi:
Sama pätee Hollingerin pelaajakauppa-analyyseihin, joissa povataan jollekin joukkueelle X kpl lisävoittoja, koska se sai kaupassa tilastoiltaan parhaat pelaajat.

Mielestäni nämä ovat ihan hauska lisä havainnollistamaan sitä, kumpi joukkue vahvistui paperilla enemmän. Sen vakavammin näitä ei luonnollisestikaan kannata ottaa.

Herbert sanoi:
Voisiko tämän laittaa suoraan wikipediaan?-)

Tai edes Hikipediaan?
 
Viestejä
3 075
Vs: Mielenkiintoisia NBA-tilastoja

Kobe Bryantilla on urallaan pelattuna 4 minuuttia enemmän kuin Ray Allenilla. Ja 6543 pistettä enemmän.

Omaan korvaan kuulosti melko hurjalta. Onhan Kobe tuon neljän minuutin turvin toki nakannut myös lähes 5000 kappaletta enemmän pelitilanneheittoja.
 
Viestejä
7 503
Vs: Mielenkiintoisia NBA-tilastoja

Kerrankin törmäsin järkevään NBA-tilastosivustoon netissä: http://sportskeptic.wordpress.com/tag/nba/

Ironista on se, että törmäsin tuonne idioottimaisen "Wages of Wins"-sivuston kautta, jossa sivua mainostettiin saatteella: "Great minds think alike."

(Sanonta saattaa pitää paikkansa, mutta "WoW":n blogistit ovat idiootteja, toisin kuin Sportskepticin Dr. Alex Konkel.)
 
Viestejä
402
Vs: Mielenkiintoisia NBA-tilastoja

En ole koko ketjua lukenut, joten allaolevaa on varmasti ainakin sivuttu ja muutenkin nämä asiat ovat monelle sinänsä itsestäänselvyyksiä, mutta kirjoitetaan nyt silti.

Eli,

Näissä tilastojutuisssa - suhtautui niihin sitten peruspositiivisesti tai -negatiivisesti - pitäisi aina muistaa muutama seikka:

1) Kenellä on eniten ja tarkinta dataa -> kilpailuetu
2) Kenellä on parhaat datan analysoijat -> kilpailuetu

3) Mikä on kohderyhmä? Mitä he ymmärtävät?
4) Miten tehdään bisnestä? (tai nimeä, tai whatever)

1) Eniten ja tarkinta dataa on erittäin todennäköisesti joukkueilla itse, mikäli he vain tähän puoleen haluvat panostaa. Etu tulee jo siitä, että joukkueilla on yksinkertaisesti parhaat mahdollisuudet kerätä dataa, jota ei ole julkisesti saatavilla. Tästä esim. useiden kameroiden varassa olevat tietojärjestelmät, jotka rekisteröivät jokaisen kentällä olevan pelaajan liikkeet ja sijainnin pelin jokaisella hetkellä. Joukkueilla ei luonnollisestikaan ole hirveästi syytä luovuttaa vaivalla hankkimaansa dataa muille, joten muutamia yksittäisiä tiedonjyväsiä lukuunottamatta tämä data jää käytännössä kokonaan pimentoon ulkopuolisille.

2) Parhaat datan analysoijat löytyvät erittäin todennäköisesti akselilta joukkueet-vedonlyöntifirmat-harvat yksityiset ihmiset (esim. vedonlyöjät). Heillä on yksinkertaisesti joukkona tähän suurin motivaatio, eikä heillä ole oikeastaan mitään intressiä paljastaa hankkimastaan tiedosta mitään, koska se aiheuttaisi heille menetettyä kilpailuetua. Jos muista tahoista kuten media, bloginpitäjät, innokkaat harrastajat ym. nousee hyviä analyytikkoja, he usein päätyvät töihin em. akselille, tai löytävät taidoilleen muuta tuottavaa käyttöä mikä taas vähentää heidän käytettävää aikaansa urheilutilastojen analysointiin.

3) Kun ruvetaan miettimään kohderyhmiä, niin tullaan oikeastaan siihen syyhyn, miksi medialla tai vastaavilla on harvoin tilastojen puolelta tarjottaavaa ryhmille 1 ja 2. Hyvin harva ihminen oikeasti a) on kiinnostunut, b) kykenee ymmärtämään metodit, c) kykenee ymmärtämään kontekstit tarpeeksi, jotta heille kannattaa tuottaa kallista ja aikaavievää tilastoanalyysia. Huomattavan paljon helpompaa ja halvempaa on suoltaa ulos liukuhihnalta kaikennäköistä sontaa ja "pseudotilastoa", mistä tässäkin ketjussa nimim. hamahakkimies on meille poiminut karmeimpia esimerkkejä.

4) Kts. edellinen. ESPN tai vastaava tuskin pystyy merkittävilläkään lisäpanostuksilla analyysiin (ja sen perusteella kirjoitettuihin artikkeleihin) tekemään enemmän voittoa - todennäköisesti päinvastoin. Suurilla massoilla on yleensä jonkinlainen "numeroallergia" ja kovinkaan moni sen edustajista ei halua - eikä pidäkään - käyttää vapaa-aikaansa tällaiseen heille "turhaan ja triviaaliin" harrastukseen. Pienelle kohderyhmälle suunnatut palvelut kuten tilastoihin keskittyvät sivustot ja blogit tuskin myöskään kannattavat taloudellisesti kovin hyvin, ja tästä johtuen heillä ei todennäköisesti edes ole kunnollisia resursseja tuottaa laadukasta tilastopainotteista sisältöä - vaikka halua ja osaamista saattaisi ollakin.

Joukkueiden ym. kohdissa 1 ja 2 mainittujen tahojen business taas perustuu näiltä osin käytännössä yksinomaan tiedon salaamiseen eikä sen julkistamiseen.

Summa summarum:

He keillä onn... tietoa on, he tiedon kätkeköön. Vaikka sinänsä paljon ennen keräämätöntä tai julkaisematonta tilastodataa on tullutkin viime vuosikymmenen aikana kaikille saataville, joudumme me muut todennäköisesti tyytymään vielä ainakin lähitulevaisuudessa pääasiassa sekundaluokan tilastoihin ja niistä tehtyihin juttuihin. Tämä siis ainakin jos mietitään menneiden tapahtumien sijasta sitä, kuinka hyvin tilastojen avulla pystytään ennustamaan tulevaa.

Ne ihmiset, joita tilastot kiinnostavat, harmittelevat toistaiseksi niiden huonoutta ja soveltumattomuutta kun taas ne, jotka tilastoja ja numeroita vihaavat, saavat hyviä syitä lytätä koko suuntaus naurettavana paskana ;D
 
Viestejä
7 503
Vs: Mielenkiintoisia NBA-tilastoja

Hyviä (ja ehkä jo aiemmin hyväksihavaittuja) pointteja.

Jotenkin noinhan tuo vissiin menee; tiedon haltijoilla ei ole mitään kannustinta jakaa tietoaan ilmaiseksi ja toisaalta medialla ei ole mitään kannustinta tehdä analyysejään oikein/paremmin/edes jotenkin kunnolla, niin kauan kuin lukijat/fanit eivät niitä osaa arvostaa/halua niistä maksaa.

En kuitenkaan yhdy oletukseesi, että tilastollisten analyysien ammattilaiset jotenkin vääjäämättä ajautuisivat vedonlyöntifirmoille tai koripalloseuroille hommiin ja lakkaisivat tuottamasta julkista tietoa. Tietenkin tällaisia tapauksia on paljon (ja koripalloseurojen kirjatessa tilastoammattilaisia tästä usein tehdään jopa iso numero), mutta oikeasti maailma on erilaisia tieteen ja tilastotieteen ammattilaisia väärällään. Osa tästä porukasta jopa niin kiinnostunutta koripallosta, että pitää blogia tms. ja julkaisee tuloksiaan oikeiden päivätöidensä ohessa. Valitettavasti nämä "oikeat ammattilaiset" jäävät aina julkisuutta ja klikkauksia kahmivien median tavoitteiden mukaisesti tyhmennettyjen (ellei jopa alunperinkin tyhmien) hollingerien ja wagesofwinsien muka-analyysien jalkoihin.

Hyvinä vastaesimerkkeinä haluaisin mainita tässäkin topikissa aiemmin mainitun Sportskepticin Dr. Alex Konkelin ja (ainakin tämän seuraavan linkin perusteella ihan fiksun) Kevin Draperin.



Kerrankin tilastollinen analyysi, jossa rehellisesti myönnetään, että kahden tarkasteltavan muuttujan välillä ei oikeasti ole mitään riippuvuutta.

http://wagesofwins.com/2012/10/24/what-would-happen-if-they-shot-more/

Huomatkaa myös jälleen kerran p€r$iilleen päätelty johdanto, joka on ilmeisesti WoW-sivuston omien tyyppien käsialaa: "it doesn’t appear that players changing their shot attempts has a major impact on their shooting efficiency!"

Tätähän tuosta aineistosta ei voida päätellä.

Aineiston perusteella pelaajien heittoyritysten ja TS%:n ("tosiheittoprossa", joka yhdistää eri tyyppisten heittojen onnistumisprosentit painottamalla niistä saatavilla pisteillä) ei ole tilastollista riippuvuutta. Sama pätee ko. muuttujien arvojen muutoksiin kahden kauden välillä.

Havainnot perustuvat siis historiadataan, jossa suuri joukko pelaajia on ottanut heittoja niin paljon kuin niitä on heille kulloisessakin joukkueessa siunaantunut (muut pelaajat, pelityyli, valmentajan vaikutus jne.).

Oikea päätelmä on siis: on olemassa hyviä heittäjiä, jotka heittävät paljon/vähän, ja huonoja heittäjiä, jotka heittävät paljon/vähän. Tämän seurauksena heittomäärät ja heittotarkkuus eivät korreloi keskenään. Vastaavasti pelaajien heittomäärät ovat kausien pelaajasta ja terassikaudesta riippuen kasvaneet/vähentyneet. Tällä ei ole suoraa riippuvuutta pelaajan tulevan kauden heittotarkkuuteen.

Tämä ei ole sama asia kuin se, että "pelaaja yhtäkkiä muuttaa heittoyritystensä määrää" ("change their shot attempts") -- yksipuolisesti ja muusta joukkueesta välittämättä. Tarkastellusta aineistosta ei siis voida päätellä, että kuka tahansa pelaaja voi vain alkaa kiskoa palloa ilmaan ja luottaa siihen, että heittoprossa pysyy entisellään!
 
Viestejä
2 913
Vs: Mielenkiintoisia NBA-tilastoja

hamahakkimies sanoi:
tiedon haltijoilla ei ole mitään kannustinta jakaa tietoaan ilmaiseksi

En olisi tästä ihan varma, kuvassahan on nimittäin mainittujen joukkueiden ja vedonlyöntitoimistojen lisäksi yksi muu toimija eli itse liiga. Käsitykseni mukaan sen intressi on tarjota tietoa mahdollisimman paljon avoimesti.

Ensinnäkin liiga toimii joukkueiden edun mukaisesti siltä osin, että se pyrkii vähentämään tarvetta joukkueiden omalle tilastoinnille. Jos kaikki joukkueet tekevät samoja tilastoja, on paljon tehokkaampaa, että ne tehdään kootusti molempien joukkueiedn käyttöön kuin että molemmat tekisivät ne itse. Tietysti joukkueilla voi olla tämän perustiedonkeruun lisäksi vielä jotain omia keinojaan käytössä, mutta uskoisin näiden leviävän varsin nopeasti joukkueelta toiselle ja sen myötä myös yhteiseen tiedonkeruuseen.

Nyt kun liiga kontrolloi tiedonkeruuta, pitää sen päättää, kuinka paljon se tarjoaa sitä avoimesti kaikkien käyttöön. Tässä esiin nousevat taloudelliset intressit. Vedonlyöntitoimistot ovat isoja markkinointiyrityksiä ja niiden kautta liikkuu paljon urheilun rahaa. Tältä osin välit niihin kannattaa pitää aina hyvinä. Tämä puoltaa tiedon luovuttamista vedonlyöntietoimistoille. Toisaalta yleisön kannalta ei olisi hyvä tilanne, että vedonlyöntiyritykset saisivat enemmän tietoa käyttöönsä kuin suuri yleisö, joten sama tieto kannattaa laittaa samantien jakoon laajemminkin.

Jään siis odottamaan todisteita siitä, että joukkueilla on otteluista huomattavasti suurta yleisöä enemmän raaka-aineistoa käytettävissään, jotta voin haavoja nuollen huomata erehtyneeni maailman menosta jälleen kerran.

En kuitenkaan yhdy oletukseesi, että tilastollisten analyysien ammattilaiset jotenkin vääjäämättä ajautuisivat vedonlyöntifirmoille tai koripalloseuroille hommiin ja lakkaisivat tuottamasta julkista tietoa.

Kysymys ei olekaan siitä, että osaaminen painottuisi suurelta osin joukkueiden ja vedonlyöntitoimistojen taustalle. Kysymys on siitä, että analyysiin käytettävissä oleva aika painottuu näille. Tämän vuoksi julkisesti saatavilla oleva tieto voi olla yhtä hyvästä lähtöaineistosta huolimatta merkittävästi heikompaa / pinnallisemmin analysoitua.

Tietysti aina on olemassa poikkeuksia, joissa joku osaava tilasto-niilo käyttää paljon aikaansa analyysin tekemiseen, mutta uskoisin erojen vahvistuvan erityisesti yksittäisen ottelun analysoinnissa. Harrastajien kiinnostus kohdistuu yleensä pitkiin aikasarjoihin ja näistä muodostuviin trendeihin / sääntöihin, kun taas ammattilaiset ovat enemmän kiinnostuneita yksittäiseen otteluun liittyvästä analytiikasta.
 
Viestejä
402
Vs: Mielenkiintoisia NBA-tilastoja

hamahakkimies sanoi:
...
En kuitenkaan yhdy oletukseesi, että tilastollisten analyysien ammattilaiset jotenkin vääjäämättä ajautuisivat vedonlyöntifirmoille tai koripalloseuroille hommiin ja lakkaisivat tuottamasta julkista tietoa. Tietenkin tällaisia tapauksia on paljon (ja koripalloseurojen kirjatessa tilastoammattilaisia tästä usein tehdään jopa iso numero), mutta oikeasti maailma on erilaisia tieteen ja tilastotieteen ammattilaisia väärällään. Osa tästä porukasta jopa niin kiinnostunutta koripallosta, että pitää blogia tms. ja julkaisee tuloksiaan oikeiden päivätöidensä ohessa. Valitettavasti nämä "oikeat ammattilaiset" jäävät aina julkisuutta ja klikkauksia kahmivien median tavoitteiden mukaisesti tyhmennettyjen (ellei jopa alunperinkin tyhmien) hollingerien ja wagesofwinsien muka-analyysien jalkoihin.
...

On toki olemassa paljon kovia tilastotieteen ammattilaisia, jotka ovat kiinnostuneita koripallosta ja soveltavat myös ammattiosaamistaan sen seuraamiseen ja kenties kirjoittavatkin siitä jotakin.

Pysyn kuitenkin edelleen kannassani, että sellaisia ihmisiä on verrattain harvassa, joilla on sekä:
a) määrällisesti ja laadullisesti tarpeeksi dataa,
b) aikaa ja resursseja murskata datasta analyysia,
c) kykyä tuottaa laadukkaampaa analyysia, mitä nyt on julkisesti tarjolla
ja
d) halua tarjota muille tätä tietoa.

Tilastotieteen huippuammattilaisille on kyllä kysyntää sen verran rahakkaissa hommissa, että hirveän paljon omaa aikaansa ei monikaan halua varmasti tähän käyttää, niin kuin Herbertkin edellisessä viestissään kirjoitti. Ja jos uusia huippuammattilaisia nousee jostakin ryhmistä, niin heistä kilpailevat kyllä muutkin kuin vain NBA-joukkueet ja vedonlyöntifirmat, sillä heidän osaamisensa todennäköisesti taipuu moneen muuhunkin tarkoitukseen kuin urheilun analysoimiseen. Juuri tätä yritin tuoda esille, kun alkup. viestissäni sanoin heidän "löytävän taidoilleen muuta tuottavaa käyttöä". Asiaan löyhästi liittyvänä anekdoottina esim. itsekin tunnen pari kaveria, jotka hieman vastaavia asioita käsitelleillä väikkäreillään mukavasti siirtyivät eturivin kv. konsulttifirmojen palvelukseen, vaikkei heille mitään työnkuvaa tai tehtävää edes kukaan Suomessa heitä haastatellut pystynytkään oikein antamaan.

Olet varmasti myös oikeassa siinä, että jos tai kun näitä huippuluokan tietoa jakavia tyyppejä löytyy, niin he valitettavasti useimmiten hukkuvat sinne informaatiotulvan sekaan - varsinkin kun meille lähes- tai täysmaallikoille eri näkemysten arvottaminen näissä asioissa on useimmiten haastavaa ääripäitä lukuunottamatta.
 
Viestejä
402
Vs: Mielenkiintoisia NBA-tilastoja

Herbert sanoi:
En olisi tästä ihan varma, kuvassahan on nimittäin mainittujen joukkueiden ja vedonlyöntitoimistojen lisäksi yksi muu toimija eli itse liiga. Käsitykseni mukaan sen intressi on tarjota tietoa mahdollisimman paljon avoimesti.

Ensinnäkin liiga toimii joukkueiden edun mukaisesti siltä osin, että se pyrkii vähentämään tarvetta joukkueiden omalle tilastoinnille. Jos kaikki joukkueet tekevät samoja tilastoja, on paljon tehokkaampaa, että ne tehdään kootusti molempien joukkueiedn käyttöön kuin että molemmat tekisivät ne itse. Tietysti joukkueilla voi olla tämän perustiedonkeruun lisäksi vielä jotain omia keinojaan käytössä, mutta uskoisin näiden leviävän varsin nopeasti joukkueelta toiselle ja sen myötä myös yhteiseen tiedonkeruuseen.

Nyt kun liiga kontrolloi tiedonkeruuta, pitää sen päättää, kuinka paljon se tarjoaa sitä avoimesti kaikkien käyttöön. Tässä esiin nousevat taloudelliset intressit. Vedonlyöntitoimistot ovat isoja markkinointiyrityksiä ja niiden kautta liikkuu paljon urheilun rahaa. Tältä osin välit niihin kannattaa pitää aina hyvinä. Tämä puoltaa tiedon luovuttamista vedonlyöntietoimistoille. Toisaalta yleisön kannalta ei olisi hyvä tilanne, että vedonlyöntiyritykset saisivat enemmän tietoa käyttöönsä kuin suuri yleisö, joten sama tieto kannattaa laittaa samantien jakoon laajemminkin.

Jään siis odottamaan todisteita siitä, että joukkueilla on otteluista huomattavasti suurta yleisöä enemmän raaka-aineistoa käytettävissään, jotta voin haavoja nuollen huomata erehtyneeni maailman menosta jälleen kerran.

NBA ja muutamat muut toimijat keräävät varmasti kyllä paljon dataa ja jakavatkin sitä joukkueille ja suuren osan myös julkisuuteen.

Muista sidosryhmistä kuten vedonlyöntilafkoista en osaa tarkemmin sanoa, mutta näin yleensä ottaen urheiluvedonlyönnin juridinen asema on Yhdysvalloissa monella tapaa ongelmallinen. Esim. nettipelaaminenhan on teknisesti siellä laillista, mutta toistaiseksi esim. varojen siirtely tätä tarkoitusta varten on siellä lailla kielletty - ja pankit ym. tätä kieltoa siellä kovien sanktioiden pelossa kyllä käsittääkseni myös sangen tiukasti valvovat.

Kaikille julkisen tiedon ja vain esim. seuroille tarkoitetun datan lisäksi seurat hieman vaihtelevin painotuksin myös keräävät käsittääkseni vielä omaakin dataa. Tässä esim. yksi artikkeli, joka hieman asiaa valottaa: http://www.fastcodesign.com/1670059/moneyball-20-how-missile-tracking-cameras-are-remaking-the-nba

Artikkeli koskee pääasiassa systeemiä nimeltä SportVU. Systeemiä tarjoava firma on toistaiseksi tehnyt sopimuksen 10 eri joukkueen kanssa. Ainakin tässä kohtaa olet oikeassa tiedon jakamisesta NBA:n sisällä, sillä seurat ovat kyllä tehneet keskenään informaationjakosopimuksen raakadatasta. Se, miten eri seurat tätä tietoa sitten hyödyntävät, on kaiketi varsin salaista puuhaa ja ainakaan suurella yleisöllä ei näihin tietoihin ole asiaa - eli ainakin tässä kohtaa informaatio on sangen epäsymmetristä.

Tässä vielä kiinnostuneille myös sangen kattava (vaikka kaiketi jo vähän vanhentunut) opus datan louhinnasta urheilussa: http://ai.eller.arizona.edu/mis510/other/SportsDataMining_Book.pdf
 
Viestejä
7 503
Vs: Mielenkiintoisia NBA-tilastoja

Joitain kauniita ideoita ja ajatuksia. Ja sitten rekkalastillinen aivan karmeaa kräppiä.

http://wagesofwins.com/2012/10/30/the-full-monty-win-predictions-for-the-2012-13-nba-season/

Teoriassa joukkueiden tulevien suoritusten ennustaminen pitäisi tehdä jotenkin näin: Ketkä pelaavat? Paljonko pelaavat? Kuinka hyvin pelaavat? Voidaanko yksilösuoritusten ennusteet koota jonkinlaiseksi joukkuetason ennusteeksi? Mitä joukkueiden voimasuhteet sanovat joukkueiden tulevistä rekordeista?

Mutta tässä artikkelissa mennään pahasti pieleen.

Niksi-hamis: Monimutkaista ja yltiömatemaattisen oloista kirjoitusta lukiessa kannattaa aina tsekata ne yksityiskohdat, joista voi sanoa itsekin tietävänsä jotain. Tämä ei ole mikään universaali nyrkkisääntö, sillä joskus korkeamman tason mallintaminen edellyttää jonkinlaisia kompromissia alemman tason yksityiskohtien osalta, mutta usein "niiden tuttujen juttujen" perusteella voi ainakin saada jotain tuntumaa siihen, missä mennään.

Esimerkki-hamis: Itse olen seurannut melko paljon Dallas Mavericksia (mm. katsonut kahden viime kauden kaikki matsit ja lukenut kaiket terassikaudet spekulaatioita joukkueen tulevasta kokoonpanosta jne.).

Linkin artikkelissa Mavsille ennustetaan sijoitusta 13./15 Lännessä.

"Hmmm, no onhan Mavs mennyt kesällä taaksepäin, joten pleijariputki voi olla oikeasti katkolla, mutta tuo kuulostaa jo aika hurjalta. Mistäköhän ennuste on peräisin?"

Esitetty malli ennustaa Nowitzkille 20 mpg -keskiarvoa.

"Hmmm, no onhan se loukkaantuneena ja vanhentunut, joten ehkä toi voisi olla joku 'loukkaantumisen huomioiva ennuste' tai jotain?"

Itse asiassa loukkaantumisen huomioiden Nowitzkin tulevan kauden kontribuutioksi lasketaan 15 mpg. Viisitoista minuuttia per ottelu!!!

"Oho."



Sitten tämän minuuttien täysin mielivaltaisen allokaation jälkeen mössöön lyödään päälle perinteiset WP48-ennusteet ja arvio siitä, että Miami voittaa Denverin Finaaleissa 4-1.

Huomatkaa myös sivuston jatkuva George Karlin mollaaminen, jonka motivaationa on se, että kaveri ei jaa pelaajilleen minuutteja kuten WoW-sivuston mielivaltainen WP48-metriikka sanelisi.
 
Viestejä
7 503
Vs: Mielenkiintoisia NBA-tilastoja

Joku huomautti Arturo Gallettille tämän edellisessä poustauksessa olleesta virheestä, joten kaveri laski kaikki ennusteensa uusiksi,

http://wagesofwins.com/2012/10/31/nba-win-predictions-for-2012-13-volume-2-the-hand-crafted-edition/

Nowitzki pelaa edelleen 20 mpg, eikä hommassa ole yhtään enempää tolkkua.

Päinvastoin.

Pudotuspeliennusteisiin on nimittäin lisätty täysin mielivaltaisia "veteraaneille menevät vihellykset"- ja "parempi valmentaja"-korjaukset, joiden avulla Finaaleihin saadaan kirjoittajaa miellyttävämmät joukkueet. (Luonnollisesti George Karlia taas lytätään.)

Ei näin.

Eijjumalauta näin.
 
Viestejä
7 503
Vs: Mielenkiintoisia NBA-tilastoja

Otetaan tämä kirjeenvaihto tännekin talteen:

Gheorghe sanoi:
En jaksa guuglettaa, lasketaankohan plus-miinus-tilastoista jotain ennätyksiä? Tuli vaan mieleen, kun huomasin Dahntay Jonesin edustaneen hienosti Dallasia kahdeksan minuutin ajan, jolloin joukkue otti pataan 25 pistettä. Käytännössä ottelu ratkesi tuon kahdeksan minuutin aikana.

Toinen kiinnostava +- oli Zach Randolphin esitys sinänsä melko tiukassa Memphis-Clippers-matsissa. 40 minuuttia peliaikaa, plusmiinuslukema -25.

Gheorghe sanoi:
En jaksa guuglettaa, lasketaankohan plus-miinus-tilastoista jotain ennätyksiä? Tuli vaan mieleen, kun huomasin Dahntay Jonesin edustaneen hienosti Dallasia kahdeksan minuutin ajan, jolloin joukkue otti pataan 25 pistettä. Käytännössä ottelu ratkesi tuon kahdeksan minuutin aikana.

Toinen kiinnostava +- oli Zach Randolphin esitys sinänsä melko tiukassa Memphis-Clippers-matsissa. 40 minuuttia peliaikaa, plusmiinuslukema -25.
Basketball-reference.com auttaa tyyliin aina:

Paras: http://bkref.com/tiny/ifSwF

Paras per 48 minuuttia (väh. 10 minuuttia pelattu): http://bkref.com/tiny/ks5lt

Huonoin: http://bkref.com/tiny/XtRLN

Huonoin per 48 minuuttia (väh. 10 minuuttia pelattu): http://bkref.com/tiny/uYSml

(En valitettavasti osaa sanoa, kuinka pitkältä ajalta tuota plus-miinus-dataa on kerätty.)
 
Viestejä
9 123
Vs: Mielenkiintoisia NBA-tilastoja

http://www.nba.com/heat/news_recap/lebron-james-clutch

James' performance Thursday night comes on the heels of fascinating research from Heat.com's Couper Moorhead that showed that James might be the most clutch player in the NBA. Moorhead found that in the 369 minutes of clutch time that James has played with the Heat (regular season and playoffs), he leads the NBA with a player efficiency rating of 34.8. No one can top that. That's even better than his production in non-clutch situations.
 
Viestejä
7 503
Vs: Mielenkiintoisia NBA-tilastoja

Hollingerin PER-statistiikan kritiikkinä: "Mitä mieltä olette tästä NBA:n parhaimpien pelaajien listauksesta?"

Hollinger%20PER%2019.11.2012.png

http://insider.espn.go.com/nba/hollinger/statistics

Myönnettäköön, että Top 5:ssä on kyllä ihan kovia nimiä, mutta silti itselläni ainakin viiltävät silmään mm. Kyle Lowryn piikkipaikka, Jimmer Top 6:ssa ja trio Brook Lopez - Anthony Davis - JaVale McGee Top 10:ssä!!!

Luonnollisesti kauden näin varhaisessa vaiheessa, kun peleistä on pelattu vasta 11.79%, väite "Jimmer > Durant" menee pienen otoskoon piikkiin. Tämä sama ongelma on hyvä muistaa myös noita "clutch-statistiikkoja" tarkasteltaessa: 369 minuuttiakin on oikeasti tässä yhteydessä vielä hyvin pieni otos (vrt. ylläolevan listan minuutit).
 
Viestejä
9 123
Vs: Mielenkiintoisia NBA-tilastoja

369 minuuttia sisältää kuitenkin kaksi kokonaista kautta pudotuspeleineen, joissa Miami meni tappiin saakka molempina vuosina. Jos kaksi kokonaista kautta on tilastollisesti pieni otos, niin olkoon sitten niin.
 
Viestejä
7 503
Vs: Mielenkiintoisia NBA-tilastoja

King James sanoi:
369 minuuttia sisältää kuitenkin kaksi kokonaista kautta pudotuspeleineen, joissa Miami meni tappiin saakka molempina vuosina. Jos kaksi kokonaista kautta on tilastollisesti pieni otos, niin olkoon sitten niin.
Kaksi kokonaista kautta (82 * 48 = 3926 minuuttia plus pudotuspelit) ≠ kahden kokonaisen kauden matsien viimeiset viisi(?) minuuttia niistä matseista, joissa piste-ero ei ylitä jotain mielivaltaisesti asetettua raja-arvoa (yhteensä 369 minuuttia).

Tähän aineiston harventamiseen pätee aivan sama logiikka kuin esimerkiksi DeSagana Diopin vapareihin: kaverin kahden viimeisen kauden vaparit muodostavat tilastollisesti pienen otoksen, vaikka kyseessä kuitenkin on "kaksi kokonaista kautta!1!"

(Oikeasti mielenkiintoinen tilasto: 5/17 = 29,4%.)
 
Viestejä
9 123
Vs: Mielenkiintoisia NBA-tilastoja

Muotoillaan asia sitten näin. Lebron James on ollut NBA:n clutchein pelaaja viimeiset kaksi kautta. Michael Jordan oli varmasti kova jätkä 90-luvulla, mutta yli kahteen vuoteen kukaan ei ole ollut LeBronia parempi.

Ja clutchin määritelmän ajallisesti voi LeBronin osalta pilkkoa ihan mihin tahansa minuuttimäärään viimeisen neljänneksen osalta. 12 minuuttia tai 2 minuuttia, it does not matter. LeBron #1 Clutch Player in NBA.
 
Jotta voit kirjoittaa viestejä, sinun täytyy rekisteröityä foorumille. Rekisteröityminen on ilmaista, helppoa ja nopeaa. Rekisteröidy tästä.
Ylös