Rss

  • linkedin

Archives for : Todennäköisyydet

Jalkapalloanalytiikan kulta-aikaa

group watching football matchNäin jalkapallon MM-kisojen kynnyksellä elämme analytiikan kulta-aikoja. Ihmiset laidasta laitaan kiinnostuvat analysoimaan jalkapallojoukkueita ja yrittävät löytää taikakaavaa voittajan ennustamiseen. Työyhteisöjen kisaveikkaukset saavat harvemminkin urheilua seuraavat sukeltamaan hetkeksi veikkausten ihmeelliseen maailmaan. Mutta tästä lisää kirjoituksen lopussa. Katsotaan kuitenkin ensin, kuinka mediassa taho jos toinenkin on valjastanut tilapäisen analytiikkainnostuksen huomion keräämiseen.

Kosmofyysikko jalkapallon pauloissa

Tässä artikkelissa fyysikko Stephen Hawking kokeilee siipiään tilastotieteilijänä analysoimalla Englannin menestymismahdollisuuksia edellisten maailmanmestaruuskisojen perusteella. Hänen tutkimustuloksensa paljastaa mm. seuraavaa Englannin menestymiseen liittyen:

  • Englannin kannattaa käyttää punaisia paitoja valkoisten sijaan
  • Taktiikka ”4-3-3” toimii taktiikkaa ”4-4-2” paremmin
  • Eurooppalainen tuomari parantaa voittotodennäköisyyttä eteläamerikkalaiseen verrattuna
  • Korkealla pelaaminen murskaa Englannin voittomahdollisuudet

Olipa Hawkingin saavutukset fysiikan saralla kuinka kovat tahansa, niin tilastotieteilijänä on vielä petraamisen varaa. Jo tuon lehtiartikkelin perusteella hän onnistuu sortumaan useaan aloittelijan virheeseen analyysissaan. Toki näiden lehtijuttujen ensisijainen tarkoitus on tarjota vain ”höpöhöpö”-viihdettä, mutta koska juttuun on sotkettu oikea tiedemies, yritetään avata joitain ilmenneitä hämäryyksiä ja selviä virheitä:

  1. Valikoitu aineisto? Aineistona on MM-vuodesta 1966 lähtien. Miksi juuri tähän on aineisto rajattu? Eihän vaan Englannin kotikisoilla 1966 ole jotain tekemistä ”valinnan” kanssa?
  2. Aineiston käyttökelpoisuus?”Logistinen regressio” on varsin etevä analyysityökalu monien todennäköisyyksien mallintamiseen, kun aineistona on nykyhetkenkin populaatiota kattavasti kuvaava satunnaisotos. Kuinka hyvin 1960-luvun joukkue tai MM-kisat ylipäätään kuvaa nykypäivän joukkuetta tai kisoja?
  3. Aineiston koko? Tutkimuksessa on mukana kokonaista 12 turnausta (kisojen lukumäärä vuodesta 1966 alkaen). Jos Englanti pelaisi keskimäärin 5 ottelua turnauksessa, olisi tutkimuksen otoskoko 60. Aineiston riittävyys luotettaviin päätelmiin riippuu paljon siitä, kuinka montaa eri muuttujaa on tarkoitus tutkia. Jos huomioidaan vaikka pelkästään mainitut kolme luokittelevaa tekijää (puna/valkea pelipaita, ”4-3-3″/”4-4-2” taktiikka, eurooppalainen/etelä-amerikkalainen tuomari), jakautuu aineisto 2 * 2 * 2 = 8 osaan. Jokaiseen osioon jää siis keskimäärin 60 / 8 = 7.5 havaintoa. Pelipaidan väri tuskin on kuitenkaan ollut tutkimuksen pääkohde vaan haiskahtaa, että tässä on tutkittu lisäksi hyvin monia muitakin muuttujia, mutta nämä ovat nyt tällä kertaa sattuneet putkahtamaan esiin.

Tutkimuslöydöksiin liittyvästä epävarmuudesta ei artikkelissa puhuttu mitään, mutta ei tarvitse olla Einstein (Hawkingin esikuva) arvatakseen, ettei se taida kestää päivänvaloa.

Jalkapallovedonlyönti – kuin rahaa laittaisi pankkiin?

Toinen vastaantullut yritys on maailman mahtipontisimman pankin Goldman Sachs tekemät ennusteet. Tässä tutkimuksessa on päästy eroon monista Hawkingin ongelmista ottamalla mukaan kaikki muutkin maaottelut kuin MM-kisat lähes sadan vuoden aikana. Joukkueiden tasoerojen muutoksia on pyritty kontrolloimaan edeltävien pelien avulla automaattisesti joukkeiden taitotasoa pisteyttävällä ELO-menetelmällä. Lisäksi tutkimuksessa on pelipaitojen värin sijaan keskitytty oleellisiin muuttujiin.

Koneisto antaa paljon ihan uskottavan suuruisia arvioita, mutta esim. Brasilia saa pelottavan suuria todennäköisyyksiä: tutkimuksen mukaan Brasilia tulee voittamaan kotikisansa 50% todennäköisyydellä. Tutkijat lopussa myöntävätkin, että heidän käyttämämä ELO-pisteytys korostaa mahdollisesti liikaa aivan viimeisiä tuloksia ja Brasilialla sattuu olemaan juuri nyt alla suurinumeroiset voitot kovista maista viime kesältä( 3-0 vs. Espanja ja 4-2 vs. Italia). Lisäksi tutkimuksen mallissa on suuri painoarvo MM-kisojen kotiedulla, minkä voisi epäillä hieman laimenneen historian saatossa, vaikka 1930-1970-luvuilla nähtiinkin paljon kotimestaruuksia.

football bet slipKyseessä on sinällään mielenkiintoinen ja kunnianhimoinen yritys mallintaa tilastollisin menetelmin todennäköisyyksiä ilman syvällistä jalkapallo-osaamista. Tutkijat oikeaoppisesti myös testaavat menetelmän tomivuutta vuoden 2010 kisojen otteluihin ennen sitä tunnettujen tietojen avulla ja tulevat siihen lopputulokseen, että sattumalla on hyvästä analyysista huolimatta suuri vaikutus lopputuloksiin. Firman kannattaa siis edelleen keskittyä jauhamaan rahaa pankkibisneksillään. Internetin vedonlyöntimarkkinoilla vahvimmilla ovat ne, jotka historiadatan hallitsemisen lisäksi osaavat muuttaa numeroiksi yksittäisten pelaajien taitotasot ja joukkueen pelitaktiikan sekä yhteensopivuuden vastustajan taktiikkaa ja pelaajia vastaan. Nykypäivänä menestyvä vedonlyönti on siis yhdistelmä pitkälle vietyä lajituntemusta ja tilastotiedettä.

Itselläni ei futistietämys riitä vedonlyöntimarkkinoilla riittävän hyvään todennäköisyyslaskentaan, mutta sen sijaan osaan hyödyntää joitain vedonlyöntimarkkinoilla olevia tehottomuuksia. Näistä kiinnostuneiden kannattaa olla hereillä Twitterissä lähipäivinä.

Statistickon steesi:

  • Tilastomenetelmien turvallinen käyttö vaatii tutkittavan aiheen sisältöosaamista ja aineiston soveltuvuuden kriittistä arviointia

Bonussteesit työporukkaveikkauksiin (ei vielä tieteellisesti todistettuja):

  • Maalien tarkkuudella annetuissa tulosveikkauksissa yllätykset osuvat liian harvoin. Todennäköisin lopputulos on yleensä aina ’1-1’, mikäli ottelu on vähääkään tasaväkinen. Jos toinen joukkue on selvä suosikki, kannattaa veikata ’1-0’ ja murskasuosikille ’2-0’
  • Kannattaa valita yksi ”idea-joukkue”, jolla on hyvät mahdollisuudet päästä pitkälle, mutta jota muut kisan veikkaajat eivät ehkä osaa arvata.  Nyt potentiaalinen musta hevonen voisi olla jokin vähemmän tunnettu Etelä-Amerikan maa kuten Uruguay, Kolumbia tai Chile.
  • Pääasiassa kannattaa suosia todennäköisiä menestyjiä ja lopputuloksia, mutta pelkkiä yleisiä suosikkeja veikkaamalla on vaikea nousta veikkauksen kärkiryhmästä voittajaksi.  Sen takia voittaja tarvitsee ripauksen tuuria ”idea-joukkueensa” onnistumisen muodossa.
Facebooktwitterredditpinterestlinkedinmail

Tuurin alkulähteillä

Past Vs Future Dice Today Tomrrow Comparison Betting GambleKirjoitus on julkaistu myös Louhia-blogissa 9.5.2014.

Tilastotieteeseen perustuva analytiikka on jollain tapaa säännönmukaisuuksien ja sattuman erottelua toisistaan. Vastasyntyneen lapsen isää saattaa kiinnostaa, minkä tietojen avulla voidaan laskea lapselle odotettu pituus aikuisiässä (ohjatakseen ajoissa oikean urheilulajin pariin) ja millä todennäköisyydellä pituusennuste menee täysin pieleen. Pokerinpelaajaa saattaa kiinnostaa oliko turnauksen voitto pääosin vain tuurin ansiota vai oliko hän oikeasti muita parempi pelaaja.

Sattuman määrittelyä noppaleikein

Stokastiikka tarjoaa omat matemaattiset perusteet sattumalle, mutta mietitään mitä käytännössä sattuma tarkoittaa. Leikitään, että olemme heittämässä noppaa ja tavoitteenamme on saada heitettyä numero 6. Mietitään tavoitteen onnistumista heitettäessä neljältä eri korkeudelta.

Heitto Heittokorkeus Heittotyyli Todennäköisyys kuutoselle
1. 1 cm Täysin hallittu pudotus. Sattuma ei ehdi vaikuttamaan. 100%
2. 2 cm Halittu pudotus, jonka ilmavirta joskus kääntää väärään numeroon 75% (arvio)
3. 5 cm Suljetaan 2 numeroa pois heittämällä niin, että noppa pyörii vain yhteen suuntaan 25% (=1/4)
4. 100 cm Täysin sattumanvarainen 16.7% (=1/6)

Jossain välillä 5 cm – 100 cm olemme ylittäneet rajan, jonka jälkeen emme enää pysty heittotaidoilla vaikuttamaan kutosen ilmenemiseen. Ilmanvastuksen ja painovoiman vaikutus on sellainen, jota emme osaa hallita/laskelmoida, joten meidän näkökulmasta sattuma määrää täysin lopputuloksen. Todennäköisyysjakaumat määrittävät kuitenkin raamit, missä sattuma operoi. Tässä tapauksessa todennäköisyysjakauma sanoo, että kutonen tulee kerran kuudesta, eli todennäköisyys on 16.7%.

Näin saatiin hahmoteltua sattumalle (= tuurin/säkän vaikutus) käytännönläheinen määritelmä: Sattuma on informaatiota, jota ei tunneta. Kun noppa on pysähtynyt, tiedämme tuloksen eikä tulokseen ole enää sattumalla vaikutusta. Nopan ollessa ilmassa osa lopputuloksen informaatiosta on vielä tuntematonta. Sen määrä riippuu siitä, miltä korkeudelta kutosta yritetttiin tähdätä.

Sattuman tyypit

Tässä vaiheessa jakaisin sattuman vielä kahteen luokkaan.

B-luokan sattuma
Sattumaa, joka on jonkinlaisella tietotaidolla supistettaavissa. Esim. kohdan 2. nopanheitossa joku taitava heittämistä harjoitellut  taikuri saattaisi saavuttaa kutosen todennäköisyyden 98%, vaikka meillä  tavallisilla viskelijöillä se oli 75%.

A-luokan sattuma
Sattuma, josta ei millään päästä eroon vaikka käytettävissä olisi kaikki tämän hetken tietotaito ja teknologiat. Esim. noustaan Puijon torniin heittämään noppaa maahan, niin ei varmasti maailmasta löydy sellaista taikuria, joka pystyisi nostamaan kutosen todennäköisyyttä yli 16.7%:n. (Noppaan ei saa tehdä fyysisiä muutoksia.) Näin ollen kaikki heittoon liittyvä sattuma on A-luokan sattumaa.

Ennusteiden subjektiivisuusFrosch in Hand

Nyt olemme ehkä jo havainneetkin, että sattuma voi olla jossain määrin subjektiivinen (vaihtelee eri henkilöiden välillä) käsite. Havainnollistetaan sitä vielä seuraavalla esimerkillä:

Kolme henkilöä yrittää ennustaa (omilla tiedoilla, ilman netin tai TV:n apua), mikä on lämpötila Helsingissä seuraavana päivänä klo 12.

1. Eetu Extremeurheilija

Eetu on ollut onnettomuuden jäljiltä viimeiset puoli vuotta koomassa. Hän on juuri herännyt ikkunattomassa sairaalasssa. Eetulla onneksi aivot toimivat normaalisti, mutta hänellä ei ole minkäänlaista ajantajua edes vuodenajasta. Eetun tekee näillä tiedoilla parhaan mahdollisen arvauksen ja veikkaa edellisten vuosien arvioitua keskilämpötilaa +7 astetta. Eetu tosin tiedostaa, että arvauksessa on paljon epävarmuutta ja sattumalla on iso vaikutus siihen, kuinka lähelle ennuste osuu.

2. Pera Perustietäjä

Peralla ei ole käytössä analyysimenetelmiä, joista voisi olla hyötyä tarkkojen ennusteiden tekemiseen. Hän kuitenkin järkeilee, että peräkkäiset päivät ovat yleensä jossain määrin samankaltaisia. Omien tietojensa pohjalta hänen paras arvaus onkin tänään päivällä lämpömittarissa paistanut lukema +20.

3. Mauno Mallintaja

Mauno on maailman parhaimmistoon kuuluva metereologi. Hänellä on tiedossa ilmakehän muutoksien systematiikka ja hän osaa hyödyntää monimutkaista matematiikkaa sisältäviä malleja lämpötilojen ennustamiseen. Hän vastaa  ennusteeseensa perustuen +15 astetta ja osaa kertoa myös että 95% varmuudella lämpötila on välillä  +12 ja +18 astetta.

Katsotaan sitten todennäköisyysjakaumien avulla, miltä ilmiö nimeltä ”huomisen lämpötila” näyttää itse kunkin näkökulmasta. Näissä kuvioissa jakauman leveys kuvaa arvauksen liittyvää sattuman määrää ja toisaalta kuvion korkeus ennusteen hvyyyttä kyseisessä kohdassa.

Rplot_ennustajat

Maunon ennusteeseen liittyy pelkästää A-tyypin sattumaa, koska hänellä on käytössä kaikki tämän hetken tietotaito ja parhaat analyysimenetelmät. (Tilanne voi olla toinen esim. viiden vuoden päästä teknologian kehittyessä). Peralla ja Eetulla ennusteeseen liittyy A-luokan sattuman lisäksi B-luokan sattumaa. Osan Eetun B-luokan sattumasta Pera onnistui mallintamaan hyödyntämällä tietoa tämän päivän lämpötilasta. Peran B-luokan sattuman taas Mauno mallinsi pois hyödyntämällä tietoa ilmavirtojen liikehtimisestä. (Jäljelle jääneen sattuman määrä näkyy punaisen epävarmuusjakauman leveytenä.)

Seuraavana päivänä ennustuskisa ratkesi ja tulos oli 17 astetta. Lähimmäksi osui Mauno, mikä oli odotettavissakin. Tosin Perankin ennuste heitti vain 3 astetta. Mikäli muut eivät tietäisi Maunon metereologi-taustasta, saattaisi  hän helposti saada jälkipeleissä ”Hannu Hanhi” -lisänimen.

Statistickon steesit:

  1. Sattuma on tuntematonta informaatiota
  2. Sattuma voi olla osin subjektiivista
  3. A-luokan sattumaa ei voida poistaa millään tämän hetken tietotaidolla tai teknologialla. Teknologian ja tieteen kehitys voi kuitenkin ajan kanssa vähentää A-luokan sattumaa.
  4. B-luokan sattuma johtuu saatavilla olevasta informaatiosta, mitä ei olla hyödynnetty
  5. Tilastotieteen analyysimenelmät pyrkivät mallintamaan ilmiöiden B-luokan sattumaa ja löytämään todennäköisyysjakauman jäljelle jäävälle puhtaalle, ideaalitilanteessa A-luokan, sattumalle. Lopputuloksena saadaan yleensä ”mutu”-arvauksia huomattavasti parempia ennusteita ja arvioita niihin liittyvälle epävarmuudelle.
  6. Arkikielessä sattuman sijaan puhutaan hyvästä/huonosta tuurista
Facebooktwitterredditpinterestlinkedinmail