Rss

  • linkedin

Archives for : Todennäköisyydet

Todennäköisyyksien soveltamisen kolme eri maailmaa

Näin kesällä on lomakiireiden lomassa hyvä paikka tehdä itselleen pientä tilannekatsausta, mihin on työelämässä suuntaamassa ja miten tähän on päädytty. Julkaisin kaksi vuotta sitten vastaavan katsauksen ja siihen nähden nykyiseen tilanteeseen on tullut joitain muutoksia. Niin kuin kaksi vuotta merkkejä oli jo ilmassa, pokerin pelaaminen jäi reilu vuosi sitten pois lukujärjestyksestä. Yllättävämpi muutos on se, että yrittäminen on jäänyt taka-alalle ja olen pääasiassa palkkatyössä koska intressit kohtasivat niin hyvin Plus One Agencyn kanssa.

Olen huomannut, että omaan työhistoriani pohjalta todennäköisyyksien soveltamisen ympäristöt voisi jakaa kolmeen kategoriaan:

  1. Satunnaistettu kasino
  2. Ihmiset rajoitetussa toimintaympäristössä
  3. Vapaa maailma

1. Satunnaistettu kasino

Kasinossa kaikki tapahtumat ovat satunnaistettu niin hyvin, että lukion todennäköisyyslaskennan kurssin (mikä pelasti minut aikanaan kolikkopelihimolta) tiedoilla pääsee pitkälle. Laskutoimitukset ovat pääasiassa yksinkertaisia jako- kerto- ja potenssilaskuja. Esimerkiksi ruletissa, jossa on 37 mahdollista numeroa, yksittäisen numeron todennäköisyys on aina 1/37 = 2.7%. Riittävän satunnaistamisen ansiosta peräkkäiset numerot ovat toisistaan riippumattomia ja esim. todennäköisyys seuraavien kahden pyöräytysten ykkösille on 1/37 * 1/37 = 1/1369. Tämä on ylivoimaisesti helpoin ympäristö todennäköisyyksien soveltamiselle.

Omasta ”työhistoriasta” pokerinpelaaminen kuuluu todennäköisyyslaskennan osalta tähän kategoriaan. Toki pokeri on paljon myös psykologiaa, loogista päättelyä ja peliteoriaa, mutta tarvittavat todennäköisyyslaskut ovat pääosin simppeleitä: sinulla kädessä 4 pataa, jäljellä on vielä jossain 9 pataa ja näkemättä on vielä 44 korttia. Jos jakaja on suorittanut satunnaistamisen tarpeeksi hyvin, todennäköisyys että seuraavaksi kortiksi tärähtää pata on 9/44.

2. Ihmiset rajoitetussa toimintaympäristössä

Toisessa kategoriassa tutkitaan ihmisiä, mutta niiden toiminta on tarkkaan rajattua. Kaikilla toimijoilla on samat tavoitteet, toimintaa ohjaa tiukat yhteiset pelisäännöt ja tapahtumat ovat pääasiassa toisistaan riippumattomia.

Selkeä esimerkki on esim. urheilu ja minun tapauksessa vedonlyönti. Jos ottelumanipulaatiot ja motivaatiottomat ottelut jätetään laskuista, kaikilla on selkeä tavoite voittaa jalkapallo-ottelu kaikin keinoin. Turnauksien alkulohkojen viimeisiä otteluja lukuun ottamatta eri ottelut ovat myös toisistaan riippumattomia. Tämä on suuri ilo tilastotieteen menetelmiä soveltavalle, koska riippumattomuus on useissa menetelmissä oletuksena.

Oleellinen ero kasino-olosuhteisiin tulee siitä, ettei tarkkoja todennäköisyyksiä enää ole kellään tiedossa. Yksikään ammattivedonlyöjä ei tiedä kaikkia ottelun voimasuhteisiin liittyviä tekijöitä. On vain kehnoja ja vähemmän kehnoja arvauksia joukkueiden vahvuuksista juuri pelipäivänä. Vaikka meillä olisi timanttinen julkista informaatiota hyödyntävä malli, aina voi olla jollain tähtipelaajalla edellisenä yönä puhjennut flunssa, josta tietää toistaiseksi vain pelaaja itse. Vedonlyöntimarkkinoilla pärjäämiseen riittää, että omat todennäköisyysarvaukset ovat vähemmän huonoja kuin suurimalla osalla muista toimijoista.

Tähän kategoriaan kuuluu myös tutkimusmaailman satunnaistetut kokeet. Esim. lääketieteellisessä kokeessa kaikilla on yhteinen tavoite parantua taudista tai pysyä terveenä. Koehenkilöt eivät kuitenkaan toimi täysin vapaassa maailmassa vaan tutkijat kontrolloivat parantamisprosessia säännöillä esim. kertomalla, mitä lääkkeitä he voivat käyttää ja mitä aktiviteetteja saavat tutkimusjakson aikana harrastaa.

Ilmiön ymmärtämisen tehostamiseksi voidaan kokeessa suorittaa satunnaistamista. Esimerkiksi arvotaan, keille koehenkilöille annetaan lääkettä ja keille ei. Näissä olosuhteissa perinteiset tilastotieteen menetelmät ovat parhaimmillaan.

Oma historia

Itseni elättäminen perustui pitkään näiden kahden kategorian hyvään hallintaan. En ollut mitään maailman huippuja pokerissa tai vedonlyönnissä, mutta riittävällä tasolla että pystyin itseäni näillä n. kymmenen vuoden ajan elättämään. Rahapelimarkkinoiden koventuessa olisi ehkä ollut mahdollista kehittyä mukana, mutta intohimoa ei riittänyt käyttämään riittävästi aikaa syventyäkseenpeleihin, jotka ovat irrallaan muusta elämästä. Viimeisen parin vuoden aikana mielenkiintoni on suuntautunut paljon monimutkaisempaan ympäristöön: todelliseen elämään jossa ihmiset tekevät vapaasti valintojaan jättäen joitain jälkiä toimistaan data-analyysin polttoaineeksi.

3. Vapaa maailma

Vapaiden valintojen maailmasta löytyy esimerkkejä pilvin pimein. Esim. verkkokauppa tutkii, mitkä osiot verkkosivuilla näyttävät muodostavan potentiaalisille asiakkaille ostamisen esteitä klikkailudatan perusteella tai osakeanalyytikko pyrkii päättelemään minkä firman tuotteita kuluttajat tulevat jatkossa todennäköisimmin preferoimaan. Yhteistä näissä on tutkia ihmisten käyttäytymistä todellisessa elämässä ilman rajoitteita.

Kategoriaan 2 verrattuna tässä maailmassa analyyseissa tulee useita mutkia matkaan. Tutkimukseen päätynyt data ei ole satunnaisotos tai havainnot eivät ole toisistaan riippumattomia. Kuten tästä blogikirjoituksestani muistetaan, ihmisten toimet vaikuttavat myös muihin ihmisiin ja riippumattomien havaintojen mallin soveltaminen voi johtaa radikaaleihin virhearvioihin. Datoissa havaitaan paljon korrelaatioita, jotka eivät ole perustu syy-seuraissuhteisiin, koska sekoittavia tekijöitä ei pystytä satunnaistamalla kontrolloimaan. Pohdiskelin aikoinaan blogikirjoituksessani, että sekavat tuloero-keskustelut voivat johtua osin tästä.

Tavoitteetkaan eivät ole vapaassa maailmassa kaikilla samat. Toiset pyrkivät tekemään rationaalisia ratkaisuja ja toiset elävät enemmän tunteella tai laumaeläiminä kopioivat mitä muut tekevät. Toiset tavoittelevat hyvinvointia lyhyellä tähtäimellä, toiset katsovat pidemmän ajan päähän ja ovat valmiita sen edestä hieman nykyhetkestä nipistämään.

Vapaan maailman kategoriassakin tilastotieteen menetelmät auttavat todennäköisyyksien hahmottamisessa. Verrattuna rajoitettuun maailmaan on kuitenkin oltava paljon tarkempana, milloin perinteinen maisterin tutkinnossa opittu menetelmä toimii ja milloin pitää keksiä jotain muuta.

Elämän mittainen opiskeluaika

Vapaiden valintojen maailman todennäköisyyksien hallinnassa tuskin koskaan olen valmis vaan se on koko elämän mittainen oppimisprosessi. Aina kun opiskelee uutta, löytää vaan lisää asioita listalle, joita pitäisi oppia, että tässä maailmassa pärjäisi kiitettävällä tasolla. Mutta onneksi osaaminen on sentään monikäyttöistä: joku idea, mitä olen keksinyt osakesijoittamisen yhteydessä, voikin tarjota yllättäen ratkaisun yrityksemme asiakkaan ongelmaan.

Mennään eteenpäin

Vaikka vapaan maailman data-analyysi vaatii paljon taitoja, joita ei ole omaan tutkintooni kuulunut, näen että kahden ensimmäisen kategorian kokemukset tarjoavat loistavan pohjan, mistä ponnistaa uteliain mielin eteenpäin. Mikäli urheiluvedonlyönnin maailmasta vastaan tulee kypsiä hedelmiä, poimitaan toki jatkossakin pois. Päämielenkiintoni on kuitenkin nyt oppia ymmärtämään ihmisten ja yritysten toimintaa (vaikkei satunnaistettua koetta ole mahdollista järjestää) ja tuottaa työkaluja jotka auttavat muita ymmärtämään ympärillä olevaa maailmaa paremmin. Tätä päämäärää nykyiset työkuviot tukevat mitä mainioimmin, joten loman loppuminen ei tunnu kauhean pahalta.

 

 

 

 

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Brexit äänestysgallupit

aanestajaKun juhannuksen aikoihin Isossa Britanniassa äänestettiin EU-erosta, piti eroamisen olla epätodennäköistä. Viimeisenä päivänä ennen äänestystuloksia 23.6.2016 vedonlyöntimarkkinoilta sai suuruusluokkaa 6 olevia kertoimia, mikä tarkoittaisi eroamisen voittavan äänestyksen (vallalla olevan näkymyksen mukaan) noin kerran kuudesta. (lähde)

Galluppien sanoma

Kun tämä epätodennäköisempi tulos sitten toteutuikin, alkoi jälkiviisastelun vyöry: ”Vedonlyöntimarkkinat olivat väärässä”. Mikäli vääryyden perusteena on pelkästään vastakkainen lopputulos, kyseessä on vain joutavaa jälkiviisastelua. Sama olisi heittää kerran noppaa, saada ykkönen ja ihmetellä miten pystyi tulemaan ykkönen, vaikka sen todennäköisyys piti olla vain kerran kuudesta. Jotkut ihmettelijät kuitenkin perustelivat vedonlyöntimarkkinan vääryyttä viime hetken gallup-tuloksilla, jotka ennustivat kannatukselle tiukkaa lopputulosta: 48% (ero) – 52% (pysyminen). Tässä on kuitenkin helppo mennä lankaan. Se että gallup kertoo eron puolesta äänestävien osuudeksi 48%, ei tarkoita että eroamisen voiton todennäköisyys olisi 48%. Ratkaisevaa on, kuinka paljon epävarmuutta gallup-tulokseen sisältyy. Alla olevassa kuvaajassa on esimerkki galluptuloksesta, joka ennustaa 48% osuutta eroamisen kannattajille. Käyrä kuvaa tulokseen liittyvää epävarmuutta. Mielenkiinnon kohteena oleva todennäköisyys on nyt pinta-ala joka jää käppyrän ja 50% osuutta kuvaavan punaisen pystyviivan väliin. Tämä mielenkiinnon kohteen oleva alue on värjätty sinisellä.

Kiinostava todennäköisyys on sinisen pinta-alan osuus koko käyrän alle jäävästä pinta-alasta

Kiinostava todennäköisyys on sinisen pinta-alan osuus koko käyrän alle jäävästä pinta-alasta

Kuinka suuri tämä todennäköisyys nyt sitten oli? Tällä sivustolla on koottu eri galluppien tuloksia. Jos yhdistetään sivuston viiden viimeisimmän gallupin (kaikki tehty 22.6.2016 ja otoskoko ilmoitettu) tulokset yhdeksi isoksi gallupiksi, saadaan yhteensä 14013 kantaa ottaneen henkilön otos, joista 48% kannatti EU-eroa. Olettakaamme seuraavat kaksi asiaa:

  • Meillä ei ole mitään muuta tietoa kuin näiden n. 14000 henkilön mielipide
  • Tämä joukko on kattava satunnaisotos äänestyspäivänä äänestävistä henkilöistä.

Nyt pystymme laskemaan todennäköisyyden EU-eron voitolle (kannatus yli 50%) käyttäen Bayes-menetelmää epäinformatiivisellä priorijakaumalla. Vastaus on karu: n. 0.0004%, eli kerran 250 000 :sta. Tilanne kääntyykin toisin päin: pelkkien galluppien perusteella olisi kannattanut lyödä vetoa isolla panoksella EU:ssa pysymisen voitosta. Vieressä vielä gallup-tulos tiivistettynä kuvaajaan.

Yhdistelmägallupin tulos

Yhdistelmägallupin tulos

Muut huomioitavat asiat

Käyttämämme rajoittavat oletukset ovat kuitenkin syynä, ettei tuloksemme pohjalta vedonlyöntipäätöstä olisi vielä pitänyt tehdä. Ne, ketkä ovat tosissaan omilla rahoillaan lyöneet vetoa, ovat hyödyntäneet varmasti muitakin tietolähteitä kuin viimeisiä gallup-tuloksia. He ovat mahdollisesti myös tutkineet systematiikkaa, millä tavalla galluppeihin vastaavat henkilöt yleensä poikkevat niistä henkilöistä, jotka oikeasti vaaliuurnille vaivautuvat. Vedonlyöntikertoimet kuvaavat aina sitä näkemystä mikä milloinkin on vallalla kaikkien niiden mielestä, jotka ovat valmiita laittamaan rahojaan likoon näkemyksensä puolesta. Nyt vedonlyöjät olivat varautuneet brexit-yllätykseen huomattavasti paremmin kuin pelkkä gallup-analyysimme.

Loppukaneetti

Itse en tunne politiikkaa ja äänestyskäyttäytymisen harhan lähteitä niin hyvin, että osaisin sanoa kumman tuloksen puolesta olisi kannattanut lyödä vetoa ennen brexit-vaaleja sen aikaisilla tiedoilla. Ainoastaan sen osaan sanoa, että pelkkiä galluppeja tuijottamalla piti EU:ssa pysyminen olla selvä voittaja.

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Vakioanalytiikkaa – näin tehdään miljardeja

Vieraskynä: Tämän postauksen on poikkeuksellisesti kirjoittanut kollega, vedonlyöntikonkari Johannes Ärje (Twitter: @JJArje)

Vakioveikkaus on Veikkaus Oy:n vanhin peli. Sen pelaaminen aloitettiin jo vuonna 1940, mutta tässä blogipostauksessa keskitytään vuoteen 2016. Mitä mahdollisuuksia kehittynyt tietotekniikka ja data-analytiikka tuo pelaamiseen?

Voittava vedonlyönti

Voittava vedonlyönti on helpompi määritellä kuin toteuttaa. Kaikki ne vedot, jotka odotusarvoisesti eli keskimäärin palauttavat enemmän kuin panos oli, ovat teoreettisesti voitollisia vetoja. Jos noppaa heitettäessä saisit kertoimen 6.5 silmäluvulle 6, olisi veto voitollinen, vaikka se ei juuri sillä kertaa toteutuisikaan. Suurin haaste voittavaan urheiluvedonlyöntiin on siinä että odotusarvon laskemiseen tarvittava vedon osumisen todennäköisyys joudutaan aina arvioimaan. Samasta syystä johtuen on vaikea arvioida, onko vedonlyönti kokonaisuudessaan voitollista, vaikka vetoja olisi takana satoja tai Vakion tapauksessa satojatuhansia. Vakion kaltaisissa totalisaattoripeleissä (voitto-osuudet määrittyvät sen mukaan mitä rivejä muut pelaajat pelaavat) toinen suuri haaste on ennakoida muiden vedonlyöjien pelaamista loppuhetkellä. Onneksi pelaamishetkellä on informaatiota sen hetken tilanteesta.

Todennäköisyydet

soccer_ballVakion kohteet vaihtelevat laidasta (ampumahiihto) laitaan (jalkapallo) ja tuskin kukaan pystyy / ehtii jokaiseen kohteeseen arvioimaan todennäköisyyksiä omassa päässä luotettavasti. Vailla parempaa tietoa voi turvautua vedonlyöntimarkkinan informaatioon eli muodostaa vaikkapa suuria panoksia ottavan firman kertoimista todennäköisyydet. Useimmissa lajeissa / sarjoissa viime hetken kertoimista voidaan poimia suhteellisen luotettavat arviot eri tulosten todennäköisyyksille. Toki vedonlyöjä, joka pystyy arvioimaan markkinaa paremmin todennäköisyyksiä, saa valtavaa etua Vakion kaltaisessa pelissä, jos pelin muut puolet ovat hallussa. Henkilökohtaisesti turvaudun eri lajeissa eri informaatiolähteisiin.

API

Veikkaus tarjoaa yhtenä harvoista vedonlyöntiyhtiöistä ohjelmointirajapintaa (API, application programming interface), jonka avulla voidaan tietokoneohjelman kautta hakea tietoa kertoimista, voitto-osuuksista ja peleistä sekä myös suorittaa itse vedonlyönti. Näin ollen koko pelaaminen alusta loppuun on mahdollista automatisoida jopa niin, että vedonlyöjä voi lähteä viikoksi Karibian risteilylle netin ulottumattomiin ja kone hoitaa kaiken likaisen työn.

Algoritmi:

– tutki onko tänään Vakiossa sopivia kohteita

– vähän ennen kohteen sulkeutumista:

  1. hae / arvioi yksittäisten kohteiden todennäköisyydet
  2. hae infoa pelatuista vakioriveistä
  3. lyö odotusarvoltaan positiivisiksi arvioidut rivit sisään, mutta jätä koko kierros välistä, jos jokin epäilyttää

– analysoi lopullisilla tiedoilla vetokokonaisuuden odotusarvoa

Rivien hakeminen

Veikkauksen API:sta voidaan tosiaan hakea tietoa jokaisen rivin voitto-osuudesta ja pelatusta rivimäärästä. Niinpä se on mahdollista tehdä kaikille riveille, joita 12 kohteen Vakiossa on 531441 kappaletta. Harmi, että tarjolla ei ole mitään yhtä tiedostoa, josta nämä määrät löytyisivät. Tai no, hyvähän se on niille, jotka pystyvät hakemaan silti rivit. Moniajot siis käyntiin, mutta Veikkauksen sääntöjä noudattaen rajoitetaan prosessit maksimissaan viiteen.

(https://github.com/VeikkausOy/sport-games-robot)

Voitto-osuudet

Tällä hetkellä 8 kohteen Vakiossa on vain yksi voittoluokka, joten kyseisen pelin matemaattinen puoli on lastenleikkiä (Verrataan rivin todennäköisyyttä odotettuun voitto-osuuteen). 18 kohteen Vakio Grand Prix:ssa puolestaan rivitiedot eivät ole haettavissa, joten sen pelin allekirjoittanut on kokonaan skipannut. Keskitytään tässä 12 kohteen Vakioon, joka on hieman yksinkertaisempi kuin perinteinen 13 kohteen Vakio.

12 kohteen Vakiossa on kolme voitto-osuusluokkaa (12, 11 ja 10 oikein), joten jokaisen rivin odotusarvo muodostuu 1 + 24 + 264 = 289:stä eri osasta, jotka summataan yhteen. Yksittäisellä rivillä voi siis saada osumaan 24 eri tavalla 11 oikeaa tulosta. Lisähaasteena kaikkien luokkien voitto-osuudet muuttuvat vielä sen mukaan, jos jossakin voitto-osuusluokassa joko voitto-osuus jäisi alle 2 euron tai siinä ei ole yhtään riviä. Kun tällainen laskenta tehdään pelin kaikille riveille, niin laskutoimenpiteitä tulee suoritettua lähes puoli miljardia. En muuten suosittele tämän koodaamiseen for-silmukkaa.

Ennustaminen

Konepelaajat kilpailevat erityisesti toisiaan vastaan. Usein muut pelaajat / peliporukat löytävät viime hetkellä ison osan samoja rivejä. Niinpä pelatessa on syytä myös ennustaa muualta tulevaa peliä. Eipä siinä siis muu auta kuin luoda sopiva ennustemalli aiempien kierrosten datojen perusteella. Alustavan arvioni perusteella viikonpäivistä perjantai on paras eli silloin on kilpailua vähiten. Liekö joku muu robotti eksynyt silloin baariin?

Toki myös omat lähellä toisiaan olevat rivit vaikuttavat odotusarvoihin, joten on syytä tehdä uusi ennustetuilla rivimäärillä toteutettu voitto-osuuslaskentaruljanssi ja karsia vielä huonoksi tippuneita rivejä pois.

Rivit sisään

Lopulta kun on saatu aikaan arvio hyvistä riveistä, pitää vedot saada lyötyä vielä sisään niin nopeasti kuin mahdollista. Joko peliaika on päättymässä tai Veikkaus on päivittämässä tietojaan (10 minuutin välein). Jälkimmäisessä tapauksessa on tärkeä määritellä reviiriään muille pelaajille, sillä jokainen veto tiettyyn riviin vähentää sen kannattavuutta muille. Rivejä on mahdollista myös yhdistellä järjestelmiksi ja usein 5000 rivin kokonaisuus tiivistyykin alle puoleen ja samoin käy syöttöön tarvittavalle ajalle.

Kuinka sitten kävikään

Kuinka hyvänä rivikokonaisuuden odotusarvo lopulta säilyikään muiden pelaajien tulituksessa? Olennaisin tekijä tähän on aika, jolloin kertoimia päivitetään viimeisen kerran. Itselleni täydellinen päivitysaika on kuusi minuuttia ennen kohteen sulkeutumista, jolloin ehdin vielä tämän kaiken tehdä, mikäli pelattava rivimäärä ei ole poikkeuksellisen korkea. Lopullisten tietojen päivityttyä on syytä vielä tarkastaa lopullinen odotusarvo, mutta itse otteluiden katsominen saa jäädä muiden henkilöiden vastuulle.

Kannattaako tehdä Vakiorobotti?

  • Ei, koska edut ovat pieniä.
  • Ei. Jos joku pelaisi samat rivit kuin itse pelaan, niin molempien odotusarvo painuisi pakkasen puolelle.
  • Ei, koska liikaa vaivaa.

Vastauksia usein esitettyihin kysymyksiin:

  • Koneeni on Suomen paras (loppupelin analytiikan perusteella)
  • Jäin tappiolle Karibian risteilyn aikana
  • Kaikki tämä on tehty R:llä (http://www.r-project.org)
  • En kertonut lähellekään kaikkea
  • Tarjoan kerrointa 6.5, että Kimblessä tulee valitsemani numero, jos saan itse suorittaa painalluksen

Mitä tykkäsit blogipostauksesta ”Vakioanalytiikkaa – näin tehdään miljardeja laskutoimituksia”?

– Johannes Ärje

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Itsensä tuhoaminen riskejä piilottelemalla

Kun ammattimainen vedonlyönti oli isossa roolissa elämässäni, kaverini kerran kysyi: ”Käytätkö tuplaus-menetelmää?”. En oikein ymmärtänyt, mistä on kyse joten sain tarkennuksen: ”Pelataan esimerkiksi kasinolla rulettia laittamalla ensin euron panos punaiselle. Jos osutaan, saamme panoksen kaksinkertaisena takaisin ja jäämme euron voitolle. Jos häviämme, teemme saman uudestaan mutta tuplapanoksella. Mahdollinen voittomme on neljä euroa ja kun tästä vähennetään panostuksemme 1+ 2 = 3 €, jäämme euron voitolle. Mikäli emme vieläkään voita niin jatkamme tätä aina panos tuplaten niin kauan kunnes osumme ja lopulta jäämme väistämättä euron voitolle.”

RulettiKoska olen törmännyt tähän menetelmään useammankin tahon mainitsemana, on ilmeistä että jotkut tätä oikeasti käyttävät. Hieman tutkittuani, tälle panostustaktiikalle löytyi nimikin: Martingale. Psykologiset kokeetkin (aiemmin käsittelemäni Kahnemanin tutkimukset) osoittavat, että ihmisellä on jo luontainen taipumus panoksien kasvattamiseen tappioiden jälkeen. Tässä kirjoituksessa kuitenkin näytän, minkä takia tähän tyyliin panoksiaan elämässä ei pitäisi asetella. Kyseessä on riskin piilottamista ennen lopullista romahtamista.

Todennäköisyydet eivät ole puolellamme

Tehdään esimerkkilaskelma. Olkoon meillä pelikassaa 4095€ verran (valitsin tällaisen luvun, että tulokset olisivat tasalukuja). Kasinon maksimipanos saattaisi todellisuudessa sotkea strategian toteuttamista, mutta jätetään se nyt huomiotta. Kyseinen pelikassa riittää 11 peräkkäiseen panoksen tuplaamiseen. Niin kauan kaikki on siis hyvin, kunnes tulee 12 mustaa tai vihreää peräkkäin. Ruletissahan on 18 punaista numeroa, 18 mustaa numeroa ja yksi vihreä nolla, jolla talo voittaa aina. Katastrofi tapahtuu siis kerran 2974:sta pelisarjasta:

  \frac{1}{ (19/37)^{12}} \approx 2974

Kun pelaamme 2974 pelisarjaa Martingalella, keskimäärin voitamme 2973 kertaa 1€ ja yhden kerran häviämme 4095€. Tämä esimerkki havainnollistaa faktaa, että todennäköisyyksiä ei voi huijata panostussysteemillä.

Kun todennäköisyydet ovat puolellamme

Entäpä jos pelin todennäköisyydet olisivat puolellamme? Olisiko tämä silloin hyvä panostustaktiikka? Muutetaan tilannetta niin että kasinon ruletissa on valmistusvirhe ja nolla on vahingossa maalattu punaiseksi. Nyt ruletin 37 numerosta 19 on meille suosiollisia punaisia joten voittotodennäköisyytemme on 19/37 = 51.3%. Olkoon meillä viisi peluria, joista jokainen pelaa punaista suosivaa rulettia 4000€:n aloituspelikassalla. He haluavat voittaa joka päivä 5 euroa, ja tämä vaatii 5 onnistunutta Martingale-sarjaa (yksi sarja päättyy yhden euron voitolle jäämiseen) päivässä.

Ruletti_graafi_martingaleEn laittanut kavereita tällä kertaa todellisuudessa toteuttamaan strategiaa, vaan annoin läppärin simuloida viidelle pelaajalle (kuvattu eri väreillä) pelitulokset. Kuten kuvaajasta nähdään, pelit tuottavat jokaisella täysin yhdenmukaista tasaista 5€:n päivätuottoa, kunnes jossain vaiheessa pelätty, liian monen peräkkäisen mustan numeron putki tiputtaa pelikassan nollille. Huonoin säkä oli Mustalla pelaajalla, jonka systeemi kosahti n. 500:n päivän jälkeen. Rouva Sininen oli taas onnekkain pysyessään rulettipöydässä n. 5500 päivää, eli 15 vuotta.

Parempi panostustaktiikka

Ruletti_graafi_prossaKatsotaan sitten kuinka näille pelureille olisi käynyt, jos he olisivat pyöräyttäneet tasan samat luvut ruletista, mutta panostustaktiikka olisi ollut ”1% osuus pelihetken pelikassasta, mutta maksimissaan 2000€”. Kellyn kaavan avulla optimoitu suhteellinen osuus olisi tässä tapauksessa 2.7% pelikassasta, mutta ollaan hieman varovaisempia. Nyt pelaajat joutuvat sietämään lyhyen ajanjakson satunnaisvaihtelua päivätuloksissaan, mutta kukaan ei täysin romahda. Tappioputkessa pelikassan pienentyessä panoksetkin tippuvat samassa suhteessa ja aina on olemassa pohja uudelle nousulle.

Totaaliromahtamisen välttämisen lisäksi, ”yhdellä prosentilla” panostaminen on myös pitkällä tähtäimellä hyvin tuottoisaa. Kaikista onnekkain pelaaja (Sininen) sai Martingale-taktiikalla kartutettua kasaan reilu 30000€ ennen romahtamistaan. Prosentti-taktiikalla panostaen hänellä olisi omaisuuttaa jo 1.75 miljoonaa ja matka vaan jatkuisi.

Panostustaktiikoiden vertailu

Käyttäten Nassim Talebin ”Antifragile” kirjassa määrittelemä termistöä, Martingale-panostussysteemi on hauras. Siitä on keinotekoisesti eliminoitu lyhyen tähtäimen satunnaisvaihtelu, mutta vastapainoksi järjestelmä romahtaa ennemmin tai myöhemmin piilotetun jättiriskin takia. Romahtamisen estäisi vain äärettömän suuri pelikassa ja kasino, joka on valmis ottamaan rajattoman suuria panoksia vastaan.

Pieneen prosentuaaliseen kassan osuuteen perustuva panostussysteemi on elinvoimainen. Siihen liittyy paljon satunnaisvaihtelua lyhyellä tähtäimellä. Edellisessä esimerkissä Rouva Sinisellä on päivästä 5000 alkaen n. vuoden mittainen, varmasti ikuisuudelta tuntuva, jakso niin että suunta on alaspäin. Hän kuitenkin kestää satunnaisvaihtelun ilman täyttä tyrmäystä ja kykenee pitkänkin tappioputken jälkeen uuteen nousuun. Aika on sen ystävä.

Oma mottoni on: ”Seurauksiltaan pienet riskit siedetään, kun palkkio on kohdillaan ja isoilta riskeiltä suojaudutaan”. Martingale toimii juuri päinvastoin.

Elämä kasinon ulkopuolella

Kun siirrytään täsmällisen matematiikan kasinoympäristöstä todelliseen, mutkikkaampaan maailmaan, panoksien korottamisesta tappioiden jälkeen tulee vieläkin huonompi toimintamalli:

Esim.1. Osakesijoittaminen

Ostan Yrityksen osakkeita mielestäni erittäin edullisesti tuottopotentiaaliin nähden. Yllätyksekseni viikon päästä osakkeen kurssi on laskenut vieläkin alemmaksi, vaikka tietääkseni mikään ei ole Yrityksessä muuttunut. Lisäsijoitus voi olla paikallaan, mutta sijoitettavan rahamäärän kanssa on syytä olla varovainen. Ruletissa tiedettiin, että kaikki satunnaisvaihtelu on aitoa A-luokan (määritelty tässä postauksessa) satunnaisuutta. Järkeni vastainen osakekurssin laskukin voi olla merkityksetöntä kohinaa, esim. joku suursijoittaja on pikaisesti tarvinnut rahaa helikopterikauppoihin ja laittanut osakkeita reilulla kädellä myyntiin. Mutta nyt on myös kasvanut mahdollisuus, että Yritykseen kohdistuu joku uusi riskitekijä, mitä en ole itse huomannut. Jotkut toimijat markkinoilla taas tämän ehkä tiedostavat ja siksi myyvät osakkeitaan näennäisen halvalla.

Esim. 2. Korttirinki 1950-luvun tukkikämpällä

Pelaan rahasta toisen tukkiäijän kanssa tikkiä, kurkkua tai jotain muuta lähes kokonaan tuuriin perustuvaa korttipeliä. Tappioputkeni voi selittyä huonon tuurin lisäksi sillä, että vastapeluri on huijari ja panokset on parempi pitää pienenä, ettei illalla harmittaisi kuin Kummelin Keijoa.

Oletko kuullut vanhan kansan tarinoita, joissa isäntä on tukkikämpällä hävinnyt vedonlyönnissä tai korttipelissä koko talonsa? Itselleni heräsi epäilys: onkohan Martingale ja pakkomielle jäädä päivän päätteeksi edes omilleen syynä näissä surullisissa kohtaloissa? Häviäminen on tärkeä taito.

Statistickon steesit:

  1. Panosten korottaminen tappioiden jälkeen on huono idea kasinoympäristössä ja vielä huonompi idea kasinon ulkopuolella, missä kaikkia riskejä ei tunneta
  2. Satunnaisvaihtelun keinotekoinen piilottaminen johtaa helposti hauraaseen, jossain vaiheessa romahtavaan, systeemiin
  3. Menestyminen rahapeleissä vaatii riskinhallinnan ja todennäköisyyslaskennan osaamista sekä jatkuvaa satunnaisvaihtelun sietämistä
Facebooktwittergoogle_plusredditpinterestlinkedinmail

Omaehtoiset eläköitymisskenaariot

Tämän päivän tarinan päähenkilö on Ville. Hän on työuraansa aloitteleva vastavalmistunut 25-vuotias. Villeä huolestuttaa Suomen väestöpyrämidin rakenne ja yleisen eläkeiän nostot: ”Näinköhän minä ehdin nauttimaan terveistä eläkevuosista ollenkaan?”. Loputtoman vaikeroinnin sijaan hän päättää tehdä asialle jotain.

Vinkkejä sijoitusbloggarelta

Senior couple sitting in the fieldOman eläkeiän aikaistamisesta sijoitustoiminnan turvin löytyy internetin ihmeellisestä maailmasta useita blogeja. Itselleni ajatus tuli tutuksi Pasi Havian blogista. Kyseisen blogin päivitystahti on viimeaikoina hieman hiipunut, mutta vanhoihin postauksiin kannattaa edelleen tutustua, mikäli aihe kiinnostaa. Ulkomaalaisista mainittakoon Mr. Money Moustache.

Oma sijoitusstategia

Sankarimme Ville on päättänyt rakentaa oman sijoitustoimintansa seuraavien periaatteiden varaan:

  • Hän on laskenut, että pystyy ilman isoja ongelmia säästämään 250€ jokaisesta kuukausipalkasta
  • Hän ei jaksa analysoida yksittäisiä yrityksiä vaan sijoittaa S&P 500 -osakeindeksiä seuraavaan vähäkuluiseen (laskelmissa 0.17 % vuodessa) indeksirahastoon, mikä hänen näkemyksen mukaan kuvaa riittävän hyvin yleistä maailman talouden kehitystä
  • Hän ei halua vaivata päätään pohtimalla, milloin osakkeet on yleisesti kalliita ja milloin halpoja, vaan sijoittaa systemaattisesti 250€ joka kuukausi.
  • Hän haluaa jäädä 60-vuotiaana omaehtoiselle eläkkeelle ja lopettaa silloin sijoittamisen
  • Hän tarvitsee eläkkeellä kuluttamiseen verojen ja inflaation huomioimisen jälkeen 2000€ / kk nykypäivän rahassa.

Netistä löytyy useita laskureita (esim. täällä ja täällä), joilla voi kokeilla omien sijoitustavoitteiden toteutumista erisuurusilla kuukausisijoitussummilla ja sijoitusajoilla. Laskennat näissä tehdään yleensä toteutuneilla keskimääräisillä sijoitustuotoilla. Seuraavalla harjoituksella on tarkoitus havainnollistaa satunnaivaihtelun merkitystä, mitä normaalit Excel-laskurit eivät ota huomioon.

Sijoitustavoitteet

Villellä on sijoitustoiminnan lopputulokselle seuraavat tavoitteet 60 ikävuodesta alkaen:

  • Minimitavoite: Nykyrahassa 2000€ / kk nettona 70 vuotiaaksi asti, jolloin hän uskoo pääsevänsä kiinni normaaliin eläketurvaan
  • Huipputavoite: Kyseiset 2000€ rahavirrat riittävät 100 vuotiaaksi asti normaalin eläkkeen päälle.

Tulevaisuuden skenaarioiden simulointi

Sitten lähdetään katsomaan, kuinka Villelle tulee käymään, jos historia toistaa itseään. Laskelmat perustuvat vuosien 1988-2013 S&P 500 -indeksin kuukausituottoihin. Aikaikkunaksi valikoitui tämä, koska siltä sattui nopeasti löytymään dataa valmiissa muodossa. Kyseisenä aikana indeksi tuotti keskimäärin n. 10% vuodessa.  Ajatus on, että tulevaisuuden kuukausituotot arvotaan satunnaisesti tästä historia-aineistosta (ei siis tehdä mitään tuottojakaumaoletusta vaan tylysti ”bootsträpätään” havaittua dataa). Inflaatio voitaisiin laittaa myös vaihtelemaan satunnaisesti, mutta luotetaan keskuspankin viisaisiin miehiin, että he saavat pidettyä inflaation suhteellisen stabiilisti tasolla 2% / vuosi.

Seuraavassa kuvaajassa on 5 esimerkkiä näin simuloidusta tulevaisuuden skenaariosta. Kaikissa siis kuukausisäästäminen loppuu 60 -vuotiaana ja samalla aloitetaan nostamaan rahaa kulutukseen suunnitelman mukaisesti. Verotus tehdään 40% hankintamenojen mukaan 30% veroprosentilla.

Vilen varalisuuden kehitys, 5 skenaariota

Villen varallisuuden kehitys, 5 skenaariota

Kuvaajasta huomataan, että mahdolliset skenaariot ovat hyvin erilaisia:

  • Punainen ja sininen skenaario tekevät Villestä tarpeettoman varakkaan miljonäärin 60 ikävuoden jälkeen
  • Vihreä tuo hyvän elintason kuolemaan asti
  • Mustassa minimitavoite ylittyy niukasti
  • Turkoosissa sijoitusvarallisuus on törsätty parissa vuodessa ja Villen on palattava sorvin ääreen vielä muutamaksi vuodeksi

Kun simuloidaan 10000 kpl vastaavaa skenaariota, saadaan laskettua suuntaa-antavat todennäköisyydet Villen tavoitteiden täyttymiselle:

  • Minimimitavoite: 83%
  • Huipputavoite: 53%

Tähänkin laskelmaan liittyy oletuksia, jotka eivät välttämättä tulevaisuudessa toteudu. Ville pelkää, että talouden kovimmat nousuvuodet saattavat olla ohitse ja tulevaisuuden tuotot ovat matalampia. Toistetaan samat laskelmat niin, että keskimääräiset vuositutotot ovat 2%-yksikköä alhaisemmat ja näin saadaan varovaisemmat arviot tavoitteiden täyttymiselle:

  • Minimimitavoite: 55%
  • Huipputavoite: 19%

Edelleen minimitavoitteen toteutuminen on todennäköisempää kuin epäonnistuminen, mutta Villen kannattanee harkita joitain muutoksia sijoitussuunnitelmaan. Esimerkiksi kuukausisijoitussumman nostamista pikkuhiljaa inflaation / palkkakehityksen tahdissa.

Pohdinnat

Nämä teoreettiset laskelmat tukevat useiden sijoitusbloggareiden ajatusta siitä, että nipistämällä hieman elämän alkupuolen kulutuksesta voidaan ”korkoa korolle” -ilmiön avulla saada huima määrä valinnanvapautta elämän loppupuoliskolle. Tosin kaikki ei aina mene kuin Trömsössä ja sattuman tuomat riskit on syytä huomioida, mutta ei pelätä liikaa. Todennäköisyydet ovat tälläkin hyvin yksinkertaisella ja vaivattomalla sijoitusstrategialla pitkän tähtäimen sijoittajan puolella.

Statistickon steesit:

  • ”Korkoa korolle” -ilmiö paisuttaa pieniäkin sijoitussummia, kunhan sen aloittaa ajoissa
  • Sattumalla on iso vaikutus sijoitustoiminnan lopputulokseen, mutta todennäköisyydet ovat pitkäjänteisen ja hajauttavan sijoittajan puolella
  • Seteleiden sijaan sijoitustilin avaaminen on valmistuvalle nuorelle erinomainen lahja, vaikkei hän sitä välttämättä heti osaisi arvostaa

Kirjoituksen on tarkoitus toimia havainnollistavana esimerkkinä. Kirjoittajalla ei ole tarkkaa tietoa tulevaisuudesta, eikä kirjoitusta tule pitää sijoitussuosituksena.

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Totuuden jäljillä

Otetaan heti alkuun pieni pähkinä, joka on hieman muokaten kopioitu Nassim Talebin kirjasta ”Fooled by randomness”.

Kuvitellaan tauti, jota sairastaa yksi tuhannesta suomalaisesta 40 vuotiaasta miehestä. Jarkko menee 40-vuotispäivän kunniaksi lääkärille rutiininomaiseen terveystarkastukseen ja lääkäri suorittaa verikokeen taudin testaamiseksi. Kokeesta tiedetään, että oikeasti sairaiden lisäksi se antaa positiivisen tuloksen 5% todennäköisyydellä silloin kun potilas on terve.

Jarkko sai kokeesta positiivisen tuloksen. Mikä on todennäköisyys, että Jarkolla on kyseinen tauti?

Mieti hetki vastausta, ennen kuin jatkat eteenpäin.

sairaus_graafi2Vastasitko 95%? Ei se mitään, niin vastaa moni muukin pätevä kaveri. Mutta oikea vastaus on n. 2%. Pieleen menee yleensä siinä, että ennakkotieto ”yleinen sairastuneisuus 1/1000” jää huomiotta. Asian hahmottamiseksi vieressä on laatikko, jossa pallerot kuvaavat tyypillistä 1000 hengen otosta 40-vuotiaista miehistä. Punaisella värjätty alanurkan pallero on se epäonninen, joka sairastaa tautia. Jäljelle jäävistä 999 terveestä henkilöstä 0.05 * 999, eli noin 50 henkeä taas ovat sellaisia, jotka saavat verikokeesta virheellisen positiivisen tuloksen. Näitä ovat mustat pallerot ylhäällä. Pähkinän oikea vastaus tulee jakolaskusta 1/(1 + 50).

Edellinen verikoe on esimerkki tilanteesta, jossa totuuden etsimiseksi on kehitetty testi, jonka lopputulokseen liittyy epävarmuutta. Myös tieteen tekeminen on jatkuvaa painimista löydöksiin liittyvien epävarmuuksien kanssa. Esittelen seuraavaksi kolme mittaria, jotka auttavat tieteellisen löydöksen totuusarvon mittaamisessa.

Tilastollinen merkitsevyys (P-arvo)

P-arvo on tärkein ja tunnetuin mittari sille, kuinka uskottava tutkimustuloksemme on. Kyseessä on ehdollinen todennäköisyys: Todennäköisyys, että löydös ilmenee aineistossa sattumalta JOS se ei oikeasti pidä paikkaansa.  Akateemisessa tutkimuksessa löydöstä yleensä pidetään tilastollisesti merkitsevänä, jos P-arvo on pienempi kuin 0.05. P-arvoa kuitenkin ylitulkitaan jatkuvasti samoin kuin ”Jarkon sairausdiagnoosi” -esimerkissä. P-arvo 0.05 EI nimittäin tarkoita välttämättä, että tutkimuslöydös olisi 95% todennäköisyydellä tosi.

Tilastollinen voimakkuus (Power)

Voimakkuus on ”Todennäköisyys, että tutkimusaineisto paljastaa etsimämme ilmiön JOS ilmiö on oikeasti olemassa.” Mediahuomiotakin saaneen Kimble-tutkimuksen tapauksessa: ”Todennäköisyys, että vastakkaisia silmälukuja tulee tilastollisesti merkitsevästi enemmän tutkimuksessamme, jos nopassa on oikeasti systematiikkaa.” Voimakkuuslaskelmia käytetään pääasiassa ennen tutkimusta selvittämään sopivaa otoskokoa tutkimukselle, mutta se on hyödyllinen tieto myös myöhemmin löydöksen totuusarvoa laskiessa.

Ennakkokäsitys ilmiöstä (Prioritieto)

P-arvo ja Power ovat siis ilmiön paljastumistodennäköisyyksiä tietyillä ehdoilla ja me haluaisime päästä käsiksi ilmiön olemassaolon todennäköisyyteen. Tämä onnistuu ottamalla huomioon ennakkokäsitys ilmiöstä ennen tutkimusaineiston keräämistä.

Esimerkiksi Kimble-tutkimuksessa ennakkokäsityksemme oli suurinpiirtein seuraavanlainen: ”Nuorisokodin peleissä ykkönen on tullut kuutosen jälkeeen silmiinpistävän usein. Kyse voi kuitenkin olla sattumasta ja siitä seuraavasta psykologisesta harhasta. Toisaalta systematiikat ovat mahdollisia, koska noppakupu on sen verran pieni. Noppa voisi olla kyseisellä tavalla epäsatunnainen ehkä 20% todenäköisyydellä, eli kerran viidestä.”

Tässä kohti huomataan, että peliä vuosikymmeniä hakanneella konkarilla ennakkokäsitys olla täysin erilainen. Joku aktiivipelaaja olisi saattanut nähdä asian seuraavasti: ”Vuosikymmenten kokemuksella olen hyvin varma ilmiön olemassaolosta.  Väittäisin olevan sen tosi 90% todennäköisyydellä.” Ennakkokäsitys on usein hyvin subjektiivinen näkemys.

ProfessorSubjektiivisten näkemyksien suhteen ollaan ymmärrettävistä syistä varovaisia akateemisen tutkimuksen tilastoanalyysissä. Emme halua, että tieteen tulokset ovat liian riippuvaisia yksittäisen tutkijan subjektiivisesta näkemyksestä. Ainahan on olemassa riski, että ideologiset näkemykset tai henkilökohtaiset haaveet ohjaavat yksittäisen henkilön ennakkokäsitystä tiettyyn suuntaan.

Sen sijaan esim. yrityksen tehdessä tutkimusta vain oman liiketoimintansa päätöksenteon tueksi prioritietoa kannattaa hyödyntää, mikäli palkkalistoilta löytyy asiantuntija, joka osaa muuttaa näkemyksensä numeeriseen muotoon. Liiketoiminnassa taloudelliset intressit kannustavat kohti objektiivisuutta. Virheelliset johtopäätökset kun tuppaavat näkymään yrityksen tuloksessa.

Prioritodennäköisyyden ongelma on sen vaikea määrittäminen yksiselitteisen objektiivisesti. John Ioannidis käyttää artikkelissaan erästä objektiivista lähestymistapaa: selvitetään kaikki viimeaikojen oman tutkimusalan tutkimukset ja käytetään prioritodennäköisyytenä suhdetta, jolla aloitetut tutkimukset ovat lopulta johtaneet oikeaan uuteen löydökseen. Tämän asian selvittäminen ei kuitenkaan käy ihan sormia napsauttamalla.

Tutkimuslöydösten totuusarvot

Nyt meillä alkaa olla riittävästi työkaluja käydä käsiksi tutkittavan ilmiön olemassaolon todennäköisyyteen. Mietitään tyypillistä standardien mukaan suunniteltua tutkimusta. Mikäli matematiikka ei ole lähellä sydäntäsi voit jättää kaavat ja kreikkalaiset kirjaimet omaan arvoonsa. Tutkimuksen tilastollinen voimakkuus  (1-\beta ) on standardi 0.8 ja tilastollinen merkitsevyyskriteeri  (\alpha ) on 0.05. Olkoon testattava hypoteesi  (H_1 ) aiemman Kimble-esimerkin tapainen, mikä voidaan olettaa ennakkokäsityksen mukaan todeksi 20% varmuudella. Nyt jos data kriteereillämme paljastaa ilmiön, sen todennäköisyys olemassaololle on 80%. Tämä saadaan laskettua Bayesin säännöstä johdetulla kaavalla (johdin sen tähän hätään itse, joten suhtautuminen varauksella):

  \mathbb{P}(H_1 | Data) = \frac{(1-\beta ) \mathbb{P}(H_1)}{ \alpha (1-\mathbb{P}(H_1))+(1-\beta ) \mathbb{P}(H_1)}

 

Mietitään sitten vertailun vuoksi tutkimusta, jossa voimakkuus ja merkitsevyyskriteeri ovat edelleen samoja, mutta tarkoitus on testailla vähän kaikkea, jos satuttaisiin löytämään joitain tilastollisesti merkitseviä yhteyksiä. Meillä voisi olla vaikka pitkä lista erilaisista Kimble-pelaajien ominaisuuksista kätisyydestä hapenottokykyyn ja tutkimme, sattuisiko jollain niistä olemaan yhteyttä pelissä pärjäämiseen. Tällöin yksittäiseen testiin liittyvä prioritodennäköisyys ilmiön olemassaololle voisi olla luokkaa 1%. Nyt ylläolevalla kaavalla laskettu totuusarvo kyseiselle löydökselle romahtaa niinkin alas kuin 14%:iin.

Pieni prioritodennäköisyys romauttaa löydöksen totuusarvon, koska sattumalta tulevat löydökset dominoivat tilastollisesta merkitsevyydestä huolimatta. Näin kävi alun sairausdiagnoosipähkinässäkin. Lisäpähkinä pohdittavaksi: Matias saa saman diagnoosin kuin Jarkko, mutta hän tietää jo ennalta omaavansa geenit, jotka nostavat kyseisen sairauden puhkeamisen riskiä.

Käytännön prosessit

SearchingEnnakkonäkemyksen kunnollinen hyödyntäminen on todellisuudessa vaikeaa, mutta tärkeintä tässä on huomata ero huolellisesti valitun hypoteesin tutkimisen ja ”vähän kaiken kokeilun”, (exploratiivisen tutkimuksen) välillä. Tässä vaiheessa moni voi huomata, että omiin tutkimuksiin/tietolähteisiin liittyy enemmän epävarmuutta, mitä on tullut ajatelleeksi. Niin kävi itsellenikin tätä kirjoittaessa. Tutkimuksen huolellisella suunnittelulla voi kuitenkin luottaa olevansa useammin oikeassa kuin väärässä, vaikkei tarkkoja prioritodennäköisyyksiä pystyisikään hahmottamaan.

Tutkimustiedon jatkokäsittelijän taas tulee muistaa olla kriittinen uuden mullistavan tiedon löytyessä. Oleellinen kysymys kuuluu: Kuinka tähän tulokseen päädyttiin? Onko kyseessä hakuammunnan tulos vai oliko alla jo muuta samaa ilmiötä tukevaa tutkimustietoa, jolle nyt haettiin varmistus?

 

Statistickon steesit:

  1. Tutkimuslöydöksen todenperäisyyden arviointiin tarvitaan tilastollisten mittareiden lisäksi prioritiedon hyödyntämistä
  2. Prioritiedon muuttaminen numeroiksi on usein hankalaa, mutta huolellisella tutkimussuunnittelulla voidaan kiertää tätä ongelmaa
  3. Kokeileva, exploratiivinen, tutkimus on tärkeää uusien tutkimussuuntien löytämiseen, mutta siitä on vielä pitkä matka totuudeksi julistamiseen
Facebooktwittergoogle_plusredditpinterestlinkedinmail

Kimblen noppa ei ole täysin satunnainen

Dices sign icon. Casino game symbolSyksyllä jyväskyläläisessä nuorisokodissa pelatuissa Kimble-peleissä tuli huomiota herättävän usein nopan heitolla, tai Kimblen tapauksessa kuvun sisällä olevan nopan poksautuksella, kuutosen jälkeen ykkönen. Tämän toistuessa peliseurueessa alettiin sadatella jatkuvaa heitto-onnen kääntymistä aallonharjalta pohjamutiin. Eräs nuorisokodin ohjaajista yritti puhua kanssapelaajilleen järkeä: noppa on aina satunnainen ja kuutosta seuraaviin ykkösiin oli vain alettu kiinnittää liiaksi huomiota. Koko ilmiön täytyi olla vain seurueen puheilla itselleen rakentama psykologinen harha.

Asian selvitys tutkimuksella

Orastava debatti kantautui tilastotieteilijä Tuomas Kukon korviin.  Ammattilaisen korvaan tutkimusongelma kuulosti äkkiseltään naiivilta: onhan arpakuution klassiset todennäköisyydet laskettu läpi jo pimeällä keskiajalla. Toisaalta Kimblen noppakupu on sen verran pieni, että voi olla pieni mahdollisuus sille, ettei satunnaisuus pääse sen sisällä täysin toteutumaan (nopan satunnaisuuden toteutumista käsiteltiin tässä postauksessa). Niinpä tutkimusryhmä pystytettiin, ja joululoman 2014 pimeinä iltoina, osin lapsityövoimaa hyödyntäen, tahkottiin kolme tiukkaa Kimble-matsia ja kirjattiin ylös kaikki 508 nopanheittoa.

Tutkimusongelma asetettiin analyysin tehostamiseksi siten, että kaikki vastakkaiselle puolelle tapahtuneet siirtymät (1 <–> 6, 2<–>5 ja 3<–>4) oletettiin yhtä todennäköisiksi. Kuvun sisällä olevan nopan symmetrisyyttä siis ei kyseenalaistettu vaan mahdollisten epäsatunnaisuuksien oletettiin tulevan kuvun takia lähtötilanteesta riippuen.  Lähtökohtaisesti paikkansa pitävä vanha totuus, eli nollahypoteesi, oli seuraava: ”Nopan vastapäinen luku tulee yhtä todennäköisesti kuin mikä tahansa muukin luku (n. 16.7%)”.

 Mullistava tulos

Jo otteluiden aikana alkoi lukuisia aineistoja pyöritelleen kirjurin silmään vaikuttaa siltä, että kyseessä saattaa sittenkin olla todellinen ilmiö, mutta vasta aineiston analyysivaihe toi julki varsinaisen jytkyn. Nopan vastapuoli heitettiin peräti 23.9% todennäköisyydellä, eli lähes puolitoista kertaa todennäköisemmin kuin ennakolta oletettiin. Osuuksien testin perusteella laskettiin tuloksen tilastollinen merkitsevyys. P-arvo tippui prosentin sadasosiin, kun yleisesti nollahypoteesin kumotuksi toteamiseen riittävät viittä prosenttia pienemmät arvot.

Koeasetelma (otteluiden heittojen lukumäärä) oli räätälöity paljastamaan nopan vastapuolen saamisen todennäköisyyden poikkeamia odotetusta siten, että noin kolmen prosenttiyksikön heilahdus 16.7% :sta oli löydettävissä. Tässä tutkimusryhmän suureksi yllätykseksi onnistuttiin, sillä ponnautusmekanismi Kimble-kuvun sisällä on mitä ilmeisimmin roimasti oikeaa nopanheittoa vähemmän satunnainen.

 Hyödyt pelaajille

Onko tästä löydöstä mitään konkreettista hyötyä Kimblen pelaajalle? Varmasti tulee vastaan tilanteita, joissa tätä tutkimustietoa voi hyödyntää. Mietitään esimerkiksi seuraavaa tilannetta:

Idea for gameHeität noppaluvun 5 ja sinulla on kaksi mahdollista siirtoa:

  1. Siirto, jossa nappisi siirtyy KOLME askelta seuraavana heittävän napin eteen
  2. Siirto, jossa nappisi siirtyy KAKSI askelta seuraavana heittävän napin eteen

Et tietenkään halua tulla syödyksi ja tiedät, että seuraavaksi nopasta tulee todennäköisimmin luku 2. Ensimmäinen valinta on tutkimuksen tiedon ansiosta nyt parempi ratkaisu. Lisäksi joskus, lähinnä aikuisten peli-illoissa, käytetään myös sääntövariaatiota, jossa mitään nappuloista ei ole pakko liikuttaa. Tällöin tämän tutkimuksen tarjoamien valistuneiden valintojen avulla voidaan kohottaa huomattavasti omaa voittotodennäköisyyttä.

 Sivutulos

Kerätty aineisto antoi varsinaisen tuloksen lisäksi mielenkiintoisen johtolangan. Siinä missä nopan vastapuoli ponnahti esiin n. 24-prosenttisesti, niin sama luku heti perään ilmaantui vain 10.8% todennäköisyydellä. Neljälle muulle nopan kantille jäi yhteensä 65.3% (eli keskimäärin 16.3%)  todennäköisyys. Käytännössä vastakkaisen luvun lisääntyminen selittyi pelkästään saman luvun toistumisen vähentymisenä ja kuution vierekkäiset sivut noudattelivat suurin piirtein ”rehellisiä” todennäköisyyksiä. Tätä ilmiötä ei alkuperäisen tutkimushypoteesin valossa tarkkailtu, joten olisi syytä kerätä vielä uusi aineisto, jotta minimoidaan yksittäisen aineiston satunnaisoikun mahdollisuus. Näin ei langeta aiemmin käsiteltyyn vanhaan miinaan.

Jatkotutkimukset

Tutkimukseen toteuttamiseen liittyy vielä pari kyseenalaistavaa kysymystä:

  • Kaikki heitot tehtiin samalla Kimble-laudalla. Voiko tulokset selittyä viallisella laudalla?
  • Nopan ”poksautuksia” suoritti kolme eri henkilöä. Voiko heillä joku systematiikka poksautus-tyylissä, mikä selittää tutkimuksen tulokset?

Näiden epäilyjen kumoamiseksi ja sivutuloksen oikeellisuuden varmistamiseksi haastan blogin lukijat keräämään talteen heittosarjan seuraavasta Kimble-pelistä. Kirjatkaa sarjat sitten tämän postauksen kommentti-osioon. Kunhan dataa on riittävästi kertynyt, suoritetaan eeppinen jatkotutkimus.

Kimblestä järjestettiin SM-kisat viimeksi vuonna 2012. Blogin lukijoiden onkin nyt hyvä aika aloittaa harjoittelu seuraavia kisoja varten. Ja kirjata luonnollisesti samalla heittosarjat ylös jatkotutkimuksiin.

Statistickon steesit:

  1. Kimblessä kannattaa minimoida ne riskit mitkä toteutuvat pelivuorossa seuraavan vastustajan heittäessä nopasta vastakkaisen luvun
  2. Lautapelin ollessa kilpaurheilun sijaan perheen leppoisaa ajanvietettä, sitä ei kannata pilata liian syvällisellä taktikoinnilla [ terveiset tähän väliin siskolle :) ]

Teksti on kirjoitettu yhdessä analyyseista vastanneen kollega Tuomas Kukon kanssa.

 

 

 

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Mistä näitä korrelaatioita oikein tulee?

Kirjoitus on julkaistu myös Louhia-blogissa 21.10.2014.

Korrelaatiokerroin on eräs mittari kahden muuttujan välisen yhteyden mittaamiseen. Mikäli termi ei ole ennestään tuttu, sen ideaan voi tutustua esim. täällä. Sosiaalisessa mediassa on kiertänyt tällainen sivusto, jonne on listattu korrelaatiolla mitattuja yhteyksiä mitä eriskummallisimpien ilmiöiden välille. Mikä nämä selittää? Hukuttautuvatko ihmiset nähdessään Nicholas Cagen tähdittämän elokuvan vai onko taulukkolaskentaohjelma mennyt sekaisin?

Korrelaatioiden lähteet

Kahden ilmiön välinen korrelaation suuruus tilastoaineistossa voi johtua seuraavista neljästä asiasta tai jostain niiden yhdistelmästä.

1. Syy-seuraus suhde

Esim. kahvin juonti aiheuttaa verenpaineen kohoamista, mutta yhteys ei toimi toisinpäin. Korkea verenpaine ei yllytä juomaan lisää kahvia. Tällaista yhteyttä kutsutaan myös kausaaliteetiksi.

Dog in the pool

2. Molemminpuolinen riippuvuus

Esim. tietyn kenkämallin kysyntä ja tarjonta: kysynnän kasvaessa yritys alkaa valmistamaan kenkiä lisää ja tarjonta kasvaa. Toisaalta jos syystä tai toisesta kenkiä on valmistettu poikkeuksellisen paljon, yritys pyrkii tehostetulla markkinoinnilla tai alennuksilla lisäämään kysyntää.

3. Ilmiöt eivät suoraan riipu toisistaan, mutta molempiin vaikuttaa joku kolmas ilmiö

Esim. jo legendaarinen jäätelön syönti ja hukkumiskuolemat. Jäätelöä syömällä uimataidot eivät häviä vaan molempien taustalla on kolmas taustatekijä; lämpötila, mikä aiheuttaa samansuuntaista vaihtelua jäätelön syönnin ja hukkumiskuolemien välille.

4. Puhdas sattuma

Esittelemäni SoMe-artikkelin esimerkki, Nicholas Cagen leffaesiintymiset ja hukkumiset uima-altaaseen vuosina 1999-2009 saattaisi hyvinkin kuulua tähän kategoriaan. Ilmeistä on, että yhteys ei tule säilymään, mikäli seurantaa jatketaan vuodesta 2009 eteenpäin tarpeeksi pitkään.

Sattuman tuottamat korrelaatiot

Jos ihmiset eivät tarkoituksella hukuttaudu katsottuaan Cagen elokuvan tai juoksentele sähkölinjoihin mentyään naimisiin Alabamassa, niin mistä näitä merkillisiä korrelaatioita sitten tulee näin paljon? Tehdäänpä pieni kokeilu. Meillä on 7 muuttujaa, jotka voivat kuvata mitä numeroilla mitattavaa ilmiöitä tahansa, mutta niin etteivät ne todellisuudessa riipu millääan tavalla toisistaan. Nimetään muuttujat nyt X1, X2, …, X7. Arvoin kaikille näille muuttujille 12 (tyypillinen otoskoko SoMe-artikkelissa) satunnaislukuhavaintoa toisistaan riipumattomasti. Järkeenkäypää siis olisi, etteivät ne korreloisi keskenään ainakaan merkitsevästi. Tulokset näkyvät seuraavassa grafiikkamatriisissa.

korrelaatiokuvaaja

Vasemmasta ylänurkasta oikeaan alanurkkaan kulkevalla matriisin lävistäjällä on aina yksittäisen muuttujan arvottuja havaintoja kuvaava histogrammi. Vasemmalla alhaalla olevat sirontakuviot kuvaavat kahden muuttujan havaintoja yhtäaikaa niin että pystyakselilla on se muuttuja jonka rivillä ollaan ja vaaka-akselilla sarakemuuttuja.

Oikealla ylhäällä olevissa ruuduissa on kyseisellä rivillä ja sarakkella olevan muuttujan välinen korrelaatiokerroin. Luku on printattu sitä isommalla fontilla, mitä suurempi (itseisarvoltaan) korrelaatio on ja vieressä on punainen tähti osoittamassa mahdollista korrelaatiokertoimen tilastollista merkitsevyyttä. Punainen piste taas tarkoittaa, että korrelaatio on ”melkein merkitsevä” mutta ei aivan ylitä tieteellistä merkitsevyysrajaa.

korrelaatiokuvaaja_yksi_pariNyt  saatiin merkitsevä korrelaatiokerroin 0.69 muuttujien X4 ja X7 välille. Kun otetaan kyseiset muuttujat vielä lähempään tarkasteluun, huomataan että nouseva suora kuvaa hyvin muuttujien välistä yhteyttä aineistossa: X4:n ollessa suuri tuppaa X7 myös saamaan suuria arvoja. Nyt jos muuttujat sattuisivat olevaan vaikka ”Sabina Särkän lehtihaastattelujen lukumäärä yhden vuoden aikana” ja ”Matti Nykäsen vuoden pisimmän hypyn pituus”, SOME-hitti on valmis ja lööpit laulaa. Vain mielikuvitus on rajana keksiessä selityksiä tämän yhteyden välille.

Todennäköisyyslaskenta on tutkijan paras kaveri

Vielä saattaa herätä kysymys, että huijasinko ja toistin arvontoja niin monta kertaa, kunnes tuli tällainen poikkeama. Todellisuudessa tässä ilmentymässä ei ole mitään poikkevaa, koska todennäköisyys saada sattumalta vähintään yksi merkitsevä korrelaatio, kun testataan 21 toisistaan riippumatonta muuttujaparia on n. 66%. Ei tarvita montakaan sataa muuttujaparivertailua, jotta saadaan kasaan SoMe-artikkelissa olevat 19 erikoista ”tilastollisesti merkitsevää” yhteyttä pelkästään sattumalta. Todellisessa tutkimuksessa on todennäköisyyslaskennan avulla syytä säätää korrelaatioiden hyväksymiskriteerejä sen mukaan, onko tärkeämpää löytää paljon potentiaalisia yhteyksiä vai välttää virheellisiä tulkintoja. Aina pitää olla hereillä, kun tekee suurista muuttujamääristä ”machine learning”-tyyppistä datan penkomista. Systemaattinen laskentaprosessi ilman todennäköisyysajattelua päätyy helposti itsensä harhaanjohtamiseen. Ja hauskoihin lööppeihin.

Statistickon steesit:

  1. Yksittäisestä aineistosta löytyy yllättävän suuria korrelaatioita sattumalta varsinkin kun havaintoja on vähän ja muuttujia paljon
  2. Tilastotieteen syvällisempi osaaminen auttaa välttämään riippuvuustutkimuksen sudenkuopat

 

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Kaunismielistä lentopalloa

”Kaunis mieli”-elokuva on tositapahtumiin perustuva tarina peliteorian merkittävästä kehittäjästä; Nobel-palkitusta John Nashista. Ainakin elokuvan mukaan ensimmäinen peliteorian sovellus oli parinvalintatilanne opiskelijakemuissa: muiden miesten pörrätessä saman kauneimman naisen ympärillä, John laski maksimoivansa omat odotuksensa illan iloille satsaamalla huomionsa toiseksi kauneimpaan. Parhaiten nykymatematiikassa hänet tunnetaan Nashin tasapainoteoriasta. Kyse on kilpailutilanteesta, jossa kaikki osapuolet pelavaat optimaalisesti eikä kukaan saa taktista etua toista vastaan. Jos jollain kilpailijalla on isoimmat lihakset, niin se vie todennäköisimmin voiton. Mutta jos kilpailun ”lihaskimppu” ei pelaa taktisesti optimaalisesti, voi voimiltaan heikompi kääntää edun itselleen hyvällä peliteorian ymmärryksellä. Parhaiten peliteorian oppeja on otettu käytäntöön yritystalouden kilpailutilanteissa, mutta myös esim. menestyvät pokerinpelaajat käyttävät Nashin tasapainoa apuna pelistrategiaa pohtiessaan.

Peliteorian mahdollisuudet lentopallossa

Peliteorian oppeja voi kuitenkin soveltaa moniin urheilulajiin ja lentopallo on tästä erittäin hyvä esimerkki. Mietitään seuraavaa yksinkertaisettua tilannetta (kts. kuva):lentopallo_kentallinen4

Hyökkäävä joukkue, Sininen:lentopallo_kentallinen2lentopallo_kentallinen2
-Passari voi passata kolmeen paikkaan: 2-paikkaan Olli-Pekalle, keskelle Matille tai 4-paikkaan Antille. Oletuksena on, että takana 6-paikalla oleva pelaaja on tehnyt noston heittäytyen eikä ole hyökkäysvalmiudessa.

Torjuva joukkue, Punainen:
– Laitatorjujat torjuvat aina omaa laitaansa
– Keskitorjuja Mark voi joko

  • Jäädä keskelle odottamaan mahdollista keskihyökkäystä
  • Aavistaa hieman Simonin avuksi Olli-Pekkaa vastaan tai
  • Aavistaa hieman Waynen avuksi Anttia vastaan

Kuvassa näkyvät kaikille hyökkääville pelaajille tähän nimenomaiseen tilanteeseen liittyvät hyökkäystehoprosentit (todennäköisyys, että pallo päättyy oman joukkueen voittoon, jos pelaaja saa passin) kahdessa eri tapauksessa:

  1. Vastustajan keskitorjuja satsaa johonkin muuhun pelaajaan (isommat prosentit)
  2. Vastustajan keskitorjuja satsaa juuri häneen (pienemmät prosentit)

Oletetaan myös, että molempien joukkueiden tilastovalmentajilla on kattavat tilastot, joiden perusteella molempien joukkueiden valmentajat tietävät kuvassa esitetyt hyökkäystehoprosentit kaikille hyökkääjille. Tästä eteenpäin pelin voidaan olettaa olevan hyökätessä oman joukkueen pallonvoittotodennäköisyyden maksimointia ja puolustaessa vastustajan pallonvoittotodennäköisyyden minimointia.

Taktiikan kehitys

  1. Hyökkäävän Sinisen joukkueen aluksi hyvin yksinkertaisesti ajatteleva valmentaja käskisi passarin passata aina tässä tilanteessa Olli-Pekalle, koska sillä on parhaat tehoprosentit.
  2. Kun näin tapahtuu monta kertaa peräkkäin, Punaisen valmentaja huomaa toistuvat passit Olli-Pekalle ja käskee keskitorjuja Markin mennä aina Simonin avuksi pitämään Olli-Pekkaa.
  3. Kun Sinisen valmentaja huomaa tämän, hän järkeilee, ettei Olli-Pekalle enää kannata kokoajan passata. Olli-Pekan hyökkäyprosentti (65%) on vähemmän kuin esim. Matin (71%)  oletuksella, että keskitorjuja Mark aavistaa aina Olli-Pekan kimppuun. Ratkaisuksi tähän hän käskee passarin aina satunnaisesti passata 50% ajasta Olli-Pekalle ja 50% ajasta Matille.
  4. Kun Punaisen valmentaja huomaa tämän taktiikkamuutoksen, tajuaa hän että Mattiakin on pidettävä kiinni, ettei hän pääsisi tekemään pisteitä lähes vapaalta verkolta. Niinpä hän käskee Markia jatkossa satsaamaan satunnaisesti jatkossa 50% ajasta Mattiin ja 50% ajsta Olli-Pekkaan.
  5. Tässä tilanteessa pystymme esim. Excelillä laskemaan siniselle pallonvoittotodennäköisyydeksi 67.8%. Nyt Sinisen  tilastovalmentaja huomaa, missä mennään: molempien joukkueiden taktiikat huomioiden Sinisen pisteen todennäköisyys on 67.8%, mutta Antti voittaisi pallot 69% todennäköisyydellä nyt kun keskitorjuja jättää hänet aina rauhaan (samoin kun John Nashin opiskelukaverit jättivät toiseksi kauniimman naisen rauhaan). Kannattaisikohan Antillekin välillä passata?

Kohti tasapainoa

Jos edellisessä kappaleessa kuvattua valveentuneiden valmentajien (tilastovalmentajien avustuksella) käymää taktiikoiden ja vastataktiikoiden säätämistä jatkettaisiin loputtomiin, päädytään jossain vaiheessa ns. tasapainotilaan. Tällöin kumpikin joukkue pelaa sellaisella taktiikalla, jota vastaan vastustaja ei voi enää saada lisäetua muuttamalla taktiikkaa. Kiitos John Nashin, pystymme tämän tasapainotilan laskemaan. Tässä tapauksessa se olisi seuraava:

Wayne Wingman Mark Middleman Simon Sideman
Torjunnan tasapainojakauma: 7% 25% 68%
———————– ———————– ———————–
Passien tasapainojakauma: 30% 33% 37%
Antti Siltala Matti Oivanen Olli-Pekka Ojansivu

Tämä tarkoittaa, että passari valitsee satunnaisesti passin suunnan niin, että 30% todennäköisyydellä passi menne Antille, 33% todennäköisyydellä passi menee Matille ja 37% todennäköisyydellä passi menee Olli-Pekalle. Toisaalta Mark aavistelee 7% ajasta Antin suuntaan, 68% ajasta Olli-Pekan suuntaan ja 25% ajasta jää odottamaan passia keskelle. Käytännössä tällainen pelitaktiikka pitäisi toteuttaa pesäpallosta tutun merkkiviuhkan kanssa: tilastovalmentaja arpoo seuraavan siirron tietokoneella tilanteeseen sopivasti painotetulla satunnaisgeneraattorilla ja näyttää salaisen merkin pelaajille.

Kun pelaajat pelaavat tasapainon mukaisesti, niin näissä tilanteissa Sininen voittaa pallon 68.2% todennäköisyydellä.

Onko Nashin tasapaino optimaalinen pelitapa?

Vastaus otsikon kysymykseen: ei välttämättä. Tasapainon mukaan pelaaminen varmistaa sen, ettei vastustaja voi saada taktista etua joukkuettamme vastaan. Näin ollen se on paras lähtökohta kun vastassa on taktisesti valveutunut joukkue. Mutta jos vastustaja poikkeaa tasapainosta ja me tiedetään se, niin meidänkin kannattaa adjustaa taktiikkaa vastustajan mukaan. Palataan esimerkissämme taktiikan kehityksessä kohtaan 4. ja oletetaan nyt Punaisen valmentajaksi tilastoista piittaamaton jääräpää. Hän käskee Markin keskittyä aina vain Mattiin ja Olli-Pekkaan. Nyt Sininen joukkue saa taktiikalla ”ilmaisen lounaan” passaamalla aina Antille: tasapainotaktiikan 68.2% muuttuu nyt 69%:ksi.

Kurkistus todellisuuteen

volleyball competitionJohn Nash aikanaan sairastui skitsofreniaan matemaatikon uransa aikana. Yritetään me kuitenkin vielä pitää ajatukset lähellä todellisuutta. On selvää että esitettyssä esimerkissä on jouduttu tekemään monia yksinkertaistuksia todellisiin tilanteisiin verrattuna. Prosenttien kymmenyksen verran laskimen näytöllä etua tuovat taktiikka-muutokset ovat käytännön epävarmuuksista johtuen yhtä tyhjän kanssa. Tärkein tapa kehittää joukkueen peliä on edelleen harjoituttaa hyökkäystaitoja, jotta omat tehoprosentit nousee ja harjoittelemalla puolustamista, jotta vastustajan tehoprosentit laskee. Jos kuitenkin vastustajalle antaa useita prosenttiyksikköjä ylimääräistä taktista etua joka pallossa niin varmasti se näkyy myös ottelun lopputuloksessa. Peliteorialla olisi varmasti annettavaa monille lentopallojoukkueille, vaikkei sitä prosentin kymmenyksien tarkkuudella pystyisikään toteuttamaan.

Tämä kirjoitus on kirjoitettu yhdessä Mestaruusliigan ex-tilastovalmentaja Johannes Ärjen kanssa. Esimerkissä käytettyjen pelaajien nimet ja niihin liittyvät hyökkäystehoprosentit ovat keksittyjä. Jos jollakin todellisella pelaajalla on sama nimi, niin se on puhdasta sattumaa. Voit kokeilla itse laskea tasapainojakaumia erilaisiin tilanteisiin Ärjen tekemällä laskurilla.

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Jalkapalloanalytiikan kulta-aikaa

group watching football matchNäin jalkapallon MM-kisojen kynnyksellä elämme analytiikan kulta-aikoja. Ihmiset laidasta laitaan kiinnostuvat analysoimaan jalkapallojoukkueita ja yrittävät löytää taikakaavaa voittajan ennustamiseen. Työyhteisöjen kisaveikkaukset saavat harvemminkin urheilua seuraavat sukeltamaan hetkeksi veikkausten ihmeelliseen maailmaan. Mutta tästä lisää kirjoituksen lopussa. Katsotaan kuitenkin ensin, kuinka mediassa taho jos toinenkin on valjastanut tilapäisen analytiikkainnostuksen huomion keräämiseen.

Kosmofyysikko jalkapallon pauloissa

Tässä artikkelissa fyysikko Stephen Hawking kokeilee siipiään tilastotieteilijänä analysoimalla Englannin menestymismahdollisuuksia edellisten maailmanmestaruuskisojen perusteella. Hänen tutkimustuloksensa paljastaa mm. seuraavaa Englannin menestymiseen liittyen:

  • Englannin kannattaa käyttää punaisia paitoja valkoisten sijaan
  • Taktiikka ”4-3-3” toimii taktiikkaa ”4-4-2” paremmin
  • Eurooppalainen tuomari parantaa voittotodennäköisyyttä eteläamerikkalaiseen verrattuna
  • Korkealla pelaaminen murskaa Englannin voittomahdollisuudet

Olipa Hawkingin saavutukset fysiikan saralla kuinka kovat tahansa, niin tilastotieteilijänä on vielä petraamisen varaa. Jo tuon lehtiartikkelin perusteella hän onnistuu sortumaan useaan aloittelijan virheeseen analyysissaan. Toki näiden lehtijuttujen ensisijainen tarkoitus on tarjota vain ”höpöhöpö”-viihdettä, mutta koska juttuun on sotkettu oikea tiedemies, yritetään avata joitain ilmenneitä hämäryyksiä ja selviä virheitä:

  1. Valikoitu aineisto? Aineistona on MM-vuodesta 1966 lähtien. Miksi juuri tähän on aineisto rajattu? Eihän vaan Englannin kotikisoilla 1966 ole jotain tekemistä ”valinnan” kanssa?
  2. Aineiston käyttökelpoisuus?”Logistinen regressio” on varsin etevä analyysityökalu monien todennäköisyyksien mallintamiseen, kun aineistona on nykyhetkenkin populaatiota kattavasti kuvaava satunnaisotos. Kuinka hyvin 1960-luvun joukkue tai MM-kisat ylipäätään kuvaa nykypäivän joukkuetta tai kisoja?
  3. Aineiston koko? Tutkimuksessa on mukana kokonaista 12 turnausta (kisojen lukumäärä vuodesta 1966 alkaen). Jos Englanti pelaisi keskimäärin 5 ottelua turnauksessa, olisi tutkimuksen otoskoko 60. Aineiston riittävyys luotettaviin päätelmiin riippuu paljon siitä, kuinka montaa eri muuttujaa on tarkoitus tutkia. Jos huomioidaan vaikka pelkästään mainitut kolme luokittelevaa tekijää (puna/valkea pelipaita, ”4-3-3″/”4-4-2” taktiikka, eurooppalainen/etelä-amerikkalainen tuomari), jakautuu aineisto 2 * 2 * 2 = 8 osaan. Jokaiseen osioon jää siis keskimäärin 60 / 8 = 7.5 havaintoa. Pelipaidan väri tuskin on kuitenkaan ollut tutkimuksen pääkohde vaan haiskahtaa, että tässä on tutkittu lisäksi hyvin monia muitakin muuttujia, mutta nämä ovat nyt tällä kertaa sattuneet putkahtamaan esiin.

Tutkimuslöydöksiin liittyvästä epävarmuudesta ei artikkelissa puhuttu mitään, mutta ei tarvitse olla Einstein (Hawkingin esikuva) arvatakseen, ettei se taida kestää päivänvaloa.

Jalkapallovedonlyönti – kuin rahaa laittaisi pankkiin?

Toinen vastaantullut yritys on maailman mahtipontisimman pankin Goldman Sachs tekemät ennusteet. Tässä tutkimuksessa on päästy eroon monista Hawkingin ongelmista ottamalla mukaan kaikki muutkin maaottelut kuin MM-kisat lähes sadan vuoden aikana. Joukkueiden tasoerojen muutoksia on pyritty kontrolloimaan edeltävien pelien avulla automaattisesti joukkeiden taitotasoa pisteyttävällä ELO-menetelmällä. Lisäksi tutkimuksessa on pelipaitojen värin sijaan keskitytty oleellisiin muuttujiin.

Koneisto antaa paljon ihan uskottavan suuruisia arvioita, mutta esim. Brasilia saa pelottavan suuria todennäköisyyksiä: tutkimuksen mukaan Brasilia tulee voittamaan kotikisansa 50% todennäköisyydellä. Tutkijat lopussa myöntävätkin, että heidän käyttämämä ELO-pisteytys korostaa mahdollisesti liikaa aivan viimeisiä tuloksia ja Brasilialla sattuu olemaan juuri nyt alla suurinumeroiset voitot kovista maista viime kesältä( 3-0 vs. Espanja ja 4-2 vs. Italia). Lisäksi tutkimuksen mallissa on suuri painoarvo MM-kisojen kotiedulla, minkä voisi epäillä hieman laimenneen historian saatossa, vaikka 1930-1970-luvuilla nähtiinkin paljon kotimestaruuksia.

football bet slipKyseessä on sinällään mielenkiintoinen ja kunnianhimoinen yritys mallintaa tilastollisin menetelmin todennäköisyyksiä ilman syvällistä jalkapallo-osaamista. Tutkijat oikeaoppisesti myös testaavat menetelmän tomivuutta vuoden 2010 kisojen otteluihin ennen sitä tunnettujen tietojen avulla ja tulevat siihen lopputulokseen, että sattumalla on hyvästä analyysista huolimatta suuri vaikutus lopputuloksiin. Firman kannattaa siis edelleen keskittyä jauhamaan rahaa pankkibisneksillään. Internetin vedonlyöntimarkkinoilla vahvimmilla ovat ne, jotka historiadatan hallitsemisen lisäksi osaavat muuttaa numeroiksi yksittäisten pelaajien taitotasot ja joukkueen pelitaktiikan sekä yhteensopivuuden vastustajan taktiikkaa ja pelaajia vastaan. Nykypäivänä menestyvä vedonlyönti on siis yhdistelmä pitkälle vietyä lajituntemusta ja tilastotiedettä.

Itselläni ei futistietämys riitä vedonlyöntimarkkinoilla riittävän hyvään todennäköisyyslaskentaan, mutta sen sijaan osaan hyödyntää joitain vedonlyöntimarkkinoilla olevia tehottomuuksia. Näistä kiinnostuneiden kannattaa olla hereillä Twitterissä lähipäivinä.

Statistickon steesi:

  • Tilastomenetelmien turvallinen käyttö vaatii tutkittavan aiheen sisältöosaamista ja aineiston soveltuvuuden kriittistä arviointia

Bonussteesit työporukkaveikkauksiin (ei vielä tieteellisesti todistettuja):

  • Maalien tarkkuudella annetuissa tulosveikkauksissa yllätykset osuvat liian harvoin. Todennäköisin lopputulos on yleensä aina ’1-1’, mikäli ottelu on vähääkään tasaväkinen. Jos toinen joukkue on selvä suosikki, kannattaa veikata ’1-0’ ja murskasuosikille ’2-0’
  • Kannattaa valita yksi ”idea-joukkue”, jolla on hyvät mahdollisuudet päästä pitkälle, mutta jota muut kisan veikkaajat eivät ehkä osaa arvata.  Nyt potentiaalinen musta hevonen voisi olla jokin vähemmän tunnettu Etelä-Amerikan maa kuten Uruguay, Kolumbia tai Chile.
  • Pääasiassa kannattaa suosia todennäköisiä menestyjiä ja lopputuloksia, mutta pelkkiä yleisiä suosikkeja veikkaamalla on vaikea nousta veikkauksen kärkiryhmästä voittajaksi.  Sen takia voittaja tarvitsee ripauksen tuuria ”idea-joukkueensa” onnistumisen muodossa.
Facebooktwittergoogle_plusredditpinterestlinkedinmail