Todennäköisyydet

Archives for : Todennäköisyydet

Perheenisä salapoliisina

Posted by :Statisticko On : 1.5.2019

Category: Päätöksenteko, Todennäköisyydet, Yhteiskunta

Tags:etsivä, isä, lapset, prioritieto, rikokset, salapoliisi, todennäköisyys, tuomiot

Oma kirjojen lukemisharrastukseni alkoi lapsena salapoliisikirjoilla. Ainakin Neiti Etsivä ja 3 Etsivää -sarjat olivat kovaa kamaa. Idolin asemaan nousseita rosmon jahtaajia olivat myös esim. Ihmemies MacGyver sekä vielä ihmeellisempi Superhessu. Erilaisten mysteerien ratkaiseminen on kiehtonut läpi elämän ja aikuisena mm. Dan Brownin kirjat ovat maistuneet.

Urani ei ole johtanut poliisiopistoon, mutta oikeiden ”rikosmysteerien” selvittelyn makuun olen vihdoin päässyt tullessani kahden lapsen isäksi. Seuraavassa kerron tositapahtumiin perustuvan tarinan kuinka todennköisyyslaskenta tuli apuun arjen mysteerin ratkaisemisessa.

Tarina isä etsivästä

Eräänä talvisena päivänä sisarukset, tyttö 1 v. ja poika 2.5 v., ovat kahdestaan leikkimässä samassa huoneessa. Yhtäkkiä talon täyttää karmaiseva tytön rääkäisy. Viereisessä huoneessa maailman menoa pohdiskellut isä ryntää paikalle ja huomaa kaksi lastaan istuvan vierekkäin. Tytöllä on jalat paljaana ja toisessa jalkapöydässä komeilee hailakat, mutta selvästi havaittavat tuoreet hampaan jäljet. Vieressä istuva, vielä heikonlaisesti sanoja muodostava, poika toistaa yhtä sanaa: ”hampaat”.

Poikaa on jo aiemmin päivällä varoitettu sisarensa tönimisestä ja muusta kiusaamisesta, joten ensimmäinen ajatus isällä on: ”Nyt lähti poika kunnon puhutteluun ja toiseen huoneeseen joksikin aikaa.” Jostain mielen syövereistä tulee hänelle kuitenkin signaali laittaa jarrut päälle, koska onhan täällä toinenkin epäilty: tyttö itse. Hetken tilannetta tutkittuaan, mikään johtolanka ei auta syyllisen valitsemisessa. Puremisjälki on sen verran hailakka, ettei siitä pystynyt päättelemään syyllistä esim. hampaiden koon perusteella. Niinpä isä päättää noudattaa länsimaista oikeusperiaatetta tuomitsematta ketään ilman painavia todisteita ja tyytyi vain lohduttelemaan vieläkin hieman itkua tihrustavaa tyttöään.

Asia jää kuitenkin hieman isää kolkuttelemaan. ”Käytinkö sittenkään hyväkseni kaikkea tietoa mysteerin arviointiin? Mikähän on todennäköisyys, että poika on sittenkin syyllinen tapahtuneeseen?” Tilanne kärjistyy isän päässä niin radikaalisti, että hän päättää ottaa esille taikakalunsa, kynän ja sanomalehden reunan, ja alkaa rapsuttelemaan mysteeriä. Hän päätyy jakamaan puremistapahtuman kahteen vaiheeseen:

Tytön jalan laittaminen suuhun
Puraisu ehdolla että tytön jalka on suussa.

Puremisjälkeen johtavat mahdolliset skenaariot näyttävät graafisena mallina tältä:

Mahdolliset skenaariot, jotka johtavat puremisjälkeen tytön jalassa. Boy/Girl viittaa aina toiminnan subjektiin.

Tästä seikkailu jatkuukin jo kaavojen hahmottelemisella ja isä löytää tilanteeseen sopivia merkintöjä Bayesläisen tilastotieteen pyhästä kirjasta (Gelman ym., Bayesian data analysis 3). Koska kovia todisteita, eli dataa, on niukasti tarjolla, päättelyn täytyy perustua sellaisiin palasiin, joita pystyy prioritiedon perusteella arvioimaan. Lopulta isä päätyy loitsuun, joka kuuluu seuraavasti:

$\frac{\mathbb{P}(GirlBites | Bite)} {\mathbb{P}(BoyBites | Bite)}= \frac{\mathbb{P}(GirlMouth)} {\mathbb{P}(BoyMouth)} \cdot \frac{\mathbb{P}(GirlBites | GirlMouth)} {\mathbb{P}(BoyBites | BoyMouth)}$

Tätä kryptistä koodia isä lähtee purkamaan palanen kerrallaan. Yhtäsuuruusmerkin oikealla puolella oleva palanen $\frac{\mathbb{P}(GirlMouth)} {\mathbb{P}(BoyMouth)}$ on vastaus kysymykseen: ”Kuinka monta kertaa todennäköisempää on että tyttö laittaa jalan oman suuhunsa, kuin että poika laittaa sen?” Tytön on aiemmin isä nähnyt tutkivan varpaitaan lähietäisyydeltä ja fysiologisesti jalan laittaminen suuhun olisi mahdollista. Suuhun asti jalan työntämisestä ei kuitenkaan vielä ole muistijäljissä todisteita. Poika taas on innokkaasti viimeaikoina jaellut pusuja ja suupöristyksiä perheenjäsenilleen milloin minnekin. Lisäksi fysiologisesti toimenpide on pojalle helpompi. Tältä pohjalta isä päätyy arvioon: Todennäköisyys, että tyttö olisi laittanut jalkansa suuhun tässä tilantessa on noin puolet siitä, että poika olisi laittanut siskonsa jalan suuhun.

Viimeinen palanen kaavassa, $\frac{\mathbb{P}(GirlBites | GirlMouth)} {\mathbb{P}(BoyBites | BoyMouth)}$ , on taas vastaus kysymykseen: ”Kuinka paljon (suhteellisesti) suurempi todennäköisyys on tytön puraisulle silloin kun tytön jalka on suussa verrattuna pojan puraisulle vastaavassa tilanteessa.” Sisaruksista vanhempana poika on jo hyvin oppinut hallitsemaan hampaiden käyttöä, eikä pusujen sivutuotteina tulleista puraisuista ole enää vähään aikaan muistikuvia. Kyseessä voi myös olla tahallinen vahingoittaminen, mutta yleensä taistelut leluista ovat johtaneet tönimiseen tai läpsimiseen. Tyttö taas ei ole vielä oppinut kunnolla hallitsemaan tuoretta purukalustoaan ja itse kukin perheenjäsen on viime aikoina joutunut hänen näykkäilyjen kohteeksi. Isä päätyy tässä kohtaa arvioon, että jos jalka on suussa niin tyttö puraisee sitä 2.5 kertaa poikaa todennäköisemmin.

Loitsun lopputulosta voidaan siis arvioida numeroarvoilla: 0.5 * 2.5. Tässä kohtaa isä hyödyntää vielä tietoa, ettei muita epäiltyjä ole ja päättää jättää huomiotta epätodennäköisen skenaarion, jossa molemmat olisivat syyllisiä. Loitsu yksinkertaistuu nyt muotoon: $\frac{\mathbb{P}(GirlBites | Bite)} {1-\mathbb{P}(GirlBites | Bite)} = 0.5 * 2.5 = 1.25$ . Vaikka tässä kohtaa isää alkaakin jo uuvuttaman, hän vielä pinnistää pari riviä yhtälön pyörittelyä ja saa lopulta todennäköisyysarviot syyllisyyksille: Tyttö 56%, poika 44%.

Isä huokaisee helpoituksesta. Todennäköisin skenaario voisi sittenkin olla, että tyttö on vienyt omien varpaiden tutkimisen hieman normaalia pidemmälle ja ensimmäistä kertaa nyt itse kokenut tuoreen purukalustuksensa tehon. Pojan kiusanteko tai vahinko pusun yhteydessä ovat edelleen varteenotettavia vaihtoehtoja, mutta rankaisu olisi käytettävissä olleiden tiedonmurusten pohjalta ollut paha virhe.

Jälkikirjoitus

Edellisen tarinan isän harjoittama tutkimus on hyvin epätäsmällistä tiedettä, koska kunnon todisteet loistavat poissaolollaan ja prioritiedon pohjalta tehdyt arviot ovat hyvin pitkälti sitä kuuluisaa mutu-tuntumaa. Tämä on kuitenkin hyvä esimerkki arkielämän tilanteessa, jossa data nyt on mitä on, mutta joku päätös on kuitenkin tehtävä. Olennaista silloin on muotoilla tapahtuma sellaiseksi palasiksi, joita pystyy jollain tavoin perustellusti arvioimaan.

Jos tätä todennäköisyyslaskentaan pohjautuvaa päättelyä laajennetaan aikuisten rikosten maailmaan, päästään mielenkiintoisten moraalisten pohdintojen äärelle. Yhtiökumppanini sekä ex-työkaverin kanssa taannoin pohdiskeltiin sopivaa syyllisyyden todennäköisyyttä, josta ylöspäin tuomio pitää langettaa. Olimme yhtä mieltä siitä ettei se voi olla 100%, koska jokainen puolustusasianajaja keksisi aina jonkun teoriassa mahdollisen skenaarion, joka selittäisi päämiehensä syyttömyyden eikä ketään rankaistaisi. Sen sijaan esim. 80% tuntuu aivan liian alhaiselta, jos asiaa ajattelee omalle kohdalle. Ei tunnu oikein reilulta, mikäli joutuisin syyttömänä vankilaan silloin kun ulospäin näkyvät todisteet puhuvat vain 80% todennäköisyyden puolesta. Mutta mikä olisi sitten hyvä raja tällä välillä? Siinäpä pähkinää purtavaksi etsivälle jos toisellekin.

Todennäköisyyksien soveltamisen kolme eri maailmaa

Posted by :Statisticko On : 31.7.2017

Category: Pokeri, Todennäköisyydet, Vedonlyönti

Tags:pokeri, satunnaistaminen, tilannekatsaus, tilastotiede, todennäköisyys, vedonlyönti

Näin kesällä on lomakiireiden lomassa hyvä paikka tehdä itselleen pientä tilannekatsausta, mihin on työelämässä suuntaamassa ja miten tähän on päädytty. Julkaisin kaksi vuotta sitten vastaavan katsauksen ja siihen nähden nykyiseen tilanteeseen on tullut joitain muutoksia. Niin kuin kaksi vuotta merkkejä oli jo ilmassa, pokerin pelaaminen jäi reilu vuosi sitten pois lukujärjestyksestä. Yllättävämpi muutos on se, että yrittäminen on jäänyt taka-alalle ja olen pääasiassa palkkatyössä koska intressit kohtasivat niin hyvin Plus One Agencyn kanssa.

Olen huomannut, että omaan työhistoriani pohjalta todennäköisyyksien soveltamisen ympäristöt voisi jakaa kolmeen kategoriaan:

Satunnaistettu kasino
Ihmiset rajoitetussa toimintaympäristössä
Vapaa maailma

1. Satunnaistettu kasino

Kasinossa kaikki tapahtumat ovat satunnaistettu niin hyvin, että lukion todennäköisyyslaskennan kurssin (mikä pelasti minut aikanaan kolikkopelihimolta) tiedoilla pääsee pitkälle. Laskutoimitukset ovat pääasiassa yksinkertaisia jako- kerto- ja potenssilaskuja. Esimerkiksi ruletissa, jossa on 37 mahdollista numeroa, yksittäisen numeron todennäköisyys on aina 1/37 = 2.7%. Riittävän satunnaistamisen ansiosta peräkkäiset numerot ovat toisistaan riippumattomia ja esim. todennäköisyys seuraavien kahden pyöräytysten ykkösille on 1/37 * 1/37 = 1/1369. Tämä on ylivoimaisesti helpoin ympäristö todennäköisyyksien soveltamiselle.

Omasta ”työhistoriasta” pokerinpelaaminen kuuluu todennäköisyyslaskennan osalta tähän kategoriaan. Toki pokeri on paljon myös psykologiaa, loogista päättelyä ja peliteoriaa, mutta tarvittavat todennäköisyyslaskut ovat pääosin simppeleitä: sinulla kädessä 4 pataa, jäljellä on vielä jossain 9 pataa ja näkemättä on vielä 44 korttia. Jos jakaja on suorittanut satunnaistamisen tarpeeksi hyvin, todennäköisyys että seuraavaksi kortiksi tärähtää pata on 9/44.

2. Ihmiset rajoitetussa toimintaympäristössä

Toisessa kategoriassa tutkitaan ihmisiä, mutta niiden toiminta on tarkkaan rajattua. Kaikilla toimijoilla on samat tavoitteet, toimintaa ohjaa tiukat yhteiset pelisäännöt ja tapahtumat ovat pääasiassa toisistaan riippumattomia.

Selkeä esimerkki on esim. urheilu ja minun tapauksessa vedonlyönti. Jos ottelumanipulaatiot ja motivaatiottomat ottelut jätetään laskuista, kaikilla on selkeä tavoite voittaa jalkapallo-ottelu kaikin keinoin. Turnauksien alkulohkojen viimeisiä otteluja lukuun ottamatta eri ottelut ovat myös toisistaan riippumattomia. Tämä on suuri ilo tilastotieteen menetelmiä soveltavalle, koska riippumattomuus on useissa menetelmissä oletuksena.

Oleellinen ero kasino-olosuhteisiin tulee siitä, ettei tarkkoja todennäköisyyksiä enää ole kellään tiedossa. Yksikään ammattivedonlyöjä ei tiedä kaikkia ottelun voimasuhteisiin liittyviä tekijöitä. On vain kehnoja ja vähemmän kehnoja arvauksia joukkueiden vahvuuksista juuri pelipäivänä. Vaikka meillä olisi timanttinen julkista informaatiota hyödyntävä malli, aina voi olla jollain tähtipelaajalla edellisenä yönä puhjennut flunssa, josta tietää toistaiseksi vain pelaaja itse. Vedonlyöntimarkkinoilla pärjäämiseen riittää, että omat todennäköisyysarvaukset ovat vähemmän huonoja kuin suurimalla osalla muista toimijoista.

Tähän kategoriaan kuuluu myös tutkimusmaailman satunnaistetut kokeet. Esim. lääketieteellisessä kokeessa kaikilla on yhteinen tavoite parantua taudista tai pysyä terveenä. Koehenkilöt eivät kuitenkaan toimi täysin vapaassa maailmassa vaan tutkijat kontrolloivat parantamisprosessia säännöillä esim. kertomalla, mitä lääkkeitä he voivat käyttää ja mitä aktiviteetteja saavat tutkimusjakson aikana harrastaa.

Ilmiön ymmärtämisen tehostamiseksi voidaan kokeessa suorittaa satunnaistamista. Esimerkiksi arvotaan, keille koehenkilöille annetaan lääkettä ja keille ei. Näissä olosuhteissa perinteiset tilastotieteen menetelmät ovat parhaimmillaan.

Oma historia

Itseni elättäminen perustui pitkään näiden kahden kategorian hyvään hallintaan. En ollut mitään maailman huippuja pokerissa tai vedonlyönnissä, mutta riittävällä tasolla että pystyin itseäni näillä n. kymmenen vuoden ajan elättämään. Rahapelimarkkinoiden koventuessa olisi ehkä ollut mahdollista kehittyä mukana, mutta intohimoa ei riittänyt käyttämään riittävästi aikaa syventyäkseenpeleihin, jotka ovat irrallaan muusta elämästä. Viimeisen parin vuoden aikana mielenkiintoni on suuntautunut paljon monimutkaisempaan ympäristöön: todelliseen elämään jossa ihmiset tekevät vapaasti valintojaan jättäen joitain jälkiä toimistaan data-analyysin polttoaineeksi.

3. Vapaa maailma

Vapaiden valintojen maailmasta löytyy esimerkkejä pilvin pimein. Esim. verkkokauppa tutkii, mitkä osiot verkkosivuilla näyttävät muodostavan potentiaalisille asiakkaille ostamisen esteitä klikkailudatan perusteella tai osakeanalyytikko pyrkii päättelemään minkä firman tuotteita kuluttajat tulevat jatkossa todennäköisimmin preferoimaan. Yhteistä näissä on tutkia ihmisten käyttäytymistä todellisessa elämässä ilman rajoitteita.

Kategoriaan 2 verrattuna tässä maailmassa analyyseissa tulee useita mutkia matkaan. Tutkimukseen päätynyt data ei ole satunnaisotos tai havainnot eivät ole toisistaan riippumattomia. Kuten tästä blogikirjoituksestani muistetaan, ihmisten toimet vaikuttavat myös muihin ihmisiin ja riippumattomien havaintojen mallin soveltaminen voi johtaa radikaaleihin virhearvioihin. Datoissa havaitaan paljon korrelaatioita, jotka eivät ole perustu syy-seuraissuhteisiin, koska sekoittavia tekijöitä ei pystytä satunnaistamalla kontrolloimaan. Pohdiskelin aikoinaan blogikirjoituksessani, että sekavat tuloero-keskustelut voivat johtua osin tästä.

Tavoitteetkaan eivät ole vapaassa maailmassa kaikilla samat. Toiset pyrkivät tekemään rationaalisia ratkaisuja ja toiset elävät enemmän tunteella tai laumaeläiminä kopioivat mitä muut tekevät. Toiset tavoittelevat hyvinvointia lyhyellä tähtäimellä, toiset katsovat pidemmän ajan päähän ja ovat valmiita sen edestä hieman nykyhetkestä nipistämään.

Vapaan maailman kategoriassakin tilastotieteen menetelmät auttavat todennäköisyyksien hahmottamisessa. Verrattuna rajoitettuun maailmaan on kuitenkin oltava paljon tarkempana, milloin perinteinen maisterin tutkinnossa opittu menetelmä toimii ja milloin pitää keksiä jotain muuta.

Elämän mittainen opiskeluaika

Vapaiden valintojen maailman todennäköisyyksien hallinnassa tuskin koskaan olen valmis vaan se on koko elämän mittainen oppimisprosessi. Aina kun opiskelee uutta, löytää vaan lisää asioita listalle, joita pitäisi oppia, että tässä maailmassa pärjäisi kiitettävällä tasolla. Mutta onneksi osaaminen on sentään monikäyttöistä: joku idea, mitä olen keksinyt osakesijoittamisen yhteydessä, voikin tarjota yllättäen ratkaisun yrityksemme asiakkaan ongelmaan.

Mennään eteenpäin

Vaikka vapaan maailman data-analyysi vaatii paljon taitoja, joita ei ole omaan tutkintooni kuulunut, näen että kahden ensimmäisen kategorian kokemukset tarjoavat loistavan pohjan, mistä ponnistaa uteliain mielin eteenpäin. Mikäli urheiluvedonlyönnin maailmasta vastaan tulee kypsiä hedelmiä, poimitaan toki jatkossakin pois. Päämielenkiintoni on kuitenkin nyt oppia ymmärtämään ihmisten ja yritysten toimintaa (vaikkei satunnaistettua koetta ole mahdollista järjestää) ja tuottaa työkaluja jotka auttavat muita ymmärtämään ympärillä olevaa maailmaa paremmin. Tätä päämäärää nykyiset työkuviot tukevat mitä mainioimmin, joten loman loppuminen ei tunnu kauhean pahalta.

Brexit äänestysgallupit

Posted by :Statisticko On : 7.7.2016

Category: Epävarmuus, Todennäköisyydet, Vedonlyönti, Yhteiskunta

Tags:brexit, EU, gallup, Iso Britannia, politiikka, vedonlyönti

Kun juhannuksen aikoihin Isossa Britanniassa äänestettiin EU-erosta, piti eroamisen olla epätodennäköistä. Viimeisenä päivänä ennen äänestystuloksia 23.6.2016 vedonlyöntimarkkinoilta sai suuruusluokkaa 6 olevia kertoimia, mikä tarkoittaisi eroamisen voittavan äänestyksen (vallalla olevan näkymyksen mukaan) noin kerran kuudesta. (lähde)

Galluppien sanoma

Kun tämä epätodennäköisempi tulos sitten toteutuikin, alkoi jälkiviisastelun vyöry: ”Vedonlyöntimarkkinat olivat väärässä”. Mikäli vääryyden perusteena on pelkästään vastakkainen lopputulos, kyseessä on vain joutavaa jälkiviisastelua. Sama olisi heittää kerran noppaa, saada ykkönen ja ihmetellä miten pystyi tulemaan ykkönen, vaikka sen todennäköisyys piti olla vain kerran kuudesta. Jotkut ihmettelijät kuitenkin perustelivat vedonlyöntimarkkinan vääryyttä viime hetken gallup-tuloksilla, jotka ennustivat kannatukselle tiukkaa lopputulosta: 48% (ero) – 52% (pysyminen). Tässä on kuitenkin helppo mennä lankaan. Se että gallup kertoo eron puolesta äänestävien osuudeksi 48%, ei tarkoita että eroamisen voiton todennäköisyys olisi 48%. Ratkaisevaa on, kuinka paljon epävarmuutta gallup-tulokseen sisältyy. Alla olevassa kuvaajassa on esimerkki galluptuloksesta, joka ennustaa 48% osuutta eroamisen kannattajille. Käyrä kuvaa tulokseen liittyvää epävarmuutta. Mielenkiinnon kohteena oleva todennäköisyys on nyt pinta-ala joka jää käppyrän ja 50% osuutta kuvaavan punaisen pystyviivan väliin. Tämä mielenkiinnon kohteen oleva alue on värjätty sinisellä.

Kiinostava todennäköisyys on sinisen pinta-alan osuus koko käyrän alle jäävästä pinta-alasta

Kuinka suuri tämä todennäköisyys nyt sitten oli? Tällä sivustolla on koottu eri galluppien tuloksia. Jos yhdistetään sivuston viiden viimeisimmän gallupin (kaikki tehty 22.6.2016 ja otoskoko ilmoitettu) tulokset yhdeksi isoksi gallupiksi, saadaan yhteensä 14013 kantaa ottaneen henkilön otos, joista 48% kannatti EU-eroa. Olettakaamme seuraavat kaksi asiaa:

Meillä ei ole mitään muuta tietoa kuin näiden n. 14000 henkilön mielipide
Tämä joukko on kattava satunnaisotos äänestyspäivänä äänestävistä henkilöistä.

Nyt pystymme laskemaan todennäköisyyden EU-eron voitolle (kannatus yli 50%) käyttäen Bayes-menetelmää epäinformatiivisellä priorijakaumalla. Vastaus on karu: n. 0.0004%, eli kerran 250 000 :sta. Tilanne kääntyykin toisin päin: pelkkien galluppien perusteella olisi kannattanut lyödä vetoa isolla panoksella EU:ssa pysymisen voitosta. Vieressä vielä gallup-tulos tiivistettynä kuvaajaan.

Yhdistelmägallupin tulos

Muut huomioitavat asiat

Käyttämämme rajoittavat oletukset ovat kuitenkin syynä, ettei tuloksemme pohjalta vedonlyöntipäätöstä olisi vielä pitänyt tehdä. Ne, ketkä ovat tosissaan omilla rahoillaan lyöneet vetoa, ovat hyödyntäneet varmasti muitakin tietolähteitä kuin viimeisiä gallup-tuloksia. He ovat mahdollisesti myös tutkineet systematiikkaa, millä tavalla galluppeihin vastaavat henkilöt yleensä poikkevat niistä henkilöistä, jotka oikeasti vaaliuurnille vaivautuvat. Vedonlyöntikertoimet kuvaavat aina sitä näkemystä mikä milloinkin on vallalla kaikkien niiden mielestä, jotka ovat valmiita laittamaan rahojaan likoon näkemyksensä puolesta. Nyt vedonlyöjät olivat varautuneet brexit-yllätykseen huomattavasti paremmin kuin pelkkä gallup-analyysimme.

Loppukaneetti

Itse en tunne politiikkaa ja äänestyskäyttäytymisen harhan lähteitä niin hyvin, että osaisin sanoa kumman tuloksen puolesta olisi kannattanut lyödä vetoa ennen brexit-vaaleja sen aikaisilla tiedoilla. Ainoastaan sen osaan sanoa, että pelkkiä galluppeja tuijottamalla piti EU:ssa pysyminen olla selvä voittaja.

Vakioanalytiikkaa – näin tehdään miljardeja

Posted by :Statisticko On : 11.6.2016

Category: Todennäköisyydet, Urheilu, Vedonlyönti

Tags:algoritmi, odotusarvo, robotti, vakioveikkaus, vedonlyönti

Vieraskynä: Tämän postauksen on poikkeuksellisesti kirjoittanut kollega, vedonlyöntikonkari Johannes Ärje (Twitter: @JJArje)

Vakioveikkaus on Veikkaus Oy:n vanhin peli. Sen pelaaminen aloitettiin jo vuonna 1940, mutta tässä blogipostauksessa keskitytään vuoteen 2016. Mitä mahdollisuuksia kehittynyt tietotekniikka ja data-analytiikka tuo pelaamiseen?

Voittava vedonlyönti

Voittava vedonlyönti on helpompi määritellä kuin toteuttaa. Kaikki ne vedot, jotka odotusarvoisesti eli keskimäärin palauttavat enemmän kuin panos oli, ovat teoreettisesti voitollisia vetoja. Jos noppaa heitettäessä saisit kertoimen 6.5 silmäluvulle 6, olisi veto voitollinen, vaikka se ei juuri sillä kertaa toteutuisikaan. Suurin haaste voittavaan urheiluvedonlyöntiin on siinä että odotusarvon laskemiseen tarvittava vedon osumisen todennäköisyys joudutaan aina arvioimaan. Samasta syystä johtuen on vaikea arvioida, onko vedonlyönti kokonaisuudessaan voitollista, vaikka vetoja olisi takana satoja tai Vakion tapauksessa satojatuhansia. Vakion kaltaisissa totalisaattoripeleissä (voitto-osuudet määrittyvät sen mukaan mitä rivejä muut pelaajat pelaavat) toinen suuri haaste on ennakoida muiden vedonlyöjien pelaamista loppuhetkellä. Onneksi pelaamishetkellä on informaatiota sen hetken tilanteesta.

Vakion kohteet vaihtelevat laidasta (ampumahiihto) laitaan (jalkapallo) ja tuskin kukaan pystyy / ehtii jokaiseen kohteeseen arvioimaan todennäköisyyksiä omassa päässä luotettavasti. Vailla parempaa tietoa voi turvautua vedonlyöntimarkkinan informaatioon eli muodostaa vaikkapa suuria panoksia ottavan firman kertoimista todennäköisyydet. Useimmissa lajeissa / sarjoissa viime hetken kertoimista voidaan poimia suhteellisen luotettavat arviot eri tulosten todennäköisyyksille. Toki vedonlyöjä, joka pystyy arvioimaan markkinaa paremmin todennäköisyyksiä, saa valtavaa etua Vakion kaltaisessa pelissä, jos pelin muut puolet ovat hallussa. Henkilökohtaisesti turvaudun eri lajeissa eri informaatiolähteisiin.

API

Veikkaus tarjoaa yhtenä harvoista vedonlyöntiyhtiöistä ohjelmointirajapintaa (API, application programming interface), jonka avulla voidaan tietokoneohjelman kautta hakea tietoa kertoimista, voitto-osuuksista ja peleistä sekä myös suorittaa itse vedonlyönti. Näin ollen koko pelaaminen alusta loppuun on mahdollista automatisoida jopa niin, että vedonlyöjä voi lähteä viikoksi Karibian risteilylle netin ulottumattomiin ja kone hoitaa kaiken likaisen työn.

Algoritmi:

– tutki onko tänään Vakiossa sopivia kohteita

– vähän ennen kohteen sulkeutumista:

hae / arvioi yksittäisten kohteiden todennäköisyydet
hae infoa pelatuista vakioriveistä
lyö odotusarvoltaan positiivisiksi arvioidut rivit sisään, mutta jätä koko kierros välistä, jos jokin epäilyttää

– analysoi lopullisilla tiedoilla vetokokonaisuuden odotusarvoa

Rivien hakeminen

Veikkauksen API:sta voidaan tosiaan hakea tietoa jokaisen rivin voitto-osuudesta ja pelatusta rivimäärästä. Niinpä se on mahdollista tehdä kaikille riveille, joita 12 kohteen Vakiossa on 531441 kappaletta. Harmi, että tarjolla ei ole mitään yhtä tiedostoa, josta nämä määrät löytyisivät. Tai no, hyvähän se on niille, jotka pystyvät hakemaan silti rivit. Moniajot siis käyntiin, mutta Veikkauksen sääntöjä noudattaen rajoitetaan prosessit maksimissaan viiteen.

(https://github.com/VeikkausOy/sport-games-robot)

Voitto-osuudet

Tällä hetkellä 8 kohteen Vakiossa on vain yksi voittoluokka, joten kyseisen pelin matemaattinen puoli on lastenleikkiä (Verrataan rivin todennäköisyyttä odotettuun voitto-osuuteen). 18 kohteen Vakio Grand Prix:ssa puolestaan rivitiedot eivät ole haettavissa, joten sen pelin allekirjoittanut on kokonaan skipannut. Keskitytään tässä 12 kohteen Vakioon, joka on hieman yksinkertaisempi kuin perinteinen 13 kohteen Vakio.

12 kohteen Vakiossa on kolme voitto-osuusluokkaa (12, 11 ja 10 oikein), joten jokaisen rivin odotusarvo muodostuu 1 + 24 + 264 = 289:stä eri osasta, jotka summataan yhteen. Yksittäisellä rivillä voi siis saada osumaan 24 eri tavalla 11 oikeaa tulosta. Lisähaasteena kaikkien luokkien voitto-osuudet muuttuvat vielä sen mukaan, jos jossakin voitto-osuusluokassa joko voitto-osuus jäisi alle 2 euron tai siinä ei ole yhtään riviä. Kun tällainen laskenta tehdään pelin kaikille riveille, niin laskutoimenpiteitä tulee suoritettua lähes puoli miljardia. En muuten suosittele tämän koodaamiseen for-silmukkaa.

Ennustaminen

Konepelaajat kilpailevat erityisesti toisiaan vastaan. Usein muut pelaajat / peliporukat löytävät viime hetkellä ison osan samoja rivejä. Niinpä pelatessa on syytä myös ennustaa muualta tulevaa peliä. Eipä siinä siis muu auta kuin luoda sopiva ennustemalli aiempien kierrosten datojen perusteella. Alustavan arvioni perusteella viikonpäivistä perjantai on paras eli silloin on kilpailua vähiten. Liekö joku muu robotti eksynyt silloin baariin?

Toki myös omat lähellä toisiaan olevat rivit vaikuttavat odotusarvoihin, joten on syytä tehdä uusi ennustetuilla rivimäärillä toteutettu voitto-osuuslaskentaruljanssi ja karsia vielä huonoksi tippuneita rivejä pois.

Rivit sisään

Lopulta kun on saatu aikaan arvio hyvistä riveistä, pitää vedot saada lyötyä vielä sisään niin nopeasti kuin mahdollista. Joko peliaika on päättymässä tai Veikkaus on päivittämässä tietojaan (10 minuutin välein). Jälkimmäisessä tapauksessa on tärkeä määritellä reviiriään muille pelaajille, sillä jokainen veto tiettyyn riviin vähentää sen kannattavuutta muille. Rivejä on mahdollista myös yhdistellä järjestelmiksi ja usein 5000 rivin kokonaisuus tiivistyykin alle puoleen ja samoin käy syöttöön tarvittavalle ajalle.

Kuinka sitten kävikään

Kuinka hyvänä rivikokonaisuuden odotusarvo lopulta säilyikään muiden pelaajien tulituksessa? Olennaisin tekijä tähän on aika, jolloin kertoimia päivitetään viimeisen kerran. Itselleni täydellinen päivitysaika on kuusi minuuttia ennen kohteen sulkeutumista, jolloin ehdin vielä tämän kaiken tehdä, mikäli pelattava rivimäärä ei ole poikkeuksellisen korkea. Lopullisten tietojen päivityttyä on syytä vielä tarkastaa lopullinen odotusarvo, mutta itse otteluiden katsominen saa jäädä muiden henkilöiden vastuulle.

Kannattaako tehdä Vakiorobotti?

Ei, koska edut ovat pieniä.
Ei. Jos joku pelaisi samat rivit kuin itse pelaan, niin molempien odotusarvo painuisi pakkasen puolelle.
Ei, koska liikaa vaivaa.

Vastauksia usein esitettyihin kysymyksiin:

Koneeni on Suomen paras (loppupelin analytiikan perusteella)
Jäin tappiolle Karibian risteilyn aikana
Kaikki tämä on tehty R:llä (http://www.r-project.org)
En kertonut lähellekään kaikkea
Tarjoan kerrointa 6.5, että Kimblessä tulee valitsemani numero, jos saan itse suorittaa painalluksen

Mitä tykkäsit blogipostauksesta ”Vakioanalytiikkaa – näin tehdään miljardeja laskutoimituksia”?

– Johannes Ärje

Itsensä tuhoaminen riskejä piilottelemalla

Posted by :Statisticko On : 31.7.2015

Category: Riskien hallinta, Todennäköisyydet, Vedonlyönti

Tags:Martingale, rahapelit, ruletti, satunnaisvaihtelun välttely, tappioputki

Kun ammattimainen vedonlyönti oli isossa roolissa elämässäni, kaverini kerran kysyi: ”Käytätkö tuplaus-menetelmää?”. En oikein ymmärtänyt, mistä on kyse joten sain tarkennuksen: ”Pelataan esimerkiksi kasinolla rulettia laittamalla ensin euron panos punaiselle. Jos osutaan, saamme panoksen kaksinkertaisena takaisin ja jäämme euron voitolle. Jos häviämme, teemme saman uudestaan mutta tuplapanoksella. Mahdollinen voittomme on neljä euroa ja kun tästä vähennetään panostuksemme 1+ 2 = 3 €, jäämme euron voitolle. Mikäli emme vieläkään voita niin jatkamme tätä aina panos tuplaten niin kauan kunnes osumme ja lopulta jäämme väistämättä euron voitolle.”

Koska olen törmännyt tähän menetelmään useammankin tahon mainitsemana, on ilmeistä että jotkut tätä oikeasti käyttävät. Hieman tutkittuani, tälle panostustaktiikalle löytyi nimikin: Martingale. Psykologiset kokeetkin (aiemmin käsittelemäni Kahnemanin tutkimukset) osoittavat, että ihmisellä on jo luontainen taipumus panoksien kasvattamiseen tappioiden jälkeen. Tässä kirjoituksessa kuitenkin näytän, minkä takia tähän tyyliin panoksiaan elämässä ei pitäisi asetella. Kyseessä on riskin piilottamista ennen lopullista romahtamista.

Todennäköisyydet eivät ole puolellamme

Tehdään esimerkkilaskelma. Olkoon meillä pelikassaa 4095€ verran (valitsin tällaisen luvun, että tulokset olisivat tasalukuja). Kasinon maksimipanos saattaisi todellisuudessa sotkea strategian toteuttamista, mutta jätetään se nyt huomiotta. Kyseinen pelikassa riittää 11 peräkkäiseen panoksen tuplaamiseen. Niin kauan kaikki on siis hyvin, kunnes tulee 12 mustaa tai vihreää peräkkäin. Ruletissahan on 18 punaista numeroa, 18 mustaa numeroa ja yksi vihreä nolla, jolla talo voittaa aina. Katastrofi tapahtuu siis kerran 2974:sta pelisarjasta:

$\frac{1}{ (19/37)^{12}} \approx 2974$

Kun pelaamme 2974 pelisarjaa Martingalella, keskimäärin voitamme 2973 kertaa 1€ ja yhden kerran häviämme 4095€. Tämä esimerkki havainnollistaa faktaa, että todennäköisyyksiä ei voi huijata panostussysteemillä.

Kun todennäköisyydet ovat puolellamme

Entäpä jos pelin todennäköisyydet olisivat puolellamme? Olisiko tämä silloin hyvä panostustaktiikka? Muutetaan tilannetta niin että kasinon ruletissa on valmistusvirhe ja nolla on vahingossa maalattu punaiseksi. Nyt ruletin 37 numerosta 19 on meille suosiollisia punaisia joten voittotodennäköisyytemme on 19/37 = 51.3%. Olkoon meillä viisi peluria, joista jokainen pelaa punaista suosivaa rulettia 4000€:n aloituspelikassalla. He haluavat voittaa joka päivä 5 euroa, ja tämä vaatii 5 onnistunutta Martingale-sarjaa (yksi sarja päättyy yhden euron voitolle jäämiseen) päivässä.

En laittanut kavereita tällä kertaa todellisuudessa toteuttamaan strategiaa, vaan annoin läppärin simuloida viidelle pelaajalle (kuvattu eri väreillä) pelitulokset. Kuten kuvaajasta nähdään, pelit tuottavat jokaisella täysin yhdenmukaista tasaista 5€:n päivätuottoa, kunnes jossain vaiheessa pelätty, liian monen peräkkäisen mustan numeron putki tiputtaa pelikassan nollille. Huonoin säkä oli Mustalla pelaajalla, jonka systeemi kosahti n. 500:n päivän jälkeen. Rouva Sininen oli taas onnekkain pysyessään rulettipöydässä n. 5500 päivää, eli 15 vuotta.

Parempi panostustaktiikka

Katsotaan sitten kuinka näille pelureille olisi käynyt, jos he olisivat pyöräyttäneet tasan samat luvut ruletista, mutta panostustaktiikka olisi ollut ”1% osuus pelihetken pelikassasta, mutta maksimissaan 2000€”. Kellyn kaavan avulla optimoitu suhteellinen osuus olisi tässä tapauksessa 2.7% pelikassasta, mutta ollaan hieman varovaisempia. Nyt pelaajat joutuvat sietämään lyhyen ajanjakson satunnaisvaihtelua päivätuloksissaan, mutta kukaan ei täysin romahda. Tappioputkessa pelikassan pienentyessä panoksetkin tippuvat samassa suhteessa ja aina on olemassa pohja uudelle nousulle.

Totaaliromahtamisen välttämisen lisäksi, ”yhdellä prosentilla” panostaminen on myös pitkällä tähtäimellä hyvin tuottoisaa. Kaikista onnekkain pelaaja (Sininen) sai Martingale-taktiikalla kartutettua kasaan reilu 30000€ ennen romahtamistaan. Prosentti-taktiikalla panostaen hänellä olisi omaisuuttaa jo 1.75 miljoonaa ja matka vaan jatkuisi.

Panostustaktiikoiden vertailu

Käyttäten Nassim Talebin ”Antifragile” kirjassa määrittelemä termistöä, Martingale-panostussysteemi on hauras. Siitä on keinotekoisesti eliminoitu lyhyen tähtäimen satunnaisvaihtelu, mutta vastapainoksi järjestelmä romahtaa ennemmin tai myöhemmin piilotetun jättiriskin takia. Romahtamisen estäisi vain äärettömän suuri pelikassa ja kasino, joka on valmis ottamaan rajattoman suuria panoksia vastaan.

Pieneen prosentuaaliseen kassan osuuteen perustuva panostussysteemi on elinvoimainen. Siihen liittyy paljon satunnaisvaihtelua lyhyellä tähtäimellä. Edellisessä esimerkissä Rouva Sinisellä on päivästä 5000 alkaen n. vuoden mittainen, varmasti ikuisuudelta tuntuva, jakso niin että suunta on alaspäin. Hän kuitenkin kestää satunnaisvaihtelun ilman täyttä tyrmäystä ja kykenee pitkänkin tappioputken jälkeen uuteen nousuun. Aika on sen ystävä.

Oma mottoni on: ”Seurauksiltaan pienet riskit siedetään, kun palkkio on kohdillaan ja isoilta riskeiltä suojaudutaan”. Martingale toimii juuri päinvastoin.

Elämä kasinon ulkopuolella

Kun siirrytään täsmällisen matematiikan kasinoympäristöstä todelliseen, mutkikkaampaan maailmaan, panoksien korottamisesta tappioiden jälkeen tulee vieläkin huonompi toimintamalli:

Esim.1. Osakesijoittaminen

Ostan Yrityksen osakkeita mielestäni erittäin edullisesti tuottopotentiaaliin nähden. Yllätyksekseni viikon päästä osakkeen kurssi on laskenut vieläkin alemmaksi, vaikka tietääkseni mikään ei ole Yrityksessä muuttunut. Lisäsijoitus voi olla paikallaan, mutta sijoitettavan rahamäärän kanssa on syytä olla varovainen. Ruletissa tiedettiin, että kaikki satunnaisvaihtelu on aitoa A-luokan (määritelty tässä postauksessa) satunnaisuutta. Järkeni vastainen osakekurssin laskukin voi olla merkityksetöntä kohinaa, esim. joku suursijoittaja on pikaisesti tarvinnut rahaa helikopterikauppoihin ja laittanut osakkeita reilulla kädellä myyntiin. Mutta nyt on myös kasvanut mahdollisuus, että Yritykseen kohdistuu joku uusi riskitekijä, mitä en ole itse huomannut. Jotkut toimijat markkinoilla taas tämän ehkä tiedostavat ja siksi myyvät osakkeitaan näennäisen halvalla.

Esim. 2. Korttirinki 1950-luvun tukkikämpällä

Pelaan rahasta toisen tukkiäijän kanssa tikkiä, kurkkua tai jotain muuta lähes kokonaan tuuriin perustuvaa korttipeliä. Tappioputkeni voi selittyä huonon tuurin lisäksi sillä, että vastapeluri on huijari ja panokset on parempi pitää pienenä, ettei illalla harmittaisi kuin Kummelin Keijoa.

Oletko kuullut vanhan kansan tarinoita, joissa isäntä on tukkikämpällä hävinnyt vedonlyönnissä tai korttipelissä koko talonsa? Itselleni heräsi epäilys: onkohan Martingale ja pakkomielle jäädä päivän päätteeksi edes omilleen syynä näissä surullisissa kohtaloissa? Häviäminen on tärkeä taito.

Statistickon steesit:

Panosten korottaminen tappioiden jälkeen on huono idea kasinoympäristössä ja vielä huonompi idea kasinon ulkopuolella, missä kaikkia riskejä ei tunneta
Satunnaisvaihtelun keinotekoinen piilottaminen johtaa helposti hauraaseen, jossain vaiheessa romahtavaan, systeemiin
Menestyminen rahapeleissä vaatii riskinhallinnan ja todennäköisyyslaskennan osaamista sekä jatkuvaa satunnaisvaihtelun sietämistä

Omaehtoiset eläköitymisskenaariot

Posted by :Statisticko On : 28.5.2015

Category: Osakesijoittaminen, Riskien hallinta, Todennäköisyydet, Yhteiskunta

Tags:eläköityminen, indeksi, sijoittaminen, simulointi

Tämän päivän tarinan päähenkilö on Ville. Hän on työuraansa aloitteleva vastavalmistunut 25-vuotias. Villeä huolestuttaa Suomen väestöpyrämidin rakenne ja yleisen eläkeiän nostot: ”Näinköhän minä ehdin nauttimaan terveistä eläkevuosista ollenkaan?”. Loputtoman vaikeroinnin sijaan hän päättää tehdä asialle jotain.

Vinkkejä sijoitusbloggarelta

Oman eläkeiän aikaistamisesta sijoitustoiminnan turvin löytyy internetin ihmeellisestä maailmasta useita blogeja. Itselleni ajatus tuli tutuksi Pasi Havian blogista. Kyseisen blogin päivitystahti on viimeaikoina hieman hiipunut, mutta vanhoihin postauksiin kannattaa edelleen tutustua, mikäli aihe kiinnostaa. Ulkomaalaisista mainittakoon Mr. Money Moustache.

Oma sijoitusstategia

Sankarimme Ville on päättänyt rakentaa oman sijoitustoimintansa seuraavien periaatteiden varaan:

Hän on laskenut, että pystyy ilman isoja ongelmia säästämään 250€ jokaisesta kuukausipalkasta
Hän ei jaksa analysoida yksittäisiä yrityksiä vaan sijoittaa S&P 500 -osakeindeksiä seuraavaan vähäkuluiseen (laskelmissa 0.17 % vuodessa) indeksirahastoon, mikä hänen näkemyksen mukaan kuvaa riittävän hyvin yleistä maailman talouden kehitystä
Hän ei halua vaivata päätään pohtimalla, milloin osakkeet on yleisesti kalliita ja milloin halpoja, vaan sijoittaa systemaattisesti 250€ joka kuukausi.
Hän haluaa jäädä 60-vuotiaana omaehtoiselle eläkkeelle ja lopettaa silloin sijoittamisen
Hän tarvitsee eläkkeellä kuluttamiseen verojen ja inflaation huomioimisen jälkeen 2000€ / kk nykypäivän rahassa.

Netistä löytyy useita laskureita (esim. täällä ja täällä), joilla voi kokeilla omien sijoitustavoitteiden toteutumista erisuurusilla kuukausisijoitussummilla ja sijoitusajoilla. Laskennat näissä tehdään yleensä toteutuneilla keskimääräisillä sijoitustuotoilla. Seuraavalla harjoituksella on tarkoitus havainnollistaa satunnaivaihtelun merkitystä, mitä normaalit Excel-laskurit eivät ota huomioon.

Sijoitustavoitteet

Villellä on sijoitustoiminnan lopputulokselle seuraavat tavoitteet 60 ikävuodesta alkaen:

Minimitavoite: Nykyrahassa 2000€ / kk nettona 70 vuotiaaksi asti, jolloin hän uskoo pääsevänsä kiinni normaaliin eläketurvaan
Huipputavoite: Kyseiset 2000€ rahavirrat riittävät 100 vuotiaaksi asti normaalin eläkkeen päälle.

Tulevaisuuden skenaarioiden simulointi

Sitten lähdetään katsomaan, kuinka Villelle tulee käymään, jos historia toistaa itseään. Laskelmat perustuvat vuosien 1988-2013 S&P 500 -indeksin kuukausituottoihin. Aikaikkunaksi valikoitui tämä, koska siltä sattui nopeasti löytymään dataa valmiissa muodossa. Kyseisenä aikana indeksi tuotti keskimäärin n. 10% vuodessa. Ajatus on, että tulevaisuuden kuukausituotot arvotaan satunnaisesti tästä historia-aineistosta (ei siis tehdä mitään tuottojakaumaoletusta vaan tylysti ”bootsträpätään” havaittua dataa). Inflaatio voitaisiin laittaa myös vaihtelemaan satunnaisesti, mutta luotetaan keskuspankin viisaisiin miehiin, että he saavat pidettyä inflaation suhteellisen stabiilisti tasolla 2% / vuosi.

Seuraavassa kuvaajassa on 5 esimerkkiä näin simuloidusta tulevaisuuden skenaariosta. Kaikissa siis kuukausisäästäminen loppuu 60 -vuotiaana ja samalla aloitetaan nostamaan rahaa kulutukseen suunnitelman mukaisesti. Verotus tehdään 40% hankintamenojen mukaan 30% veroprosentilla.

Vilen varalisuuden kehitys, 5 skenaariota

Villen varallisuuden kehitys, 5 skenaariota

Kuvaajasta huomataan, että mahdolliset skenaariot ovat hyvin erilaisia:

Punainen ja sininen skenaario tekevät Villestä tarpeettoman varakkaan miljonäärin 60 ikävuoden jälkeen
Vihreä tuo hyvän elintason kuolemaan asti
Mustassa minimitavoite ylittyy niukasti
Turkoosissa sijoitusvarallisuus on törsätty parissa vuodessa ja Villen on palattava sorvin ääreen vielä muutamaksi vuodeksi

Kun simuloidaan 10000 kpl vastaavaa skenaariota, saadaan laskettua suuntaa-antavat todennäköisyydet Villen tavoitteiden täyttymiselle:

Minimimitavoite: 83%
Huipputavoite: 53%

Tähänkin laskelmaan liittyy oletuksia, jotka eivät välttämättä tulevaisuudessa toteudu. Ville pelkää, että talouden kovimmat nousuvuodet saattavat olla ohitse ja tulevaisuuden tuotot ovat matalampia. Toistetaan samat laskelmat niin, että keskimääräiset vuositutotot ovat 2%-yksikköä alhaisemmat ja näin saadaan varovaisemmat arviot tavoitteiden täyttymiselle:

Minimimitavoite: 55%
Huipputavoite: 19%

Edelleen minimitavoitteen toteutuminen on todennäköisempää kuin epäonnistuminen, mutta Villen kannattanee harkita joitain muutoksia sijoitussuunnitelmaan. Esimerkiksi kuukausisijoitussumman nostamista pikkuhiljaa inflaation / palkkakehityksen tahdissa.

Pohdinnat

Nämä teoreettiset laskelmat tukevat useiden sijoitusbloggareiden ajatusta siitä, että nipistämällä hieman elämän alkupuolen kulutuksesta voidaan ”korkoa korolle” -ilmiön avulla saada huima määrä valinnanvapautta elämän loppupuoliskolle. Tosin kaikki ei aina mene kuin Trömsössä ja sattuman tuomat riskit on syytä huomioida, mutta ei pelätä liikaa. Todennäköisyydet ovat tälläkin hyvin yksinkertaisella ja vaivattomalla sijoitusstrategialla pitkän tähtäimen sijoittajan puolella.

Statistickon steesit:

”Korkoa korolle” -ilmiö paisuttaa pieniäkin sijoitussummia, kunhan sen aloittaa ajoissa
Sattumalla on iso vaikutus sijoitustoiminnan lopputulokseen, mutta todennäköisyydet ovat pitkäjänteisen ja hajauttavan sijoittajan puolella
Seteleiden sijaan sijoitustilin avaaminen on valmistuvalle nuorelle erinomainen lahja, vaikkei hän sitä välttämättä heti osaisi arvostaa

Kirjoituksen on tarkoitus toimia havainnollistavana esimerkkinä. Kirjoittajalla ei ole tarkkaa tietoa tulevaisuudesta, eikä kirjoitusta tule pitää sijoitussuosituksena.

Totuuden jäljillä

Posted by :Statisticko On : 27.3.2015

Category: Todennäköisyydet, Tutkimukset

Tags:hypoteesit, johtopäätös, merkitsevyys, power, totuus, tutkimukset

Otetaan heti alkuun pieni pähkinä, joka on hieman muokaten kopioitu Nassim Talebin kirjasta ”Fooled by randomness”.

Kuvitellaan tauti, jota sairastaa yksi tuhannesta suomalaisesta 40 vuotiaasta miehestä. Jarkko menee 40-vuotispäivän kunniaksi lääkärille rutiininomaiseen terveystarkastukseen ja lääkäri suorittaa verikokeen taudin testaamiseksi. Kokeesta tiedetään, että oikeasti sairaiden lisäksi se antaa positiivisen tuloksen 5% todennäköisyydellä silloin kun potilas on terve.

Jarkko sai kokeesta positiivisen tuloksen. Mikä on todennäköisyys, että Jarkolla on kyseinen tauti?

Mieti hetki vastausta, ennen kuin jatkat eteenpäin.

Vastasitko 95%? Ei se mitään, niin vastaa moni muukin pätevä kaveri. Mutta oikea vastaus on n. 2%. Pieleen menee yleensä siinä, että ennakkotieto ”yleinen sairastuneisuus 1/1000” jää huomiotta. Asian hahmottamiseksi vieressä on laatikko, jossa pallerot kuvaavat tyypillistä 1000 hengen otosta 40-vuotiaista miehistä. Punaisella värjätty alanurkan pallero on se epäonninen, joka sairastaa tautia. Jäljelle jäävistä 999 terveestä henkilöstä 0.05 * 999, eli noin 50 henkeä taas ovat sellaisia, jotka saavat verikokeesta virheellisen positiivisen tuloksen. Näitä ovat mustat pallerot ylhäällä. Pähkinän oikea vastaus tulee jakolaskusta 1/(1 + 50).

Edellinen verikoe on esimerkki tilanteesta, jossa totuuden etsimiseksi on kehitetty testi, jonka lopputulokseen liittyy epävarmuutta. Myös tieteen tekeminen on jatkuvaa painimista löydöksiin liittyvien epävarmuuksien kanssa. Esittelen seuraavaksi kolme mittaria, jotka auttavat tieteellisen löydöksen totuusarvon mittaamisessa.

Tilastollinen merkitsevyys (P-arvo)

P-arvo on tärkein ja tunnetuin mittari sille, kuinka uskottava tutkimustuloksemme on. Kyseessä on ehdollinen todennäköisyys: Todennäköisyys, että löydös ilmenee aineistossa sattumalta JOS se ei oikeasti pidä paikkaansa. Akateemisessa tutkimuksessa löydöstä yleensä pidetään tilastollisesti merkitsevänä, jos P-arvo on pienempi kuin 0.05. P-arvoa kuitenkin ylitulkitaan jatkuvasti samoin kuin ”Jarkon sairausdiagnoosi” -esimerkissä. P-arvo 0.05 EI nimittäin tarkoita välttämättä, että tutkimuslöydös olisi 95% todennäköisyydellä tosi.

Tilastollinen voimakkuus (Power)

Voimakkuus on ”Todennäköisyys, että tutkimusaineisto paljastaa etsimämme ilmiön JOS ilmiö on oikeasti olemassa.” Mediahuomiotakin saaneen Kimble-tutkimuksen tapauksessa: ”Todennäköisyys, että vastakkaisia silmälukuja tulee tilastollisesti merkitsevästi enemmän tutkimuksessamme, jos nopassa on oikeasti systematiikkaa.” Voimakkuuslaskelmia käytetään pääasiassa ennen tutkimusta selvittämään sopivaa otoskokoa tutkimukselle, mutta se on hyödyllinen tieto myös myöhemmin löydöksen totuusarvoa laskiessa.

Ennakkokäsitys ilmiöstä (Prioritieto)

P-arvo ja Power ovat siis ilmiön paljastumistodennäköisyyksiä tietyillä ehdoilla ja me haluaisime päästä käsiksi ilmiön olemassaolon todennäköisyyteen. Tämä onnistuu ottamalla huomioon ennakkokäsitys ilmiöstä ennen tutkimusaineiston keräämistä.

Esimerkiksi Kimble-tutkimuksessa ennakkokäsityksemme oli suurinpiirtein seuraavanlainen: ”Nuorisokodin peleissä ykkönen on tullut kuutosen jälkeeen silmiinpistävän usein. Kyse voi kuitenkin olla sattumasta ja siitä seuraavasta psykologisesta harhasta. Toisaalta systematiikat ovat mahdollisia, koska noppakupu on sen verran pieni. Noppa voisi olla kyseisellä tavalla epäsatunnainen ehkä 20% todenäköisyydellä, eli kerran viidestä.”

Tässä kohti huomataan, että peliä vuosikymmeniä hakanneella konkarilla ennakkokäsitys olla täysin erilainen. Joku aktiivipelaaja olisi saattanut nähdä asian seuraavasti: ”Vuosikymmenten kokemuksella olen hyvin varma ilmiön olemassaolosta. Väittäisin olevan sen tosi 90% todennäköisyydellä.” Ennakkokäsitys on usein hyvin subjektiivinen näkemys.

Subjektiivisten näkemyksien suhteen ollaan ymmärrettävistä syistä varovaisia akateemisen tutkimuksen tilastoanalyysissä. Emme halua, että tieteen tulokset ovat liian riippuvaisia yksittäisen tutkijan subjektiivisesta näkemyksestä. Ainahan on olemassa riski, että ideologiset näkemykset tai henkilökohtaiset haaveet ohjaavat yksittäisen henkilön ennakkokäsitystä tiettyyn suuntaan.

Sen sijaan esim. yrityksen tehdessä tutkimusta vain oman liiketoimintansa päätöksenteon tueksi prioritietoa kannattaa hyödyntää, mikäli palkkalistoilta löytyy asiantuntija, joka osaa muuttaa näkemyksensä numeeriseen muotoon. Liiketoiminnassa taloudelliset intressit kannustavat kohti objektiivisuutta. Virheelliset johtopäätökset kun tuppaavat näkymään yrityksen tuloksessa.

Prioritodennäköisyyden ongelma on sen vaikea määrittäminen yksiselitteisen objektiivisesti. John Ioannidis käyttää artikkelissaan erästä objektiivista lähestymistapaa: selvitetään kaikki viimeaikojen oman tutkimusalan tutkimukset ja käytetään prioritodennäköisyytenä suhdetta, jolla aloitetut tutkimukset ovat lopulta johtaneet oikeaan uuteen löydökseen. Tämän asian selvittäminen ei kuitenkaan käy ihan sormia napsauttamalla.

Tutkimuslöydösten totuusarvot

Nyt meillä alkaa olla riittävästi työkaluja käydä käsiksi tutkittavan ilmiön olemassaolon todennäköisyyteen. Mietitään tyypillistä standardien mukaan suunniteltua tutkimusta. Mikäli matematiikka ei ole lähellä sydäntäsi voit jättää kaavat ja kreikkalaiset kirjaimet omaan arvoonsa. Tutkimuksen tilastollinen voimakkuus $(1-\beta )$ on standardi 0.8 ja tilastollinen merkitsevyyskriteeri $(\alpha )$ on 0.05. Olkoon testattava hypoteesi $(H_1 )$ aiemman Kimble-esimerkin tapainen, mikä voidaan olettaa ennakkokäsityksen mukaan todeksi 20% varmuudella. Nyt jos data kriteereillämme paljastaa ilmiön, sen todennäköisyys olemassaololle on 80%. Tämä saadaan laskettua Bayesin säännöstä johdetulla kaavalla (johdin sen tähän hätään itse, joten suhtautuminen varauksella):

$\mathbb{P}(H_1 | Data) = \frac{(1-\beta ) \mathbb{P}(H_1)}{ \alpha (1-\mathbb{P}(H_1))+(1-\beta ) \mathbb{P}(H_1)}$

Mietitään sitten vertailun vuoksi tutkimusta, jossa voimakkuus ja merkitsevyyskriteeri ovat edelleen samoja, mutta tarkoitus on testailla vähän kaikkea, jos satuttaisiin löytämään joitain tilastollisesti merkitseviä yhteyksiä. Meillä voisi olla vaikka pitkä lista erilaisista Kimble-pelaajien ominaisuuksista kätisyydestä hapenottokykyyn ja tutkimme, sattuisiko jollain niistä olemaan yhteyttä pelissä pärjäämiseen. Tällöin yksittäiseen testiin liittyvä prioritodennäköisyys ilmiön olemassaololle voisi olla luokkaa 1%. Nyt ylläolevalla kaavalla laskettu totuusarvo kyseiselle löydökselle romahtaa niinkin alas kuin 14%:iin.

Pieni prioritodennäköisyys romauttaa löydöksen totuusarvon, koska sattumalta tulevat löydökset dominoivat tilastollisesta merkitsevyydestä huolimatta. Näin kävi alun sairausdiagnoosipähkinässäkin. Lisäpähkinä pohdittavaksi: Matias saa saman diagnoosin kuin Jarkko, mutta hän tietää jo ennalta omaavansa geenit, jotka nostavat kyseisen sairauden puhkeamisen riskiä.

Käytännön prosessit

Ennakkonäkemyksen kunnollinen hyödyntäminen on todellisuudessa vaikeaa, mutta tärkeintä tässä on huomata ero huolellisesti valitun hypoteesin tutkimisen ja ”vähän kaiken kokeilun”, (exploratiivisen tutkimuksen) välillä. Tässä vaiheessa moni voi huomata, että omiin tutkimuksiin/tietolähteisiin liittyy enemmän epävarmuutta, mitä on tullut ajatelleeksi. Niin kävi itsellenikin tätä kirjoittaessa. Tutkimuksen huolellisella suunnittelulla voi kuitenkin luottaa olevansa useammin oikeassa kuin väärässä, vaikkei tarkkoja prioritodennäköisyyksiä pystyisikään hahmottamaan.

Tutkimustiedon jatkokäsittelijän taas tulee muistaa olla kriittinen uuden mullistavan tiedon löytyessä. Oleellinen kysymys kuuluu: Kuinka tähän tulokseen päädyttiin? Onko kyseessä hakuammunnan tulos vai oliko alla jo muuta samaa ilmiötä tukevaa tutkimustietoa, jolle nyt haettiin varmistus?

Statistickon steesit:

Tutkimuslöydöksen todenperäisyyden arviointiin tarvitaan tilastollisten mittareiden lisäksi prioritiedon hyödyntämistä
Prioritiedon muuttaminen numeroiksi on usein hankalaa, mutta huolellisella tutkimussuunnittelulla voidaan kiertää tätä ongelmaa
Kokeileva, exploratiivinen, tutkimus on tärkeää uusien tutkimussuuntien löytämiseen, mutta siitä on vielä pitkä matka totuudeksi julistamiseen

Kimblen noppa ei ole täysin satunnainen

Posted by :Statisticko On : 30.1.2015

Category: Todennäköisyydet, Tutkimukset

Tags:hypoteesi, kimble, lautapelit, noppa, sattuma

Syksyllä jyväskyläläisessä nuorisokodissa pelatuissa Kimble-peleissä tuli huomiota herättävän usein nopan heitolla, tai Kimblen tapauksessa kuvun sisällä olevan nopan poksautuksella, kuutosen jälkeen ykkönen. Tämän toistuessa peliseurueessa alettiin sadatella jatkuvaa heitto-onnen kääntymistä aallonharjalta pohjamutiin. Eräs nuorisokodin ohjaajista yritti puhua kanssapelaajilleen järkeä: noppa on aina satunnainen ja kuutosta seuraaviin ykkösiin oli vain alettu kiinnittää liiaksi huomiota. Koko ilmiön täytyi olla vain seurueen puheilla itselleen rakentama psykologinen harha.

Asian selvitys tutkimuksella

Orastava debatti kantautui tilastotieteilijä Tuomas Kukon korviin. Ammattilaisen korvaan tutkimusongelma kuulosti äkkiseltään naiivilta: onhan arpakuution klassiset todennäköisyydet laskettu läpi jo pimeällä keskiajalla. Toisaalta Kimblen noppakupu on sen verran pieni, että voi olla pieni mahdollisuus sille, ettei satunnaisuus pääse sen sisällä täysin toteutumaan (nopan satunnaisuuden toteutumista käsiteltiin tässä postauksessa). Niinpä tutkimusryhmä pystytettiin, ja joululoman 2014 pimeinä iltoina, osin lapsityövoimaa hyödyntäen, tahkottiin kolme tiukkaa Kimble-matsia ja kirjattiin ylös kaikki 508 nopanheittoa.

Tutkimusongelma asetettiin analyysin tehostamiseksi siten, että kaikki vastakkaiselle puolelle tapahtuneet siirtymät (1 <–> 6, 2<–>5 ja 3<–>4) oletettiin yhtä todennäköisiksi. Kuvun sisällä olevan nopan symmetrisyyttä siis ei kyseenalaistettu vaan mahdollisten epäsatunnaisuuksien oletettiin tulevan kuvun takia lähtötilanteesta riippuen. Lähtökohtaisesti paikkansa pitävä vanha totuus, eli nollahypoteesi, oli seuraava: ”Nopan vastapäinen luku tulee yhtä todennäköisesti kuin mikä tahansa muukin luku (n. 16.7%)”.

Mullistava tulos

Jo otteluiden aikana alkoi lukuisia aineistoja pyöritelleen kirjurin silmään vaikuttaa siltä, että kyseessä saattaa sittenkin olla todellinen ilmiö, mutta vasta aineiston analyysivaihe toi julki varsinaisen jytkyn. Nopan vastapuoli heitettiin peräti 23.9% todennäköisyydellä, eli lähes puolitoista kertaa todennäköisemmin kuin ennakolta oletettiin. Osuuksien testin perusteella laskettiin tuloksen tilastollinen merkitsevyys. P-arvo tippui prosentin sadasosiin, kun yleisesti nollahypoteesin kumotuksi toteamiseen riittävät viittä prosenttia pienemmät arvot.

Koeasetelma (otteluiden heittojen lukumäärä) oli räätälöity paljastamaan nopan vastapuolen saamisen todennäköisyyden poikkeamia odotetusta siten, että noin kolmen prosenttiyksikön heilahdus 16.7% :sta oli löydettävissä. Tässä tutkimusryhmän suureksi yllätykseksi onnistuttiin, sillä ponnautusmekanismi Kimble-kuvun sisällä on mitä ilmeisimmin roimasti oikeaa nopanheittoa vähemmän satunnainen.

Hyödyt pelaajille

Onko tästä löydöstä mitään konkreettista hyötyä Kimblen pelaajalle? Varmasti tulee vastaan tilanteita, joissa tätä tutkimustietoa voi hyödyntää. Mietitään esimerkiksi seuraavaa tilannetta:

Heität noppaluvun 5 ja sinulla on kaksi mahdollista siirtoa:

Siirto, jossa nappisi siirtyy KOLME askelta seuraavana heittävän napin eteen
Siirto, jossa nappisi siirtyy KAKSI askelta seuraavana heittävän napin eteen

Et tietenkään halua tulla syödyksi ja tiedät, että seuraavaksi nopasta tulee todennäköisimmin luku 2. Ensimmäinen valinta on tutkimuksen tiedon ansiosta nyt parempi ratkaisu. Lisäksi joskus, lähinnä aikuisten peli-illoissa, käytetään myös sääntövariaatiota, jossa mitään nappuloista ei ole pakko liikuttaa. Tällöin tämän tutkimuksen tarjoamien valistuneiden valintojen avulla voidaan kohottaa huomattavasti omaa voittotodennäköisyyttä.

Sivutulos

Kerätty aineisto antoi varsinaisen tuloksen lisäksi mielenkiintoisen johtolangan. Siinä missä nopan vastapuoli ponnahti esiin n. 24-prosenttisesti, niin sama luku heti perään ilmaantui vain 10.8% todennäköisyydellä. Neljälle muulle nopan kantille jäi yhteensä 65.3% (eli keskimäärin 16.3%) todennäköisyys. Käytännössä vastakkaisen luvun lisääntyminen selittyi pelkästään saman luvun toistumisen vähentymisenä ja kuution vierekkäiset sivut noudattelivat suurin piirtein ”rehellisiä” todennäköisyyksiä. Tätä ilmiötä ei alkuperäisen tutkimushypoteesin valossa tarkkailtu, joten olisi syytä kerätä vielä uusi aineisto, jotta minimoidaan yksittäisen aineiston satunnaisoikun mahdollisuus. Näin ei langeta aiemmin käsiteltyyn vanhaan miinaan.

Jatkotutkimukset

Tutkimukseen toteuttamiseen liittyy vielä pari kyseenalaistavaa kysymystä:

Kaikki heitot tehtiin samalla Kimble-laudalla. Voiko tulokset selittyä viallisella laudalla?
Nopan ”poksautuksia” suoritti kolme eri henkilöä. Voiko heillä joku systematiikka poksautus-tyylissä, mikä selittää tutkimuksen tulokset?

Näiden epäilyjen kumoamiseksi ja sivutuloksen oikeellisuuden varmistamiseksi haastan blogin lukijat keräämään talteen heittosarjan seuraavasta Kimble-pelistä. Kirjatkaa sarjat sitten tämän postauksen kommentti-osioon. Kunhan dataa on riittävästi kertynyt, suoritetaan eeppinen jatkotutkimus.

Kimblestä järjestettiin SM-kisat viimeksi vuonna 2012. Blogin lukijoiden onkin nyt hyvä aika aloittaa harjoittelu seuraavia kisoja varten. Ja kirjata luonnollisesti samalla heittosarjat ylös jatkotutkimuksiin.

Statistickon steesit:

Kimblessä kannattaa minimoida ne riskit mitkä toteutuvat pelivuorossa seuraavan vastustajan heittäessä nopasta vastakkaisen luvun
Lautapelin ollessa kilpaurheilun sijaan perheen leppoisaa ajanvietettä, sitä ei kannata pilata liian syvällisellä taktikoinnilla [ terveiset tähän väliin siskolle :) ]

Teksti on kirjoitettu yhdessä analyyseista vastanneen kollega Tuomas Kukon kanssa.

Mistä näitä korrelaatioita oikein tulee?

Posted by :Statisticko On : 21.10.2014

Category: Epävarmuus, Todennäköisyydet, Tutkimukset

Tags:kausaliteetti, korrelaatio, machine learning, riippuvuustutkimus

Kirjoitus on julkaistu myös Louhia-blogissa 21.10.2014.

Korrelaatiokerroin on eräs mittari kahden muuttujan välisen yhteyden mittaamiseen. Mikäli termi ei ole ennestään tuttu, sen ideaan voi tutustua esim. täällä. Sosiaalisessa mediassa on kiertänyt tällainen sivusto, jonne on listattu korrelaatiolla mitattuja yhteyksiä mitä eriskummallisimpien ilmiöiden välille. Mikä nämä selittää? Hukuttautuvatko ihmiset nähdessään Nicholas Cagen tähdittämän elokuvan vai onko taulukkolaskentaohjelma mennyt sekaisin?

Korrelaatioiden lähteet

Kahden ilmiön välinen korrelaation suuruus tilastoaineistossa voi johtua seuraavista neljästä asiasta tai jostain niiden yhdistelmästä.

1. Syy-seuraus suhde

Esim. kahvin juonti aiheuttaa verenpaineen kohoamista, mutta yhteys ei toimi toisinpäin. Korkea verenpaine ei yllytä juomaan lisää kahvia. Tällaista yhteyttä kutsutaan myös kausaaliteetiksi.

2. Molemminpuolinen riippuvuus

Esim. tietyn kenkämallin kysyntä ja tarjonta: kysynnän kasvaessa yritys alkaa valmistamaan kenkiä lisää ja tarjonta kasvaa. Toisaalta jos syystä tai toisesta kenkiä on valmistettu poikkeuksellisen paljon, yritys pyrkii tehostetulla markkinoinnilla tai alennuksilla lisäämään kysyntää.

3. Ilmiöt eivät suoraan riipu toisistaan, mutta molempiin vaikuttaa joku kolmas ilmiö

Esim. jo legendaarinen jäätelön syönti ja hukkumiskuolemat. Jäätelöä syömällä uimataidot eivät häviä vaan molempien taustalla on kolmas taustatekijä; lämpötila, mikä aiheuttaa samansuuntaista vaihtelua jäätelön syönnin ja hukkumiskuolemien välille.

4. Puhdas sattuma

Esittelemäni SoMe-artikkelin esimerkki, Nicholas Cagen leffaesiintymiset ja hukkumiset uima-altaaseen vuosina 1999-2009 saattaisi hyvinkin kuulua tähän kategoriaan. Ilmeistä on, että yhteys ei tule säilymään, mikäli seurantaa jatketaan vuodesta 2009 eteenpäin tarpeeksi pitkään.

Sattuman tuottamat korrelaatiot

Jos ihmiset eivät tarkoituksella hukuttaudu katsottuaan Cagen elokuvan tai juoksentele sähkölinjoihin mentyään naimisiin Alabamassa, niin mistä näitä merkillisiä korrelaatioita sitten tulee näin paljon? Tehdäänpä pieni kokeilu. Meillä on 7 muuttujaa, jotka voivat kuvata mitä numeroilla mitattavaa ilmiöitä tahansa, mutta niin etteivät ne todellisuudessa riipu millääan tavalla toisistaan. Nimetään muuttujat nyt X1, X2, …, X7. Arvoin kaikille näille muuttujille 12 (tyypillinen otoskoko SoMe-artikkelissa) satunnaislukuhavaintoa toisistaan riipumattomasti. Järkeenkäypää siis olisi, etteivät ne korreloisi keskenään ainakaan merkitsevästi. Tulokset näkyvät seuraavassa grafiikkamatriisissa.

Vasemmasta ylänurkasta oikeaan alanurkkaan kulkevalla matriisin lävistäjällä on aina yksittäisen muuttujan arvottuja havaintoja kuvaava histogrammi. Vasemmalla alhaalla olevat sirontakuviot kuvaavat kahden muuttujan havaintoja yhtäaikaa niin että pystyakselilla on se muuttuja jonka rivillä ollaan ja vaaka-akselilla sarakemuuttuja.

Oikealla ylhäällä olevissa ruuduissa on kyseisellä rivillä ja sarakkella olevan muuttujan välinen korrelaatiokerroin. Luku on printattu sitä isommalla fontilla, mitä suurempi (itseisarvoltaan) korrelaatio on ja vieressä on punainen tähti osoittamassa mahdollista korrelaatiokertoimen tilastollista merkitsevyyttä. Punainen piste taas tarkoittaa, että korrelaatio on ”melkein merkitsevä” mutta ei aivan ylitä tieteellistä merkitsevyysrajaa.

Nyt saatiin merkitsevä korrelaatiokerroin 0.69 muuttujien X4 ja X7 välille. Kun otetaan kyseiset muuttujat vielä lähempään tarkasteluun, huomataan että nouseva suora kuvaa hyvin muuttujien välistä yhteyttä aineistossa: X4:n ollessa suuri tuppaa X7 myös saamaan suuria arvoja. Nyt jos muuttujat sattuisivat olevaan vaikka ”Sabina Särkän lehtihaastattelujen lukumäärä yhden vuoden aikana” ja ”Matti Nykäsen vuoden pisimmän hypyn pituus”, SOME-hitti on valmis ja lööpit laulaa. Vain mielikuvitus on rajana keksiessä selityksiä tämän yhteyden välille.

Todennäköisyyslaskenta on tutkijan paras kaveri

Vielä saattaa herätä kysymys, että huijasinko ja toistin arvontoja niin monta kertaa, kunnes tuli tällainen poikkeama. Todellisuudessa tässä ilmentymässä ei ole mitään poikkevaa, koska todennäköisyys saada sattumalta vähintään yksi merkitsevä korrelaatio, kun testataan 21 toisistaan riippumatonta muuttujaparia on n. 66%. Ei tarvita montakaan sataa muuttujaparivertailua, jotta saadaan kasaan SoMe-artikkelissa olevat 19 erikoista ”tilastollisesti merkitsevää” yhteyttä pelkästään sattumalta. Todellisessa tutkimuksessa on todennäköisyyslaskennan avulla syytä säätää korrelaatioiden hyväksymiskriteerejä sen mukaan, onko tärkeämpää löytää paljon potentiaalisia yhteyksiä vai välttää virheellisiä tulkintoja. Aina pitää olla hereillä, kun tekee suurista muuttujamääristä ”machine learning”-tyyppistä datan penkomista. Systemaattinen laskentaprosessi ilman todennäköisyysajattelua päätyy helposti itsensä harhaanjohtamiseen. Ja hauskoihin lööppeihin.

Statistickon steesit:

Yksittäisestä aineistosta löytyy yllättävän suuria korrelaatioita sattumalta varsinkin kun havaintoja on vähän ja muuttujia paljon
Tilastotieteen syvällisempi osaaminen auttaa välttämään riippuvuustutkimuksen sudenkuopat

Kaunismielistä lentopalloa

Posted by :Statisticko On : 6.9.2014

Category: Peliteoria, Todennäköisyydet, Urheilu

Tags:John Nash, lentopallo, pelitaktiikka, peliteoria, tasapainojakauma, todennäköisyys

”Kaunis mieli”-elokuva on tositapahtumiin perustuva tarina peliteorian merkittävästä kehittäjästä; Nobel-palkitusta John Nashista. Ainakin elokuvan mukaan ensimmäinen peliteorian sovellus oli parinvalintatilanne opiskelijakemuissa: muiden miesten pörrätessä saman kauneimman naisen ympärillä, John laski maksimoivansa omat odotuksensa illan iloille satsaamalla huomionsa toiseksi kauneimpaan. Parhaiten nykymatematiikassa hänet tunnetaan Nashin tasapainoteoriasta. Kyse on kilpailutilanteesta, jossa kaikki osapuolet pelavaat optimaalisesti eikä kukaan saa taktista etua toista vastaan. Jos jollain kilpailijalla on isoimmat lihakset, niin se vie todennäköisimmin voiton. Mutta jos kilpailun ”lihaskimppu” ei pelaa taktisesti optimaalisesti, voi voimiltaan heikompi kääntää edun itselleen hyvällä peliteorian ymmärryksellä. Parhaiten peliteorian oppeja on otettu käytäntöön yritystalouden kilpailutilanteissa, mutta myös esim. menestyvät pokerinpelaajat käyttävät Nashin tasapainoa apuna pelistrategiaa pohtiessaan.

Peliteorian mahdollisuudet lentopallossa

Peliteorian oppeja voi kuitenkin soveltaa moniin urheilulajiin ja lentopallo on tästä erittäin hyvä esimerkki. Mietitään seuraavaa yksinkertaisettua tilannetta (kts. kuva):

Hyökkäävä joukkue, Sininen:
-Passari voi passata kolmeen paikkaan: 2-paikkaan Olli-Pekalle, keskelle Matille tai 4-paikkaan Antille. Oletuksena on, että takana 6-paikalla oleva pelaaja on tehnyt noston heittäytyen eikä ole hyökkäysvalmiudessa.

Torjuva joukkue, Punainen:
– Laitatorjujat torjuvat aina omaa laitaansa
– Keskitorjuja Mark voi joko

Jäädä keskelle odottamaan mahdollista keskihyökkäystä
Aavistaa hieman Simonin avuksi Olli-Pekkaa vastaan tai
Aavistaa hieman Waynen avuksi Anttia vastaan

Kuvassa näkyvät kaikille hyökkääville pelaajille tähän nimenomaiseen tilanteeseen liittyvät hyökkäystehoprosentit (todennäköisyys, että pallo päättyy oman joukkueen voittoon, jos pelaaja saa passin) kahdessa eri tapauksessa:

Vastustajan keskitorjuja satsaa johonkin muuhun pelaajaan (isommat prosentit)
Vastustajan keskitorjuja satsaa juuri häneen (pienemmät prosentit)

Oletetaan myös, että molempien joukkueiden tilastovalmentajilla on kattavat tilastot, joiden perusteella molempien joukkueiden valmentajat tietävät kuvassa esitetyt hyökkäystehoprosentit kaikille hyökkääjille. Tästä eteenpäin pelin voidaan olettaa olevan hyökätessä oman joukkueen pallonvoittotodennäköisyyden maksimointia ja puolustaessa vastustajan pallonvoittotodennäköisyyden minimointia.

Taktiikan kehitys

Hyökkäävän Sinisen joukkueen aluksi hyvin yksinkertaisesti ajatteleva valmentaja käskisi passarin passata aina tässä tilanteessa Olli-Pekalle, koska sillä on parhaat tehoprosentit.
Kun näin tapahtuu monta kertaa peräkkäin, Punaisen valmentaja huomaa toistuvat passit Olli-Pekalle ja käskee keskitorjuja Markin mennä aina Simonin avuksi pitämään Olli-Pekkaa.
Kun Sinisen valmentaja huomaa tämän, hän järkeilee, ettei Olli-Pekalle enää kannata kokoajan passata. Olli-Pekan hyökkäyprosentti (65%) on vähemmän kuin esim. Matin (71%) oletuksella, että keskitorjuja Mark aavistaa aina Olli-Pekan kimppuun. Ratkaisuksi tähän hän käskee passarin aina satunnaisesti passata 50% ajasta Olli-Pekalle ja 50% ajasta Matille.
Kun Punaisen valmentaja huomaa tämän taktiikkamuutoksen, tajuaa hän että Mattiakin on pidettävä kiinni, ettei hän pääsisi tekemään pisteitä lähes vapaalta verkolta. Niinpä hän käskee Markia jatkossa satsaamaan satunnaisesti jatkossa 50% ajasta Mattiin ja 50% ajsta Olli-Pekkaan.
Tässä tilanteessa pystymme esim. Excelillä laskemaan siniselle pallonvoittotodennäköisyydeksi 67.8%. Nyt Sinisen tilastovalmentaja huomaa, missä mennään: molempien joukkueiden taktiikat huomioiden Sinisen pisteen todennäköisyys on 67.8%, mutta Antti voittaisi pallot 69% todennäköisyydellä nyt kun keskitorjuja jättää hänet aina rauhaan (samoin kun John Nashin opiskelukaverit jättivät toiseksi kauniimman naisen rauhaan). Kannattaisikohan Antillekin välillä passata?

Kohti tasapainoa

Jos edellisessä kappaleessa kuvattua valveentuneiden valmentajien (tilastovalmentajien avustuksella) käymää taktiikoiden ja vastataktiikoiden säätämistä jatkettaisiin loputtomiin, päädytään jossain vaiheessa ns. tasapainotilaan. Tällöin kumpikin joukkue pelaa sellaisella taktiikalla, jota vastaan vastustaja ei voi enää saada lisäetua muuttamalla taktiikkaa. Kiitos John Nashin, pystymme tämän tasapainotilan laskemaan. Tässä tapauksessa se olisi seuraava:

	Wayne Wingman	Mark Middleman	Simon Sideman
Torjunnan tasapainojakauma:	7%	25%	68%
	———————–	———————–	———————–
Passien tasapainojakauma:	30%	33%	37%
	Antti Siltala	Matti Oivanen	Olli-Pekka Ojansivu

Tämä tarkoittaa, että passari valitsee satunnaisesti passin suunnan niin, että 30% todennäköisyydellä passi menne Antille, 33% todennäköisyydellä passi menee Matille ja 37% todennäköisyydellä passi menee Olli-Pekalle. Toisaalta Mark aavistelee 7% ajasta Antin suuntaan, 68% ajasta Olli-Pekan suuntaan ja 25% ajasta jää odottamaan passia keskelle. Käytännössä tällainen pelitaktiikka pitäisi toteuttaa pesäpallosta tutun merkkiviuhkan kanssa: tilastovalmentaja arpoo seuraavan siirron tietokoneella tilanteeseen sopivasti painotetulla satunnaisgeneraattorilla ja näyttää salaisen merkin pelaajille.

Kun pelaajat pelaavat tasapainon mukaisesti, niin näissä tilanteissa Sininen voittaa pallon 68.2% todennäköisyydellä.

Onko Nashin tasapaino optimaalinen pelitapa?

Vastaus otsikon kysymykseen: ei välttämättä. Tasapainon mukaan pelaaminen varmistaa sen, ettei vastustaja voi saada taktista etua joukkuettamme vastaan. Näin ollen se on paras lähtökohta kun vastassa on taktisesti valveutunut joukkue. Mutta jos vastustaja poikkeaa tasapainosta ja me tiedetään se, niin meidänkin kannattaa adjustaa taktiikkaa vastustajan mukaan. Palataan esimerkissämme taktiikan kehityksessä kohtaan 4. ja oletetaan nyt Punaisen valmentajaksi tilastoista piittaamaton jääräpää. Hän käskee Markin keskittyä aina vain Mattiin ja Olli-Pekkaan. Nyt Sininen joukkue saa taktiikalla ”ilmaisen lounaan” passaamalla aina Antille: tasapainotaktiikan 68.2% muuttuu nyt 69%:ksi.

Kurkistus todellisuuteen

John Nash aikanaan sairastui skitsofreniaan matemaatikon uransa aikana. Yritetään me kuitenkin vielä pitää ajatukset lähellä todellisuutta. On selvää että esitettyssä esimerkissä on jouduttu tekemään monia yksinkertaistuksia todellisiin tilanteisiin verrattuna. Prosenttien kymmenyksen verran laskimen näytöllä etua tuovat taktiikka-muutokset ovat käytännön epävarmuuksista johtuen yhtä tyhjän kanssa. Tärkein tapa kehittää joukkueen peliä on edelleen harjoituttaa hyökkäystaitoja, jotta omat tehoprosentit nousee ja harjoittelemalla puolustamista, jotta vastustajan tehoprosentit laskee. Jos kuitenkin vastustajalle antaa useita prosenttiyksikköjä ylimääräistä taktista etua joka pallossa niin varmasti se näkyy myös ottelun lopputuloksessa. Peliteorialla olisi varmasti annettavaa monille lentopallojoukkueille, vaikkei sitä prosentin kymmenyksien tarkkuudella pystyisikään toteuttamaan.

Tämä kirjoitus on kirjoitettu yhdessä Mestaruusliigan ex-tilastovalmentaja Johannes Ärjen kanssa. Esimerkissä käytettyjen pelaajien nimet ja niihin liittyvät hyökkäystehoprosentit ovat keksittyjä. Jos jollakin todellisella pelaajalla on sama nimi, niin se on puhdasta sattumaa. Voit kokeilla itse laskea tasapainojakaumia erilaisiin tilanteisiin Ärjen tekemällä laskurilla.

Archives for : Todennäköisyydet

Tarina isä etsivästä

Jälkikirjoitus

1. Satunnaistettu kasino

2. Ihmiset rajoitetussa toimintaympäristössä

Oma historia

3. Vapaa maailma

Elämän mittainen opiskeluaika

Mennään eteenpäin

Galluppien sanoma

Muut huomioitavat asiat

Loppukaneetti

Voittava vedonlyönti

Todennäköisyydet

API

Rivien hakeminen

Voitto-osuudet

Ennustaminen

Rivit sisään

Kuinka sitten kävikään

Todennäköisyydet eivät ole puolellamme

Kun todennäköisyydet ovat puolellamme

Parempi panostustaktiikka

Panostustaktiikoiden vertailu

Elämä kasinon ulkopuolella

Vinkkejä sijoitusbloggarelta

Oma sijoitusstategia

Sijoitustavoitteet

Tulevaisuuden skenaarioiden simulointi

Pohdinnat

Tilastollinen merkitsevyys (P-arvo)

Tilastollinen voimakkuus (Power)

Ennakkokäsitys ilmiöstä (Prioritieto)

Tutkimuslöydösten totuusarvot

Käytännön prosessit

Asian selvitys tutkimuksella

Mullistava tulos

Hyödyt pelaajille

Sivutulos

Jatkotutkimukset

Korrelaatioiden lähteet

1. Syy-seuraus suhde

2. Molemminpuolinen riippuvuus

3. Ilmiöt eivät suoraan riipu toisistaan, mutta molempiin vaikuttaa joku kolmas ilmiö

4. Puhdas sattuma

Sattuman tuottamat korrelaatiot

Todennäköisyyslaskenta on tutkijan paras kaveri

Peliteorian mahdollisuudet lentopallossa

Taktiikan kehitys

Kohti tasapainoa

Onko Nashin tasapaino optimaalinen pelitapa?

Kurkistus todellisuuteen

Bloggari

Arkistot

Kategoriat

Avainsanat