Rss

  • linkedin

Archives for : tilastotiede

Todennäköisyyksien soveltamisen kolme eri maailmaa

Näin kesällä on lomakiireiden lomassa hyvä paikka tehdä itselleen pientä tilannekatsausta, mihin on työelämässä suuntaamassa ja miten tähän on päädytty. Julkaisin kaksi vuotta sitten vastaavan katsauksen ja siihen nähden nykyiseen tilanteeseen on tullut joitain muutoksia. Niin kuin kaksi vuotta merkkejä oli jo ilmassa, pokerin pelaaminen jäi reilu vuosi sitten pois lukujärjestyksestä. Yllättävämpi muutos on se, että yrittäminen on jäänyt taka-alalle ja olen pääasiassa palkkatyössä koska intressit kohtasivat niin hyvin Plus One Agencyn kanssa.

Olen huomannut, että omaan työhistoriani pohjalta todennäköisyyksien soveltamisen ympäristöt voisi jakaa kolmeen kategoriaan:

  1. Satunnaistettu kasino
  2. Ihmiset rajoitetussa toimintaympäristössä
  3. Vapaa maailma

1. Satunnaistettu kasino

Kasinossa kaikki tapahtumat ovat satunnaistettu niin hyvin, että lukion todennäköisyyslaskennan kurssin (mikä pelasti minut aikanaan kolikkopelihimolta) tiedoilla pääsee pitkälle. Laskutoimitukset ovat pääasiassa yksinkertaisia jako- kerto- ja potenssilaskuja. Esimerkiksi ruletissa, jossa on 37 mahdollista numeroa, yksittäisen numeron todennäköisyys on aina 1/37 = 2.7%. Riittävän satunnaistamisen ansiosta peräkkäiset numerot ovat toisistaan riippumattomia ja esim. todennäköisyys seuraavien kahden pyöräytysten ykkösille on 1/37 * 1/37 = 1/1369. Tämä on ylivoimaisesti helpoin ympäristö todennäköisyyksien soveltamiselle.

Omasta ”työhistoriasta” pokerinpelaaminen kuuluu todennäköisyyslaskennan osalta tähän kategoriaan. Toki pokeri on paljon myös psykologiaa, loogista päättelyä ja peliteoriaa, mutta tarvittavat todennäköisyyslaskut ovat pääosin simppeleitä: sinulla kädessä 4 pataa, jäljellä on vielä jossain 9 pataa ja näkemättä on vielä 44 korttia. Jos jakaja on suorittanut satunnaistamisen tarpeeksi hyvin, todennäköisyys että seuraavaksi kortiksi tärähtää pata on 9/44.

2. Ihmiset rajoitetussa toimintaympäristössä

Toisessa kategoriassa tutkitaan ihmisiä, mutta niiden toiminta on tarkkaan rajattua. Kaikilla toimijoilla on samat tavoitteet, toimintaa ohjaa tiukat yhteiset pelisäännöt ja tapahtumat ovat pääasiassa toisistaan riippumattomia.

Selkeä esimerkki on esim. urheilu ja minun tapauksessa vedonlyönti. Jos ottelumanipulaatiot ja motivaatiottomat ottelut jätetään laskuista, kaikilla on selkeä tavoite voittaa jalkapallo-ottelu kaikin keinoin. Turnauksien alkulohkojen viimeisiä otteluja lukuun ottamatta eri ottelut ovat myös toisistaan riippumattomia. Tämä on suuri ilo tilastotieteen menetelmiä soveltavalle, koska riippumattomuus on useissa menetelmissä oletuksena.

Oleellinen ero kasino-olosuhteisiin tulee siitä, ettei tarkkoja todennäköisyyksiä enää ole kellään tiedossa. Yksikään ammattivedonlyöjä ei tiedä kaikkia ottelun voimasuhteisiin liittyviä tekijöitä. On vain kehnoja ja vähemmän kehnoja arvauksia joukkueiden vahvuuksista juuri pelipäivänä. Vaikka meillä olisi timanttinen julkista informaatiota hyödyntävä malli, aina voi olla jollain tähtipelaajalla edellisenä yönä puhjennut flunssa, josta tietää toistaiseksi vain pelaaja itse. Vedonlyöntimarkkinoilla pärjäämiseen riittää, että omat todennäköisyysarvaukset ovat vähemmän huonoja kuin suurimalla osalla muista toimijoista.

Tähän kategoriaan kuuluu myös tutkimusmaailman satunnaistetut kokeet. Esim. lääketieteellisessä kokeessa kaikilla on yhteinen tavoite parantua taudista tai pysyä terveenä. Koehenkilöt eivät kuitenkaan toimi täysin vapaassa maailmassa vaan tutkijat kontrolloivat parantamisprosessia säännöillä esim. kertomalla, mitä lääkkeitä he voivat käyttää ja mitä aktiviteetteja saavat tutkimusjakson aikana harrastaa.

Ilmiön ymmärtämisen tehostamiseksi voidaan kokeessa suorittaa satunnaistamista. Esimerkiksi arvotaan, keille koehenkilöille annetaan lääkettä ja keille ei. Näissä olosuhteissa perinteiset tilastotieteen menetelmät ovat parhaimmillaan.

Oma historia

Itseni elättäminen perustui pitkään näiden kahden kategorian hyvään hallintaan. En ollut mitään maailman huippuja pokerissa tai vedonlyönnissä, mutta riittävällä tasolla että pystyin itseäni näillä n. kymmenen vuoden ajan elättämään. Rahapelimarkkinoiden koventuessa olisi ehkä ollut mahdollista kehittyä mukana, mutta intohimoa ei riittänyt käyttämään riittävästi aikaa syventyäkseenpeleihin, jotka ovat irrallaan muusta elämästä. Viimeisen parin vuoden aikana mielenkiintoni on suuntautunut paljon monimutkaisempaan ympäristöön: todelliseen elämään jossa ihmiset tekevät vapaasti valintojaan jättäen joitain jälkiä toimistaan data-analyysin polttoaineeksi.

3. Vapaa maailma

Vapaiden valintojen maailmasta löytyy esimerkkejä pilvin pimein. Esim. verkkokauppa tutkii, mitkä osiot verkkosivuilla näyttävät muodostavan potentiaalisille asiakkaille ostamisen esteitä klikkailudatan perusteella tai osakeanalyytikko pyrkii päättelemään minkä firman tuotteita kuluttajat tulevat jatkossa todennäköisimmin preferoimaan. Yhteistä näissä on tutkia ihmisten käyttäytymistä todellisessa elämässä ilman rajoitteita.

Kategoriaan 2 verrattuna tässä maailmassa analyyseissa tulee useita mutkia matkaan. Tutkimukseen päätynyt data ei ole satunnaisotos tai havainnot eivät ole toisistaan riippumattomia. Kuten tästä blogikirjoituksestani muistetaan, ihmisten toimet vaikuttavat myös muihin ihmisiin ja riippumattomien havaintojen mallin soveltaminen voi johtaa radikaaleihin virhearvioihin. Datoissa havaitaan paljon korrelaatioita, jotka eivät ole perustu syy-seuraissuhteisiin, koska sekoittavia tekijöitä ei pystytä satunnaistamalla kontrolloimaan. Pohdiskelin aikoinaan blogikirjoituksessani, että sekavat tuloero-keskustelut voivat johtua osin tästä.

Tavoitteetkaan eivät ole vapaassa maailmassa kaikilla samat. Toiset pyrkivät tekemään rationaalisia ratkaisuja ja toiset elävät enemmän tunteella tai laumaeläiminä kopioivat mitä muut tekevät. Toiset tavoittelevat hyvinvointia lyhyellä tähtäimellä, toiset katsovat pidemmän ajan päähän ja ovat valmiita sen edestä hieman nykyhetkestä nipistämään.

Vapaan maailman kategoriassakin tilastotieteen menetelmät auttavat todennäköisyyksien hahmottamisessa. Verrattuna rajoitettuun maailmaan on kuitenkin oltava paljon tarkempana, milloin perinteinen maisterin tutkinnossa opittu menetelmä toimii ja milloin pitää keksiä jotain muuta.

Elämän mittainen opiskeluaika

Vapaiden valintojen maailman todennäköisyyksien hallinnassa tuskin koskaan olen valmis vaan se on koko elämän mittainen oppimisprosessi. Aina kun opiskelee uutta, löytää vaan lisää asioita listalle, joita pitäisi oppia, että tässä maailmassa pärjäisi kiitettävällä tasolla. Mutta onneksi osaaminen on sentään monikäyttöistä: joku idea, mitä olen keksinyt osakesijoittamisen yhteydessä, voikin tarjota yllättäen ratkaisun yrityksemme asiakkaan ongelmaan.

Mennään eteenpäin

Vaikka vapaan maailman data-analyysi vaatii paljon taitoja, joita ei ole omaan tutkintooni kuulunut, näen että kahden ensimmäisen kategorian kokemukset tarjoavat loistavan pohjan, mistä ponnistaa uteliain mielin eteenpäin. Mikäli urheiluvedonlyönnin maailmasta vastaan tulee kypsiä hedelmiä, poimitaan toki jatkossakin pois. Päämielenkiintoni on kuitenkin nyt oppia ymmärtämään ihmisten ja yritysten toimintaa (vaikkei satunnaistettua koetta ole mahdollista järjestää) ja tuottaa työkaluja jotka auttavat muita ymmärtämään ympärillä olevaa maailmaa paremmin. Tätä päämäärää nykyiset työkuviot tukevat mitä mainioimmin, joten loman loppuminen ei tunnu kauhean pahalta.

 

 

 

 

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Trendikkäät riippuvuussuhteet

trend_cityVieläkö muistat, mikä yhteys on uima-altaaseen hukkumisella ja Nicholas Cagen elokuvaesiintymisillä? Vastaus on että eipä juuri mikään, mutta silti niiden välille on mahdollista havaita keskinäistä riippuvuussuhdetta mittaavaa korrelaatiota. Aiemmassa blogikirjoituksessa havainnollistin kuinka korrelaatioita pompsahtelee esiin vain sattumalta kun tarpeeksi montaa eri muuttujaparia kokeillaan. Seuraavassa pureudutaan yleiseen hämäävien korrelaatioiden lähteeseen; aikaan.

Korrelaatio ja aikatrendit

Otin Gapminder –datapankista tiedot Lapsikuolleisuudesta Kiinassa (alle 5v kuolevia per 1000 syntymää) ja Sähkön käytöstä Suomessa (kWh per asukas). Molemmista löytyi dataa vuosilta 1960-2011. Nämä ovat tarkoituksella haetut muuttujat, joilla ei pitäisi olla mitään tekemistä toistensa kanssa. Eihän meillä voi olla niin huono säkä, että data näyttäisi silti niiden välille korrelaatiota? Katsotaan muuttujien välistä sirontakuviota oikealla.

korrelaatiot_sironta

Suomen sähkönkulutuksen ja Kiinan lapsikuolleisuuden sirontakuvio

Vaikuttaisi kuitenkin siltä, että silloin kun Suomessa on korkea sähkönkulutus, niin Kiinassa lapsia kuolee vähemmän. Korrelaatiokerroinkin -0.84 vahvistaa saman: muuttujien välillä on vahva negatiivinen lineaarinen yhteys. Pitäisikö tästä nyt tulkita, että mikäli haluamme pelastaa kiinalaisia lapsia, niin pitää heti laittaa uuni ja sähkösauna päälle?

Tutkitaan seuraavaksi molempien muuttujien kehitystä ajassa erikseen.

korrelaatiot_trendit

Lapsikuolleisuuden ja sähkönkulutuksen aikatrendit

Nähdään, että Kiinan lapsikuolemissa on ollut selvä laskeva trendi ja suomalaisten sähkönkulutuksessa selvä nouseva trendi. Omituinen korrelaatio näiden muuttujien välillä ei selity tällä kertaa sattumalla vaan yhteisellä taustatekijällä, mikä on nyt aikatrendi. Koska trendit ovat erisuuntaiset, korrelaatiokerroin on negatiivinen.

Tutkitaan sitten alkuperäisten havaintojen sijaan muutoksia edelliseen aikapisteeseen verrattuna. Näin saadaan trendit eliminoitua havainnoista, kuten kuvaajista nähdään.

Muutosmuuttujien kehitys ajassa

Muutosmuuttujien kehitys ajassa

Näiden muutosmuuttujien välille laskettu korrelaatiokerroin on -0.03. Tämä on niin lähellä nollaa että voimme turvallisesti sanoa ettei Suomen sähkönkulutuksen muutoksella ole mitään yhteyttä saman vuoden Kiinan lapsikuolleisuuden muutokseen. Varmistetaan asia vielä piirtämällä sirontakuvio ja havaitsemalla ettei yhteistä systematiikkaa löydy.

 

Muutosmuuttujien sirontakuvio

Muutosmuuttujien sirontakuvio

Autokorrelaatiot

Myöskään trendittömien muuttujien aikahavaintojen tutkiminen ei ole aivan yksinkertaista. Mikäli olemme kiinnostuneita epävarmuudesta ja korrelaation tilastollisesta merkitsevyydestä, usein päävaivaksi tulee autokorrelaatio. Tällä tarkoitetaan sitä että saman muuttujan peräkkäiset havainnot korreloivat keskenään. Perusmenetelmiin liittyvä oletus riippumattomasta satunnaisotoksesta ei nyt päde ja kahden autokorreloituneen muuttujan riippuvuuden tutkimiseen on parempi käyttää esim. vektoriaikasarja-malleja.

Tilastoja tutkimaan

Lopuksi pitää vielä kehua datapankkia, josta lapsikuolleisuus ja sähkönkulutusdatat ovat haettu. Sivustolta löytyy läjäpäin muutakin terveys-, talous- ja muuta yhteiskunnallista dataa ympäri maailmaa ja niitä voi kätevästi graafisesti tutkailla tällä sivustolla. Mutta pidäthän tämän blogin opetukset mielessä ennen kuin vedät johtopäätöksiä liittyen syy-seuraus suhteisiin. Lopuksi voi vielä viihdyttää itseään käymällä tsekkaamassa vanhaa sivua, jossa on koottuna huumorikorrelaatioita. Nyt pitäisi olla valmiudet perustellusti spekuloida jokaisen kuvaajan kohdalla, johtuuko korrelaatio

  • jostain yhteisestä taustamuuttujasta
  • aikatrendistä
  • sattumasta
  • aidosta riippuvuussuhteesta
  • vai jostain edellisten yhdistelmästä.

Statistickon steesit

  • Aikatrendi on yleinen taustatekijä, joka selittää kahden muuttujan näennäisen riippuvuuden
  • Ajassa itsensä kanssa korreloituneita muuttujia tulee syvällisemmin analysoida aikasarja- tai pitkittäistutkimusmenetelmillä
  • Maailma on täynnä mielenkiintoisia tilastoja, mutta niitä on helppo ymmärtää väärin

 

Facebooktwittergoogle_plusredditpinterestlinkedinmail