Rss

  • linkedin

Archives for : Tutkimukset

Totuuden jäljillä

Otetaan heti alkuun pieni pähkinä, joka on hieman muokaten kopioitu Nassim Talebin kirjasta ”Fooled by randomness”.

Kuvitellaan tauti, jota sairastaa yksi tuhannesta suomalaisesta 40 vuotiaasta miehestä. Jarkko menee 40-vuotispäivän kunniaksi lääkärille rutiininomaiseen terveystarkastukseen ja lääkäri suorittaa verikokeen taudin testaamiseksi. Kokeesta tiedetään, että oikeasti sairaiden lisäksi se antaa positiivisen tuloksen 5% todennäköisyydellä silloin kun potilas on terve.

Jarkko sai kokeesta positiivisen tuloksen. Mikä on todennäköisyys, että Jarkolla on kyseinen tauti?

Mieti hetki vastausta, ennen kuin jatkat eteenpäin.

sairaus_graafi2Vastasitko 95%? Ei se mitään, niin vastaa moni muukin pätevä kaveri. Mutta oikea vastaus on n. 2%. Pieleen menee yleensä siinä, että ennakkotieto ”yleinen sairastuneisuus 1/1000” jää huomiotta. Asian hahmottamiseksi vieressä on laatikko, jossa pallerot kuvaavat tyypillistä 1000 hengen otosta 40-vuotiaista miehistä. Punaisella värjätty alanurkan pallero on se epäonninen, joka sairastaa tautia. Jäljelle jäävistä 999 terveestä henkilöstä 0.05 * 999, eli noin 50 henkeä taas ovat sellaisia, jotka saavat verikokeesta virheellisen positiivisen tuloksen. Näitä ovat mustat pallerot ylhäällä. Pähkinän oikea vastaus tulee jakolaskusta 1/(1 + 50).

Edellinen verikoe on esimerkki tilanteesta, jossa totuuden etsimiseksi on kehitetty testi, jonka lopputulokseen liittyy epävarmuutta. Myös tieteen tekeminen on jatkuvaa painimista löydöksiin liittyvien epävarmuuksien kanssa. Esittelen seuraavaksi kolme mittaria, jotka auttavat tieteellisen löydöksen totuusarvon mittaamisessa.

Tilastollinen merkitsevyys (P-arvo)

P-arvo on tärkein ja tunnetuin mittari sille, kuinka uskottava tutkimustuloksemme on. Kyseessä on ehdollinen todennäköisyys: Todennäköisyys, että löydös ilmenee aineistossa sattumalta JOS se ei oikeasti pidä paikkaansa.  Akateemisessa tutkimuksessa löydöstä yleensä pidetään tilastollisesti merkitsevänä, jos P-arvo on pienempi kuin 0.05. P-arvoa kuitenkin ylitulkitaan jatkuvasti samoin kuin ”Jarkon sairausdiagnoosi” -esimerkissä. P-arvo 0.05 EI nimittäin tarkoita välttämättä, että tutkimuslöydös olisi 95% todennäköisyydellä tosi.

Tilastollinen voimakkuus (Power)

Voimakkuus on ”Todennäköisyys, että tutkimusaineisto paljastaa etsimämme ilmiön JOS ilmiö on oikeasti olemassa.” Mediahuomiotakin saaneen Kimble-tutkimuksen tapauksessa: ”Todennäköisyys, että vastakkaisia silmälukuja tulee tilastollisesti merkitsevästi enemmän tutkimuksessamme, jos nopassa on oikeasti systematiikkaa.” Voimakkuuslaskelmia käytetään pääasiassa ennen tutkimusta selvittämään sopivaa otoskokoa tutkimukselle, mutta se on hyödyllinen tieto myös myöhemmin löydöksen totuusarvoa laskiessa.

Ennakkokäsitys ilmiöstä (Prioritieto)

P-arvo ja Power ovat siis ilmiön paljastumistodennäköisyyksiä tietyillä ehdoilla ja me haluaisime päästä käsiksi ilmiön olemassaolon todennäköisyyteen. Tämä onnistuu ottamalla huomioon ennakkokäsitys ilmiöstä ennen tutkimusaineiston keräämistä.

Esimerkiksi Kimble-tutkimuksessa ennakkokäsityksemme oli suurinpiirtein seuraavanlainen: ”Nuorisokodin peleissä ykkönen on tullut kuutosen jälkeeen silmiinpistävän usein. Kyse voi kuitenkin olla sattumasta ja siitä seuraavasta psykologisesta harhasta. Toisaalta systematiikat ovat mahdollisia, koska noppakupu on sen verran pieni. Noppa voisi olla kyseisellä tavalla epäsatunnainen ehkä 20% todenäköisyydellä, eli kerran viidestä.”

Tässä kohti huomataan, että peliä vuosikymmeniä hakanneella konkarilla ennakkokäsitys olla täysin erilainen. Joku aktiivipelaaja olisi saattanut nähdä asian seuraavasti: ”Vuosikymmenten kokemuksella olen hyvin varma ilmiön olemassaolosta.  Väittäisin olevan sen tosi 90% todennäköisyydellä.” Ennakkokäsitys on usein hyvin subjektiivinen näkemys.

ProfessorSubjektiivisten näkemyksien suhteen ollaan ymmärrettävistä syistä varovaisia akateemisen tutkimuksen tilastoanalyysissä. Emme halua, että tieteen tulokset ovat liian riippuvaisia yksittäisen tutkijan subjektiivisesta näkemyksestä. Ainahan on olemassa riski, että ideologiset näkemykset tai henkilökohtaiset haaveet ohjaavat yksittäisen henkilön ennakkokäsitystä tiettyyn suuntaan.

Sen sijaan esim. yrityksen tehdessä tutkimusta vain oman liiketoimintansa päätöksenteon tueksi prioritietoa kannattaa hyödyntää, mikäli palkkalistoilta löytyy asiantuntija, joka osaa muuttaa näkemyksensä numeeriseen muotoon. Liiketoiminnassa taloudelliset intressit kannustavat kohti objektiivisuutta. Virheelliset johtopäätökset kun tuppaavat näkymään yrityksen tuloksessa.

Prioritodennäköisyyden ongelma on sen vaikea määrittäminen yksiselitteisen objektiivisesti. John Ioannidis käyttää artikkelissaan erästä objektiivista lähestymistapaa: selvitetään kaikki viimeaikojen oman tutkimusalan tutkimukset ja käytetään prioritodennäköisyytenä suhdetta, jolla aloitetut tutkimukset ovat lopulta johtaneet oikeaan uuteen löydökseen. Tämän asian selvittäminen ei kuitenkaan käy ihan sormia napsauttamalla.

Tutkimuslöydösten totuusarvot

Nyt meillä alkaa olla riittävästi työkaluja käydä käsiksi tutkittavan ilmiön olemassaolon todennäköisyyteen. Mietitään tyypillistä standardien mukaan suunniteltua tutkimusta. Mikäli matematiikka ei ole lähellä sydäntäsi voit jättää kaavat ja kreikkalaiset kirjaimet omaan arvoonsa. Tutkimuksen tilastollinen voimakkuus  (1-\beta ) on standardi 0.8 ja tilastollinen merkitsevyyskriteeri  (\alpha ) on 0.05. Olkoon testattava hypoteesi  (H_1 ) aiemman Kimble-esimerkin tapainen, mikä voidaan olettaa ennakkokäsityksen mukaan todeksi 20% varmuudella. Nyt jos data kriteereillämme paljastaa ilmiön, sen todennäköisyys olemassaololle on 80%. Tämä saadaan laskettua Bayesin säännöstä johdetulla kaavalla (johdin sen tähän hätään itse, joten suhtautuminen varauksella):

  \mathbb{P}(H_1 | Data) = \frac{(1-\beta ) \mathbb{P}(H_1)}{ \alpha (1-\mathbb{P}(H_1))+(1-\beta ) \mathbb{P}(H_1)}

 

Mietitään sitten vertailun vuoksi tutkimusta, jossa voimakkuus ja merkitsevyyskriteeri ovat edelleen samoja, mutta tarkoitus on testailla vähän kaikkea, jos satuttaisiin löytämään joitain tilastollisesti merkitseviä yhteyksiä. Meillä voisi olla vaikka pitkä lista erilaisista Kimble-pelaajien ominaisuuksista kätisyydestä hapenottokykyyn ja tutkimme, sattuisiko jollain niistä olemaan yhteyttä pelissä pärjäämiseen. Tällöin yksittäiseen testiin liittyvä prioritodennäköisyys ilmiön olemassaololle voisi olla luokkaa 1%. Nyt ylläolevalla kaavalla laskettu totuusarvo kyseiselle löydökselle romahtaa niinkin alas kuin 14%:iin.

Pieni prioritodennäköisyys romauttaa löydöksen totuusarvon, koska sattumalta tulevat löydökset dominoivat tilastollisesta merkitsevyydestä huolimatta. Näin kävi alun sairausdiagnoosipähkinässäkin. Lisäpähkinä pohdittavaksi: Matias saa saman diagnoosin kuin Jarkko, mutta hän tietää jo ennalta omaavansa geenit, jotka nostavat kyseisen sairauden puhkeamisen riskiä.

Käytännön prosessit

SearchingEnnakkonäkemyksen kunnollinen hyödyntäminen on todellisuudessa vaikeaa, mutta tärkeintä tässä on huomata ero huolellisesti valitun hypoteesin tutkimisen ja ”vähän kaiken kokeilun”, (exploratiivisen tutkimuksen) välillä. Tässä vaiheessa moni voi huomata, että omiin tutkimuksiin/tietolähteisiin liittyy enemmän epävarmuutta, mitä on tullut ajatelleeksi. Niin kävi itsellenikin tätä kirjoittaessa. Tutkimuksen huolellisella suunnittelulla voi kuitenkin luottaa olevansa useammin oikeassa kuin väärässä, vaikkei tarkkoja prioritodennäköisyyksiä pystyisikään hahmottamaan.

Tutkimustiedon jatkokäsittelijän taas tulee muistaa olla kriittinen uuden mullistavan tiedon löytyessä. Oleellinen kysymys kuuluu: Kuinka tähän tulokseen päädyttiin? Onko kyseessä hakuammunnan tulos vai oliko alla jo muuta samaa ilmiötä tukevaa tutkimustietoa, jolle nyt haettiin varmistus?

 

Statistickon steesit:

  1. Tutkimuslöydöksen todenperäisyyden arviointiin tarvitaan tilastollisten mittareiden lisäksi prioritiedon hyödyntämistä
  2. Prioritiedon muuttaminen numeroiksi on usein hankalaa, mutta huolellisella tutkimussuunnittelulla voidaan kiertää tätä ongelmaa
  3. Kokeileva, exploratiivinen, tutkimus on tärkeää uusien tutkimussuuntien löytämiseen, mutta siitä on vielä pitkä matka totuudeksi julistamiseen
Facebooktwitterredditpinterestlinkedinmail

Kimblen noppa ei ole täysin satunnainen

Dices sign icon. Casino game symbolSyksyllä jyväskyläläisessä nuorisokodissa pelatuissa Kimble-peleissä tuli huomiota herättävän usein nopan heitolla, tai Kimblen tapauksessa kuvun sisällä olevan nopan poksautuksella, kuutosen jälkeen ykkönen. Tämän toistuessa peliseurueessa alettiin sadatella jatkuvaa heitto-onnen kääntymistä aallonharjalta pohjamutiin. Eräs nuorisokodin ohjaajista yritti puhua kanssapelaajilleen järkeä: noppa on aina satunnainen ja kuutosta seuraaviin ykkösiin oli vain alettu kiinnittää liiaksi huomiota. Koko ilmiön täytyi olla vain seurueen puheilla itselleen rakentama psykologinen harha.

Asian selvitys tutkimuksella

Orastava debatti kantautui tilastotieteilijä Tuomas Kukon korviin.  Ammattilaisen korvaan tutkimusongelma kuulosti äkkiseltään naiivilta: onhan arpakuution klassiset todennäköisyydet laskettu läpi jo pimeällä keskiajalla. Toisaalta Kimblen noppakupu on sen verran pieni, että voi olla pieni mahdollisuus sille, ettei satunnaisuus pääse sen sisällä täysin toteutumaan (nopan satunnaisuuden toteutumista käsiteltiin tässä postauksessa). Niinpä tutkimusryhmä pystytettiin, ja joululoman 2014 pimeinä iltoina, osin lapsityövoimaa hyödyntäen, tahkottiin kolme tiukkaa Kimble-matsia ja kirjattiin ylös kaikki 508 nopanheittoa.

Tutkimusongelma asetettiin analyysin tehostamiseksi siten, että kaikki vastakkaiselle puolelle tapahtuneet siirtymät (1 <–> 6, 2<–>5 ja 3<–>4) oletettiin yhtä todennäköisiksi. Kuvun sisällä olevan nopan symmetrisyyttä siis ei kyseenalaistettu vaan mahdollisten epäsatunnaisuuksien oletettiin tulevan kuvun takia lähtötilanteesta riippuen.  Lähtökohtaisesti paikkansa pitävä vanha totuus, eli nollahypoteesi, oli seuraava: ”Nopan vastapäinen luku tulee yhtä todennäköisesti kuin mikä tahansa muukin luku (n. 16.7%)”.

 Mullistava tulos

Jo otteluiden aikana alkoi lukuisia aineistoja pyöritelleen kirjurin silmään vaikuttaa siltä, että kyseessä saattaa sittenkin olla todellinen ilmiö, mutta vasta aineiston analyysivaihe toi julki varsinaisen jytkyn. Nopan vastapuoli heitettiin peräti 23.9% todennäköisyydellä, eli lähes puolitoista kertaa todennäköisemmin kuin ennakolta oletettiin. Osuuksien testin perusteella laskettiin tuloksen tilastollinen merkitsevyys. P-arvo tippui prosentin sadasosiin, kun yleisesti nollahypoteesin kumotuksi toteamiseen riittävät viittä prosenttia pienemmät arvot.

Koeasetelma (otteluiden heittojen lukumäärä) oli räätälöity paljastamaan nopan vastapuolen saamisen todennäköisyyden poikkeamia odotetusta siten, että noin kolmen prosenttiyksikön heilahdus 16.7% :sta oli löydettävissä. Tässä tutkimusryhmän suureksi yllätykseksi onnistuttiin, sillä ponnautusmekanismi Kimble-kuvun sisällä on mitä ilmeisimmin roimasti oikeaa nopanheittoa vähemmän satunnainen.

 Hyödyt pelaajille

Onko tästä löydöstä mitään konkreettista hyötyä Kimblen pelaajalle? Varmasti tulee vastaan tilanteita, joissa tätä tutkimustietoa voi hyödyntää. Mietitään esimerkiksi seuraavaa tilannetta:

Idea for gameHeität noppaluvun 5 ja sinulla on kaksi mahdollista siirtoa:

  1. Siirto, jossa nappisi siirtyy KOLME askelta seuraavana heittävän napin eteen
  2. Siirto, jossa nappisi siirtyy KAKSI askelta seuraavana heittävän napin eteen

Et tietenkään halua tulla syödyksi ja tiedät, että seuraavaksi nopasta tulee todennäköisimmin luku 2. Ensimmäinen valinta on tutkimuksen tiedon ansiosta nyt parempi ratkaisu. Lisäksi joskus, lähinnä aikuisten peli-illoissa, käytetään myös sääntövariaatiota, jossa mitään nappuloista ei ole pakko liikuttaa. Tällöin tämän tutkimuksen tarjoamien valistuneiden valintojen avulla voidaan kohottaa huomattavasti omaa voittotodennäköisyyttä.

 Sivutulos

Kerätty aineisto antoi varsinaisen tuloksen lisäksi mielenkiintoisen johtolangan. Siinä missä nopan vastapuoli ponnahti esiin n. 24-prosenttisesti, niin sama luku heti perään ilmaantui vain 10.8% todennäköisyydellä. Neljälle muulle nopan kantille jäi yhteensä 65.3% (eli keskimäärin 16.3%)  todennäköisyys. Käytännössä vastakkaisen luvun lisääntyminen selittyi pelkästään saman luvun toistumisen vähentymisenä ja kuution vierekkäiset sivut noudattelivat suurin piirtein ”rehellisiä” todennäköisyyksiä. Tätä ilmiötä ei alkuperäisen tutkimushypoteesin valossa tarkkailtu, joten olisi syytä kerätä vielä uusi aineisto, jotta minimoidaan yksittäisen aineiston satunnaisoikun mahdollisuus. Näin ei langeta aiemmin käsiteltyyn vanhaan miinaan.

Jatkotutkimukset

Tutkimukseen toteuttamiseen liittyy vielä pari kyseenalaistavaa kysymystä:

  • Kaikki heitot tehtiin samalla Kimble-laudalla. Voiko tulokset selittyä viallisella laudalla?
  • Nopan ”poksautuksia” suoritti kolme eri henkilöä. Voiko heillä joku systematiikka poksautus-tyylissä, mikä selittää tutkimuksen tulokset?

Näiden epäilyjen kumoamiseksi ja sivutuloksen oikeellisuuden varmistamiseksi haastan blogin lukijat keräämään talteen heittosarjan seuraavasta Kimble-pelistä. Kirjatkaa sarjat sitten tämän postauksen kommentti-osioon. Kunhan dataa on riittävästi kertynyt, suoritetaan eeppinen jatkotutkimus.

Kimblestä järjestettiin SM-kisat viimeksi vuonna 2012. Blogin lukijoiden onkin nyt hyvä aika aloittaa harjoittelu seuraavia kisoja varten. Ja kirjata luonnollisesti samalla heittosarjat ylös jatkotutkimuksiin.

Statistickon steesit:

  1. Kimblessä kannattaa minimoida ne riskit mitkä toteutuvat pelivuorossa seuraavan vastustajan heittäessä nopasta vastakkaisen luvun
  2. Lautapelin ollessa kilpaurheilun sijaan perheen leppoisaa ajanvietettä, sitä ei kannata pilata liian syvällisellä taktikoinnilla [ terveiset tähän väliin siskolle :) ]

Teksti on kirjoitettu yhdessä analyyseista vastanneen kollega Tuomas Kukon kanssa.

 

 

 

Facebooktwitterredditpinterestlinkedinmail

Joululahjaksi laadukasta ajattelua

Tähän aikaan vuodesta useilla on pähkäilyn alla ”Mitä hankkia joululahjaksi henkilölle, jolla on jo kaikkea. Mitään turhaa krääsääkään ei viitsisi ostaa…” Oma vinkkini on tajuntaani hurjasti laajentanut kirja Thinking fast and slow tai sen suomennettu versio Ajattelu nopeasti ja hitaasti. Kirjan on kirjoittanut Daniel Kahneman, joka on tutkinut päätöksenteon psykologiaa vuosikymmeniä ja palkittu elämäntyöstään Nobelilla. Thinking fast and slow nitoo yhteen kansantajuisesti oppeja ihmisten psykologisista ajattelun luonnollisista vääristymistä verrattuna matemaattiseen rationaalisuuteen.

Miksi haluaisimme ymmärtää psykologisia heikkouksiamme?

KulutusvalintaOletko joskus huomannut ostaneesi mainoksen perusteella tuotteen, jolle ei ole juuri käyttöä löytynytkään?  Tai oletko äänestänyt vaalimainosten ja -lupausten perusteella poliitikkoa, joka ei oikeasti jaakaan samoja arvoja kanssasi? Jätän lukijan itse pohdittavaksi, kuinka paljon todellisuudessa mainostoimistot tai poliitikot pyrkivät johtamaan kuluttajia harhaan, mutta ei siitä ainakaan haittaa ole, mikäli jatkossa osaamme välttää joitain ansoja ja tehdä enemmän oikeasti hyvinvointiamme edistäviä valintoja.

Oletus rationaalisesta päätöksentekijästä

Taloussysteemimme rakenteita on pyritty ilmaisemaan taloustieteen perusteoksissa yksinkertaisin matemaattisin esityksin. Jotta tämä olisi mahdollista, joudutaan niissä usein tekemään myös hieman epärealistisia oletuksia tyyliin: ”Kuluttajat valitsevat aina sellaisen kulutusratkaisun, mikä maksimoi heidän tulevan hyvinvointinsa.” Koska tällaiset superrationaaliset yli-ihmiset ovat aika harvinaisia, ovat kriittisimmät tyypit valmiita hylkäämään koko taloustieteen ”huuhaana”. ”Juupas-eipäs”-väittelyn sijaan psykologi Daniel Kahneman on yhdessä edesmenneen Amos Tverskyn kanssa selvittänyt urallaan, millä lailla ja kuinka paljon ihmisten tyypillinen ajattelu poikkeaa rationaalisesta päätöksenteosta. Näenkin Kahnemanin&Tverskyn tutkimuksissa sillan tunteita korostavien humanistien ja kylmän rationaalisuuteen pyrkivien taloustieteilijöiden välille toistensa ajatusmaailmoihin.

Sattuman käsittely

Omaa innostusta kirjaa kohtaan ei ainakaan laske se, että Kahneman vaikuttaa myös erittäin pätevältä tilastotieteilijältä. Iso osa hänen tutkimuksistaan koskee sitä, kuinka ihminen tekee valintoja epävarmuuden vallitessa.

Ihmisten aivot kehittyvät evoluution mukana, mutta evoluutio ei ole pysynyt teknologisen kehityksen ja talouskasvun vauhdissa. Teemme herkästi ylireagointeja pienten aineistojen informaatioon, joissa on paljon sattumalla osuutta asiaan. On elonjäämisen kannalta kriittistä osata ylireagoida pieniinkiin vaaran merkkeihin, kun elämme samoilla seuduilla villien petoeläinten kanssa. Sen sijaan turvallisessa Pohjolan hyvinvointiyhteiskunnassa asuen eteen tulevissa valinnoissa ylireagointi ei ole niin hyödyllistä.

Opit rahapelaajille ja kilpaurheilijoille

Sattuman merkityksen ymmärtäminen ei ole todellakaan helppoa. Vaikka takana on vuosien työ tilastoaineistojen parissa erilaisia simulointikokeita tehden, niin sattuma vaan välillä pääsee yllättämään omissa henkilökohtaisissa asioissa, kuten itselläni oman pokerimenestyksen pohdinnassa. Jalkapallotoimittaja Lari Vesander taas avaa blogikirjoituksessaan Kahnemanin oppeja siitä, kuinka kilpaurheilun satunnaisuus hämää jatkuvasti urheiluselostajia ja valmentajia.

Ihmiset tyypillisesti kokevat rahalliset tappiot saman kokoista voittoa suurempana ja painottavat liikaa ajattelussaan pieniä, suuruusluokkaa 0.1% – 5% olevia todennäköisyyksiä. Nämä opetukset ovat myös vallitsevia teemoja pokerin oppi-isäni Tommi Verkasalon pokeripsykologiaa käsittelevässä ansiokkaassa gradussa: Voiton ja häviän vaikutus pokerinpelaajan riskipreferensseihin. Jääkiekossa tappiolla ollessa kannattaa ottaa hurjiakin riskejä (maalivahti pois lopussa) ja johdossa pelata ylivarovaisesti. Sama käyttäytymismalli toistuu kuitenkin myös pokerissa, vaikka siinä jokaisen Euron/Dollarin pitäisi olla yhtä arvokas riippumatta oletko siltä päivältä voitolla vai häviöllä.

Kahnemanin opit myös osaltaan selittävät lotto-tyyppisten arpajaisten ja vakuutusten suosiota (arpalipun hintaa ja pientä vakuutusmaksua ei yleensä koeta tappioksi). Lähinnä matemaattisen riskienhallinnan näkökulmasta kirjoittamani blogipostaukseni vakuutuksista saa kirjassa tuntemuksiin perustuvan jatko-osan.

Valintojen muokkautuminen

Vuosikymmenten akateemisia tutkimustuloksia yhteen paketoiva kirja kuulostaa äkkiseltään aika kuivalta joulupuurolta, mutta Kahneman onnistuu kirjoittamaan helppotajuisesti erilaisilla testeillä lukijaansa viihdyttäen. Yksi suosikeistani on seuraava:

Ongelma 1:

Valitse toinen:

E. 25% mahdollisuus voittaa 240$ ja 75% mahdollisuus menettää 760$.

F. 25% mahdollisuus voittaa 250$ ja 75% mahdollisuus menettää 750$

Ongelma 2:

Kuvittele, että joudut päättämään seuraavasta samanaikaisesta asiaparista. Pohdi ensin kumpaakin päätöstä ja kerro sen jälkeen, mitä valintoja (AC, AD, BC vai BD) suosit.

Päätös (i). Valitse toinen:

A. Varma 240$ voitto

B. 25% mahdollisuus voittaa 1000$ ja 75% mahdollisuus olla voittamatta mitään

Päätös (ii). Valitse toinen:

C. 750$ varma menettäminen.

D. 75%:n mahdollisuus menettää 1000$ ja 25%:n mahdollisuus olla menettämättä mitään.

Ongelma 1:ssä on helppo nähdä, että F on kannattavampi vaihtoehto ja Kahnemanin kokeessa kaikki koehenkilöt valitsivat sen. Ongelma 2:ssa tulee taas hieman vaihtelua. Kokeessa suosituin valintayhdistelmä oli AD (73% koehenkilöistä valitsi sen) ja kaikista epäsuosituin  BC (vain 3% koehenkilöistä). Nyt kun asiaa hieman tarkemmin mietitään tarvittaessa taskulaskimella summaten, niin huomataan että yhdistelmä AD on itse asiassa aivan sama kun Ongelma 1:n  E-vaihtoehto. Ja vähiten suosittu BC… aivan oikein: Ongelma 1:n F, minkä piti olla selvästi järkevämpi valinta.

Järki ja tunteetTämä esimerkki havainnollistaa kuinka helposti normaalit psykologiset ”heikkoudet” ja yksinkertaiset nyrkkisäännöt dominoivat ajattelua kun pitäisi tehdä vähäänkin haastavampaa matemaattista laskentaa. Toisaalta se havainnollista kuinka voidaan saada toinen ihminen olemaan samasta asiasta eri mieltä muotoilemalla asiaa eri muotoon tyypillisiä ajattelun vinoutumia hyödyntäen.

Itselläni tämä kirja tärähti tietokirjallisuuden TOP-listani kärkeen. Päällimmäinen ajatukseni nyt kun takakansi tuli vastaan on ”Pitääpä aloittaa heti alusta uudelleen”.

Joitain Kahnemanin teesejä normaalista ihmisestä tuntemuksineen:

  • pyrkii tekemään ensisijaisesti päätöksiä intuition ja helppojen nyrkkisääntöjen perusteella
  • pyrkii välttämään tappion tunteita ja ylisuojelemaan saavutettuja voittoja
  • aliarvioi sattuman vaikutusta ja yliarvioi oman tietämyksensä
  • korostaa huippuhetkiä ja viimeisiä tapahtumia muistojen onnellisuuden kokemisessa
Facebooktwitterredditpinterestlinkedinmail

Mistä näitä korrelaatioita oikein tulee?

Kirjoitus on julkaistu myös Louhia-blogissa 21.10.2014.

Korrelaatiokerroin on eräs mittari kahden muuttujan välisen yhteyden mittaamiseen. Mikäli termi ei ole ennestään tuttu, sen ideaan voi tutustua esim. täällä. Sosiaalisessa mediassa on kiertänyt tällainen sivusto, jonne on listattu korrelaatiolla mitattuja yhteyksiä mitä eriskummallisimpien ilmiöiden välille. Mikä nämä selittää? Hukuttautuvatko ihmiset nähdessään Nicholas Cagen tähdittämän elokuvan vai onko taulukkolaskentaohjelma mennyt sekaisin?

Korrelaatioiden lähteet

Kahden ilmiön välinen korrelaation suuruus tilastoaineistossa voi johtua seuraavista neljästä asiasta tai jostain niiden yhdistelmästä.

1. Syy-seuraus suhde

Esim. kahvin juonti aiheuttaa verenpaineen kohoamista, mutta yhteys ei toimi toisinpäin. Korkea verenpaine ei yllytä juomaan lisää kahvia. Tällaista yhteyttä kutsutaan myös kausaaliteetiksi.

Dog in the pool

2. Molemminpuolinen riippuvuus

Esim. tietyn kenkämallin kysyntä ja tarjonta: kysynnän kasvaessa yritys alkaa valmistamaan kenkiä lisää ja tarjonta kasvaa. Toisaalta jos syystä tai toisesta kenkiä on valmistettu poikkeuksellisen paljon, yritys pyrkii tehostetulla markkinoinnilla tai alennuksilla lisäämään kysyntää.

3. Ilmiöt eivät suoraan riipu toisistaan, mutta molempiin vaikuttaa joku kolmas ilmiö

Esim. jo legendaarinen jäätelön syönti ja hukkumiskuolemat. Jäätelöä syömällä uimataidot eivät häviä vaan molempien taustalla on kolmas taustatekijä; lämpötila, mikä aiheuttaa samansuuntaista vaihtelua jäätelön syönnin ja hukkumiskuolemien välille.

4. Puhdas sattuma

Esittelemäni SoMe-artikkelin esimerkki, Nicholas Cagen leffaesiintymiset ja hukkumiset uima-altaaseen vuosina 1999-2009 saattaisi hyvinkin kuulua tähän kategoriaan. Ilmeistä on, että yhteys ei tule säilymään, mikäli seurantaa jatketaan vuodesta 2009 eteenpäin tarpeeksi pitkään.

Sattuman tuottamat korrelaatiot

Jos ihmiset eivät tarkoituksella hukuttaudu katsottuaan Cagen elokuvan tai juoksentele sähkölinjoihin mentyään naimisiin Alabamassa, niin mistä näitä merkillisiä korrelaatioita sitten tulee näin paljon? Tehdäänpä pieni kokeilu. Meillä on 7 muuttujaa, jotka voivat kuvata mitä numeroilla mitattavaa ilmiöitä tahansa, mutta niin etteivät ne todellisuudessa riipu millääan tavalla toisistaan. Nimetään muuttujat nyt X1, X2, …, X7. Arvoin kaikille näille muuttujille 12 (tyypillinen otoskoko SoMe-artikkelissa) satunnaislukuhavaintoa toisistaan riipumattomasti. Järkeenkäypää siis olisi, etteivät ne korreloisi keskenään ainakaan merkitsevästi. Tulokset näkyvät seuraavassa grafiikkamatriisissa.

korrelaatiokuvaaja

Vasemmasta ylänurkasta oikeaan alanurkkaan kulkevalla matriisin lävistäjällä on aina yksittäisen muuttujan arvottuja havaintoja kuvaava histogrammi. Vasemmalla alhaalla olevat sirontakuviot kuvaavat kahden muuttujan havaintoja yhtäaikaa niin että pystyakselilla on se muuttuja jonka rivillä ollaan ja vaaka-akselilla sarakemuuttuja.

Oikealla ylhäällä olevissa ruuduissa on kyseisellä rivillä ja sarakkella olevan muuttujan välinen korrelaatiokerroin. Luku on printattu sitä isommalla fontilla, mitä suurempi (itseisarvoltaan) korrelaatio on ja vieressä on punainen tähti osoittamassa mahdollista korrelaatiokertoimen tilastollista merkitsevyyttä. Punainen piste taas tarkoittaa, että korrelaatio on ”melkein merkitsevä” mutta ei aivan ylitä tieteellistä merkitsevyysrajaa.

korrelaatiokuvaaja_yksi_pariNyt  saatiin merkitsevä korrelaatiokerroin 0.69 muuttujien X4 ja X7 välille. Kun otetaan kyseiset muuttujat vielä lähempään tarkasteluun, huomataan että nouseva suora kuvaa hyvin muuttujien välistä yhteyttä aineistossa: X4:n ollessa suuri tuppaa X7 myös saamaan suuria arvoja. Nyt jos muuttujat sattuisivat olevaan vaikka ”Sabina Särkän lehtihaastattelujen lukumäärä yhden vuoden aikana” ja ”Matti Nykäsen vuoden pisimmän hypyn pituus”, SOME-hitti on valmis ja lööpit laulaa. Vain mielikuvitus on rajana keksiessä selityksiä tämän yhteyden välille.

Todennäköisyyslaskenta on tutkijan paras kaveri

Vielä saattaa herätä kysymys, että huijasinko ja toistin arvontoja niin monta kertaa, kunnes tuli tällainen poikkeama. Todellisuudessa tässä ilmentymässä ei ole mitään poikkevaa, koska todennäköisyys saada sattumalta vähintään yksi merkitsevä korrelaatio, kun testataan 21 toisistaan riippumatonta muuttujaparia on n. 66%. Ei tarvita montakaan sataa muuttujaparivertailua, jotta saadaan kasaan SoMe-artikkelissa olevat 19 erikoista ”tilastollisesti merkitsevää” yhteyttä pelkästään sattumalta. Todellisessa tutkimuksessa on todennäköisyyslaskennan avulla syytä säätää korrelaatioiden hyväksymiskriteerejä sen mukaan, onko tärkeämpää löytää paljon potentiaalisia yhteyksiä vai välttää virheellisiä tulkintoja. Aina pitää olla hereillä, kun tekee suurista muuttujamääristä ”machine learning”-tyyppistä datan penkomista. Systemaattinen laskentaprosessi ilman todennäköisyysajattelua päätyy helposti itsensä harhaanjohtamiseen. Ja hauskoihin lööppeihin.

Statistickon steesit:

  1. Yksittäisestä aineistosta löytyy yllättävän suuria korrelaatioita sattumalta varsinkin kun havaintoja on vähän ja muuttujia paljon
  2. Tilastotieteen syvällisempi osaaminen auttaa välttämään riippuvuustutkimuksen sudenkuopat

 

Facebooktwitterredditpinterestlinkedinmail

Tutkimushypoteesit ja pokerimenestys

Virheelliset tutkimukset

Tutkimusaineistoista löytyy aina jotain merkillisyyksiä pelkästään sattumalta, kun datoja tarpeeksi paljon pyöritellään ja kaivellaan. Jos testaamme juuri niitä hypoteeseja, mitkä tulivat mieleen aineiston erikoisuuksia kaivelemalla, niin tottakai saamme tilastollisesti merkitseviä tuloksia. Tulokset eivät vaan ole päteviä, koska riippumattomuusoletukset eivät täyty. Tämä onkin ehkä yleisin tilastojen väärinkäyttötapa, jonka takia maailmassa on julkaistu hurja määrä tutkimustuloksia, mitä ei ole enää seuraavassa saman alan tutkimuksessa pystytty toistamaan (viite). Itse olin lähellä sortua vastaavaan tutkimuskentällä yleiseen virheeseen, kun olin turhautunut omasta heikosta menestyksestäni pokeripöydissä.

Tuuri pokerissa

Pokerimenestyksen tutkiminen

Pokeri on peli, joka on olemukseltaa jossain shakin (pelissä ei tuurielementtiä, parempi pelaaja voittaa) ja ruletin (puhdas tuuripeli) välimaastossa. Matemaattisilla ja psykologisilla taidoilla voi saada edun muita pelaajia vastaan, mutta sattumalla on suuri vaikutus siihen, kuinka yksittäisessä pelissä käy. Itse olen harrastanut pokeria pääasiassa ”texas hold’em sit and go”-turnauksina, joissa matemattiset taidot korostuvat. Nettipokerissa menestyminen oli pari vuotta sitten vielä merkittäväkin tulonlähde, mutta viime vuosi 2013 oli tappiollinen, eikä menneillä oleva alkuvuosikaan ole tuonut vielä suurta parannusta. Nyt mieltä vaivaava kysymys kuuluu: ”Onko lähimenneisyyden huono tulos selitettävissä sattumalla vai pelaavatko vastustajat nykyään paremmin (tai minä huonommin) kuin aikaisemmin?”.

Tilastot turnauksista

Oman nettipokerituurin (ja vastustajien pelityylien) selvittämiseksi olen onneksi vuosi sitten hankkinut apuohjelman, joka kerää aineistoa pelaamistani turnauksista jälkianalyysejä varten. Tilastot paljastavat, että tappiot selittyvät yhden pokerifirman, kutsutaan sitä vaikka nimellä ”Täystöötti”, peleillä. Tällä pokerisivustolla olen pelannut valtaosan peleistäni.

Graafissa punainen käyrä kertoo, mikä todennäköisyyksien mukaan tulokseni pitäisi olla, jos ”all-in” tilanteissa tuurini olisi ollut keskimääräinen. Vihreä käyrä kertoo, mikä todellinen tulokseni on ollut turnausmaksuina. Karkeasti voisi yksinkertaistaa seuraavasti: Mikäli punainen käyrä on nollan yläpuolella, on pelaaja ollut turnausmenestyksen kannalta hyvissä tilanteissa kun kaikki rahat menevät pottiin ja piilokortit käännetään esiin. Jos vihreä käyrä on punaisen käyrän yläpuolella, niin pakasta tulleet viimeiset ratkaisukortit ovat olleet keskimääräistä suotuisampia (ja vastaavasti heikompia, kun ollaan punaisen käyrän alapuolella).

meh_graafi_cannon_180714

Menestys ja ”pakkatuuri”-korjattu menestys Täystöötin peleissä.

hem_graafi_pspp_18072014

Menestys ja ”pakkatuuri”-korjattu menestys muissa kun Täystöötin peleissä.

Täystöötin peleissä vaikuttaisi olleen järkyttävän huonoa tuuria, koska toteutunut käyrä (vihreä) on n. 140 turnausmaksua ”pakkatuuri”-korjatun (punaisen) käyrän alapuolella. Muiden firmojen peleissä taas käyrät käyttäytyvät niinkuin pitkässä juoksussa pitäisikin, eli seurailevat toisiaan. Tässä vaiheessa useimmilla tappion lyömillä pelaajilla herää epäilyksiä, että  Täystöötti huijaa minun vastustajieni eduksi tai vähintäänkin heidän satunnaisgeneraattoriin on lipsahtanut koodausvirhe. Tämän jos voisi tilastollisesti todistaa, niin voisi alkaa vaatimaan heiltä korvauksia tai vähintään boikotoimaan sekä mollaamaan foorumeilla. Jos näillä aineistoilla lähtisin asiaa tilastollisesti testaamaan niin epäilemättä saisin erittäin merkitseviä tilastollisia todistuksia vinoutuneesta satunnaisgeneraattorista. Laajasta menetelmä-työkalupakistani huolimatta en näin kuitenkaan tee.

Tutkimushypoteesi

Meillä olisi nyt seuraava tutkimushypoteesi, mitä lähdettäisiin todistamaan vääräksi:

H0: ”Täystöötin pokeripelien satunnaisgeneraattori on rehellinen”

Testien lopputulokset ovat usein muotoa ”On alle 5% mahdollisuus, että aineistossa ilmenevä poikkeama hypoteesista johtuisi sattumasta. Näinollen hypoteesi ei pidä paikkaansa ja tulos on tilastollisesti merkitsevä”. Huono uutinen tutkimuksellemme on se, että keksimme hypoteesin aineistomme avulla. Tilastolliset testit taas vaativat, että käytössä on hypoteesista riippumaton satunnaisotos.

Tutkimuksen jatko

Parasta mitä tässä tilanteessa voimme tehdä, on alkaa keräämään uutta aineistoa, jolla voimme testata, pitääkö havaitsemamme poikkema todella paikkansa. Tutkimussuunnitelma on nyt seuraava: pelaan 3000 uutta turnausta. Näistä hyväksyn tutkimukseen joka kolmannen aloittaen kolmannesta. Tällä pyrin ehkäisemään peräkkäisten turnausten mahdollista korrelaatiota, mikä on seurausta samoista vastustajista tai edellisen turnauksen lopputuloksesta johtuvasta tunnetilasta. Tämän jälkeen meillä on käytössä myös hypoteesista riippumaton satunnaisotos validin tutkimuksen tekemiseksi.

Entäs silloin kun meillä on vain yksi aineisto, eikä sitä ole tulossa lisää lähitulevaisuudessa? Tutkimushypoteeseja ei ole voitu asettaa etukäteen tai niitä on paljon. Toteammeko, että aineisto on hyödytön ja heitämme kirveen kaivoon? Toki datan antama singnaali on aina jonkunlainen vihje todellisuuden tilasta. Meillä vaan tulee ongelmia todennäköisyyslaskelmissa kun halausimme arvioida kuinka suurella varmuudella voimme yleistää signaalin koskemaan todellisuutta aineiston ulkopuolella. Tapauksesta riippuen voimme joko tehdä korjauksia menetelmien todennäköisyyslaskelmiin tai erottaa ja säästää osa aineistosta tuloksien varmentamiseen. Näistä tekniikoista sekä Täystöötin satunnaisgeneraattorin testaamisen tuloksista lisää myöhemmissä blogipostauksissa.

Statistickon steesit:

  1. Tutkimushypoteesi pitää asettaa ennen tutkimusaineiston tarkastelua
  2. Dataa tutkiskelemalla löytynyt yllättävä seikka on enemmän hypoteesi uudelle tutkimukselle (uudella datalla) kuin yleistettävissä oleva tulos
Facebooktwitterredditpinterestlinkedinmail