Virheelliset tutkimukset
Tutkimusaineistoista löytyy aina jotain merkillisyyksiä pelkästään sattumalta, kun datoja tarpeeksi paljon pyöritellään ja kaivellaan. Jos testaamme juuri niitä hypoteeseja, mitkä tulivat mieleen aineiston erikoisuuksia kaivelemalla, niin tottakai saamme tilastollisesti merkitseviä tuloksia. Tulokset eivät vaan ole päteviä, koska riippumattomuusoletukset eivät täyty. Tämä onkin ehkä yleisin tilastojen väärinkäyttötapa, jonka takia maailmassa on julkaistu hurja määrä tutkimustuloksia, mitä ei ole enää seuraavassa saman alan tutkimuksessa pystytty toistamaan (viite). Itse olin lähellä sortua vastaavaan tutkimuskentällä yleiseen virheeseen, kun olin turhautunut omasta heikosta menestyksestäni pokeripöydissä.
Tuuri pokerissa
Pokeri on peli, joka on olemukseltaa jossain shakin (pelissä ei tuurielementtiä, parempi pelaaja voittaa) ja ruletin (puhdas tuuripeli) välimaastossa. Matemaattisilla ja psykologisilla taidoilla voi saada edun muita pelaajia vastaan, mutta sattumalla on suuri vaikutus siihen, kuinka yksittäisessä pelissä käy. Itse olen harrastanut pokeria pääasiassa ”texas hold’em sit and go”-turnauksina, joissa matemattiset taidot korostuvat. Nettipokerissa menestyminen oli pari vuotta sitten vielä merkittäväkin tulonlähde, mutta viime vuosi 2013 oli tappiollinen, eikä menneillä oleva alkuvuosikaan ole tuonut vielä suurta parannusta. Nyt mieltä vaivaava kysymys kuuluu: ”Onko lähimenneisyyden huono tulos selitettävissä sattumalla vai pelaavatko vastustajat nykyään paremmin (tai minä huonommin) kuin aikaisemmin?”.
Tilastot turnauksista
Oman nettipokerituurin (ja vastustajien pelityylien) selvittämiseksi olen onneksi vuosi sitten hankkinut apuohjelman, joka kerää aineistoa pelaamistani turnauksista jälkianalyysejä varten. Tilastot paljastavat, että tappiot selittyvät yhden pokerifirman, kutsutaan sitä vaikka nimellä ”Täystöötti”, peleillä. Tällä pokerisivustolla olen pelannut valtaosan peleistäni.
Graafissa punainen käyrä kertoo, mikä todennäköisyyksien mukaan tulokseni pitäisi olla, jos ”all-in” tilanteissa tuurini olisi ollut keskimääräinen. Vihreä käyrä kertoo, mikä todellinen tulokseni on ollut turnausmaksuina. Karkeasti voisi yksinkertaistaa seuraavasti: Mikäli punainen käyrä on nollan yläpuolella, on pelaaja ollut turnausmenestyksen kannalta hyvissä tilanteissa kun kaikki rahat menevät pottiin ja piilokortit käännetään esiin. Jos vihreä käyrä on punaisen käyrän yläpuolella, niin pakasta tulleet viimeiset ratkaisukortit ovat olleet keskimääräistä suotuisampia (ja vastaavasti heikompia, kun ollaan punaisen käyrän alapuolella).
Täystöötin peleissä vaikuttaisi olleen järkyttävän huonoa tuuria, koska toteutunut käyrä (vihreä) on n. 140 turnausmaksua ”pakkatuuri”-korjatun (punaisen) käyrän alapuolella. Muiden firmojen peleissä taas käyrät käyttäytyvät niinkuin pitkässä juoksussa pitäisikin, eli seurailevat toisiaan. Tässä vaiheessa useimmilla tappion lyömillä pelaajilla herää epäilyksiä, että Täystöötti huijaa minun vastustajieni eduksi tai vähintäänkin heidän satunnaisgeneraattoriin on lipsahtanut koodausvirhe. Tämän jos voisi tilastollisesti todistaa, niin voisi alkaa vaatimaan heiltä korvauksia tai vähintään boikotoimaan sekä mollaamaan foorumeilla. Jos näillä aineistoilla lähtisin asiaa tilastollisesti testaamaan niin epäilemättä saisin erittäin merkitseviä tilastollisia todistuksia vinoutuneesta satunnaisgeneraattorista. Laajasta menetelmä-työkalupakistani huolimatta en näin kuitenkaan tee.
Tutkimushypoteesi
Meillä olisi nyt seuraava tutkimushypoteesi, mitä lähdettäisiin todistamaan vääräksi:
H0: ”Täystöötin pokeripelien satunnaisgeneraattori on rehellinen”
Testien lopputulokset ovat usein muotoa ”On alle 5% mahdollisuus, että aineistossa ilmenevä poikkeama hypoteesista johtuisi sattumasta. Näinollen hypoteesi ei pidä paikkaansa ja tulos on tilastollisesti merkitsevä”. Huono uutinen tutkimuksellemme on se, että keksimme hypoteesin aineistomme avulla. Tilastolliset testit taas vaativat, että käytössä on hypoteesista riippumaton satunnaisotos.
Tutkimuksen jatko
Parasta mitä tässä tilanteessa voimme tehdä, on alkaa keräämään uutta aineistoa, jolla voimme testata, pitääkö havaitsemamme poikkema todella paikkansa. Tutkimussuunnitelma on nyt seuraava: pelaan 3000 uutta turnausta. Näistä hyväksyn tutkimukseen joka kolmannen aloittaen kolmannesta. Tällä pyrin ehkäisemään peräkkäisten turnausten mahdollista korrelaatiota, mikä on seurausta samoista vastustajista tai edellisen turnauksen lopputuloksesta johtuvasta tunnetilasta. Tämän jälkeen meillä on käytössä myös hypoteesista riippumaton satunnaisotos validin tutkimuksen tekemiseksi.
Entäs silloin kun meillä on vain yksi aineisto, eikä sitä ole tulossa lisää lähitulevaisuudessa? Tutkimushypoteeseja ei ole voitu asettaa etukäteen tai niitä on paljon. Toteammeko, että aineisto on hyödytön ja heitämme kirveen kaivoon? Toki datan antama singnaali on aina jonkunlainen vihje todellisuuden tilasta. Meillä vaan tulee ongelmia todennäköisyyslaskelmissa kun halausimme arvioida kuinka suurella varmuudella voimme yleistää signaalin koskemaan todellisuutta aineiston ulkopuolella. Tapauksesta riippuen voimme joko tehdä korjauksia menetelmien todennäköisyyslaskelmiin tai erottaa ja säästää osa aineistosta tuloksien varmentamiseen. Näistä tekniikoista sekä Täystöötin satunnaisgeneraattorin testaamisen tuloksista lisää myöhemmissä blogipostauksissa.
Statistickon steesit:
- Tutkimushypoteesi pitää asettaa ennen tutkimusaineiston tarkastelua
- Dataa tutkiskelemalla löytynyt yllättävä seikka on enemmän hypoteesi uudelle tutkimukselle (uudella datalla) kuin yleistettävissä oleva tulos
Sosiaalisessa mediassa virinneen keskustelun perusteella pitää vielä hieman täsmentää:
Tilastolliseen testeihin liittyy usein kaksi eri riippumattomuusoletusta, jotka tässä tekstissä saattavat memnnä sekaisin:
1. Hypoteesin riippumattomuus aineistosta
2. Havaintojen riippumattomuus toisistaan
Se, että tutkimussuunnitelmassa päätin valita mukaan joka kolmannen turnauksen pyrkii toteuttamaan riippumattomuusoletusta 2.
Juuri tämän tutkimusongelman (Täystöötin rehellisyys) kannalta vain joka kolmannen havainnon valitseminen voi olla yliampuvan varovaista ja heittää hukkaan hyvää dataa. Yleinen ajatus on kuitenkin muistuttaa, että tätäkin asiaa on tärkeä pohtia tutkimussuunnitelmassa ja tarvittaessa suunnitella myös toimenpiteitä riippuvuuksien varalle.