Rss

  • linkedin

Archives for : totuus

Totuuden vääristäminen tosiasioilla

News Journalism Information Publication Update Media ConceptElämme informaatiotulvan keskellä. Puhutaan jopa informaatiosodasta kun kiistoissa olevien kansakuntien johtajat yrittävät valloittaa median välityksellä ihmisiä puolelleen. Suomen osalta informaatiosota on kuumimmillaan juuri nyt eduskuntavaalien alla kun kaikki puolueet laulavat viekottelevia soidinlaulujaan. Nämä ovat saaneet minut pohtimaan mielipidevaikuttamista. Jätän pohdintojen ulkopuolelle kuitenkin suoranaisen valehtelun, mikä on oma tarinansa.

Vääristyneet otannat

Miltä kuulostaa seuraava tutkimus: Selvitettiin suomalaisten mielipidettä pakkoruotsiin kysyen mielipiteitä vain länsi- ja eteläsuomalaiselta? Kukaan ei valehtele mitään raportoidessaan että tässä otoksessa niin ja niin suuri osa suomalaisista kannattaa pakkoruotsia. Tieteellisessä tutkimuksessa tulee raportoida myös aineiston keräämisprosessi ja tässä kohtaa saattaisi em. tutkimuksen julkaisu tyssähtää epäsatunnaisen otannan takia. Mutta harvallapa meistä on aikaa ja kärsivällisyyttä hankkia informaatiota ainoastaan kahlaamalla läpi tieteellisiä julkaisuja ja virallisia tilastoja. Lööppimedia tarjoaa paljon ketterämmän ja viihteellisemmän tavan informaation keräämiseen. Mutta kuinka avoimesti eri valtamediat kertovat, millä prosessilla julkaistavat jutut valikoituvat?

Keskitytään uutisiin, joista jokainen yksittäin on täysin totta ja mahdollisesti jopa objektiiviseen sävyyn kirjoitettu. Nyt jos kuitenkin systemaattisesti on tietyntyyppisiä uutisia jätetty julkaisematta, yleinen mielikuvamme maailmasta vääristyy oleellisesti. Jos lehden päätoimittaja on vaikka päättänyt mielessään ”Minun lehdessä ei sitten julkaista mitään positiivista hevosurheiluun liittyvää, koska isäni hävisi kerran liikaa raveissa”, lukijan kokonaismielikuva hevosurheilusta vääristyy väistämättä. Vaikkakin julkaisuun päätyneet tarinat hevosten takia perheitään laiminlyövistä isistä ja äideistä olisivat tosia.

Kaksi julkaisua, kaksi miestä

Olkoon meillä kaksi julkaisua  ”Kauppalaissanomat” ja ”Kansan Kajaus”.

Kauppalaissanomat kertoo miehestä A seuraavaa:

  • Tämän miehen johtamat yritykset työllistivät vuonna 2014 täysipäiväisesti 56546 henkilöä
  • Tämä mies maksoi veroja vuodelta 2013 hurjat 3.6 miljoonaa euroa.
  • Tämä mies julkaisi vasta kirjan, jossa hän avaa kansalle näkemyksiään talouden kiemuroista. Kuka tahansa voi nyt kehittää talousälyään tämän miehen johdatuksella.

Kansan Kajaus kertoo miehestä B seuraavaa:

  • Tämän miehen johtamat yritykset vähensivät vuonna 2014 665 täysipäiväistä työntekijää.
  • Tämä mies maksoi vuonna 2013 jättimäisistä tuloistaan huolimatta vain 32% veroja
  • Tämä mies tyrkyttää omaa ideologiaansa vasta valmistuneessa kirjassaan. Kirjassa mm. mollataan monen ansioituneen taloustieteilijän elämäntyötä.

Keitähän nämä kaverit A ja B mahtavat olla? Ehkä hoksasitkin, että molemmissa puhutaan samasta henkilöstä: rakastettu ja vihattu finanssimies Nalle Wahlroos. Molempien lähteiden väitteet pitävät ainakin likimain paikkansa (verotietojen lähde täällä  ja työllistämistiedot perustuvat Sammon, Nordean, ja UPM:n tilinpäätöstietoihin). Mutta valikoimalla esitettävät faktat johtavat täysin erilaisiin mielikuviin.

Omat valinnat

SanomalehdetMielikuvien yksipuolistumista ei vähennä sekään että olemme taipuvaisia keskittämään ajanvieton ja SOME-seuraamisen samanhenkisiin ihmisiin. Objektiivisuuteen pyrkivän olisi lisäksi hyvä seurata useita toisistaan mahdollisimman riippumattomia tietolähteitä. Mielellään kielitaidon puitteissa eri puolilta maailmaa.

Hyvät ja huonot uutiset

Olin vasta kuuntelemassa tiedemies Esko Valtaojan tietoiskua ja hän nosti esille erittäin tärkeän teeman: media, jonka täytyy rahoittaa toimintansa lehtimyynnillä ja nettiklikkauksilla, ajautuu muodostamaan liian synkän kuvan maailmasta. Eivät piruuttaan, vaan koska sinä ja minä emme osta riittävästi lehtiä tai klikkaile linkkejä jotka liittyvät arkipäiväisiin, positiivisiin uutisiin. Shokeeraavat, harvinaiset tapahtumat valtaavat mielemme niin että unohdamme kaiken jatkuvasti tapahtuvan hyvän ympärillämme. Parempia uutisia sen sijaan on kerrottavanaan maailman terveys- ja taloustrendejä tutkivalla tilastotieteilijällä Hans Roslingilla, joka tässä viihdyttävässä videopätkässä antaa poikansa kanssa hyödyllistä ajateltavaa.

 

 

Statistickon steesit:

  • Ilman tiedonjyvästen kattavaa satunnaisotantaa totuus vääristyy
  • Nettimaailmassa klikkausvalinnoillamme äänestämme, minkä tyyppisiä uutisia meille julkaistaan jatkossa
  • Seuraamalla useita toisistaan mahdollisimman riippumattomia tietolähteitä maailmankuvan objektiivisuus paranee
  • Maailma on parempi paikka kuin luulemmekaan
Facebooktwitterredditpinterestlinkedinmail

Totuuden jäljillä

Otetaan heti alkuun pieni pähkinä, joka on hieman muokaten kopioitu Nassim Talebin kirjasta ”Fooled by randomness”.

Kuvitellaan tauti, jota sairastaa yksi tuhannesta suomalaisesta 40 vuotiaasta miehestä. Jarkko menee 40-vuotispäivän kunniaksi lääkärille rutiininomaiseen terveystarkastukseen ja lääkäri suorittaa verikokeen taudin testaamiseksi. Kokeesta tiedetään, että oikeasti sairaiden lisäksi se antaa positiivisen tuloksen 5% todennäköisyydellä silloin kun potilas on terve.

Jarkko sai kokeesta positiivisen tuloksen. Mikä on todennäköisyys, että Jarkolla on kyseinen tauti?

Mieti hetki vastausta, ennen kuin jatkat eteenpäin.

sairaus_graafi2Vastasitko 95%? Ei se mitään, niin vastaa moni muukin pätevä kaveri. Mutta oikea vastaus on n. 2%. Pieleen menee yleensä siinä, että ennakkotieto ”yleinen sairastuneisuus 1/1000” jää huomiotta. Asian hahmottamiseksi vieressä on laatikko, jossa pallerot kuvaavat tyypillistä 1000 hengen otosta 40-vuotiaista miehistä. Punaisella värjätty alanurkan pallero on se epäonninen, joka sairastaa tautia. Jäljelle jäävistä 999 terveestä henkilöstä 0.05 * 999, eli noin 50 henkeä taas ovat sellaisia, jotka saavat verikokeesta virheellisen positiivisen tuloksen. Näitä ovat mustat pallerot ylhäällä. Pähkinän oikea vastaus tulee jakolaskusta 1/(1 + 50).

Edellinen verikoe on esimerkki tilanteesta, jossa totuuden etsimiseksi on kehitetty testi, jonka lopputulokseen liittyy epävarmuutta. Myös tieteen tekeminen on jatkuvaa painimista löydöksiin liittyvien epävarmuuksien kanssa. Esittelen seuraavaksi kolme mittaria, jotka auttavat tieteellisen löydöksen totuusarvon mittaamisessa.

Tilastollinen merkitsevyys (P-arvo)

P-arvo on tärkein ja tunnetuin mittari sille, kuinka uskottava tutkimustuloksemme on. Kyseessä on ehdollinen todennäköisyys: Todennäköisyys, että löydös ilmenee aineistossa sattumalta JOS se ei oikeasti pidä paikkaansa.  Akateemisessa tutkimuksessa löydöstä yleensä pidetään tilastollisesti merkitsevänä, jos P-arvo on pienempi kuin 0.05. P-arvoa kuitenkin ylitulkitaan jatkuvasti samoin kuin ”Jarkon sairausdiagnoosi” -esimerkissä. P-arvo 0.05 EI nimittäin tarkoita välttämättä, että tutkimuslöydös olisi 95% todennäköisyydellä tosi.

Tilastollinen voimakkuus (Power)

Voimakkuus on ”Todennäköisyys, että tutkimusaineisto paljastaa etsimämme ilmiön JOS ilmiö on oikeasti olemassa.” Mediahuomiotakin saaneen Kimble-tutkimuksen tapauksessa: ”Todennäköisyys, että vastakkaisia silmälukuja tulee tilastollisesti merkitsevästi enemmän tutkimuksessamme, jos nopassa on oikeasti systematiikkaa.” Voimakkuuslaskelmia käytetään pääasiassa ennen tutkimusta selvittämään sopivaa otoskokoa tutkimukselle, mutta se on hyödyllinen tieto myös myöhemmin löydöksen totuusarvoa laskiessa.

Ennakkokäsitys ilmiöstä (Prioritieto)

P-arvo ja Power ovat siis ilmiön paljastumistodennäköisyyksiä tietyillä ehdoilla ja me haluaisime päästä käsiksi ilmiön olemassaolon todennäköisyyteen. Tämä onnistuu ottamalla huomioon ennakkokäsitys ilmiöstä ennen tutkimusaineiston keräämistä.

Esimerkiksi Kimble-tutkimuksessa ennakkokäsityksemme oli suurinpiirtein seuraavanlainen: ”Nuorisokodin peleissä ykkönen on tullut kuutosen jälkeeen silmiinpistävän usein. Kyse voi kuitenkin olla sattumasta ja siitä seuraavasta psykologisesta harhasta. Toisaalta systematiikat ovat mahdollisia, koska noppakupu on sen verran pieni. Noppa voisi olla kyseisellä tavalla epäsatunnainen ehkä 20% todenäköisyydellä, eli kerran viidestä.”

Tässä kohti huomataan, että peliä vuosikymmeniä hakanneella konkarilla ennakkokäsitys olla täysin erilainen. Joku aktiivipelaaja olisi saattanut nähdä asian seuraavasti: ”Vuosikymmenten kokemuksella olen hyvin varma ilmiön olemassaolosta.  Väittäisin olevan sen tosi 90% todennäköisyydellä.” Ennakkokäsitys on usein hyvin subjektiivinen näkemys.

ProfessorSubjektiivisten näkemyksien suhteen ollaan ymmärrettävistä syistä varovaisia akateemisen tutkimuksen tilastoanalyysissä. Emme halua, että tieteen tulokset ovat liian riippuvaisia yksittäisen tutkijan subjektiivisesta näkemyksestä. Ainahan on olemassa riski, että ideologiset näkemykset tai henkilökohtaiset haaveet ohjaavat yksittäisen henkilön ennakkokäsitystä tiettyyn suuntaan.

Sen sijaan esim. yrityksen tehdessä tutkimusta vain oman liiketoimintansa päätöksenteon tueksi prioritietoa kannattaa hyödyntää, mikäli palkkalistoilta löytyy asiantuntija, joka osaa muuttaa näkemyksensä numeeriseen muotoon. Liiketoiminnassa taloudelliset intressit kannustavat kohti objektiivisuutta. Virheelliset johtopäätökset kun tuppaavat näkymään yrityksen tuloksessa.

Prioritodennäköisyyden ongelma on sen vaikea määrittäminen yksiselitteisen objektiivisesti. John Ioannidis käyttää artikkelissaan erästä objektiivista lähestymistapaa: selvitetään kaikki viimeaikojen oman tutkimusalan tutkimukset ja käytetään prioritodennäköisyytenä suhdetta, jolla aloitetut tutkimukset ovat lopulta johtaneet oikeaan uuteen löydökseen. Tämän asian selvittäminen ei kuitenkaan käy ihan sormia napsauttamalla.

Tutkimuslöydösten totuusarvot

Nyt meillä alkaa olla riittävästi työkaluja käydä käsiksi tutkittavan ilmiön olemassaolon todennäköisyyteen. Mietitään tyypillistä standardien mukaan suunniteltua tutkimusta. Mikäli matematiikka ei ole lähellä sydäntäsi voit jättää kaavat ja kreikkalaiset kirjaimet omaan arvoonsa. Tutkimuksen tilastollinen voimakkuus  (1-\beta ) on standardi 0.8 ja tilastollinen merkitsevyyskriteeri  (\alpha ) on 0.05. Olkoon testattava hypoteesi  (H_1 ) aiemman Kimble-esimerkin tapainen, mikä voidaan olettaa ennakkokäsityksen mukaan todeksi 20% varmuudella. Nyt jos data kriteereillämme paljastaa ilmiön, sen todennäköisyys olemassaololle on 80%. Tämä saadaan laskettua Bayesin säännöstä johdetulla kaavalla (johdin sen tähän hätään itse, joten suhtautuminen varauksella):

  \mathbb{P}(H_1 | Data) = \frac{(1-\beta ) \mathbb{P}(H_1)}{ \alpha (1-\mathbb{P}(H_1))+(1-\beta ) \mathbb{P}(H_1)}

 

Mietitään sitten vertailun vuoksi tutkimusta, jossa voimakkuus ja merkitsevyyskriteeri ovat edelleen samoja, mutta tarkoitus on testailla vähän kaikkea, jos satuttaisiin löytämään joitain tilastollisesti merkitseviä yhteyksiä. Meillä voisi olla vaikka pitkä lista erilaisista Kimble-pelaajien ominaisuuksista kätisyydestä hapenottokykyyn ja tutkimme, sattuisiko jollain niistä olemaan yhteyttä pelissä pärjäämiseen. Tällöin yksittäiseen testiin liittyvä prioritodennäköisyys ilmiön olemassaololle voisi olla luokkaa 1%. Nyt ylläolevalla kaavalla laskettu totuusarvo kyseiselle löydökselle romahtaa niinkin alas kuin 14%:iin.

Pieni prioritodennäköisyys romauttaa löydöksen totuusarvon, koska sattumalta tulevat löydökset dominoivat tilastollisesta merkitsevyydestä huolimatta. Näin kävi alun sairausdiagnoosipähkinässäkin. Lisäpähkinä pohdittavaksi: Matias saa saman diagnoosin kuin Jarkko, mutta hän tietää jo ennalta omaavansa geenit, jotka nostavat kyseisen sairauden puhkeamisen riskiä.

Käytännön prosessit

SearchingEnnakkonäkemyksen kunnollinen hyödyntäminen on todellisuudessa vaikeaa, mutta tärkeintä tässä on huomata ero huolellisesti valitun hypoteesin tutkimisen ja ”vähän kaiken kokeilun”, (exploratiivisen tutkimuksen) välillä. Tässä vaiheessa moni voi huomata, että omiin tutkimuksiin/tietolähteisiin liittyy enemmän epävarmuutta, mitä on tullut ajatelleeksi. Niin kävi itsellenikin tätä kirjoittaessa. Tutkimuksen huolellisella suunnittelulla voi kuitenkin luottaa olevansa useammin oikeassa kuin väärässä, vaikkei tarkkoja prioritodennäköisyyksiä pystyisikään hahmottamaan.

Tutkimustiedon jatkokäsittelijän taas tulee muistaa olla kriittinen uuden mullistavan tiedon löytyessä. Oleellinen kysymys kuuluu: Kuinka tähän tulokseen päädyttiin? Onko kyseessä hakuammunnan tulos vai oliko alla jo muuta samaa ilmiötä tukevaa tutkimustietoa, jolle nyt haettiin varmistus?

 

Statistickon steesit:

  1. Tutkimuslöydöksen todenperäisyyden arviointiin tarvitaan tilastollisten mittareiden lisäksi prioritiedon hyödyntämistä
  2. Prioritiedon muuttaminen numeroiksi on usein hankalaa, mutta huolellisella tutkimussuunnittelulla voidaan kiertää tätä ongelmaa
  3. Kokeileva, exploratiivinen, tutkimus on tärkeää uusien tutkimussuuntien löytämiseen, mutta siitä on vielä pitkä matka totuudeksi julistamiseen
Facebooktwitterredditpinterestlinkedinmail