Datan määrä ei korvaa ymmärrystä

Posted by :Statisticko On : 31.10.2017

Kun valtamedioista lukee jotain big dataan tai tekoälyyn liittyvää, mielikuvaksi datan ennakoivasta analyysistä voi usein jäädä jotain seuraavaa: ”pitää vaan olla massiivinen läjä dataa niin neuroverkot ja muut koneoppimisalgoritmit kyllä taikovat automaagisesti suurta viisautta”. Tähän väliin ajattelin tuoda nyt esiin vähän toista puolta sopan aineksista. Jossain kohtaa nimittäin edelleen tarvitaan tutkittavan ilmiön ymmärtämistä dataa pursuavista tietokannoista ja fiksuista koneoppimisalgoritmeista huolimatta.

Kurssisuoritusten ennustaminen

Viestin havainnollistamista auttakoon meitä kuvitteellinen tarina kahdesta Data Scientististä, Laiska-Latesta ja Nysvä-Niilosta. Molemmille on annettu tehtäväksi kehittää algoritmi, joka ennustaa etukäteen ketkä pääsevät läpi erään opiston valinnaisen kurssin kokeesta. Koe on vaikea ja se on pisteytetty niin, että vain puolet yrittäjistä pääsevät läpi. Opisto kouluttaa naisvaltaiselle alalle ja opiskelijoiden sukupuolijakauma on vuodesta toiseen suurin piirtein 80% naisia ja 20% miehiä.

Laiska-Late löytää opiston nettisivuilta kurssilaisista valmista dataa menneiltä vuosilta seuraavista tiedoista:

kokeen läpäiseminen
kurssin aikana kerätyt harjoituspisteet
sairauspoissaolot oppitunneilta

Tietosuojasyistä oppilaiden nimiä tai muita taustatietoja ei ole kuitenkaan tallennettu. Kaikki henkilötiedot on vain korvattu ID-numerolla. Havaintoja on kuitenkin iso määrä tähän tarkoitukseen.

Erilaisten mallien kokeilun ja validointien jälkeen Latelle jää vielä 5000 havaintoa lopulliseen parametrien optimointiin. Hän päätyy logistiseen regressiomalliin, jossa kokeen läpäisyä (kyllä/ei) ennustaa kurssin aikana kerätyt harjoituspisteet. Sairauspoissaolo-tiedosta ei ollut hyötyä ennustamisessa.

Harjoituspisteiden ja kokeen läpäisemisen riippuvuussuhdetta kuvaa oheinen viiksilaatikko – kuvaaja, mistä näkyy että kokeen läpäisseillä on keskimäärin VÄHEMMÄN kerättyjä harjoituspisteitä. Late ei tähän takerru, koska data puhuu tämän puolesta ja ero on selvästi tilastollisesti merkitsevää. Tähän riippuvuussuhteeseen perustuu hänen ennustusmallinsa ja siinä on kaikki mitä näillä tiedoilla on tehtävissä.

Nysvä-Niilo lähestyy ongelmaa hieman eri polkua. Hän aloittaa tutkimalla tarkemmin, mitä kurssi ja erityisesti loppukoe pitää sisällään ja jalkautuu opistolle jututtamaan opiskelijoita. Tässä alkukartoituksessa selviää ensinnäkin, että koe sisältää myös fyysistä nopeutta ja voimaa sisältäviä osuuksia. Näin ollen voisi veikata, että opiston miesopiskelijoilla olisi etulyöntiasema naisiin nähden. Toinen keskusteluissa esiin tullut huomio on, että naiset vaikuttavat miehiä tunnollisemmilta tekemään harjoitustehtäviä. Niilokin tietää nettisivuilla tarjolla olevasta datasetistä, mutta koska näkee sukupuolen niin tärkeänä tekijänä ilmiön kokonaisuutta hän päättää alkaa nysväämään ja keräämään seurantatutkimuksella dataa opiskelijoiden harjoituspisteitä, koemenestyksestä ja sukupuolesta. Rajallisten resurssien ja aikataulun vuoksi hän saa kasaan vain 200 havaintoa. Nämä havainnot kuitenkin tukevat Niilon alustavaa hypoteesia siitä, että sukupuoli selittää sekä koetulosta, että harjoituspistemääriä. Oheinen graafi kuvaa Nysvä-Niilon näkemystä oleellisista ilmiöön liittyvistä oleellisista riippuvuussuhteista.

Niilo käyttää myös ennustealgoritminaan logistista regressiota, mutta Laten malliin lisäyksenä on sukupuoli toisena selittäjänä ja dataa vain 200 havaintoa.

Niilon datalla piirretään harjoituspisteiden ja läpäisyjen yhteyttä kuvaava graafi, mutta sukupuolittain eriteltyinä niin huomataan, että sukupuoliryhmissä kokeessa hyväksytyt ovat tehneet keskimäärin hieman ENEMMÄN harjoituksia. Tämähän vaikuttaa ristiriitaiselta Laiska-Laten tulokseen verrattuna. Onko se vain sattumaa, koska Nysvä-Niilon aineisto on niin pieni? Sekin voisi olla mahdollista, mutta tässä tapauksessa ei (tiedän, koska olen itse simuloinut aineiston). Harjoituspisteet ennustavat kyllä parempaa menestystä kokeessa, mutta koska fyysisten elementtien takia kokeessa alakynnessä olevat naiset ovat paljon tunnollisempia harjoitusten tekijöitä, näyttäytyy riippuvuussuhde päinvastaisena silloin kun sukupuolta ei huomioida. Tällaista kolmen muuttujan riippuvuussuhdetta kutsutaan Simpsonin paradoksiksi (linkki Wikipedian artikkeliin).

Kuinkas sitten käykään Laten ja Niilon ennusteille tositoimissa? Meneekö Laten ennusteet täysin päin mäntyä? Ei välttämättä. Vanha viisaus (en muista kenen) sanoo, että ”Vaikkei joku korrelaatio johtuisi kausaliteetista, voi siitä silti olla hyötyä ennustamisessa”. Seuraavana vuonna kurssille osallistuu 500 henkilöä ja näille ennustetarkkuudet ovat seuraavat:

Laiska – Late: 65%

Nysvääjä – Niilo: 68%

Unelmatilanteessa meillä olisi paljon sekä ymmärrystä että dataa. Nyt molemmilla on vain toinen puoli kunnossa. Sen minkä Niilon ennusteet voittavat hyödyllisen sukupuoli-muuttujan on mittaamisella, hän häviää siinä, että vain 200 hengen otoksella hänen mallinsa parametreissa on epätarkkuutta. Molemmat kuitenkin pärjäävät selvästi kolikonheittoa paremmin, joten jotain lisäarvoa he ovat tuoneet.

Iso uutinen tulee kuitenkin vasta seuraavana vuonna. Voimaan tulee uusi asetus, jonka johdosta tasa-arvon nimissä opiston on otettava sisään yhtä paljon miehiä ja naisia. Tämän uudistuksen jälkeisellä 500 kurssilaisen ennusteilla ennustealgoritmien erot repeävät.

Laiska – Late: 58%

Nysvääjä – Niilo: 67%

Algoritmeissa oli piilotettuna oletus ”kaikki muut ilmiöön vaikuttavat asiat pysyvät samankaltaisena”. Nyt sukupuolijakauman muutos rikkoo tämän oletuksen Laten algoritmin kohdalla ja tältä algoritmilta lähti matto alta. Se voittaa lantinheiton enää vaivoin. Niilon syy-seuraus -suhteita paremmin ymmärtävässä mallissa sukupuoli oli huomioitu, joten se ei uudesta asetuksesta juuri hetkahda.

Mitä pitää vähintään tietää?

Edellä kerrottu esimerkki oli tarkoitushakuinen ja äärimmäistapaus. Toivottavasti se kuitenkin havainnollisti vaaranpaikkoja silloin kun emme ymmärrä havaintojen muodostumisen taustaprosessia. Sen lisäksi, että algoritmin kehittäjä hehkuttaa ennusteiden tarkkuutta käytössä olevalla datalla, hänen pitäisi pystyä vastaamaan myös ainakin seuraaviin kysymyksiin:

Missä olosuhteissa algoritmia on turvallista soveltaa ja missä ei?
Osaako algoritmi opettaa itseään ja milloin algoritmi pitää kouluttaa täysin uusiksi?

Hyödyllisiä työkaluja

Tarkoitukseni ei ole kuitenkaan yleisesti mollata suurten datamassoja ja niiden päälle rakennettujen koneoppimisalgoritmien hyötyjä. Nämä nimittäin mahdollistavat todella siistejä työkaluja kuten vaikka eläinlajin tunnistamista kuvasta tai kielen koneellista ymmärrystä. Molemmat ilmiöt sopivat hyvin ”black-box” algoritmien (soveltaja ei ymmärrä tarkalleen mihin algoritmi ennusteensa perustaa) maailmaan, koska ne ovat hyvin stabiileja. Vaikka kieli pikkuhiljaa kehittyy ja joidenkin sanojen merkitys vuosikymmenten saatossa muuttuu, on vaikea kuvitella miksei tänään koulutettu puheentunnistaja voisi toimia lähes yhtä hyvin myös vuoden päästä. Kissan ja koiran piirteiden muuttumista joutuu odottamaan vieläkin kauemmin.

Weapons of math destruction

Suurimmat vaarat pelkkään isoon datamassaan ja sen korrelaatioihin luottavaan ”black-box”-algoritmiin tulevat esille, kun se koskee ihmisen luokittelua tai arvottamista. Silloin meillä on käsillä kohonnut riski, että olemme luomassa algoritmia, jota matemaatikko Cathy O’Neil kutsuu termillä ”Weapon of math destruction” (TED-talk aiheesta). Tällaiset tuho-algoritmit ovat rasistisia tavalla, jota algoritmin käyttäjät eivät ymmärrä. Esimerkiksi USA:laisessa pankissa voitaisiin arvioida asiakasehdokkaiden luottokelpoisuutta automaattisesti heidän lainahakemustensa perusteella. Algoritmi mm. hyödyntää isossa datamassassa havaittua korrelaatiota hakemusten kirjoitusvirheiden määrän ja maksuhäiriömerkintöjen välillä. Nyt lainaa voisi olla hakemassa suomalainen insinööri, joka on 23-vuotiaana muuttanut USA:han suorittamaan jatko-opintoja. Hän on erittäin tunnollisesti aina hoitanut velvoitteensa, mutta joutuu syrjityksi asuntolainamarkkinoilla vain koska hän tekee maahanmuuttajataustaisena keskimääräistä amerikkalaista enemmän kielioppivirheitä.

Kielioppivirheet tuskin kuitenkaan ovat aito syy maksuhäiriöille vaan näiden takaa löytyy yhteisiä taustatekijöitä. Kun kaikkia aitoja selittäjiä taustalla ei pystytä mittaamaan, auttavat näennäisetkin korrelaatiot parantamaan ennustetarkkuutta isossa joukossa. Harmi vaan niille jotka joutuvat aiheetta kärsimään siitä, että juuri tähän näennäiskorrelaatioon sattui algoritmi tarraamaan.

Loppusanat

Ennustusalgoritmien rakentamisessa toivottavaa olisi olla hyvä tieteellinen ymmärrys ilmiöstä ja paljon tarkasti mitattua dataa kaikista oleellisista muuttujista. Käytännössä tutkittavat ilmiöt tuppaavat olemaan niin monimutkaisia, ettei kaikkien oleellisten muuttujien mittaaminen ole aina mahdollista. Suurikaan havaintojen määrä ei pysty täysin korvaamaan puutteita muuttujissa, mutta ajassa stabiileihin ilmiöihin voi silti rakentaa korrelaatioihin perustuvia hyödyllisiä algoritmeja. Nämä algoritmit ovat kuitenkin vain työkaluja, joiden ohjaksissa olevien pitää ymmärtää työkalunsa rajoitteet.

Ymmärrykseen pyrkivän analytiikan nostaminen jalustalle voi olla osaltani vääristynyttä hehkutusta, koska oma osaamiseni ja mielenkiintoni on sinne päin kallellaan. On siitä kuitenkin puhuneet muutkin Data Scientistit, vaikkakin lähinnä marginaalisimmissa medioissa. Tässä blogikirjoituksessa Manish Tripathi maalailee datan analysoimisen tulevaisuutta ja viesti tiivistettynä kuuluu: koneoppimisalgoritmin koulutus tulee automatisoitumaan ja pelkästään sen parissa työskentelevät Data Scientistit alkavat kohtapuoliin menettämään työpaikkojaan. Sen sijaan syy-seuraus-suhteita ymmärtävistä Data Scientisteista tulee olemaan pulaa.

Ja loppuksi vielä lainaus Hilary Masonilta tästä podcastista: ”You cannot do AI without machine learning, you cannot do machine learning without data science and you cannot do data science without analytics”

Mihin voi luottaa informaatioähkyn keskellä?

Kaupankäynti on treidausta