Rss

 • linkedin

Archives for : data

Analytiikan alalajit

Sijoittajamestari Ray Dalio kokosi elämässään oppimansa asiat teokseen Principles ja päätökseen tekoon liittyvä ensimmäinen periaate kuuluu näin:

”Recognize that 1) the biggest threat to good decision making is harmful emotions, and 2) decision making is a two-step process (first learning and then deciding).”

Ray Dalio

Datan analysointi tai datatieteily liityy nimenomaan ympäristöstä oppimiseen ilman tunteiden aiheuttamia vääristäviä tunteita niin että voitaisiin tehdä mahdollisimman valistuneita päätöksiä.

Kun tehdään liiketoimintaa tukevaa analyysiä, datan analysointi jaetaan tyypillisesti neljään alalajiin riippuen, mitä työllä tavoitellaan. Eri konsultit voivat järjestellä ne hieman eri tavoilla, mutta itse mielelläni järjestäen ne seuraavasti analyyttisen haastavuuden mukaan helpoimmasta vaikeimpaan:

 1. Kuvaileva analytiikka (Mitä tapahtui?)
 2. Ennakoiva analytiikka (Mitä tulee tapahtumaan?)
 3. Diagnosoiva analytiikka (Miksi jotain tapahtui?)
 4. Ohjaileva analytiikka (Mitä kannattaisi tehdä?)

Kolme ensimmäistä liittyy oppimiseen ja viimeinen päätöksentekoon opitun pohjalta.

Hukkuvat jäätelönsyöjät

Avataan sitten näitä alalajeja esimerkin avulla. Hukkuvat jäätelönsyöjät on monelle jo liiankin tuttu esimerkki riippuvuussuhteista, mutta ratsastetaan nyt vielä kerran sillä, koska se kaikessa tomppeluudessaan kuitenkin hyvin demonstroi oleellisia pointteja.

Olkoon meillä toimeksiantona jäätelökioskiyrittäjän auttaminen ja myyntiä ilmiönä kuvaa seuraava graafi.

Lämpötilan nousu aiheuttaa enemmän sekä jäätelön myyntiä että hukkumiskuolemia. Hukkumisen ja jäätelön myynnin välillä ei ole syy-seuraus-yhteyttä.

Graafissa olevien syy-seuraus-yhteyksien pohjalta olen nyt simuloinut 300 havaintoa, jonka kanssa seuraavissa esimerkeissä operoidaan.

Kuvaileva analytiikka

Kuvaileva analytiikka vastaa siis kysymykseen ”Mitä tapahtui?”. Vastaus löytyy raporteista, joissa on tilastollisista tunnuslukuja ja graafisia kuvioita. Yritysmaailmassa tätä analytiikan alalajia kutsutaan termillä Business Intelligence (BI). Meidän dataa 300 aiemmasta viikkohavainnosta kuvaavat esim. seuraavat tunnusluvut.

TEMP (C)SALES (EUR)DROWNED
Keskiarvo19.6130351.15
Keskihajonta5.3413153.52

Lisäksi mielenkiinnon mukaan tunnuslukuja voisi vertailla eri ryhmien, esim. viikonpäivien tai jäätelömakujen, välillä.

Keski- ja hajontalukujen lisäksi havaintoja voi kuvata muuttujien välisillä korrelaatiokertoimilla ja graafisilla kuvaajilla. Seuraava graafi ei ole välttämättä kauneimmasta päästä, mutta minulle sen piirtäminen on osa perusprosessia uuteen aineistoon tutustuttaessa. Siinä on paljon informaatiota tiiviisti ilmaistuna ja sen saa tulostettua R-ohjelmistolla yhdellä komennolla.

Lävistäjällä ovat jokaisen muuttujan omat jakaumat. Vasemmalla alhaalla ovat parittaiset sirontakuviot. Oikella ylhäällä ovat parittaiset korrelaatiokertoimet ja niiden merkitsevyystasot tähtinä.

Kuvaajasta nähdään mm. seuraavaa:

 • Lämpötilan ja myynnin havainnot ovat jakautuneet symmetrisesti keskiarvon ympärille ja muistuttaa normaalijakaumaa. Hukkumisten lukumäärän jakauma on vino.
 • Kaikkien muuttujien väliset korrelaatiokertoimet (luvut oikealla ylhäällä) ovat positiivisia, joten muuttujilla on ollut taipumus saada isoja arvoja yhtäaikaa.
 • Kaikki muuttujien väliset korrelaatiokertoimet ovat tilastollisesti erittäin merkitseviä (punaiset tähdet), joten ei ole uskottavaa että korrelaatiokertoimet poikkeavat nollasta vain sattumalta.
 • Suora viiva kuvaa hyvin myynnin ja lämpötilan välistä yhteyttä. Hukkumisen ja muiden muuttujien välisen yhteyden kuvaamiseen suora viiva ei ole paras mahdollinen (kuviot vasemmalla alhaalla).

Kuvaileva analytiikka keskittyy kuvailemaan historian tapahtumia, mutta vastuu siitä, mitä tulee tapahtumaan tulevaisuudessa jää täysin raportin lukijalle.

Ennakoiva analytiikka

Vaikka historiakin on mielenkiintoista, vielä kiinnostavampaa liiketoiminnan kannalta on se mitä on odotettavissa tulevaisuudessa. Mennyt ei ole tae tulevasta, mutta historiaan perustuen voi tehdä valistuneita arvioita eri tulevaisuuden skenaarioiden todennäköisyyksistä.

Esimerkissämme mielenkiinnon kohteena on ennustaa tulevan viikon jäätelön myyntimäärä. Pelkään BI-raporttiin (kuvaileva analytiikka) perustuen paras arvaus olisi historiallinen keskiarvo 13035 euroa. Simuloin tässä 100 uutta havaintoa tulevista viikoista ja historialliseen keskiarvoon perustuva arvaus ei ole hassumpi: keskimäärin ennuste on 7.3% pielessä.

Olisimme voineet kuitenkin ottaa askel eteenpäin ennakoivan analytiikan puolelle ja muodostaa regressiomalli, jossa hyödynnetään tietoa päivän lämpötilasta. Lämpötilan ja myynnin välinen korrelaatiokerroinhan oli varsin suuri, 0.62. Tällaisen mallin tarjoama paras arvaus seuraavan viikon myynnistä menee nyt uusilla havainnoilla keskimäärin 6.5% pieleen.

Vaikka hukkumisilla ei ole syy-seuraus-suhdetta myyntiin, ei sen hyödyntämiselle ennustamisessa ole estettä. Jos sen lisää toiseksi selittäjäksi samaan regressiomalliin lämpötilan kanssa ei siitä iloa kuitenkaan ole, koska lämpötila jo yksinään selittää hukkumisten ja myynnin välisen yhteyden. Mutta mikäli vahingossa olisimme hukanneet historian lämpötilahavainnot, olisi hukkumiskuolemat hyvä apumuuttuja. Pelkästään edellisen viikon hukkumisiin perustuvat ennusteet ovat tässä tapauksessa 6.7% pielessä. Lopuksi vielä yhteenveto, kuinka tarkasti saatiin 100 uutta myyntihavaintoa ennustetttua.

EnnustajaKeskimääräinen virhe
Oma historia7.33%
Lämpötila6.45%
Hukkumiset6.73%
Lämpötila+Hukkumiset6.43%

Regressiomallien lisäksi muita ennustamisen työkaluja ovat aikasarja-analyysi silloin kun kiinnitetään erityistä huomiota ajassa systemaattisesti toistuviin kuvioihin. Sitten kun käsillä on ajassa stabiili ilmiö, mutta paljon potentiaalisia selittäjiä sekä paljon dataa, arvoon arvaamattomaan nousevat erilaiset koneoppimisalgoritmit kuten neuroverkot tai päätöspuut. Mikäli useiden potentiaalisten selittäjien lisäksi meillä on hieman ymmärrystä näiden selittäjien keskinäisistä riippuuvuussuhteista, voidaan dataa ja asiantuntemusta yhdistää Bayes-verkkojen avulla tai simuloimalla maailman menoa ymmärryksemme rajoissa.

Käyttipä mitä tahansa näistä ennustusmenetelmistä tai jotain niiden yhdistelmää, meillä on kaksi ikävää kiusaa:

 • Ylisovittaminen: tietämättämme yritämme tulevaisuutta ennustaa sellaisilla historiallisilla piirteillä, jotka ovat toteutuneet aiemmin vain sattumalta eivätkä kuvaa ilmiötä tulevaisuudessa. Tätä ongelmaa olen ruotinut aiemmin tässä kirjoituksessa.
 • Pysyvät muutokset muuttujissa, joita ei olla aiemmin mitattu. Esimerkiksi lakimuutokset voivat ohjata ihmisiä käyttäytymään tulevaisuudessa eri tavalla kuin mihin aiemmin olemme tottuneet. Tätä ongelmaa olen käsitellyt tarkemmin tässä kirjoituksessa.

Kiitos mm. edellä mainittujen haasteiden ennakoivassa analytiikassa vaaditaan jo huomattavasti korkeamman tason koulutusta kuin kuvailevassa analytiikassa.

Diagnosoiva analytiikka

Diagnosoivalla analytiikalla pyritään löytämään asioiden välisiä syy-seuraus-yhteyksiä. Tieteellisen uteliaisuuden lisäksi liiketoiminnan kannalta kiinnostavaa voisi olla selvittää, mitä asioita muuttamalla saisimme myyntiä kasvatettua. Ennakoivan analytiikan maailmassa korrelaatiokertoimet antoivat hyviä vinkkejä, mitä muuttujia voisimme hyödyntää ennustamisessa. Kun tavoitteena on puuttua itse peliin asioiden muuttamiseksi, vain korrelaatioita tuijottamalla voisimme päätyä raportoimaan jäätelöyrittäjälle: ”Myynnin edistämiseksi kannattaa alkaa hukuttamaan ihmisiä”. Tämähän ei alkuunkaan pidä paikkansa niinkuin kohta tullaan näkemään.

Varmin tapa syy-seuraus eli kausaaliyhteyden selvittämiseksi on tehdä satunnaisettu koe riittävällä määrällä toistoja. Näistä klassinen esimerkki on antaa satunnaisesti toisille koehenkilöille oikeaa lääkettä ja toisille koehenkilöille lumelääkettä. Vaikutuksia vertailemalla voidaan saada selville, onko lääkkeessä oikeasti tehoa. Modernimpi esimerkki on verkkokaupan käyttöliittymän A/B-testaus, jossa satunnaisesti toisille asiakkaille nettisivulle näytetään punainen nappi ja toisille sininen nappi ja vertaillaan vaikuttaako napin väri sen klikkausten määrään.

Mikäli satunnaistetut kokeet eivät ole mahdollisia, voidaan yrittää metsästää luonnollisia kokeita. Esimerkiksi voidaan ottaa seurantaan henkilöt, jotka ovat juuri ja juuri päässeet läpi lääkiksen pääsykokeista ja vertailla tätä joukkoa niihin jotka jäivät niukasti ulos lääkiksestä. Voidaan olettaa että pienet erot pääsykokeen pistemäärissä jouhtuvat suurelta osin satunnaistekijöistä ja näin ollen on luotettavaa tehdä päätelmiä lääkiksen kausaalivaikutuksista loppuelämän onnellisuuteen.

Viimeisimpien vuosikymmenien aikana on erityisesti Judea Pearlin johdolla kehitetty kausaalimalleja, jotka auttavat tekemään kausaalipäätelmiä myös silloin kun käytössä havaittua dataa, mutta ei voida tehdä satunnaistettuja kokeita. Niissä aluksi pitää pystyä aiempiin tutkimuksiin perustuen rakentamaan graafi, josta näkee mitkä muuttujat vaikuttavat mielenkiinnon kohteina oleviin muuttujiin. Mikäli tärkeimmät näistä taustamuuttujista on mitattu, kausaalipäätelmät voivat olla mahdollisia.

Meidän kolmen muutttujan tapauksessa ilmiötä kuvaava graafi on esitelty kirjoituksen alussa. Tässä hyvin yksinkertaisessa maailmassa pystymme tutkimaan hukkumisten kausaalityhteyttä myyntiin. Kun laitamme sekä lämpötilan, että hukkumiset samaan regressiomalliin selittämään myyntiä, hukkumisella ei ole mitään selitysvoimaa, koska lämpötila on kaiken juurisyy. Näin ollen data näyttää, että ihmisiä on aivan turha alkaa hukuttamaan myynnin edistämiseksi.

Monimutkaisempien ilmiöiden tutkiminen kausaalimalleihin tukeutuen on itselläni vielä vaiheessa, joten ei kannata puhua tässä siitä sen enempää. Silti osa omaa analyysiprosessia on hahmotella graafiksi erilaisia potentiaalisia taustalla lymyileviä syy-seuraus-yhteyksiä, joita voi sitten asiaan paremmin vihkiytyneet haastaa. Mikäli mielenkiinto kausaalimalleihin heräsi, kannattaa aloittaa Judea Pearlin tietokirjasta ”The book of why”, josta Kimmo Pietiläinen on tehnyt myös suomenkielisen käännöksen: ”Miksi – syyn ja seurauksen uusi tiede”.

Ohjaileva analytiikka

Ohjaileva analytiikka on tässä lajittelussa laitettu viimeiseksi, koska pohjalla pitää olla alemman tason analytiikkaa päätöksenteon tueksi. Täältä huipulta kannattaa kuitenkin aina aloittaa pohtimalla, mitä halutaan tehdä. Mihin liittyviä päätöksiä analytiikalla halutaan parantaa? Esimerkkejä:

 • Halutaan kehittää jäätelönmyynnin logistiikkaa: miten paljon mitäkin makua pitäisi toimittaa kioskille, että asiakkaat saavat mitä haluavat, mutta jäätelöä ei tarvitsisi kohtuuttomia määriä pakastimessa varastoida. – > Ratkaisu: Päätöksenteon tueksi tarvitsemme ennakoivaa analytiikkaa, jolla arvioidaan kuinka paljon mitäkin makua menee ensi viikolla.
 • Halutaan lisätä jäätelön kysyntää. -> Ratkaisu: Diagnosoiva analytiikka. Johtopäätös on se, että korkeammat lämpötilat johtaisivat korkeampaan myyntiin. Mutta koska kaikki säiden hallitsemiseen kykenevät tahot ovat niin kallispalkkaisia, ei tällaista hanketta kannata toteuttaa. Laitetaan resurssit muun toiminnan kehittämiseen.

Kun pohjalla on riittävästi oppia analytiikan alemmilta tasoilta, ohjaileva analytiikka on pääasiassa erilaisia optimointialgoritmeja. Lisäksi on olemassa itseoppivia päätöksentekoalgoritmeja, jotka päivittävät omaa ymmärrystä aina päätöksestä tulleen palautteen perusteella.

Päätöksenteon optimointi on liian laaja aihe alkaa tässä syvemmin käsiteltäväksi, mutta se vaanii kaiken liiketoiminta-analytiikan taustalla. Ennen hosumista liian pitkälle datan kanssa, olisi hyvä ymmärtää mitä päätöksiä halutaan parantaa. Se mahdollistaa, että analytiikan alimmalta portaalta ponnistaessa edetään oikeaan suuntaan. Toisinaan matkalla opitaan jotain uutta, jonka vuoksi kurssia joudutaan kääntämään. Tämä tekee seikkailusta kuin seikkailusta entistä jännempää.

Lopputurinat

Dataan pohjautuvalla analytiikalla on useita eri tasoja ja niiden sisällä eri etenemispolkuja. Jotta varmistetaan datan penkomisen hyödyllisyys, aluksi pitäisi kirkastaa, mitkä päätöksentekoprosessit yrityksessä kaipaavat hiomista. Sitten valitaan sellainen polku, jota olemassa olevan datan pohjalta on mahdollista edetä. Lopulta päätöksenteko on kaksivaiheista: ensin opitaan, sitten päätetään.

Facebooktwitterredditpinterestlinkedinmail

Talouskasvun pelko

Mitä on talouskasvu? ”Sehän on jotain rahamiesten hämärää touhua, mikä lisää saasteita maailmassa.” Jotain tämän tyyppistä oli omat käsitykseni asiasta vielä alle kymmenen vuotta sitten.

Talouskasvun ja päästöjen yhteys

Viittaus saasteisiin ei ole täysin tuulesta temmattu. Talouskasvun mittarina käytetään yleensä BKT:ta eli bruttokansantuotetta (eng. gross domestic pruduct, GDP). Se kertoo tiettynä vuonna valtiossa valmistettujen tuotteiden ja palvelujen arvon. Tosin vain sellaisen tuotannon, josta jää kaupankäyntijälki kirjanpitoihin.

Turvaudutaan jälleen huikeaan Gapminder -datapankkiin ja katsotaan kuinka bruttokansantuote ja hiilidioksidipäästöt ovat kehittyneet Suomen historiassa 1900-luvulla. Pysäytetään tarkastelu vuoteen 1980. Vaaka-akselilla on bruttokansantuote (inflaatiokorjattu) henkeä kohti ja pystyakselilla hiilidioksidipäästöt henkeä kohti. Kuvaajassa tumman keltaisina palloina näkyy Suomen kehitys molemmilla mittareilla yhtä aikaa.

Suomen BKT ja CO2-päästöt henkeä kohti 1900-1980

Siltähän se näyttää, mitä jo aavisteltiinkin. Sitä mukaa kun BKT on kasvanut, ovat myös hiilipäästöt lisääntyneet. Positiivinen korrelaatio näyttää ilmeiseltä. Blogia pidempään seuranneet jo varmasti tietävätkin että ilman ilmiön taustoihin syventymistä korrelaation perusteella ei pidä vetää johtopäätöksiä syy-seuraus-suhteista. Tässä tapauksessa saan rakennettua mielestäni uskottavan yhteyden: 1900-luvulla talouskasvun yksi suurista voimista on ollut hiilipohjaisten energialähteiden hyödyntäminen.

Suomen sekä USA:n BKT ja CO2-päästöt henkeä kohti 1900-2013

Jatketaanpa sitten aikamatkailua tästä eteenpäin aina vuoteen 2013 asti (aivan viimeisistä vuosista 2014-2016 ei ollut dataa tarjolla). Otetaan nyt vertailun vuoksi mukaan myös USA:n kehitys. USA:n kehitystä kuvaa vihreät pallerot.

Nyt nähdäänkin ehkä yllättävä havainto. Viimeiset 30 vuotta BKT on jatkanut kasvuaan vuoteen 2008 asti, mutta hiilipäästöt per henkilö on polkenut paikallaan. Tämä ei ole pelkästään suomalainen ilmiö vaan aivan sama näkyy myös USA:ssa. Voisiko olla niin, että jotain on muuttunut näiden maiden ihmisten käyttäytymisessä ja yhteys on katkennut?

Hiipuva korrelaatio

Toki on muistettava, että vaikka nuppikohtaiset päästöt ovat pysyneet samalla tasolla, väestönkasvun myötä kokonaispäästöt ovat tälläkin aikavälillä kasvaneet. Töitä ilmastotalkoissa on siis edelleen tehtävänä. Optimistina kuitenkin näen syitä, miksi jatkossa päästöt voivat laskea, vaikka talous kasvaisikin. Näitä ovat esimerkiksi

 • investoinnit uusiutuvaan energiaan
 • kulutustottumusten muuttuminen fyysisestä materiasta sähköisiksi palveluiksi
 • jakamistalouden kehitys

Jatkossa itsensä viihdyttämiseen riittää pieni älypuhelin sekä VR-lasit, joihin sisältö tulee esim. Spotifylta ja Netflixiltä. Puhelimen akku latautuu aurinkoenergialla. Vertaa materian ja energian tarvetta massiivisiin kotiteatterivehkeisiin ja kirjahyllylliseen DVD- ja CD-levyjä. Toinen esimerkki on Uber (tai joku muu edullinen kyytipalvelu) ja autojen ”vertaisvuokraus” -palvelut, jotka vähentävät jatkossa tarvetta auton omistamiseen. Jokainen voi miettiä listalle jatkoa omien viime aikoina muuttuneiden kulutustottumusten perusteella. Lopulta me kuluttajat valinnoillamme päätetään, mitä meidän tarpeiden täyttämiseksi tuotetuista palveluista jää pysyvästi käyttöön.

Talouskasvu ja työ

Nykyään näen talouskasvun asioina jotka mahdollistavat sen, että saamme tarpeemme hyvin tyydytettyä ja aikaa jää elämässä myös taiteelle, tieteelle, urheilulle ja sosiaaliseen elämään. Talouskasvun ansiosta perheiden ei enää toimeen tullakseen tarvitse rehkiä yötä päivää pellolla ja navetassa. Mikäli niin hyvin kävisi, että tulevaisuudessa yhteiskunta pyörisi vieläkin paremmin vähemmällä ihmistyöllä, ratkaistavaksi jää kysymys töiden järkevästä jakamisesta. Mikäli jollain alalla on kiveen hakattuna: ”Yhden henkilön työviikko on 38 tuntia + ylityöt ja sillä sipuli”, jakautuvat alan työntekijät karkeasti kahteen kastiin:

 1. Ylikuormitetut työntekijät, jotka ansaitsevat enemmän kun oikeasti tarvitsisivat kulutukseen ja laiminlyövät perhettään läsnäolon puutteella.
 2. Pitkäaikaistyöttömät, jotka eivät pääse kehittämään ammattitaitoaan käytännössä ja kykenevät tarjoamaan (yhteiskunnan talouskasvusta huolimatta)  perheelleen vain niukan sosiaaliturvaan varaan rakennetun toimeentulon.

Kummallekaan ihmisryhmälle tilanne ei ole optimaalinen vaan kannattaisi etsiä eri osapuolia hyödyttäviä tapoja vähentyneiden töiden jakamiseen.

BKT mittarina

Bruttokansantuote on valittu talouskasvun mittariksi ilmeisesti sen yksinkertaisuuden takia, mutta se ei ole täydellinen. Omaa alaa läheltä löytyy esimerkkinä vaikkapa avoimen lähdekoodin algoritmit. Näitä syntyy esim. tutkijoilta tutkimusartikkelin sivutuotteena tai koodareiden harrastusten/vapaaehtoistyön puitteissa. Niiden levittyminen ei näy BKT-laskelmissa, mutta ovat yksi talouskasvua edistävä voima modernissa maailmassa. Alan miehenä kovasti tykkään hokemasta ”data on uusi öljy” ja siten varmaankin ”analyysialgoritmit ovat uusia moottoreita”.

Talouskasvussa ei siis ole itsessään mitään pelättävää. Yhteiskunnan rakenteiden pitää vaan pysyä kehityksessä mukana ja negatiiviset ulkoisvaikutukset kuten ympäristön tärveleminen täytyy pitää kurissa esimerkiksi saastuttamiseen kohdistuvan verotuksen avulla.

Statistickon steesit

 1. Talouskasvu itsessään on hyvä asia, vaikka se joinan ajanhetkinä korreloisikin ikävien asioiden kanssa
 2. Korrelaatiot eivät ole aina ikuisia

Aiheeseen liittyväksi lisälukemiseksi suosittelen:

 Facebooktwitterredditpinterestlinkedinmail