Rss

  • linkedin

Archives for :

Taistelua tulo-osuudesta

Pääoman ja työnteon välinen tulonjako on kestoaihe poliittisessa keskustelussa vuosikymmenestä toiseen. Täältä löytyy tilastot tulonjaon kehityksestä 1970-luvulta lähtien. Työtulojen prosentuaalinen osuus oli suurimmillaan 1990-luvun alussa laman aikana ja pääomatulojen vuonna 2007 juuri ennen finanssikriisiä. Työtulojen osuus kasvoi kymmenen vuotta sitten finanssikriisin sekä eurokriisin aikana, mutta viime vuosina pääomaotulojen osuus on ollut taas lievässä kasvussa. Pitäisikö tämä kehitys pysäyttää ja miten se tehdään? Sijoittajathan eivät tee mitään oikeaa työtä, joten eikö heidän verotustaan voisi korottaa vielä reippaasti?

Selvityshaaste

Itse olen maailmaa tutkaillut palkkatyöntekijän, yrittäjän ja osakesijoittajan näkökulmasta. En näillä kokemuksilla näe, että Suomessa riskiä kantavat yrittäjät ja sijoittajat olisivat jotenkin erityisessä asemassa. Ei anneta nyt kuitenkaan omien näkemysten jarruttaa menoa vaan lähdetään tutkimaan, miten pääomatulojen määrää saadaan laskettua kestävällä tavalla ilman että rankaistaan myös työntekijöitä.

Päästäksemme sijoittajien tuloista osille, meidän pitää ensin ymmärtää jotain heidän päätöksentekoprosessistaan. Seuraavan tarinaan on otettu vaikutteita oman sijoitusprosessin lisäksi havainnoista kokeneempien sijoittajien ja strategien toimintatavoista. Jotta kantavan ajatuksen saisi käytyä järjellisessä ajassa läpi, yksinkertaistetaan hieman olettamalla, että yrityksen liikevoittovero on ainoa pääoman tuottoihin kodistuva vero, vaikka todellisuudessa osinkoverotuksellakin on vaikutusta. Myöskään mahdollisuutta hyödyntää lainaa sijoituksissa ei huomioida.

Sepin jäskikiska

Seppo Sijoittaja pohdiskelee uuden jäätelökioskin perustamista. Myyntipaikan vuokrasopimuksen voi tehdä vuodeksi kerrallaan, joten mahdollinen sijoitus tehdään aluksi yhden vuodeksi. Kotiinpäin tulevat rahavirrat koostuisivat jäätelöiden myyntikatteesta. Mutta ennen kun sijoittajalle jää itselleen mitään tuottoja investoinnistaan, pitää saada katettua kiinteät kulut, joita ovat:

  • Koneet ja kalusto (esim. myyntikojun ja pakastelaitteiden vuokrat, mainoskyltit yms..)
  • Henkilöstön palkat
  • Henkilöstön palkkojen sivukulut (yrityksen vastuulla olevat eläkevakuutusmkasut, vakuutukset yms…)
    • Oletetaan suuruudeksi 40% bruttopalkoista
  • Voittoon kohdistuva yritysvero
    • Oletetaan suuruudeksi 20% yrityksen voitosta

Tulevaisuuteen liittyy aina riskejä. Tässa tapauksessa sellaisia ovat mm.

  • Jäätelön kysyntä on odotettua alhaisempaa
  • Laitteet hajoaa
  • Henkilöstö sairastelee
  • Rikollisuus (Ilkivalta tai paikallinen rosvopäällikkö alkaa vaatimaan suojelurahoina osuutta voitoista, mikäli jäätelönmyynti alkaa kukoistamaan)

Vaikka esimerkki on yksikertaistettu versio todellisuudesta, tässä on jo paljon asioita pohdittavaksi. Investoinnin lopputuleman todennäköisyysjakaumaan vaikuttaa hyvin moni asia. Seppo ei tunne tarkasti tätä jakaumaa, mutta hän hahmottelee tulevaisuutta viiden eri perusskenaarion avulla. Perusskenaariot ovat:

  1. Satumainen, yli 30% tuotto sijoitetulle pääomalle
  2. Hyvä, 15% – 30% tuotto sijoitetulle pääomalle
  3. OK, 0-15% tuotto sijoitetulle pääomalle
  4. Heikko, 0-10% tappio
  5. Surkea, yli 10% tappio

Näiden skenaarioiden todennäköisyyksiä sijoittaja pyrkii parhaan kykynsä mukaan arvioimaan. Lisäksi hän Exceliinsä naputtelee odotetun skenaarion seuraavan vuoden rahavirroille. Tässä parhaan arvauksen täsmällisessä skenaariossa myytikatetta kertyisi 100 000 Euroa, koneisiin ja kalusteisiin menisi 10 000 Euroa, tarvittavan määrän osaavaa henkilökuntaa hän saisi pidettyä töissä 53 000 Eurolla ja tähän tulisi vielä päälle 21 200 Euroa henkilöstön sivukuluja.

Ottaen huomioon aiemmin läpikäydyt riskit ja tappiollisten skenaarioiden todennäköisyydet, hän pättää että vähintään pitää 15% saada pääomalle tuottoa odotetun skenaarion mukaisilla laskemilla, että tätä investointia kannattaa toteuttaa. Tarkalleen ottaen tämä minimituottovaatimus perustuu kahteen osaan: “riskitön korko”, minkä saisi rahan makuuttamisesta pankkitilillä = 1% ja riskipreemio 14%. Idea on sama kuin pankeilla myöntäessä asuntolainaa, jolloin lainan korko voisi olla esim. 12 kk Euribor + 1.5% marginaali. Marginaali vastaa liiketoiminnan riskipreemiota ja kokoluokasta huomaa, että asuntolainojen myöntäminen vakavaraisille työssäkäyville henkilöille vaikuttaisi olevan huomattavasti riskittömämpää kuin jäätelökioskin perustaminen.

Odotetun 100 000 euron myyntikatteen jakautuminen.

Ylläolevassa kuvaajassa on kuvattu, kuinka odotettu myyntikate jakautuisi Sepon laskelmissa ilman isoja yllätyksiä. Löysää neuvotteluvaraa on vain 7 euroa, joten sille varattu palkki ei graafissa erotu. Rimaa hipoen Seppo päättää toteuttaa investoinnin. Jiihaa!

Poliittiset päätökset Sepon tulo-osuuden pienentämiseksi

Kurkataampa nyt sitten poliittisia muutoksia, joilla voitaisiin saada työntekijöiden tulo-osuutta kasvatettua. Ensimmäisenä mieleen tulee yritysveron kasvattaminen korkeammaksi tai minimipalkan nostaminen niin että vuosipalkat pitäisi nostaa seuraavana vuonna tasolta 53000 euroa esimerkiksi tasolle 54000 euroa. Valitettavasti molemmat muutokset johtaisivat siihen, ettei tuottovaatimus enää ensi vuonna samoilla laskelmilla toteutuisi ja kioskin tarina jäisi vuoden mittaiseksi. Tässä tapauksessa sekä Seppo, työntekijät että jäätelöä rakastavat asiakkaat häviäisivät. Tavoite oli löytää sellainen ratkaisu, mikä ei vaikuta negatiivisesti työntekijöihin, joten nämä toimenpiteet eivät käy.

Ehkä Sepolta olisi hieman kuitenkin revittävissä, jos saataisiin saataisiin puskettua korotettu yritysvero niin nopealla aikataululla läpi, että päästäisiin kiinni jo kuluvan vuoden voittoihin. Seppo toki rehellisenä liikemiehenä maksaisi lisäverot, mutta pidemmällä tähtäimellä se olisi työntekijöillekin vielä aiempaa kuopattua ideaa huonompi. Nyt Seppo alkaisi pelätä vallassa olevilta poliitikoilta samanlaista tempoilevaa aiemmin tehtyjen investointien tuottojen rokottamista ja nostaa investointiensa minimituottovaatimusta kaikissa sijoituksissaan. Tämän seurauksena jatkossa toteutuisi vain investoinnit, joissa entistä suurempi osuus jää sijoittajan tuotoksi. Peliin on tullut mukaan uusi aimmin mainitsematon tuottovaatimuksia kasvattava riskilaji, poliittiset riskit.

Mielestäni fiksumpi tapa toteuttaa investointeihin liittyvää verotusta on antaa hieman varoaikaa ja tehdä rajut muutokset porrastetusti. Esimerkiksi pari vaalikautta sitten porrastetusti poistettu omistusasunnon lainan korkojen vähennysoikeus on tuskin oleellisesti lamauttanut asunnon ostajien toimintaa (lisätietoja).

Seuraava vuosi

Tässä tarinassa mennään vuosi eteenpäin ilman polittisia muutoksia. Sen verran on kuitenkin tapahtunut teknologista kehitystä, että markkinoille on tullut uusia kylmälaitteita, joiden vuokraus on aiempaa edullisempaa ja lisäksi energiatehokkuuden ansiosta toisivat säästöjä sähkölaskussa. Ensimmäinen vuosi meni suurinpiirtein odotusten mukaisesti ja Seppo miettii jatkoa muuten samoilla laskelmilla, paitsi ”Koneet ja kalustot” – lokeroon tulee kuluja aiemman 10 000 euron sijaan 8000 euroa. Odotettavissa oleva 100 000 euron myyntikate jakautuisi nyt seuraavasti.

Tällä kertaa reilun 2000 euron neuvotteluvara on havaittavissa graafissa oikeassa laidassa. Kysymys kuuluu: kuka saa tämän neuvotteluvaran? Nyt on huomattava myös, että edellisenä vuonna hyvin hommansa hoitaneiden kahden työntekijän neuvotteluasema on kasvanut, koska uusien työntekijäiden kouluttaminen veisi paljon aikaa yrittäjältä. Kyse on paljon työntekijöiden neuvottelutaidoista, kuinka hyvin ne tunnistavat kohentuneen neuvotteluasemansa. Koska jakovaraa laskelmissa on, Seppo antaa siitä osan mielellään hyville työntekijöille ettei tarvitse alkaa uusia kouluttamaan. Väkisin hän ei sitä kuitenkaan tyrkytä, mikäli työntekijät suostuvat jatkamaan ilman palkankorotuksen pyyntöä.

Monilla aloilla Suomessa palkkaneuvottelut on ulkoistettu ammattiliitoille. Tämä voi olla koko jäsenten joukolle keskimäärin ihan hyvä ratkaisu, mutta osa jää tämän takia ilman työtä, jonka olisivat mielellään ottaneet pienemmälläkin palkalla vastaan (niinkuin tässä tarinassa 1. vuotena olisi käynyt) ja osalle keskistetyt korotukset ovat pienempiä kuin mitä olisi omassa firmassa neuvoteltavissa. Informaation jakaminen toisten yritysten palkkatasosta ja neuvottelutaitojen koulutukset auttanevat jokaista työntekijää neuvottelemaan itselleen optimaalista ratkaisua.

Yhteiskuntien menestys

Daron Acemoglu ja James Robinson tutkivat yhteiskuntia aina metsästäjä-keräilijä ajoilta lähtien kirjassaan “Why nations fail”. Johtava ajatus heillä on, että tärkein tekijä erottelemaan kukoistavat ja romahtavat yhteiskunnat on yhteiskunnan rakenteiden inklusiivisuus, eli mahdollisuus kaikille ihmisille suunnitella omaa ja perheen tulevaisuutta pitkällä tähtäimellä toimiessaan osana yhteiskuntaa. Valtion oikeusjärjestelmän pitää myös pystyä pitämään huolta, että omistusoikeuksia kunnioitetaan ja suojelurahoja keräävät rosvopäälliköt laitetaan linnaan.

Siinä vaiheessa kun omien tulevaisuuden investointien hedelmät tulee onnistuessaan isä aurinkoisen eliittijoukot keräämään parempaan talteen, teknologinen kehitys hidastuu ja yhteiskunnan alamäki on alkanut. Tällaisissa ekslusiivisssa yhteiskunnissa ihmiset keskittyvät vain elämään kädestä suuhun ja tappelemaan poliittisesta vallasta, jäsenyydestä noissa eliittijoukoissa. Tältä pohjalta ei kuulostaa ollenkaan haitalliselta, että investointien riskejä kantamalla voi vaurastua.

Tarinan opit

Tässä harrastelijasijoittajaekonomistin sepittämässä tarinassa tuli havainnollistettua, että sijoittajien ja työntekijöiden tuotot ovat Sepon jäätelökioskissa vahvasti riippuvaisia toisistaan ja sijoittajien tuottojen vähentäminen tuottamatta harmia työntekijöille on vaikeaa. Vastaan tuli kuitenkin muutama asia, joihin voidaan keskusjohtoisesti vaikuttaa niin että sijoittajat tekevät investointeja pienempään tuottoon tyytyen.

  • Oikeusjärjestelmä, joka pitää rikollisuuden paremmin kurissa
  • Poukkoilematon poliittinen päätöksenteko, mikä antaa sijoittajille aikaa sopeutua muutoksiin

Lisäksi tarinassa on koko ajan oletettu, että “riskitön korko” on 1%. Keskuspankin voisi luulla pystyvän laskemaan tuottovaatimuksia vielä laskemalla korkoja. Oikea sijoittaja Ville Hemminki on kuitenkin tuoreessa blogikirjoituksessaan vahvasti sitä mieltä, ettei korkojen laskulla ole enää käytännössä investointeja kiihdyttävää vaikutusta kun korot ovat jo lähellä nollaa.

Verot turvallisten rakenteiden ylläpitämiseen on jostain kerättävä. Työntekijöiden kannalta optimaalinen yritysveron suuruus on vaikea omilla tiedoillani määrittää, koska kilpailullisessa ympäristössä liiketoimintaan kohdistetut verot heijastuvat kaikille osapuolille: sijoittajille, työntekijöille ja asiakkaille. Tässä saksalaisissa tutkimuksessa arvioitiin, että noin 40% yritysveron korotuksesta maksavat lopulta työntekijät. Sen sijaan monopoliaseman turvin saadut riskiinsä nähden ylisuuret tuotot haiskahtavat oivalliselta verotuksen kohteelta. Tätä perustelee hyvin oikea ekonomisti Roger Wessman maksumuurin takana olevassa artikkelissaan. Ottakaamme monopolien/patenttien verotus vielä mukaan työkaluksi pakkiimme.

Hypoteesit tavoista pitää sijoittajien tulo-osuus pienenä kestävästi ilman oleellisia haittoja työntekijöille:

  • Omistusoikeudet suojaava oikeusjärjestelmä
  • Poukkoilematon poliittinen päätöksenteko
  • Työntekijöiden neuvottelutaitojen/voiman kehittäminen
  • Monopolin/patentin alla tuotettujen voittojen verottaminen

Jäikö kirjoituksessa jotain huomiotta? Mitä tieteelliset tutkimukset sanovat aiheesta? Kerro siitä kommenteissa.

Facebooktwitterredditpinterestlinkedinmail

Analytiikan alalajit

Sijoittajamestari Ray Dalio kokosi elämässään oppimansa asiat teokseen Principles ja päätökseen tekoon liittyvä ensimmäinen periaate kuuluu näin:

”Recognize that 1) the biggest threat to good decision making is harmful emotions, and 2) decision making is a two-step process (first learning and then deciding).”

Ray Dalio

Datan analysointi tai datatieteily liityy nimenomaan ympäristöstä oppimiseen ilman tunteiden aiheuttamia vääristäviä tunteita niin että voitaisiin tehdä mahdollisimman valistuneita päätöksiä.

Kun tehdään liiketoimintaa tukevaa analyysiä, datan analysointi jaetaan tyypillisesti neljään alalajiin riippuen, mitä työllä tavoitellaan. Eri konsultit voivat järjestellä ne hieman eri tavoilla, mutta itse mielelläni järjestäen ne seuraavasti analyyttisen haastavuuden mukaan helpoimmasta vaikeimpaan:

  1. Kuvaileva analytiikka (Mitä tapahtui?)
  2. Ennakoiva analytiikka (Mitä tulee tapahtumaan?)
  3. Diagnosoiva analytiikka (Miksi jotain tapahtui?)
  4. Ohjaileva analytiikka (Mitä kannattaisi tehdä?)

Kolme ensimmäistä liittyy oppimiseen ja viimeinen päätöksentekoon opitun pohjalta.

Hukkuvat jäätelönsyöjät

Avataan sitten näitä alalajeja esimerkin avulla. Hukkuvat jäätelönsyöjät on monelle jo liiankin tuttu esimerkki riippuvuussuhteista, mutta ratsastetaan nyt vielä kerran sillä, koska se kaikessa tomppeluudessaan kuitenkin hyvin demonstroi oleellisia pointteja.

Olkoon meillä toimeksiantona jäätelökioskiyrittäjän auttaminen ja myyntiä ilmiönä kuvaa seuraava graafi.

Lämpötilan nousu aiheuttaa enemmän sekä jäätelön myyntiä että hukkumiskuolemia. Hukkumisen ja jäätelön myynnin välillä ei ole syy-seuraus-yhteyttä.

Graafissa olevien syy-seuraus-yhteyksien pohjalta olen nyt simuloinut 300 havaintoa, jonka kanssa seuraavissa esimerkeissä operoidaan.

Kuvaileva analytiikka

Kuvaileva analytiikka vastaa siis kysymykseen ”Mitä tapahtui?”. Vastaus löytyy raporteista, joissa on tilastollisista tunnuslukuja ja graafisia kuvioita. Yritysmaailmassa tätä analytiikan alalajia kutsutaan termillä Business Intelligence (BI). Meidän dataa 300 aiemmasta viikkohavainnosta kuvaavat esim. seuraavat tunnusluvut.

TEMP (C)SALES (EUR)DROWNED
Keskiarvo19.6130351.15
Keskihajonta5.3413153.52

Lisäksi mielenkiinnon mukaan tunnuslukuja voisi vertailla eri ryhmien, esim. viikonpäivien tai jäätelömakujen, välillä.

Keski- ja hajontalukujen lisäksi havaintoja voi kuvata muuttujien välisillä korrelaatiokertoimilla ja graafisilla kuvaajilla. Seuraava graafi ei ole välttämättä kauneimmasta päästä, mutta minulle sen piirtäminen on osa perusprosessia uuteen aineistoon tutustuttaessa. Siinä on paljon informaatiota tiiviisti ilmaistuna ja sen saa tulostettua R-ohjelmistolla yhdellä komennolla.

Lävistäjällä ovat jokaisen muuttujan omat jakaumat. Vasemmalla alhaalla ovat parittaiset sirontakuviot. Oikella ylhäällä ovat parittaiset korrelaatiokertoimet ja niiden merkitsevyystasot tähtinä.

Kuvaajasta nähdään mm. seuraavaa:

  • Lämpötilan ja myynnin havainnot ovat jakautuneet symmetrisesti keskiarvon ympärille ja muistuttaa normaalijakaumaa. Hukkumisten lukumäärän jakauma on vino.
  • Kaikkien muuttujien väliset korrelaatiokertoimet (luvut oikealla ylhäällä) ovat positiivisia, joten muuttujilla on ollut taipumus saada isoja arvoja yhtäaikaa.
  • Kaikki muuttujien väliset korrelaatiokertoimet ovat tilastollisesti erittäin merkitseviä (punaiset tähdet), joten ei ole uskottavaa että korrelaatiokertoimet poikkeavat nollasta vain sattumalta.
  • Suora viiva kuvaa hyvin myynnin ja lämpötilan välistä yhteyttä. Hukkumisen ja muiden muuttujien välisen yhteyden kuvaamiseen suora viiva ei ole paras mahdollinen (kuviot vasemmalla alhaalla).

Kuvaileva analytiikka keskittyy kuvailemaan historian tapahtumia, mutta vastuu siitä, mitä tulee tapahtumaan tulevaisuudessa jää täysin raportin lukijalle.

Ennakoiva analytiikka

Vaikka historiakin on mielenkiintoista, vielä kiinnostavampaa liiketoiminnan kannalta on se mitä on odotettavissa tulevaisuudessa. Mennyt ei ole tae tulevasta, mutta historiaan perustuen voi tehdä valistuneita arvioita eri tulevaisuuden skenaarioiden todennäköisyyksistä.

Esimerkissämme mielenkiinnon kohteena on ennustaa tulevan viikon jäätelön myyntimäärä. Pelkään BI-raporttiin (kuvaileva analytiikka) perustuen paras arvaus olisi historiallinen keskiarvo 13035 euroa. Simuloin tässä 100 uutta havaintoa tulevista viikoista ja historialliseen keskiarvoon perustuva arvaus ei ole hassumpi: keskimäärin ennuste on 7.3% pielessä.

Olisimme voineet kuitenkin ottaa askel eteenpäin ennakoivan analytiikan puolelle ja muodostaa regressiomalli, jossa hyödynnetään tietoa päivän lämpötilasta. Lämpötilan ja myynnin välinen korrelaatiokerroinhan oli varsin suuri, 0.62. Tällaisen mallin tarjoama paras arvaus seuraavan viikon myynnistä menee nyt uusilla havainnoilla keskimäärin 6.5% pieleen.

Vaikka hukkumisilla ei ole syy-seuraus-suhdetta myyntiin, ei sen hyödyntämiselle ennustamisessa ole estettä. Jos sen lisää toiseksi selittäjäksi samaan regressiomalliin lämpötilan kanssa ei siitä iloa kuitenkaan ole, koska lämpötila jo yksinään selittää hukkumisten ja myynnin välisen yhteyden. Mutta mikäli vahingossa olisimme hukanneet historian lämpötilahavainnot, olisi hukkumiskuolemat hyvä apumuuttuja. Pelkästään edellisen viikon hukkumisiin perustuvat ennusteet ovat tässä tapauksessa 6.7% pielessä. Lopuksi vielä yhteenveto, kuinka tarkasti saatiin 100 uutta myyntihavaintoa ennustetttua.

EnnustajaKeskimääräinen virhe
Oma historia7.33%
Lämpötila6.45%
Hukkumiset6.73%
Lämpötila+Hukkumiset6.43%

Regressiomallien lisäksi muita ennustamisen työkaluja ovat aikasarja-analyysi silloin kun kiinnitetään erityistä huomiota ajassa systemaattisesti toistuviin kuvioihin. Sitten kun käsillä on ajassa stabiili ilmiö, mutta paljon potentiaalisia selittäjiä sekä paljon dataa, arvoon arvaamattomaan nousevat erilaiset koneoppimisalgoritmit kuten neuroverkot tai päätöspuut. Mikäli useiden potentiaalisten selittäjien lisäksi meillä on hieman ymmärrystä näiden selittäjien keskinäisistä riippuuvuussuhteista, voidaan dataa ja asiantuntemusta yhdistää Bayes-verkkojen avulla tai simuloimalla maailman menoa ymmärryksemme rajoissa.

Käyttipä mitä tahansa näistä ennustusmenetelmistä tai jotain niiden yhdistelmää, meillä on kaksi ikävää kiusaa:

  • Ylisovittaminen: tietämättämme yritämme tulevaisuutta ennustaa sellaisilla historiallisilla piirteillä, jotka ovat toteutuneet aiemmin vain sattumalta eivätkä kuvaa ilmiötä tulevaisuudessa. Tätä ongelmaa olen ruotinut aiemmin tässä kirjoituksessa.
  • Pysyvät muutokset muuttujissa, joita ei olla aiemmin mitattu. Esimerkiksi lakimuutokset voivat ohjata ihmisiä käyttäytymään tulevaisuudessa eri tavalla kuin mihin aiemmin olemme tottuneet. Tätä ongelmaa olen käsitellyt tarkemmin tässä kirjoituksessa.

Kiitos mm. edellä mainittujen haasteiden ennakoivassa analytiikassa vaaditaan jo huomattavasti korkeamman tason koulutusta kuin kuvailevassa analytiikassa.

Diagnosoiva analytiikka

Diagnosoivalla analytiikalla pyritään löytämään asioiden välisiä syy-seuraus-yhteyksiä. Tieteellisen uteliaisuuden lisäksi liiketoiminnan kannalta kiinnostavaa voisi olla selvittää, mitä asioita muuttamalla saisimme myyntiä kasvatettua. Ennakoivan analytiikan maailmassa korrelaatiokertoimet antoivat hyviä vinkkejä, mitä muuttujia voisimme hyödyntää ennustamisessa. Kun tavoitteena on puuttua itse peliin asioiden muuttamiseksi, vain korrelaatioita tuijottamalla voisimme päätyä raportoimaan jäätelöyrittäjälle: ”Myynnin edistämiseksi kannattaa alkaa hukuttamaan ihmisiä”. Tämähän ei alkuunkaan pidä paikkansa niinkuin kohta tullaan näkemään.

Varmin tapa syy-seuraus eli kausaaliyhteyden selvittämiseksi on tehdä satunnaisettu koe riittävällä määrällä toistoja. Näistä klassinen esimerkki on antaa satunnaisesti toisille koehenkilöille oikeaa lääkettä ja toisille koehenkilöille lumelääkettä. Vaikutuksia vertailemalla voidaan saada selville, onko lääkkeessä oikeasti tehoa. Modernimpi esimerkki on verkkokaupan käyttöliittymän A/B-testaus, jossa satunnaisesti toisille asiakkaille nettisivulle näytetään punainen nappi ja toisille sininen nappi ja vertaillaan vaikuttaako napin väri sen klikkausten määrään.

Mikäli satunnaistetut kokeet eivät ole mahdollisia, voidaan yrittää metsästää luonnollisia kokeita. Esimerkiksi voidaan ottaa seurantaan henkilöt, jotka ovat juuri ja juuri päässeet läpi lääkiksen pääsykokeista ja vertailla tätä joukkoa niihin jotka jäivät niukasti ulos lääkiksestä. Voidaan olettaa että pienet erot pääsykokeen pistemäärissä jouhtuvat suurelta osin satunnaistekijöistä ja näin ollen on luotettavaa tehdä päätelmiä lääkiksen kausaalivaikutuksista loppuelämän onnellisuuteen.

Viimeisimpien vuosikymmenien aikana on erityisesti Judea Pearlin johdolla kehitetty kausaalimalleja, jotka auttavat tekemään kausaalipäätelmiä myös silloin kun käytössä havaittua dataa, mutta ei voida tehdä satunnaistettuja kokeita. Niissä aluksi pitää pystyä aiempiin tutkimuksiin perustuen rakentamaan graafi, josta näkee mitkä muuttujat vaikuttavat mielenkiinnon kohteina oleviin muuttujiin. Mikäli tärkeimmät näistä taustamuuttujista on mitattu, kausaalipäätelmät voivat olla mahdollisia.

Meidän kolmen muutttujan tapauksessa ilmiötä kuvaava graafi on esitelty kirjoituksen alussa. Tässä hyvin yksinkertaisessa maailmassa pystymme tutkimaan hukkumisten kausaalityhteyttä myyntiin. Kun laitamme sekä lämpötilan, että hukkumiset samaan regressiomalliin selittämään myyntiä, hukkumisella ei ole mitään selitysvoimaa, koska lämpötila on kaiken juurisyy. Näin ollen data näyttää, että ihmisiä on aivan turha alkaa hukuttamaan myynnin edistämiseksi.

Monimutkaisempien ilmiöiden tutkiminen kausaalimalleihin tukeutuen on itselläni vielä vaiheessa, joten ei kannata puhua tässä siitä sen enempää. Silti osa omaa analyysiprosessia on hahmotella graafiksi erilaisia potentiaalisia taustalla lymyileviä syy-seuraus-yhteyksiä, joita voi sitten asiaan paremmin vihkiytyneet haastaa. Mikäli mielenkiinto kausaalimalleihin heräsi, kannattaa aloittaa Judea Pearlin tietokirjasta ”The book of why”, josta Kimmo Pietiläinen on tehnyt myös suomenkielisen käännöksen: ”Miksi – syyn ja seurauksen uusi tiede”.

Ohjaileva analytiikka

Ohjaileva analytiikka on tässä lajittelussa laitettu viimeiseksi, koska pohjalla pitää olla alemman tason analytiikkaa päätöksenteon tueksi. Täältä huipulta kannattaa kuitenkin aina aloittaa pohtimalla, mitä halutaan tehdä. Mihin liittyviä päätöksiä analytiikalla halutaan parantaa? Esimerkkejä:

  • Halutaan kehittää jäätelönmyynnin logistiikkaa: miten paljon mitäkin makua pitäisi toimittaa kioskille, että asiakkaat saavat mitä haluavat, mutta jäätelöä ei tarvitsisi kohtuuttomia määriä pakastimessa varastoida. – > Ratkaisu: Päätöksenteon tueksi tarvitsemme ennakoivaa analytiikkaa, jolla arvioidaan kuinka paljon mitäkin makua menee ensi viikolla.
  • Halutaan lisätä jäätelön kysyntää. -> Ratkaisu: Diagnosoiva analytiikka. Johtopäätös on se, että korkeammat lämpötilat johtaisivat korkeampaan myyntiin. Mutta koska kaikki säiden hallitsemiseen kykenevät tahot ovat niin kallispalkkaisia, ei tällaista hanketta kannata toteuttaa. Laitetaan resurssit muun toiminnan kehittämiseen.

Kun pohjalla on riittävästi oppia analytiikan alemmilta tasoilta, ohjaileva analytiikka on pääasiassa erilaisia optimointialgoritmeja. Lisäksi on olemassa itseoppivia päätöksentekoalgoritmeja, jotka päivittävät omaa ymmärrystä aina päätöksestä tulleen palautteen perusteella.

Päätöksenteon optimointi on liian laaja aihe alkaa tässä syvemmin käsiteltäväksi, mutta se vaanii kaiken liiketoiminta-analytiikan taustalla. Ennen hosumista liian pitkälle datan kanssa, olisi hyvä ymmärtää mitä päätöksiä halutaan parantaa. Se mahdollistaa, että analytiikan alimmalta portaalta ponnistaessa edetään oikeaan suuntaan. Toisinaan matkalla opitaan jotain uutta, jonka vuoksi kurssia joudutaan kääntämään. Tämä tekee seikkailusta kuin seikkailusta entistä jännempää.

Lopputurinat

Dataan pohjautuvalla analytiikalla on useita eri tasoja ja niiden sisällä eri etenemispolkuja. Jotta varmistetaan datan penkomisen hyödyllisyys, aluksi pitäisi kirkastaa, mitkä päätöksentekoprosessit yrityksessä kaipaavat hiomista. Sitten valitaan sellainen polku, jota olemassa olevan datan pohjalta on mahdollista edetä. Lopulta päätöksenteko on kaksivaiheista: ensin opitaan, sitten päätetään.

Facebooktwitterredditpinterestlinkedinmail

Perheenisä salapoliisina

Oma kirjojen lukemisharrastukseni alkoi lapsena salapoliisikirjoilla. Ainakin Neiti Etsivä ja 3 Etsivää -sarjat olivat kovaa kamaa. Idolin asemaan nousseita rosmon jahtaajia olivat myös esim. Ihmemies MacGyver sekä vielä ihmeellisempi Superhessu. Erilaisten mysteerien ratkaiseminen on kiehtonut läpi elämän ja aikuisena mm. Dan Brownin kirjat ovat maistuneet.

Urani ei ole johtanut poliisiopistoon, mutta oikeiden ”rikosmysteerien” selvittelyn makuun olen vihdoin päässyt tullessani kahden lapsen isäksi. Seuraavassa kerron tositapahtumiin perustuvan tarinan kuinka todennköisyyslaskenta tuli apuun arjen mysteerin ratkaisemisessa.

Tarina isä etsivästä

Eräänä talvisena päivänä sisarukset, tyttö 1 v. ja poika 2.5 v., ovat kahdestaan leikkimässä samassa huoneessa. Yhtäkkiä talon täyttää karmaiseva tytön rääkäisy. Viereisessä huoneessa maailman menoa pohdiskellut isä ryntää paikalle ja huomaa kaksi lastaan istuvan vierekkäin. Tytöllä on jalat paljaana ja toisessa jalkapöydässä komeilee hailakat, mutta selvästi havaittavat tuoreet hampaan jäljet. Vieressä istuva, vielä heikonlaisesti sanoja muodostava, poika toistaa yhtä sanaa: ”hampaat”.

Poikaa on jo aiemmin päivällä varoitettu sisarensa tönimisestä ja muusta kiusaamisesta, joten ensimmäinen ajatus isällä on: ”Nyt lähti poika kunnon puhutteluun ja toiseen huoneeseen joksikin aikaa.” Jostain mielen syövereistä tulee hänelle kuitenkin signaali laittaa jarrut päälle, koska onhan täällä toinenkin epäilty: tyttö itse. Hetken tilannetta tutkittuaan, mikään johtolanka ei auta syyllisen valitsemisessa. Puremisjälki on sen verran hailakka, ettei siitä pystynyt päättelemään syyllistä esim. hampaiden koon perusteella. Niinpä isä päättää noudattaa länsimaista oikeusperiaatetta tuomitsematta ketään ilman painavia todisteita ja tyytyi vain lohduttelemaan vieläkin hieman itkua tihrustavaa tyttöään.

Asia jää kuitenkin hieman isää kolkuttelemaan. ”Käytinkö sittenkään hyväkseni kaikkea tietoa mysteerin arviointiin? Mikähän on todennäköisyys, että poika on sittenkin syyllinen tapahtuneeseen?” Tilanne kärjistyy isän päässä niin radikaalisti, että hän päättää ottaa esille taikakalunsa, kynän ja sanomalehden reunan, ja alkaa rapsuttelemaan mysteeriä. Hän päätyy jakamaan puremistapahtuman kahteen vaiheeseen:

  1. Tytön jalan laittaminen suuhun
  2. Puraisu ehdolla että tytön jalka on suussa.

Puremisjälkeen johtavat mahdolliset skenaariot näyttävät graafisena mallina tältä:

Mahdolliset skenaariot, jotka johtavat puremisjälkeen tytön jalassa. Boy/Girl viittaa aina toiminnan subjektiin.

Tästä seikkailu jatkuukin jo kaavojen hahmottelemisella ja isä löytää tilanteeseen sopivia merkintöjä Bayesläisen tilastotieteen pyhästä kirjasta (Gelman ym., Bayesian data analysis 3). Koska kovia todisteita, eli dataa, on niukasti tarjolla, päättelyn täytyy perustua sellaisiin palasiin, joita pystyy prioritiedon perusteella arvioimaan. Lopulta isä päätyy loitsuun, joka kuuluu seuraavasti:

  \frac{\mathbb{P}(GirlBites | Bite)} {\mathbb{P}(BoyBites | Bite)}= \frac{\mathbb{P}(GirlMouth)} {\mathbb{P}(BoyMouth)} \cdot \frac{\mathbb{P}(GirlBites | GirlMouth)} {\mathbb{P}(BoyBites | BoyMouth)}

Tätä kryptistä koodia isä lähtee purkamaan palanen kerrallaan. Yhtäsuuruusmerkin oikealla puolella oleva palanen   \frac{\mathbb{P}(GirlMouth)} {\mathbb{P}(BoyMouth)} on vastaus kysymykseen: ”Kuinka monta kertaa todennäköisempää on että tyttö laittaa jalan oman suuhunsa, kuin että poika laittaa sen?” Tytön on aiemmin isä nähnyt tutkivan varpaitaan lähietäisyydeltä ja fysiologisesti jalan laittaminen suuhun olisi mahdollista. Suuhun asti jalan työntämisestä ei kuitenkaan vielä ole muistijäljissä todisteita. Poika taas on innokkaasti viimeaikoina jaellut pusuja ja suupöristyksiä perheenjäsenilleen milloin minnekin. Lisäksi fysiologisesti toimenpide on pojalle helpompi. Tältä pohjalta isä päätyy arvioon: Todennäköisyys, että tyttö olisi laittanut jalkansa suuhun tässä tilantessa on noin puolet siitä, että poika olisi laittanut siskonsa jalan suuhun.

Viimeinen palanen kaavassa, \frac{\mathbb{P}(GirlBites | GirlMouth)} {\mathbb{P}(BoyBites | BoyMouth)}, on taas vastaus kysymykseen: ”Kuinka paljon (suhteellisesti) suurempi todennäköisyys on tytön puraisulle silloin kun tytön jalka on suussa verrattuna pojan puraisulle vastaavassa tilanteessa.” Sisaruksista vanhempana poika on jo hyvin oppinut hallitsemaan hampaiden käyttöä, eikä pusujen sivutuotteina tulleista puraisuista ole enää vähään aikaan muistikuvia. Kyseessä voi myös olla tahallinen vahingoittaminen, mutta yleensä taistelut leluista ovat johtaneet tönimiseen tai läpsimiseen. Tyttö taas ei ole vielä oppinut kunnolla hallitsemaan tuoretta purukalustoaan ja itse kukin perheenjäsen on viime aikoina joutunut hänen näykkäilyjen kohteeksi. Isä päätyy tässä kohtaa arvioon, että jos jalka on suussa niin tyttö puraisee sitä 2.5 kertaa poikaa todennäköisemmin.

Loitsun lopputulosta voidaan siis arvioida numeroarvoilla: 0.5 * 2.5. Tässä kohtaa isä hyödyntää vielä tietoa, ettei muita epäiltyjä ole ja päättää jättää huomiotta epätodennäköisen skenaarion, jossa molemmat olisivat syyllisiä. Loitsu yksinkertaistuu nyt muotoon:   \frac{\mathbb{P}(GirlBites | Bite)} {1-\mathbb{P}(GirlBites | Bite)} = 0.5 * 2.5 = 1.25. Vaikka tässä kohtaa isää alkaakin jo uuvuttaman, hän vielä pinnistää pari riviä yhtälön pyörittelyä ja saa lopulta todennäköisyysarviot syyllisyyksille: Tyttö 56%, poika 44%.

Isä huokaisee helpoituksesta. Todennäköisin skenaario voisi sittenkin olla, että tyttö on vienyt omien varpaiden tutkimisen hieman normaalia pidemmälle ja ensimmäistä kertaa nyt itse kokenut tuoreen purukalustuksensa tehon. Pojan kiusanteko tai vahinko pusun yhteydessä ovat edelleen varteenotettavia vaihtoehtoja, mutta rankaisu olisi käytettävissä olleiden tiedonmurusten pohjalta ollut paha virhe.

Jälkikirjoitus

Edellisen tarinan isän harjoittama tutkimus on hyvin epätäsmällistä tiedettä, koska kunnon todisteet loistavat poissaolollaan ja prioritiedon pohjalta tehdyt arviot ovat hyvin pitkälti sitä kuuluisaa mutu-tuntumaa. Tämä on kuitenkin hyvä esimerkki arkielämän tilanteessa, jossa data nyt on mitä on, mutta joku päätös on kuitenkin tehtävä. Olennaista silloin on muotoilla tapahtuma sellaiseksi palasiksi, joita pystyy jollain tavoin perustellusti arvioimaan.

Jos tätä todennäköisyyslaskentaan pohjautuvaa päättelyä laajennetaan aikuisten rikosten maailmaan, päästään mielenkiintoisten moraalisten pohdintojen äärelle. Yhtiökumppanini sekä ex-työkaverin kanssa taannoin pohdiskeltiin sopivaa syyllisyyden todennäköisyyttä, josta ylöspäin tuomio pitää langettaa. Olimme yhtä mieltä siitä ettei se voi olla 100%, koska jokainen puolustusasianajaja keksisi aina jonkun teoriassa mahdollisen skenaarion, joka selittäisi päämiehensä syyttömyyden eikä ketään rankaistaisi. Sen sijaan esim. 80% tuntuu aivan liian alhaiselta, jos asiaa ajattelee omalle kohdalle. Ei tunnu oikein reilulta, mikäli joutuisin syyttömänä vankilaan silloin kun ulospäin näkyvät todisteet puhuvat vain 80% todennäköisyyden puolesta. Mutta mikä olisi sitten hyvä raja tällä välillä? Siinäpä pähkinää purtavaksi etsivälle jos toisellekin.

Facebooktwitterredditpinterestlinkedinmail

Etäisyydet puolueista vaalikoneessa

Helsingin Sanomien vaalikoneen ympärille syntyi pientä hässäkkää kun kansanedustaja Jyrki Kasvi huomasi, ettei hän nouse äänestäjän suosituslistalla ylimmäksi, vaikka äänestäjä vastaisi kaikkiin kysymyksiin täsmällisesti samoin kuin itse Kasvi.

Hesari lähti julkisesti avaamaan tätä ilmiötä ja selvisi että Jyrki Kasvi on Hesarin käyttämän algoritmin mielestä puolueista lähempänä Feministipuoluetta kuin edustamaansa Vihreää liittoa. Ehdokassuositukset taas jäljittelevät Suomen vaalikäytäntöä ja se antaa ensimmäisiksi suosituksiksi parhaat yksittäiset osumat ”lähimmästä” puolueesta ja vasta alempana puolueriippumattomasti lähimmät yksittäiset ehdokkaat. Kohun myötä Hesari tässä kirjoituksessa avasi käyttämänsä algoritmin toimintaa ja tarjosi dataa Uudenmaan vaalipiirin Feministipuolueen sekä Vihreän liiton ehdokkaiden vastauksista.

Seuraavassa esitellään muutamia vaihtoehtoisia tapoja ehdokkaiden sekä puolueiden läheisyyden mittaamiseen, käydään läpi Hesarin algoritmissa tehdyt valinnat ja katsotaan, kuinka Jyrki Kasville olisi käynyt vaihtoehtoisilla algoritmeilla.

Kahden yksittäisen ehdokkaan välinen etäisyys

Ehdokkat vastaavat Hesarin vaalikoneessa 30 kysymykseen, joten ehdokkaiden vastausten välistä etäisyyttä toisistaan mitataan 30-ulotteisessa avaruudessa. Tämä ei suinkaan ole yksiselitteinen tehtävä. Moniulotteisten etäisyyden mittaamiseen on olemassa useita eri mittareita. Näistä tunnetuimmat ovat Euklidinen-etäisyys (katso kaava) ja Manhattan-etäisyys (tai ”taksimetriikka”,katso kaava ja havainnollistus). Kun etäisyyttä mitataan Euklidisella etäisyydellä, peruskoulussa opitut geometrian lait pätevät. Datan analysointi ei kuitenkaan ole eksaktia matematiikkaa. Manhattan-etäisyydellä on se etu, ettei se ole niin herkkä reagoimaan yksittäisiin poikkeaviin havaintoihin.

Alla olevassa kuvaajassa on (kuviteltuna) esimerkkinä kahdelta ehdokkaalta vastaukset kahteen kysymykseen. Ensimmäinen ehdokas on antanut molempiin kysymykseen vastauksen 1 (”Täysin eri mieltä”). Toinen ehdokas on vastannut 1. kysymykseen 4 (”Jokseenkin samaa mieltä”) ja 2. kysymykseen 5 (”Täysin samaa mieltä”). Näiden kahden pisteen euklidinen etäisyys (punainen jana) on 5. Tämän voi varmistaa Pythagoraan lauseen avulla: $3^2 + 4^2 = 25 = 5^2 $. Eli kaikista janoista muodostuvan kolmion kateettien neliöiden summa on sama kuin hypotenuusan neliö. Geometrisessa tulkinnassa on kuitekin muistettava, että siinä täytyy olettaa vastausvaihtoehtojen välimatkat yhtä pitkiksi. Eli esimerkiksi ero ”Täysin eri mieltä” ja ”Jokseenkin erimieltä” välillä on sama kuin ”En osaa sanoa” ja ”Jokseenkin samaa mieltä” välillä.

Kahden pisteellä merkityn ehdokkaan välinen etäisyys eri mittareilla 2-ulotteisessa koordinaatistossa.

Manhattan-etäisyys taas määritellään mustien janojen määrittelemän ”kiertoreitin” pituutena. Tämä on 3 + 4 = 7. Hesari on päätynyt käyttämään vaalikoneen algoritmissaan tätä Manhattan-etäisyyttä kahden yksittäisen ehdokkaan välisen etäisyyden mittaamiseen.

Lopuksi vielä huomio, että kumpikaan esitellyistä etäisyysmittareista ei ota huomioon kysymysten välistä korrelaatiota. Mikäli usea kysymys liittyy samaan teemaan, tämä teema tulee korostumaan myös etäisyysmittarissa.

Etäisyys ryhmästä

Kun kahden ehdokkaan välinen etäisyysmittari on päätetty, pitää seuraavaksi päättää kuinka etäisyys puolueeseen mitataan. Hesari on laskenut etäisyyden jokaiseen puolueen ehdokkaaseen erikseen ja ottanut näistä keskiarvon. Toinen vaihtoehto olisi määritellä ensin puolueryhmän keskipiste 30-ulotteisessa avaruudessa ja laskea sitten etäisyys tähän yhteen pisteiseen. Ryhmän keskipisteenkin voi määritellä usealla eri tavalla, mutta pitäydytään nyt yksinkertaisimmassa: lasketaan kaikkien vastauksien keskiarvo ryhmän sisällä.

Ero usean yksittäisen ehdokkaan etäisyyden laskemisen ja keskipisteen laskemisen välillä on ainakin se, että yksittäisten etäisyyksien tapa rankaisee vaihtelusta puolueen sisällä. Otetaan esimerkiksi kaksi kahden hengen puoluetta. Puolueen 1 edustajat ovat molemmat vastanneet kysymykseen saman vastauksen 2. Puolueen 2 edustajista toinen on vastannut samaan kysymykseen 1 ja toinen 3. Mikäli Jyrki Kasvi olisi vastannut kysymykseen myös 2, etäisyyttä puolueeseen 1 kertyy 0 + 0 = 0. Etäisyyttä puolueeseen 2 taas kertyy 1 + 1 = 2. Molempien puolueiden keskiarvo on kuitenkin sama 2, joten keskiarvoon ei etäisyyttä kerry kumpaankaan puolueeseen lainkaan. Alla oleva taulukko vielä kokoaa yhteen em. esimerkin tulokset.

Puolue Ehdokas1Ehdokas2KAEtäisyys
yksilöihin
Etäisyys
keskiarvoon
Puolue122200
Puolue213220

Yllä olevan eron syntyminen kuitenkin vaatii, että Jyrki Kasvi on vastannut kysymykseen juuri 2. Muilla vastauksilla eroa mittaustapojen välillä ei tässä esimerkissä synny.

Hesari on päätynyt algoritmissaan mittaamaan etäisyyttä yksilöiden etäisyyksien kautta.

Vastausten vaihtelu puolueen sisällä

Kun Hesarin algoritmi mittaa etäisyyttää koko puolueesta tavalla, joka oletettavasti suosii sisäisesti saman mielistä ryhmää, on kiinnostavaa kuinka yhdenmielisiä Feministipuolueen ja Vihreiden jäsenet ovat. Alla olevassa kuvaajassa on lasketty yksittäisen ehdokkaiden vastaajien etäisyydet Manhattan-etäisyydellä. Mitä punaisempi väri, sitä lähempänä kyseiset ehdokkaat ovat toisiaan. Jokainen ehdokkaan etäisyys itsestään on luonnollisesti 0, mikä näkyy punaisena halkaisijana vasemmasta alanurkasta oikeaan ylänurkkaan.

Ehdokkaat 1-10 kuuluvat feministipuolueeseen ja ehdokkaat 11-40 Vihreisiin. Vasemmassa alanurkassa oleva yhtenäinen punainen neliö (tai oikeammin Tanskan lippu yhden yksittäisen sooloilijan ansiosta) kertoo, että Feministipuolueen jäsenet ovat hyvin yhdenmielisiä keskenään. Vihreiden joukossa nähdään sekä punaista että sinistä, mikä viestii vastauksien eroista puolueen sisällä.

Ehdokkaiden etäisyys toistaan Manhattan-etäisyydellä mitattuna. Punainen väri viittaa samankaltaisuuteen ja sininen eroihin vastauksissa.

Tulokset eri mittareilla

Lopuksi kiinnostavaa on, että olisiko tulokset erilaisia, mikäli algoritmin kehityksessä olisi tehty erilaisia valintoja. Nykyinen algoritmi antaa tulokseksi, että Jyrki Kasvin läheisyys Feministipuolueen kanssa on 79.3% ja Vihreiden kanssa 77.4%. Tein laskelmat vaihtoehtoisilla aiemmin tässä blogitekstissä esitetyillä menetelmillä hyödyntäen muilta osin Hesarin käyttämää ajatusta samankaltaisuuden laskemiseen. Tulokset ovat alla olevassa taulukossa. Alkuperäisen menetelmän tulokset ovat vasemmassa ylänurkassa.

Yksilöetäisyys ->
Ryhmämittari
ManhattanEuklidinen
Yksittäiset ehdokkaatFem 79.3%, Vih 77.4%Fem 65.6%, Vih 65.5%
RyhmäkeskiarvoFem 79.8%, Vih 78.9%Fem 67.6%, Vih 71.8%

Ennakko-oletukseni oli, että siirryttäessä mittaamaan ryhmän etäisyyttä ryhmäkeskiarvolla Vihreät menisivät Feministien ohi, koska puolueen sisäisistä eroista ei enää rankaistaisi. Olin väärässä. Todellisuudessa Vihreät hieman kirivät, mutta häviävät edelleen Feministipuolueelle 0.9 % -yksiköllä.

Siirtyminen alkuperäisestä algoritmista Euklidiseen etäisyyteen tasoittaisi tilannetta enemmän. Feministipuolue voittaisi enää olemattomalla 0.1% – yksikön erolla. Mikäli muutettaisiin molempia mittaustapoja, lopulta Vihreät menisivät Feministipuolueen ohi paalupaikalle prosentein 71.8% – 67.6%.

Kehitysehdotuksia

Tässä Jyrki Kasvin tapauksessa oli hyvin pienestä kiinni, tuleeko Feministipuolue vai Vihreät voittajaksi puolueen läheisyyden vertailussa. Itse olisin algoritmin kehityksessä todennäköisesti lähtenyt liikkeelle etäisyydestä puolueen keskipisteeseen ja ainakin pohtinut puolueiden erilaisten kokojen ja kysymysten välisten korrelaatioiden huomioimista jollain tavalla. Oma tämän hetken ymmärrys aiheesta ei kuitenkaan riitä painavasti kritisoimaan algoritmin kehittäjän valintoja käytetyissä etäisyysmittareissa.

Huoleni koskee lähinnä vaalikoneen tapaa suosia ronskisti voittaja-puoluetta esiin nostetuissa ehdokkaissa nyt kun voittajapuolueen voi tiukoissa kisoissa ratkaista valinnat algoritmin kehityksessä tai muut satunnaistekijät.

Kun itse tein Hesarin vaalikoneen, klikkasin kolmen ylimmäksi nousseen ehdokkaat lisätiedot uusiin välilehtiin ja siirryin tutkimaan niitä. Ainakin itseltäni on mennyt täysin ohi, että alempana on saattanut olla muista puolueista ehdokkaita, jotka osuvat vielä paremmin omiin valintoihin. Ensimmäinen kehityskohde voisikin olla tämän asian selkeämpi viestiminen kiireiselle käyttäjälle.

Yleisemmällä tasolla tämä esimerkki havainnollistaa, kuinka todellisessa maailmassa, eksaktin matematiikan ulkopuolella, algoritmien kehitys on aina jossain määrin taidetta ja kehittäjän tekemät valinnat vaikuttavat jossain määrin tuloksiin. Tässäkin tapauksessa voittaja olisi ollut Vihreät, mikäli olisi käytetty ryhmäkeskiarvoja ja Euklidista etäisyyttä.

Mitä enemmän algoritmilla on vaikutusta ihmisiin, sitä tärkeämpää on niitä julkistaa ja altistaa kritiikille sekä kehotusehdotuksille. Tästä ryhdikäs hatun nosto Hesarille.

Facebooktwitterredditpinterestlinkedinmail

Tämän päivän kylvön sato korjataan vuosien päästä

Vanha sanonta kuuluu ”Elämä on sattumien summa”. Erityisesti urheilutilastojen nikkaroinnista tunnettu kollega Jani Pellinen muistutti Twitterissä taannoin, että ”sattumien summan” sijaan parempi ilmaus olisi ”ehdollisten todennäköisyyksien tulo”.

Ehdollisten todennäköisyyksien ketjut

Otetaan esimerkki: yliopistoon pyrkivän nuoren haaveena on päätyä töihin yritykseeen Superosaajat Oy. Olennaiset urakehityksen todennäköisyyspalikat voisivat olla:

”Opiskelupaikka” -> ”Verkostoituminen opiskeluaikana” -> ”Harjoittelupaikka” -> ”Graduaihe” -> ”Ensimmäinen vakituinen työpaikka” -> ”Työpaikka Superosaajat Oy:ssä”

Kaikkien mainittujien tapahtumien todennäköisyydet ovat ehdollisia ketjussa vasemalla oleville tapahtumille. Eli toisin sanoen kaikkien eri tapahtumien todennäköisyydet riippuvat siitä, mitä on aikaisemmin (ketjussa vasemmalla puolella) tapahtunut. Vaikka tietenkään mikään ei ole varmaa, tulevaisuuden elämänsä tärkeisiin todennäköisyyksiin voi ennalta vaikuttaa. Hyvät tapahtumaketjut pitää tänään sysätä liikkeelle, jotta sadon voi korjata vuosien päästä.

Lyhytjänteinen toiminta

Oletko koskaan tavannut henkilöä, jonka elämä olisi lähtenyt välittömästi pysyvään positiiviseen lentoon yhdellä pikaisella taikatempulla? Mulle ei ainakaan tule mieleen. Maailman kirkkaimman kärjen saavuttava urheilija tai yrityksensä myymällä rikastunut yrittäjä voi lävähtää iltapäivälehden lukijan tietoisuuteen kuin tyhjästä, mutta taustalla on vuosien tai vuosikymmenten raaka työ ja järjestelmällinen eteneminen kohti huippua. Jopa mammuttifirmat Apple ja Amazon ovat joskus olleet pikkukioskeja perustajansa autotallissa.

Nopeista voitoista haaveilijoita on helpompi löytää. Nämä ovat kuitenkin menestyksen sijaan suuressa riskissä ajautua mukaan pyramidihuijauksiin, kannattamattomiin uhkapeleihin tai äärimmäisen spekulatiivisiin sijoituksiin. Sijoittaja/treidaaja ”Daytrader” kommentoi kolumnissaan peliyhtiö Rovion uusille sijoittajille suunnattua osakeantia oivallisella peukalosäännöllä:

Olen kaikenlaista kuullut sijoitusurani varrella, mutta aina kun joku alkaa puhua alle vuoden takaisinmaksuajasta (= jakso jonka aikana sijoitus luvataan maksavan itsensä takaisin), naamalleni leviää hienoinen hymy ja päässäni alkaa soida kummeleiden sketsin tunnusmusiikki ”apinaa koijataan”.

Systemaattiset pienet teot

Onneksi isoihin kehitysloikkiin riittävät pienet teot, kunhan ne vaan toistuvat pitkäjänteisesti riittävän usein. Tästä pitää huolta korkoa korolle ilmiö. Kyseinen ilmiö on yleinen havainnollistamistapa rahassa mitattavan varallisuuden kasvamiseen, mutta sama pätee myös oppimiseen. Missä ikinä haluatkaan kehittyä, sinun tarvitsee olla vain yhden promillen (tuhannesosan) parempi kuin eilen, jotta olisit yli neljä kertaa parempi neljän vuoden päästä.

Harrastelevana kitaran soittajana minulla on ehkä tällä hetkellä 10 kappaletta, jotka kehtaisin (pienellä kertauksella) esittää yleisön edessä. Yhden promillen päivittäinen kehitysvauhti tarkoittaa, että minulla on yksi uusi biisi harjoiteltuna kolmen kuukauden päästä ja neljä biisiä vuoden päästä. Kuulostaa varsin realistiselta, jos intoa riittää. Mikäli pystyn jatkamaan kehittymistä samaa ”promille päivässä” -kehitystahtia useamman vuoden ajanjaksolla, korkoa korolle alkaa tehdä tehtävänsä. Neljän vuoden päästä minulla ei suinkaan olisi soittolistassa vain 10 + 4*4 = 26 uutta biisiä vaan jopa 43 (10*1.001^(4*365)). 43 biisin settilista tuntuu äkkiseltään tosi utopistiselta, koska tällä hetkellä olen niin kömpelö soittaja. Tässä kohtaa pitää ymmärtää se, että uusien biisien omaksuminen käy koko ajan helpommaksi kun ensimmäiset uudet biisit on jaksanut jyystää läpi. Minä tahansa oppiminen toimii samanlaisella kaavalla. Kun oppii ensin vaivalla yhden uuden asian, sen päälle on helpompi rakentaa useita uusia taitoja.

Statistition blogi

Tämän blogin käynnistämisestä on nyt kulunut tasan neljä vuotta. Kaikki lähti liikkeelle halusta päästä esittelemään ammattiosaamistani, mutta blogi muokkaantui vuosien varrella enemmänkin omien ajatusten testilaboratorioksi aika laajalla skaalalla. Olen tässä oppinut, että omia ajatteluvirheitään pystyy paljastamaan, kun alkaa kunnolla avaamaan ideaansa muiden luettavaksi. Pelkkä mahdollisuus sille, että julkisen kirjoituksen joku lukee kriittisesti, pakottaa kirkastamaan ajatusketjut itselleen. Moni juttuaihe on matkan varrella lentänyt roskakoriin, koska idea ei sittenkään kestänyt paperilla päivänvaloa. Pari kirjoitusta päätyi taas julkaisuun vasta 1-2 vuoden jatkojalostuksen ja lisätodisteiden kaivamisen jälkeen.

En ole nyt ihan tainnut nelinkertaistaa osaamistani, mutta paljon koen kehittyneeni ja oppineeni menneen neljän vuoden aikana. Yksi osasyy on varmasti päätös alkaa kirjoittamaan, vaikka se hyppy epämukavuusalueelle olikin. Vaikka joissain vanhoissa kirjoituksissa on näin jälkikäteen joitain pinnallisia tai naiiveja elementtejä, kaikkien kirjoitusten ydinviestin pystyn kuitenkin edelleen allekirjoittamaan.

Pari ohutta juttuideaa tälläkin hetkellä on mielessä, mutta vähän pelottaa, että ilman kunnollista uusien näkökulmien etsimistä blogin kirjoitukset alkavat toistaa liikaa itseään. En myöskään halua harrastaa pelkkää teoreettista spekulointia. Niinpä tässä neljän vuoden matkamerkillä on hyvä laittaa ensimmäinen ”tuotantokausi” pakettiin ja keskittyä välillä uusien havaintojen keräämiseen elämästä.

Kiitokset tässä vaiheessa kaikille lukijoille ja erityisesti ihmisille, jotka ovat kommentoineet somessa tai livenä. Kirjoittaminen olisi ollut itselleni antoisa prosessi ilman yhtään lukijaakaan, mutta kyllä se vaan sydäntä aina lämmitti kun sai kuulla kirjoituksesta olleen jotain iloa toisellekin ihmiselle. Perusteltu kritiikki taas on avannut uusia näkökulmia ja rikastuttanut paljon tekemistä.

Palataan asiaan taas kun aika on kypsä!Facebooktwitterredditpinterestlinkedinmail

Itseään toistavat algoritmit

Ikääntymisen myötä olen tullut koko ajan laiskemmaksi etsimällä etsimään uusia bändejä kuuneltavaksi. Eräs syy, miksi tykkään Spotifyn musiikkipalvelusta on heidän ”Viikon suositukset” listansa.  Tälle listalle valikoituu biisejä, joista saattaisin heidän algoritmiensa mukaan tykätä viime aikojen musiikinkuuntelun perusteella. Tämä on erittäin kätevä tapa löytää uusia itselleen iskeviä bändejä. Tälläkin hetkellä luukutan lupaavan kuuloista metalliorkesteria ”Fight the Fight”, mihin en ihan heti olisi törmännyt ilman Spotifya.

Dataa omista ennusteista

”Viikon suositukset” -listaa tulee kuunneltua usein taustamusiikkina ilman, että skippailisin yli biisejä, vaikka ne eivät maistu eli ovat ns. vikasuosituksia. En tiedä, käsitteleekö Spotifyn algoritmi loppuunkuunneltuja biisejä todellisina musiikkimakuani kuvaavana havaintona, vaikka ne tulisi soittoon sen oman suosituksen kautta. Tämän takia olen hieman vainoharhaisesti pitänyt taukoja huonosti osuneiden viikkojen jälkeen ja kuunnellut vain itse valitsemaa musiikkia, ettei algoritmi vaan alkaisi opettaman itseään omilla virheillään.

Mitä haittaa siitä sitten oikeasti olisi, mikäli joku algoritmi ei tunnista itsensä syöttämiä havaintoja? Tätä lähdetään nyt selvittämään asuntohinta-aineiston avulla.

Hinta-arviot algoritmilla

Siinä ei varmaan ole mitään yllättävää että iso osa pörssissä tehtävästä kaupankäynnistä tulee automaattisesti hinnoittelua suorittavien algoritmien toimesta. Sama ajatus asuntokaupassa tuntuu hieman etäisemmältä, mutta leikitellään vähän ajatuksella.

Olen ollut kehittämässä muutama vuosi sitten ASLA -asuntolaskuria, joka pyrkii antamaan kerrostaloasunnoille markkinahinta-arvioita julkisen datan perusteella. Asuntojen hinnat määräytyvät lukuisten ihmisten mieltymysten ja preferenssien perusteella. ASLAn taustalla oleva algoritmi pyrkii käytettävissä olevan datan avulla muuttamaan kaupankävijöiden keskimääräisiä mieltymyksiä matemaattisiksi kaavoiksi. Mitä tapahtuisi, jos osassa kaupoista normaali tinkimisprosessi jäisi pois ja sekä myyjä että ostaja luottavat ASLAn arvioon tehden kauppansa mukisematta kyseisillä arvioilla?

Seuraavassa olen simuloinut tällaista prosessia niin että vuodesta 2014 alkaen osassa todellisista asuntokaupoista hinta korvataankin ASLAn käyttämän algoritmin arviolla (korvattavat valitaan satunnaisesti) ja joka vuoden päätteeksi algoritmi kouluttaa itseään lisää uudella kertyneellä datalla. Aineistona käytetään Helsingin yksiöitä ja otoskoko-ongelmien välttämiseksi mukana on vain kymmenen kaupankäyntimäärältään suosituinta postinumeroaluetta.

Kuvaajassa olevat viivat kuvaavat kolmea eri virheprosenttia vuosina 2014-2017:

  • Ristiinvalidointi (punainen): Etukäteisarvio algoritmin hinta-arvion ja todellisten hintojen keskimääräisestä prosentuaalisesta erosta. Ristiinvalidoinnin ideasta lisää tällä videolla.
  • Todellinen (vihreä): Algoritmin hinta-arvioiden ja todellisten, ihmisten määrittelemien hintojen, keskimääräinen prosentuaalinen ero
  • Näennäinen (sininen): Hinta-arvioiden ja havaittujen hintojen keskimääräinen prosentuaalinen ero, kun mukana on myös algoritmin avulla määritellyt kauppahinnat

Ensimmäisessä kuvaajassa (ylhäällä) kukaan kaupankävijä ei käytä ASLAa vaan kaikki myyntihinnat ovat aitoja ihmisten preferensseihin perustuvia hintoja. Sekä ennalta arvioidut että todellisuudessa kohdatut virheprosentit pyörivät lähellä toisiaan 8% – 9% välimaastossa.

Seuraavissa kuvissa aina tietyn vuoden vuoden oikeita kauppahintoja korvataan ASLAn ennusteilla. Ensin satunnaisesti 25%, sitten puolet, sitten 75% ja viimeisessä kuvaajassa kaikki. Huomataan että ajan kuluessa algoritmin itsevarmuus kasvaa, eli punainen ristiinvalidointiin perustuvat virhearvioennusteet pienenevät. Mutta todellinen kyky arvioida ihmisten preferenssejä kuitenkin laskee, koska vihreä käyrä kasvaa kohti suurempia lukemia. Efekti on sitä selvempi, mitä isompi osuus kauppahinnoista tulee algoritmin perusteella. Ääritapauksessa oikealla, missä kaikki kauppahinnat tulevat suoraan algoritmista, havaitut ennustevirheet ovat nollassa (sininen käyrä), mutta kyky arvioida ihmisten preferenssejä (vihreä käyrä) on aivan jotain muuta.

Omat ennusteet eivät ole aitoja havaintoja

Kun asuntoja hinnoitellaan suoraan algoritmin perusteella, alkaa algoritmin satunnaiset virheet toistumaan ja erityisesti se ei osaa sopeutua ajan tuomiin muutoksiin. Esimerkiksi algoritmi ei ymmärrä, että asuntojen hintoihin kohdistuu laskupainetta, mikäli korot tai kiinteistöverot nousevat äkillisesti. Nyt jos näitä muutoksia ei korjata aidolla uudella datalla, algoritmi alkaa irtaantumaan todellisista ihmisten preferensseistä.

ASLAa ei ole missään nimessä tarkoitettu automaattiseksi hinnoittelijaksi korvaamaan täysin kiinteistövälittäjiä vaan kauppaa käyvän ihmis-olion apuvälineeksi. Se antaa tukea erityisesti kokemattomalle kaupankävijälle uudella paikkakunnalla, mutta jättää huomioimatta monia tärkeitä asioita, kuten tehdyt taloyhtiöremontit ja tonttien omistusoikeudet. Algoritmi tehostaa ja tarkentaa ihmisen työtä tiivistämällä kaiken datassa olevan tiedon sekunnissa ilman että tarvitsee manuaalisesti (silmin selaimella tai Exceliä yötä myöden hakkaamalla) yrittää datasta ottaa tolkkua. Ihminen voi käyttää omat resurssinsa siihen, mitä kone ei osaa eli tässä tapauksessa esimerkiksi arvioida tulevia remontteja ja havainnoida esteettisiä kokemuksia paikan päällä.

Itse luotujen havaintojen siivoaminen

Palaten alkuperäiseen pohdintaan algoritmien omien havaintojen käyttämisessä sen opettamisessa, meillä on kädessä ongelma. Kuten asuntohintojen tapauksessa huomattiin, sitä mukaa kun itse luotua dataa kertyy lisää, algoritmin ”itseluottamus” kasvaa samalla kun todellinen performanssi heikkenee.

Spotifyn algoritmin on mahdollista (ja omasta vainoharhaisuudesta huolimatta näin mahdollisesti tekeekin) kehäpäätelmät välttää, koska jossain heidän tietokannassaan luulisi olevan tieto, valitsiko käyttäjä jonkin kappaleen soimaan omatoimisesti vai tuliko se suosituksen kautta automaattisesti. Jälkimmäiset tulee putsata pois datasta, jolla algoritmia jatkokoulutetaan. Asuntohinta-esimerkki on kinkkisempi, koska emme tiedä, onko joku tietty kaupankävijä käyttänyt algoritmia vai ei.

Mitä tulee ASLAn tulevaisuuteen, herää kysymys: ”Kannattaako laskurin näkyvyyttä yrittää lisätä, jos riskinä on, että siitä tulee sitä epätarkempi, mitä useampi sitä käyttää?” Kaupallinen käyttökin on kielletty taustalla käytettävän datan käyttöehtojen takia.

Statistickon steesit:

  • Algoritmin kouluttaminen sen itse luomalla datalla on kehäpäätelmä
  • Ajan myötä taustaolosuhteiden muuttuessa algoritmit tuppaavan irtaantumaan todellisuudesta, ellei niitä kouluteta uusilla, aidoilla havainnoilla
  • Omien ennusteiden käyttäminen opetusdatana vielä huonontaa tilannetta antamalla valheellisen illuusion tarkentuvista ennusteista

Facebooktwitterredditpinterestlinkedinmail

Maksajat organisaatioiden takana

Kysyin taannoin remonttifirmalta tarjousta kylpyhuoneremontista kerrostaloasunnossa. Yrittäjällä oli selvästi harjoiteltu myyntipuhe, jonka sisältö oli karkeasti seuraava (luvut karkeita, kun en muista enää tarkkoja lukuja): ”Koko projekti olisi 7000, mutta osuus X kohdistuu rakenteisiin, jotka ovat taloyhtiön vastuulla, joten sinulle jäisi omasta pussista maksettavaa vain 5000”. Keskustelut keskittyivät tästä eteenpäin tuohon omaan 5000 euron osuuteen ja tästä hinnasta hän vielä olisi ollut valmis vähän tinkimään. Hinta oli kuitenkin eri suuruusluokkaa, mitä olin kuvitellut, joten päätin, että pärjään hyvin vielä jonkin aikaa nykyisellä kylppärillä.

Myyntipuheen seurauksena jäin miettimään kulujen jakoa omiin ja yhteisiin.  En tivannut firman kulurakennetta, mutta olisin voinut lyödä vetoa kertoimella 1.3, että työssä mikä kuuluu taloyhtiön osuuteen, on korkeampi kate kuin asiakkaan omassa osuudessa.

Taloyhtiön kulut maksavat osakkaat itse vastikkeessa

Kuvitellaan, että kaikilla taloyhtiön osakkailla on kymmenen vuoden sisällä kylppäriremontti ja kukaan ei kilpailuta taloyhtiön osuutta vaan ohittaa sen epäkiinnostavana asiana. Lopputuloksena kaikilla on uusi kylppäri, mutta he päätyivät maksamaan isompana vastikkeena sen osan remonttikustannuksista, mitä kukaan ei vaivautunut kilpailuttamaan.

Tarkoitukseni ei ole syyttää remonttiyrittäjää mistään. Hän toki pyrkii elättämään itsensä ja työntekijänsä parhaansa mukaan niissä olosuhteissa, mitkä hänen toimialallaan vallitsevat. Vastaavaa yhteisestä kassasta menevien kulujen sivuuttamista näkee monissa muissakin asioissa.

Yrityksen verojen maksajat

Äänestäjät eivät yleensä innostu verojen korotuksista, mutta valtion budjetti pitäisi jotenkin saada aina täytettyä. Tähän hankalaan yhtälöön yksi poliitikkojen tarjoama taikatemppu on yritysten verottaminen. Tällä luodaan mielikuvaa, että näin ihmiset saisivat taianomaisesti kaikkea kivaa ilman että itse joutuvat siitä maksamaan.

Liikeyrityskin, samoin kuin taloyhtiö, on ihmisten muodostama organisaatio, jonka kulut lopulta ihmiset maksavat. Keitäs nämä maksajat sitten ovat? Tämä onkin monimutkaisempi kysymys. Yhden hengen konsultointifirmassa verot maksaa itse yrittäjä, mutta isoissa firmoissa yrityksen voitosta maksettavan veron maksajat löytyvät kolmesta oleellisesta sidosryhmästä: sijoittajat, työntekijät ja asiakkaat. Siitä, että vero maksetaan yrityksen pankkitililtä ennen siirtoa palkkoina ja osinkoina ihmisten tileille, ei synny mitään taikaa.

Yritysveron maksajien jäljittäminen on hankala tehtävä. Saksassa osa yritysverosta määritellään paikallisella tasolla ja nämä tasot ovat vaihdelleet useasti vuosien aikana. Paikallisista muutoksista on saatu oiva testilaboratorio tähän yritysverotukseen kohdistuvaan tutkimukseen.

Tutkimus päätyy arvioon, että yritysveron noususta noin 40% maksaisi työntekijät pienempinä/ei-kasvavina palkkoina ajan kuluessa. Tutkija lisäksi arvelee, että valtakunnallisen veron kasvaessa osuus olisi vielä isompi.

Yritys voi myös yrittää siirtää osan kustannuksista asiakkaille korkeampina hintoina, mutta kansainvälisen kilpailun puristuksessa hintojen korottaminen on hankalaa asiakkaiden siirtyessä ulkomaalaisille kilpailijoille. On monia tekijöitä, mitkä varmasti vaikuttavat tapauskohtaisesti todelliseen jakosuhteeseen, mutta ilman tarkempia tietoja pitäisin hyvänä ajattelun lähtökohtana, että yritysveron nostot maksavat puoliksi omistajat ja työntekijät.

Yrityksen verotuksessa kansainvälisesti toimivat suuryritykset saavat vielä epäreilua kilpailuetua siitä, että voivat konsernin sisäisillä laskutuksilla taktikoida voittojen tilitystä sellaisiin maihin, missä verotus on lempeämpää. Tätä mahdollisuutta ei ole pienemmillä paikallisilla firmoilla, jotka joutuvat tilittämään verot viimeistä penniä myöten.

Eikö olisi selkeämpää se, että ilman kiertoteitä työntekijöitä rokotetaan tuloverolla ja omistajia osinkoverotuksella? Kun aiemmin mainitut asiat summaa yhteen niin voittojen veron tilittäminen yrityksen tilitä tekee prosessista monimutkaisempaa ja monikansallisten jättiyritysten omistajia suosivaa.

Kaikesta huolimatta en nyt tältä istumalta olisi yritysveroa kokonaan poistamassakaan, koska on olemassa:

  • vakuutuskuoria,
  • osinkoverosta vapautettuja instituutioita (esim. ammattiliitot ja eläkevakuutusyhtiöt) ja
  • suuromistajien (yli 10% omistus pörssiyhtiöstä) vapautuksia osinkoverojen maksusta

osinkojen verotusta vaikeuttamassa. Näistä pykälistä ja niiden korjaamisesta voi lukea lisää esimerkiksi tästä rahoituksen professorin Timo Rothoviuksen haastattelusta.

Menemättä nyt liikaa verotuspykälien yksityiskohtiin, oleellista on huomata, että verot kohdistuvat lopulta aina ihmisiin. Eivätkä kärsivät ihmiset ole välttämättä pidemmällä ajanjaksolla niitä, joita hurmospoliitikot toivoisivat olevan maksajia.

Valtio kuluttajana

Kaikkien elämään vaikuttava edellisiä suurempi ja monimutkaisempi organisaatio on valtio. Tietojeni ja aikani rajallisuudessa jätän lukijan itse pohdittavaksi, mitä kaikkea turhaa valtion lonkeroiden syövereihin on piilotettu veronmaksajien kustannettavaksi. Joku ihminen ne jossain kuitenkin maksaa, ellei nyt niin sitten tulevaisuudessa (velan) korkojen kanssa.

Valtiot ja yhtiöt ovat tärkeitä organisaatioita, yhteiskunnan tukipilareita, joiden olemassaolosta kannattaakin maksaa. Kaikkien yhteinen etu kuitenkin on, että muistetaan organisaatioiden taustalla olevia maksajia ennen, kun kamelien selät katkeilee (esim. palkasta käteen jäävällä rahalla vaikea tulla toimeen). Portinvartijan asemassa oleville toivotan ryhdikästä asennetta ja kannustan ottamaan mallia tästä eläköityvästä talouspäälliköstä, joka on ilmeisesti kovasti tehnyt urallaan töitä pitäessään veronmaksajien puolia kansanedustajien rahankäytössä.Facebooktwitterredditpinterestlinkedinmail

Alustatalous peliteoreetikon silmin

Idyllinen markkinatalous

Tori on se perinteinen markkina-alusta

Perinteisen romanttisessa kuvauksessa markkinataloudesta marjanpoimijat kokoontuvat tiettyyn aikaan kylän torille laittamaan myyntikojun pystyyn. Kyläläiset kokoontuvat aina samalle torille mustikan himoissaan. Mustikan myyjiä on riittävästi, jotta terve kilpailu pitää huolta, ettei kukaan voi älyttömiä riistohintoja pyytää marjoistaan. Mikäli myyjät laittavat hintakartellin pystyyn, löytyy aina joku uusi reipas kaveri, joka näkee mahdollisuudet rapeille tuotoille ja tulee samoille apajille kilpailemaan.

Myyjien intresseissä on myydä samoille asiakkaille aina uudelleen ja uudelleen, joten hyvän asiakaskokemuksen jättävä palvelu kuuluu itsestään selvyytenä jokaisen myyjän työkalupakkiin.

Teollistumisen aikakaudella monilla aloilla tuottavuus lähti lentoon, mutta bisneksessä pelin henki oli vähän erilaista kuin Rovaniemen markkinoilla. Ihan kuka tahansa innokas pienyrittäjä ei lähdekään mukaan leikkiin, koska investoinnit tuotantolaitoksiin ja työntekijöihin ovat niin massiivisia.

Vajaakäytöllä olevan omaisuuden hyödyntäminen

Nykypäivän liiketoiminta-alustat ovat tuoneet kansallisromanttiset markkinat jälleen pinnalle. Kuka tahansa, jonka elämä on johdatellut investoimaan vajaakäytöllä olevaan omaisuuteen, voi alkaa tekemään sillä myös bisnestä nettialustalla. Esimerkiksi vapaa-ajan mökkiä tai matkatyön takia hankittua kakkosasuntoa voi vuokrata väliaikaisesti majoitusalustalla kuten www.airbnb.fi. Vajaakäytöllä olevaa autoa voi taas vuokrata ainakin osoitteessa www.shareitbloxcar.fi. Sittenhän on vielä www.uber.com nille, joilla on aikaa kyydittää muita ja asuu sellaisessa massa, jossa Uberin käyttö on laillista.

Näiden alustojen ilo tulee ensiksi siitä, että se tarjoaa helposti lähestyttävän markkinapaikan, jotta kysytä ja tarjonta kohtaisi mahdollisimman pienellä vaivalla. Erityisen kiehtovaa on kuitenkin niiden potentiaali motivoida ostajat ja myyjät pitkän tähtäimen peliin, joka maksimoi kaikkien osapuolten win-win voitot. Tätä havainnollistan seuraavassa majoitustoimintaan liittyvällä laskelmalla, josta saa pienillä muokkauksilla kehiteltyä myös autobisnekseen sopivan version.

Vanhan ajan majatalot

Lähdetään liikkeelle ajasta ennen internettiä tilanteeseen, jossa majoituspalvelua tarjoava pienyrittäjä majoittaa ulkomaalaisen turistin majataloonsa. On hyvin epätodennäköistä, että he kohtaisivat enää sen jälkeen, kun turisti on palannut kotimaahansa. Alla on hahmoteltu yksinkertaistettu peliteorian malli kuvaamaan yrittäjän ja asiakkaan mahdollisia toimintoja sekä niihin liittyviä hyötyjä. Hyödyt huomioivat sekä rahan, elämykset että vaivannäön. Mallissa oletetaan, että yrittäjä tekee ensin valinnan, miten hyvää palvelua tarjoaa ja asiakas sen jälkeen omasta toiminnastaan.

Peliteoriamalli ilman alustaa. Sinisissä laatikoissa ovat toiminnasta seuraavat hyödyt muodossa (yrittäjän hyöty, asiakkaan hyöty). Toimijat maksivoivat omaa hetkellistä hyötyä.

Yrittäjän perussuoritus on tarjota se mitä mainoksissa on luvattu perushyvällä laadulla. Mikäli asiakaskin tekee perussuorituksen, eli ei jätä mitään ikävää yllätystä yrittäjän siivottavaksi tai häiritse muita majatalon asiakkaita, molemmat hyötyvät kolmen hyöty-yksikön verran. Tämä on nyt normaali vapaaehtoisesta kaupankäynnistä tuleva win-win-hyöty, jota perusteltiin tarkemmin tässä kirjoituksessa.

Yrittäjä voi poiketa perussuorituksesta kahdella tavalla. Se voi tehdä pienen rimanalituksen, esimerkiksi hoitaa huolimattomasti siivouksen edellisen asiakkaan jäljiltä tai jättää huoneen kaluston pienet viat korjaamatta. Tämä säästää hieman yrittäjän vaivaa, mutta pudottaa selvästi asiakkaan kokemusta ja sitä myöten myös laskennallista hyötyä. Totaaliset munaukset kuten tuplabuukkaukset jätetään tarkastelun ulkopuolelle. Yrittäjä voi myös ”plussata”, eli nähdä vähän lisävaivaa tarjoamalla asiakkaalle jotain extraa mikä ei virallisesti kuulu hintaan, mutta selvästi nostaa asiakkaan kokemusta. Esim. kylmät juomat odottamassa jääkaapissa väsynyttä matkaajaa.

Asiakas voi myös poiketa perussuorituksesta aiheuttamalla ylimääräistä harmia yrittäjälle tai sitten auttaa yrittäjää markkinoinnissa kehumalla häntä kotopuolessa. Jos nyt elämme aikaa ennen internettiä, kehuminen on erittäin tehotonta. Vaikka turisti kovastikin hehkuttaisi kotonaan majatalon yrittäjää, on hyvin epätodennäköistä, että se realisoituisi uusiksi asiakkaiksi. Kyse on nyt yksittäisestä pienyrittäjästä eikä maailmanlaajuisesta hotelliketjusta. Kehuminen ei siis tässä kohtaa vaikuta yrittäjän tai asiakkaan hyötyihin.

Oletetaan, että toimijat ovat itsekkäitä ja keskittyvät omaan hyötyynsä. Lisäksi yrittäja myös olettaa, että asiakkaat optimoivat vaan omaa hyötyään. Kun käydään läpi ensin asiakkaan toimintavaihtoehtoja niin huomataan, että kiinnitetäänpä yrittäjän toiminta mihin lokeroon tahansa, asiakkaan ilo ja kokemukset maksimoituvat kun hän vaan nauttii elämästään täysin rinnoin, vaikka yrittäjälle jäisi iso homma jälkien siivoamiseen.

Nyt kun yrittäjä olettaa asiakkaan todennäköisesti vain sottaavan, yrittäjän hyöty maksimoituu kun hän valitsee pienen rimanalituksen (kun vertaillaan kaikkia vaihtoehtoja, joissa asiakas sotkee, 2 on yrittäjän suurin mahdollinen hyöty). Näin ollen luonnollinen paine  kohdistuu oikeaan reunaan, jossa molemmat hyötyvät 2 yksikön verran (tämä on nyt myös Nashin tasapaino). Tämä siitä huolimatta, että isompia hyötyä olisi molemmille tarjolla muualla.

Ainainen itsekkyys on toki liian synkkä ihmiskuva. Todellisuudessa osapuolten halu ottaa muitakin huomioon vaihtelee, mutta tämän ”pelin” oletuksissa oleellista on jo pelko, että toinen osapuoli keskittyy omaan hyötyynsä kaikkien yhteisen hyvän sijaan.

Suosittelut netissä

Mitäs sitten tapahtuu, kun tullaan internetin aikakaudelle? Ennen AirBnB :n yleistymistä meillä on jo ollut majoituksen arviointisivustoja kuten www.tripadvisor.com sekä sosiaalinen media. Nämä mahdollistavat tehokkaan tavan antaa palautetta palvelusta, ja ne näkyy lähes kaikkialle maailmassa. Näissä palautteissa on kuitenkin otannat hyvin vajavaisia, koska vain pieni osa asiakkaista jaksaa nähdä vaivaa palautteen julkaisuun ilman hyvin radikaalia asiaa. Ei ole myöskään poissuljettua, että jotkut yritykset muokkaisivat imagoaan palkkaamalla ihmisiä kirjoittelemaan tekaistuilla some-profiileilla positiivista itsestään ja negatiivista kilpailijoista.

Alustojen maailmassa palautetta voi antaa vain oikeasti maksusuorituksen tehneet henkilöt ja sen antaminen on tehty helpoksi. Palautetta annetaan samalla alustalla, mitä käyttäjä jo muutenkin käyttää asioinnin yhteydessä ja järjestelmä useaan otteeseen palautetta pyytää aina majoittumisen jälkeen. Lisäksi myös yrittäjät antavat palautetta asiakkaista. Katsotaan, kuinka tämä muuttaa peliämme.

Alustalla kohti pitkän tähtäimen peliä

Peliteoriamalli alustalla. Sinisissä laatikoissa ovat toiminnasta seuraavat hyödyt muodossa (yrittäjän hyöty, asiakkaan hyöty). Toimijat päätyvät maksimoimaan molempien pitkän tähtäimen hyötyä.

Kehuvaksi asiakkaaksi lasketaan pitkän palautteen kirjoittaminen, johon joutuu näkemään vaivaa yhden hyöty-yksikön verran mutta se kasvattaa yrittäjän imagohyötyä kahdella yksiköllä (ja auttaa siinä sivussa myös muita majoittujia hyvän paikan valinnassa, jos palaute on aiheesta annettu). Nyt peli muuttuu täysin. Yrittäjä tietää, että asiakas tuskin haluaa perseillä kämpässä, koska huono palaute asiakkaasta vaikeuttaa jatkossa tämän mahdollisuuksia majoittua palvelun kautta. Toisaalta yrittäjän täytyy itse pitää jatkuvasti huolta omasta imagostaan tulevien potentiaalisten asiakkaiden silmissä, joten plussaaminen on erittäin houkutteleva vaihtoehto.

Nyt tällainen pitkän tähtäimen peli muutti paineen kohti vasenta laitaa ja kaikkien osapuolien yhteishyödyn maksimointia laatikossa (4,4). Eli toiminta-alueeen kansainvälisyydestä huolimatta Rovaniemen markkinat is back!

Pienyrittäjien kilpailukyky

Ennen alustoja tai netin arvostelusivustoja kansainväliset hotellibrändit ovat saaneet yhden etulyöntiaseman, koska turisti voi turvallisin mielin valita omastakin maasta tutun hotellibrändin täysin tuntemattoman pienyrittäjän sijaan. Nettialustoilla muiden asiakkaiden kommentit tuovat pienet toimijat lähemmäksi samaa viivaa. Lainsäätäjien on kuitenkin oltava tässäkin hereillä, ettei alustalla toimivat ”kevytyrittäjät” saa liian epäreilua kilpailuetua oikeisiin yrityksiin nähden syrjivän sääntelyn takia.

Kohti käytäntöä

Tämän alkeellisen peliteoriaharjoituksen perusteella alustatalous on ainakin paperilla huikea innovaatio. Tähän asti olenkin ollut muutaman kerran majoittujana AirBnB:n tyytyväinen asiakas. Nyt olen ajatellut tulevana keväänä laittaa tyhjänä olevan sijoitusasunnon tarjolle lyhytaikaiseen vuokraukseen alustan kautta. Sitten nähdään, miten hyvin todellisen maailman havainnot tukevat kevytyrittäjän näkökulmasta tätä teoreettista päättelyä.Facebooktwitterredditpinterestlinkedinmail

Kaupankäynti on treidausta

Tulevaisuus on aina epävarmaa ja on luonnollista että meihin kohdistuu riskinkantokykyämme suurempia riskejä. Koti voi palaa tai maanviljelijän kasvattaman viljan hinta romahtaa kesken kasvatuskauden. Jotta riskiä voi korvausta vastaan jakaa useiden eri toimijoiden jaettavaksi, on rahoitusmarkkinoilla kaupankäynnin kohteena sopimuksia, esim. osakkeita, vakuutuksia ja vakuutusten lailla toimivia johdannaisia kuten optioita ja futuureita.

Tämmöisillä rahoitusvälineillä aktiivisesti kauppaa käyville treidaajille, keinottelijoille, spekulanteille tai miksi nyt ikinä heitä haluaakaan kutsua, usein tarjotaan pahiksen viittaa kun maailmalla tapahtuu jotain ikävää, minkä taustoja ei kunnolla ymmärretä. Toisinaan syytökset ovatkin täysin aiheellisia. Keitä nämä pelurit oikein ovatkaan?

Kaupankäynti riskeillä

Miltä kuulostaisi työpaikka firmassa, jossa palkkaa maksetaan vai silloin kun tuotteita on saatu myytyä jonkin rajan ylittävä määrä? Entä kun etukäteen et voi tietää, paljonko rahaa milloinkin palkkapäivänä tulee? Lisäksi firma menee konkurssiin heti kun sille tulee yksi tappiollinen vuosi. Kiitos yrityksen riskejä kantavien osakkeenomistajien, palkkatyöläiset pystyvät yleensä nukkumaan yönsä vähän rauhallisemmin jopa aloittelevassa firmoissa, missä myytävää tuotetta vielä kehitellään.

Maanviljelijä päättää viljellä keväällä peltoon vehnää, koska sen myyntihinta vaikuttaa sillä hetkellä houkuttelevalta. Mutta koko kesän ajan hän joutuu jännittämään, että mikäli vehnän hinta romahtaakin ennen syksyn sadonkorjuuta, perhe joutuu seuraavaan satokauteen asti näkemään nälkää. Onneksi hän voi ostaa rahoitusmarkkinoilta futuuri-sopimuksia, joissa toinen osapuoli ottaa riskejä kannettavakseen. Mikäli vehnän hinta on syksyllä alle jonkun tietyn raja-arvon, maksaa sopimuksen toinen osapuoli maanviljelijälle rahaa ”sijoitustuottona”.

Vakuutusyhtiöt ovat kaikista selkein esimerkki yrityksestä, jonka toimiala on kaupankäynti riskeillä. Vakuutusyhtiöistä kirjoittamalla alkoi oma bloggarin uranikin. Riskejä kaupittelee jatkuvasti lukuisat muutkin toimijat rahoitusmarkkinoilla erilaisten sijoitustuotteiden muodossa.

Jos on vakuutusyhtiön asiakas tai työntekijänä joskus valinnut kiinteän kuukausipalkan provisiopalkkion sijaan (vaikka jälkimmäisessä parempi potentiaali suuriin tuloihin), ymmärtää että on luonnollista maksaa siitä että saa omia riskejään pienennettyä. Luonnollisesti riskinkantaja pyrkii hinnoittelemaan riskit niin että jää pitkässä juoksussa voitolle vaikka yksittäisenä vuotena voikin joutua maksumieheksi.

Treidaajien strategioita

Kun kymmenisen vuotta sitten kävin aktiivisesti kauppaa urheiluvedonlyöntimarkkinoilla, saattoi oma riskipositio olla jalkapallo-otteluun seuraavanlainen: kaikilla muilla lopputuloksilla tulee voittoa, mutta ennakkosuosikin tasan yhden maalin voitolla tulee tappio. Tällaiseen päätyy esimerkiksi pelaamalla altavastaajan voittoa ja tasapeliä normaaliin eurooppalaiseen tyyliin ja lisäksi ennakkosuosikkia aasialaiseen tasoitusvetoon. Nämä vedot kumoavat toistensa riskejä isolta osin. Ennakkosuosikin yhden maalin voiton todennäköisyys on aika luotettavasti tilastojen avulla arvioitavissa ja siten riski on laskelmoitu. Riski kannattaa ottaa kantaakseen, mikäli saatavilla olevat kertoimet ovat riittävän suuret.

Vastaavasti rahoitusmarkkinoilla pätevimmät treidaajat voivat hyödyntää esim. osake- ja optiomarkkinoiden välisiä epätasapainohintoja niin että useiden riskien kumoutumisen jälkeen jäljelle jäävät pienemmät riskit ovat ymmärrettäviä ja riittävällä tarkkuudella arvioitavissa. Parhaimmillaan riskit saadaan kokonaan kumottua hyödyntämällä saman arvopaperin hintaeroja kahden eri pörssin välillä. Jotkut spekulantit taas ovat poikkeuksellisen taitavia tunnistamaan kun joku osake on hetkellisesti jostain syystä alihinnoiteltu ja myy pian pois hinnalla joka hieman useammin on kalliimpi kuin halvempi. Kukaan ei ole aina oikeassa.

Itse suosin sijoittamisessa passiivisempaa riskien kantamista, joten en ole oikea henkilö tarkemmin kertomaan aktiivisten kaupankävijöiden työkaluboksista. Sen uskallan kuitenkin sanoa, että menestyminen vaatii vahvaa todennäköisyysmatematiikan ja tietotekniikan taitoja. Talouden lainalaisuuksien ymmärtämisen ja päivittäisen ruudun tuijottamisen ohella. Vaikken itse ole kokenut treidaamista järkeväksi ajan käytöksi kuin hyvin harvoin joissain yrityskauppatilanteessa, on mielenkiintoista kuitenkin vähän seurata sivusta esimerkiksi nimimerkin ”Daytrader” kirjoittamaa blogia ja aktiivisen twiittaajan Jarmo Frimanin (@JarmoFriman) ajatuksia.

Treidaajat reiluuttavat hintoja

Riskinhallintavälineillä käydään kauppaa siinä missä muillakin hyödykkeillä. Myös tavaroiden maahantuojat ostavat sieltä, mistä saavat halvalla ja myyvät siellä missä maksetaan enemmän. Sekä alkuperäinen myyjä, että lopullinen ostaja hyötyvät koska heidän olisi vaikea kohdata toisiaan ilman maahantuojan huseerausta välissä.

Kolmea suurta suomalaista metsäyhtiötä epäiltiin kartellista, eli laittomasta sopimuksesta polkea yhdessä raakapuun markkinahintoja epäluonnollisen alas Suomessa. Helsingin käräjäoikeus hylkäsi vasta syytteet (Ylen raportti) . Mikäli tällainen kartelli todellisuudessa tapahtuisi ja pysyisi salassa, olisi metsänkasvattajien kannalta toivottavaa että puukauppa-bisnekseen ilmaantuisi uusi peluri. Tällainen peluri voisi laskea, että hän saisi puut myytyä hintaan X ulkomaille ja vaikka hän tarjoaa metsänkasvattajille selvästi kartellifirmoja parempaa hintaa puutavarasta, hän jäisi kuljetuskustannusten jälkeen voitolle. Sitten kun isojen firmojen kartelli alkaa rakoilemaan ja hekin alkavat tarjoamaan reilumpia hintoja puunkasvattajille, peluri voisi poistua muille markkinoille. Puukauppabisneksessä investoinnit taitavat olla kuitenkin sitä luokkaa, ettei kovin helposti pelurit tule pikaisesti pyörähtelemään.

Erilaiset arvopaperit liikkuvat verkossa kitkattomasti ja kaupankäyntikulut ovat rahoitusmarkkinoilla nykyään pienet, joten matemaattisesti ja tietoteknisesti taitavien pelureiden kannattaa iskeä pieneenkin väliin. Tämä painaa hintojen muodostumisen varsin tehokkaaksi ainakin tällaisen keskivertosijoittajan näkökulmasta. Tehokkaasta hinnanmuodostuksesta hyötyvät monet toimijat.

Esimerkiksi yritys, joka maksaa palkat Suomessa Euroilla, mutta myy tuotteensa pääasiassa USA:ssa, altistuu valuuttakurssiriskille. Yritys on pahoissa ongelmissa, mikäli Euron hinta kallistuu reilusti Dollariin nähden. Yrityksen toimiala ei ole valuuttariskien kantaminen eikä tehdä voittoja valuuttakauppiaana. He haluavat vaan keskittyä ydinbisnekseen ja suojautua turhilta valuuttariskeiltä johdannaisten avulla. On yrityksen omistajien ja työntekijöiden onni, että aina tarvittaessa talousosasto saa reiluilla hinnoilla ostettua rahoitusmarkkinoilta tavitsemaansa valuuttajohdannaista neutralisoimaan turhia riskejä.

Suurin osa meistä ei voi pärjätä treidaajana

Toiset ostavat auton ajaakseen sillä koko 20 vuoden elikaaren, toiset vaihtavat autoaan parin vuoden välein. Molemmat ryhmät tekevät kauppaa silloin tällöin tarpeen mukaan, mutta vain harvojen kannattaa aktiivisesti ostella autoja vain myydäkseen ne kalliimpaan hintaan eteenpäin. Kun markkinoilla on riittävä määrä autokauppiaita aidon kilpailutilanteen synnyttämiseen niin autojen hinnoittelu pysyy suht järkevänä ja satunnaiset kaupankävijät voivat luottaa ettei heitä ainakaan mielinmäärin vedätetä käydessään kauppaa autokauppiaiden kanssa.

Osakesijoittaminen on pitkällä kymmenien vuosien tähtäimellä plussummapeliä (arvonluontiprosessista taustalla puhuin tässä kirjoituksessa), mutta mitä lyhyempi omistusaika oston ja myynnin välillä, sitä lähempänä ollaan nollasummapeliä. Nollasummapelissä voitot tuppaa keräämään aivan terävin kärki ja muut joutuvat maksajiksi. Toki aktiivinen kaupankäynti osakkeilla voi olla myös jännittävä harrastus, mutta ansaitsemismielessä useimpien sijoittajien kannattaa pysytellä kärsivällisenä passiivisen puoleisena toimijana. Samoin kuin autokin ostetaan yleensä pidemmän ajanjakson hyötyjen vuoksi ja vain pieni ryhmä erikoistuneita autokauppiaita myy niitä heti eteenpäin ja elättää kaupankäynnillä itsensä.

Erona autokauppaan tulee vielä se, että käytettyjen autojen kauppias voi sentään luoda jotain lisäarvoja kunnostamalla autoa välissä. Osakemarkkinoilla tätäkään mahdollisuutta ei ole.

Vaarallista spekulointia

Riskiä siirtäviin rahoitustuotteisiin liittyy myös paljon ongelmia. Rahoitustuotteita asuntolainoista monimutkaisiin johdannaisiin käytettiin massiivisesti väärin kymmenen vuoden takaisen USA:n asuntokuplan ja siitä seuranneen romahduksen aikana. Tarinaa kävin jo läpi aiemmassa blogikirjoituksessa, mutta seuraavassa muutama esimerkki:

  • Pienituloiset asunnon ostajat – ottivat velanhoitokykyynsä nähden aivan liian suuria asuntolainoja ja paisuttivat asuntokuplaa
  • Luottoluokittajat – arvioivat pieleen asuntolainoista paketoitujen sijoitustuotteiden riskit joko ammattitaidottomuuttaan tai korruption seurauksena
  • Pankit ja muut suursijoittajat – eivät ymmärtäneet, mitä riskejä ottivat kantaakseen asuntovakuudellisissa velkakirjoissa vaan luottivat sokeasti luottoluokittajien arvioihin
  • Vakuutusyhtiö AIG – piilotteli kauppakumppaneiltaan omia asuntomarkkinoihin liittyviä johdannaisriskejään tytäryhtiössään ja riskien toteutuessa veronmaksajat joutuivat tämän ”too big to fail”–firman (koko talousjärjestelmä olisi vaarassa romahtaa, jos tällaisen firman antaa mennä konkurssiin) tappioita maksamaan.

Näissä esimerkissä tulikin jo kattavasti rahoitustuotteiden väärinkäyttämisen kirjo:

  • Ei oteta kunnolla selvää, mille riskeille altistutaan
  • Otetaan kannettavaksi omaan varallisuuteen nähden liian isoja riskejä
  • Käytetään holtittomasti velkavipua
  • Harhaanjohdetaan muita kaupan osapuolia

Rahoitustuotteiden alkuperäinen tarkoitus on kumota riskejä ja siirtää niitä sellaiselle, jotka pystyvät niitä kantamaan. Hyvät treidarit pyrkivät minimoimaan riskejään ja kantavat lopulta vain laskelmoituja riskejä joiden tappiot pystyvät, jos ei hymyssä suin, niin ainakin naama peruslukemilla maksamaan. Heidän toiminta vakauttaa taloutta ja painaa hintoja lähelle reiluja sellaisia.

Valitettavasti markkinoille ilmaantuu aika-ajoin laumoittain riskeillä sekoilevia sankareita, jotka pyrkivät äkkirikastumaan ottamalla kantokykyään huomattavasti suurempia riskejä. Nämä pilaavat myös fiksujen, pitkäjänteisesti riittävällä varovaisuudella puurtavien, riskinkantajien maineen. Toivottavasti finanssikriisin tapahtumista oltaisiin jotain opittu. ”too big to fail” -firmat eivät kuulu reiluun yhteiskuntaan vaan jokaisella sijoituspäätöksiä tekevällä toimijalla pitää olla oma nahka pelissä. Myös tappioiden realisoituessa.

Statistickon steesit

  • Riskiä siirtävillä rahoitustuotteilla käydään kauppaa siinä missä muillakin hyödykkeillä
  • Hyvillä treidaajilla oman konkurssiriskin minimointi on ensimmäinen tavoite ja tuotto vasta toinen
  • Oman kantokyvyn ylittävien riskien ottaminen äkkirikastumisen toivossa on rahoitustuotteiden väärinkäyttöä
  • Parhammillaan treidaamien auttaa vähentämään riskikeskittymiä ja painamaan hintoja reilummiksi
  • Suurimmalla osalla sijoittajista ei ole mahdollisuuksia pärjätä treidaajana

Facebooktwitterredditpinterestlinkedinmail

Datan määrä ei korvaa ymmärrystä

Kun valtamedioista lukee jotain big dataan tai tekoälyyn liittyvää, mielikuvaksi datan ennakoivasta analyysistä voi usein jäädä jotain seuraavaa: ”pitää vaan olla massiivinen läjä dataa niin neuroverkot ja muut koneoppimisalgoritmit kyllä taikovat automaagisesti suurta viisautta”. Tähän väliin ajattelin tuoda nyt esiin vähän toista puolta sopan aineksista. Jossain kohtaa nimittäin edelleen tarvitaan tutkittavan ilmiön ymmärtämistä dataa pursuavista tietokannoista ja fiksuista koneoppimisalgoritmeista huolimatta.

Kurssisuoritusten ennustaminen

Viestin havainnollistamista auttakoon meitä kuvitteellinen tarina kahdesta Data Scientististä, Laiska-Latesta ja Nysvä-Niilosta. Molemmille on annettu tehtäväksi kehittää algoritmi, joka ennustaa etukäteen ketkä pääsevät läpi erään opiston valinnaisen kurssin kokeesta. Koe on vaikea ja se on pisteytetty niin, että vain puolet yrittäjistä pääsevät läpi. Opisto kouluttaa naisvaltaiselle alalle ja opiskelijoiden sukupuolijakauma on vuodesta toiseen suurin piirtein 80% naisia ja 20% miehiä.

Laiska-Late löytää opiston nettisivuilta kurssilaisista valmista dataa menneiltä vuosilta seuraavista tiedoista:

  • kokeen läpäiseminen
  • kurssin aikana kerätyt harjoituspisteet
  • sairauspoissaolot oppitunneilta

Tietosuojasyistä oppilaiden nimiä tai muita taustatietoja ei ole kuitenkaan tallennettu. Kaikki henkilötiedot on vain korvattu ID-numerolla. Havaintoja on kuitenkin iso  määrä tähän tarkoitukseen.

Erilaisten mallien kokeilun ja validointien jälkeen Latelle jää vielä 5000 havaintoa lopulliseen parametrien optimointiin. Hän päätyy logistiseen regressiomalliin, jossa kokeen läpäisyä (kyllä/ei) ennustaa kurssin aikana kerätyt harjoituspisteet. Sairauspoissaolo-tiedosta ei ollut hyötyä ennustamisessa.

Harjoituspisteiden ja kokeen läpäisemisen riippuvuussuhdetta kuvaa oheinen viiksilaatikko – kuvaaja, mistä näkyy että kokeen läpäisseillä on keskimäärin VÄHEMMÄN kerättyjä harjoituspisteitä. Late ei tähän takerru, koska data puhuu  tämän puolesta ja ero on selvästi tilastollisesti merkitsevää. Tähän riippuvuussuhteeseen perustuu hänen ennustusmallinsa ja siinä on kaikki mitä näillä tiedoilla on tehtävissä.

Nysvä-Niilo lähestyy ongelmaa hieman eri polkua. Hän aloittaa tutkimalla tarkemmin, mitä kurssi ja erityisesti loppukoe pitää sisällään ja jalkautuu opistolle jututtamaan opiskelijoita. Tässä alkukartoituksessa selviää ensinnäkin, että koe sisältää myös fyysistä nopeutta ja voimaa sisältäviä osuuksia. Näin ollen voisi veikata, että opiston miesopiskelijoilla olisi etulyöntiasema naisiin nähden. Toinen keskusteluissa esiin tullut huomio on, että naiset vaikuttavat miehiä tunnollisemmilta tekemään harjoitustehtäviä. Niilokin tietää nettisivuilla tarjolla olevasta datasetistä, mutta koska näkee sukupuolen niin tärkeänä tekijänä ilmiön kokonaisuutta hän päättää alkaa nysväämään ja keräämään seurantatutkimuksella dataa opiskelijoiden harjoituspisteitä, koemenestyksestä ja sukupuolesta. Rajallisten resurssien ja aikataulun vuoksi hän saa kasaan vain 200 havaintoa. Nämä havainnot kuitenkin tukevat Niilon alustavaa hypoteesia siitä, että sukupuoli selittää sekä koetulosta, että harjoituspistemääriä. Oheinen graafi kuvaa Nysvä-Niilon näkemystä oleellisista ilmiöön liittyvistä oleellisista riippuvuussuhteista.

Niilo käyttää myös ennustealgoritminaan logistista regressiota, mutta Laten malliin lisäyksenä on sukupuoli toisena selittäjänä ja dataa vain 200 havaintoa.

Niilon datalla piirretään harjoituspisteiden ja läpäisyjen yhteyttä kuvaava graafi, mutta sukupuolittain eriteltyinä niin huomataan, että sukupuoliryhmissä kokeessa hyväksytyt ovat tehneet keskimäärin hieman ENEMMÄN harjoituksia. Tämähän vaikuttaa ristiriitaiselta Laiska-Laten tulokseen verrattuna. Onko se vain sattumaa, koska Nysvä-Niilon aineisto on niin pieni? Sekin voisi olla mahdollista, mutta tässä tapauksessa ei (tiedän, koska olen itse simuloinut aineiston). Harjoituspisteet ennustavat kyllä parempaa menestystä kokeessa, mutta koska fyysisten elementtien takia kokeessa alakynnessä olevat naiset ovat paljon tunnollisempia harjoitusten tekijöitä, näyttäytyy riippuvuussuhde päinvastaisena silloin kun sukupuolta ei huomioida. Tällaista kolmen muuttujan riippuvuussuhdetta kutsutaan Simpsonin paradoksiksi (linkki Wikipedian artikkeliin).

Kuinkas sitten käykään Laten ja Niilon ennusteille tositoimissa? Meneekö Laten ennusteet täysin päin mäntyä? Ei välttämättä. Vanha viisaus (en muista kenen) sanoo, että ”Vaikkei joku korrelaatio johtuisi kausaliteetista, voi siitä silti olla hyötyä ennustamisessa”. Seuraavana vuonna kurssille osallistuu 500 henkilöä ja näille ennustetarkkuudet ovat seuraavat:

Laiska – Late: 65%

Nysvääjä – Niilo: 68%

Unelmatilanteessa meillä olisi paljon sekä ymmärrystä että dataa. Nyt molemmilla on vain toinen puoli kunnossa. Sen minkä Niilon ennusteet voittavat hyödyllisen sukupuoli-muuttujan on mittaamisella, hän häviää siinä, että vain 200 hengen otoksella hänen mallinsa parametreissa on epätarkkuutta. Molemmat kuitenkin pärjäävät selvästi kolikonheittoa paremmin, joten jotain lisäarvoa he ovat tuoneet.

Iso uutinen tulee kuitenkin vasta seuraavana vuonna. Voimaan tulee uusi asetus, jonka johdosta tasa-arvon nimissä opiston on otettava sisään yhtä paljon miehiä ja naisia. Tämän uudistuksen jälkeisellä 500 kurssilaisen ennusteilla ennustealgoritmien erot repeävät.

Laiska – Late: 58%

Nysvääjä – Niilo: 67%

Algoritmeissa oli piilotettuna oletus ”kaikki muut ilmiöön vaikuttavat asiat pysyvät samankaltaisena”. Nyt sukupuolijakauman muutos rikkoo tämän oletuksen Laten algoritmin kohdalla ja tältä algoritmilta lähti matto alta. Se voittaa lantinheiton enää vaivoin. Niilon syy-seuraus -suhteita paremmin ymmärtävässä mallissa sukupuoli oli huomioitu, joten se ei uudesta asetuksesta juuri hetkahda.

Mitä pitää vähintään tietää?

Edellä kerrottu esimerkki oli tarkoitushakuinen ja äärimmäistapaus. Toivottavasti se kuitenkin havainnollisti vaaranpaikkoja silloin kun emme ymmärrä havaintojen muodostumisen taustaprosessia. Sen lisäksi, että algoritmin kehittäjä hehkuttaa ennusteiden tarkkuutta käytössä olevalla datalla, hänen pitäisi pystyä vastaamaan myös ainakin seuraaviin kysymyksiin:

  • Missä olosuhteissa algoritmia on turvallista soveltaa ja missä ei?
  • Osaako algoritmi opettaa itseään ja milloin algoritmi pitää kouluttaa täysin uusiksi?

Hyödyllisiä työkaluja

Tarkoitukseni ei ole kuitenkaan yleisesti mollata suurten datamassoja ja niiden päälle rakennettujen koneoppimisalgoritmien hyötyjä. Nämä nimittäin mahdollistavat todella siistejä työkaluja kuten vaikka eläinlajin tunnistamista kuvasta tai kielen koneellista ymmärrystä. Molemmat ilmiöt sopivat hyvin ”black-box” algoritmien (soveltaja ei ymmärrä tarkalleen mihin algoritmi ennusteensa perustaa) maailmaan, koska ne ovat hyvin stabiileja. Vaikka kieli pikkuhiljaa kehittyy ja joidenkin sanojen merkitys vuosikymmenten saatossa muuttuu, on vaikea kuvitella miksei tänään koulutettu puheentunnistaja voisi toimia lähes yhtä hyvin myös vuoden päästä. Kissan ja koiran piirteiden muuttumista joutuu odottamaan vieläkin kauemmin.

Weapons of math destruction

Suurimmat vaarat pelkkään isoon datamassaan ja sen korrelaatioihin luottavaan ”black-box”-algoritmiin tulevat esille, kun se koskee ihmisen luokittelua tai arvottamista. Silloin meillä on käsillä kohonnut riski, että olemme luomassa algoritmia, jota matemaatikko Cathy O’Neil kutsuu termillä ”Weapon of math destruction” (TED-talk aiheesta). Tällaiset tuho-algoritmit ovat rasistisia tavalla, jota algoritmin käyttäjät eivät ymmärrä. Esimerkiksi USA:laisessa pankissa voitaisiin arvioida asiakasehdokkaiden luottokelpoisuutta automaattisesti heidän lainahakemustensa perusteella. Algoritmi mm. hyödyntää isossa datamassassa havaittua korrelaatiota hakemusten kirjoitusvirheiden määrän ja maksuhäiriömerkintöjen välillä. Nyt lainaa voisi olla hakemassa suomalainen insinööri, joka on 23-vuotiaana muuttanut USA:han suorittamaan jatko-opintoja. Hän on erittäin tunnollisesti aina hoitanut velvoitteensa, mutta joutuu syrjityksi asuntolainamarkkinoilla vain koska hän tekee maahanmuuttajataustaisena keskimääräistä amerikkalaista enemmän kielioppivirheitä.

Kielioppivirheet tuskin kuitenkaan ovat aito syy maksuhäiriöille vaan näiden takaa löytyy yhteisiä taustatekijöitä. Kun kaikkia aitoja selittäjiä taustalla ei pystytä mittaamaan, auttavat näennäisetkin korrelaatiot parantamaan ennustetarkkuutta isossa joukossa. Harmi vaan niille jotka joutuvat aiheetta kärsimään siitä, että juuri tähän näennäiskorrelaatioon sattui algoritmi tarraamaan.

Loppusanat

Ennustusalgoritmien rakentamisessa toivottavaa olisi olla hyvä tieteellinen ymmärrys ilmiöstä ja paljon tarkasti mitattua dataa kaikista oleellisista muuttujista. Käytännössä tutkittavat ilmiöt tuppaavat olemaan niin monimutkaisia, ettei kaikkien oleellisten muuttujien mittaaminen ole aina mahdollista. Suurikaan havaintojen määrä ei pysty täysin korvaamaan puutteita muuttujissa, mutta ajassa stabiileihin ilmiöihin voi silti rakentaa korrelaatioihin perustuvia hyödyllisiä algoritmeja. Nämä algoritmit ovat kuitenkin vain työkaluja, joiden ohjaksissa olevien pitää ymmärtää työkalunsa rajoitteet.

Ymmärrykseen pyrkivän analytiikan nostaminen jalustalle voi olla osaltani vääristynyttä hehkutusta, koska oma osaamiseni ja mielenkiintoni on sinne päin kallellaan. On siitä kuitenkin puhuneet muutkin Data Scientistit, vaikkakin lähinnä marginaalisimmissa medioissa. Tässä blogikirjoituksessa Manish Tripathi maalailee datan analysoimisen tulevaisuutta ja viesti tiivistettynä kuuluu: koneoppimisalgoritmin koulutus tulee automatisoitumaan ja pelkästään sen parissa työskentelevät Data Scientistit alkavat kohtapuoliin menettämään työpaikkojaan. Sen sijaan syy-seuraus-suhteita ymmärtävistä Data Scientisteista tulee olemaan pulaa.

Ja loppuksi vielä lainaus Hilary Masonilta tästä podcastista: ”You cannot do AI without machine learning, you cannot do machine learning without data science and you cannot do data science without analytics”Facebooktwitterredditpinterestlinkedinmail