korrelaatio | Statistition

Talouskasvun pelko

Posted by :Statisticko On : 30.12.2016

0

Tags:bruttokansantuote, data, korrelaatio, kulutus, päästöt, talouskasvu, öljy

Mitä on talouskasvu? ”Sehän on jotain rahamiesten hämärää touhua, mikä lisää saasteita maailmassa.” Jotain tämän tyyppistä oli omat käsitykseni asiasta vielä alle kymmenen vuotta sitten.

Talouskasvun ja päästöjen yhteys

Viittaus saasteisiin ei ole täysin tuulesta temmattu. Talouskasvun mittarina käytetään yleensä BKT:ta eli bruttokansantuotetta (eng. gross domestic pruduct, GDP). Se kertoo tiettynä vuonna valtiossa valmistettujen tuotteiden ja palvelujen arvon. Tosin vain sellaisen tuotannon, josta jää kaupankäyntijälki kirjanpitoihin.

Turvaudutaan jälleen huikeaan Gapminder -datapankkiin ja katsotaan kuinka bruttokansantuote ja hiilidioksidipäästöt ovat kehittyneet Suomen historiassa 1900-luvulla. Pysäytetään tarkastelu vuoteen 1980. Vaaka-akselilla on bruttokansantuote (inflaatiokorjattu) henkeä kohti ja pystyakselilla hiilidioksidipäästöt henkeä kohti. Kuvaajassa tumman keltaisina palloina näkyy Suomen kehitys molemmilla mittareilla yhtä aikaa.

Suomen BKT ja CO2-päästöt henkeä kohti 1900-1980

Siltähän se näyttää, mitä jo aavisteltiinkin. Sitä mukaa kun BKT on kasvanut, ovat myös hiilipäästöt lisääntyneet. Positiivinen korrelaatio näyttää ilmeiseltä. Blogia pidempään seuranneet jo varmasti tietävätkin että ilman ilmiön taustoihin syventymistä korrelaation perusteella ei pidä vetää johtopäätöksiä syy-seuraus-suhteista. Tässä tapauksessa saan rakennettua mielestäni uskottavan yhteyden: 1900-luvulla talouskasvun yksi suurista voimista on ollut hiilipohjaisten energialähteiden hyödyntäminen.

Suomen sekä USA:n BKT ja CO2-päästöt henkeä kohti 1900-2013

Jatketaanpa sitten aikamatkailua tästä eteenpäin aina vuoteen 2013 asti (aivan viimeisistä vuosista 2014-2016 ei ollut dataa tarjolla). Otetaan nyt vertailun vuoksi mukaan myös USA:n kehitys. USA:n kehitystä kuvaa vihreät pallerot.

Nyt nähdäänkin ehkä yllättävä havainto. Viimeiset 30 vuotta BKT on jatkanut kasvuaan vuoteen 2008 asti, mutta hiilipäästöt per henkilö on polkenut paikallaan. Tämä ei ole pelkästään suomalainen ilmiö vaan aivan sama näkyy myös USA:ssa. Voisiko olla niin, että jotain on muuttunut näiden maiden ihmisten käyttäytymisessä ja yhteys on katkennut?

Hiipuva korrelaatio

Toki on muistettava, että vaikka nuppikohtaiset päästöt ovat pysyneet samalla tasolla, väestönkasvun myötä kokonaispäästöt ovat tälläkin aikavälillä kasvaneet. Töitä ilmastotalkoissa on siis edelleen tehtävänä. Optimistina kuitenkin näen syitä, miksi jatkossa päästöt voivat laskea, vaikka talous kasvaisikin. Näitä ovat esimerkiksi

investoinnit uusiutuvaan energiaan
kulutustottumusten muuttuminen fyysisestä materiasta sähköisiksi palveluiksi
jakamistalouden kehitys

Jatkossa itsensä viihdyttämiseen riittää pieni älypuhelin sekä VR-lasit, joihin sisältö tulee esim. Spotifylta ja Netflixiltä. Puhelimen akku latautuu aurinkoenergialla. Vertaa materian ja energian tarvetta massiivisiin kotiteatterivehkeisiin ja kirjahyllylliseen DVD- ja CD-levyjä. Toinen esimerkki on Uber (tai joku muu edullinen kyytipalvelu) ja autojen ”vertaisvuokraus” -palvelut, jotka vähentävät jatkossa tarvetta auton omistamiseen. Jokainen voi miettiä listalle jatkoa omien viime aikoina muuttuneiden kulutustottumusten perusteella. Lopulta me kuluttajat valinnoillamme päätetään, mitä meidän tarpeiden täyttämiseksi tuotetuista palveluista jää pysyvästi käyttöön.

Talouskasvu ja työ

Nykyään näen talouskasvun asioina jotka mahdollistavat sen, että saamme tarpeemme hyvin tyydytettyä ja aikaa jää elämässä myös taiteelle, tieteelle, urheilulle ja sosiaaliseen elämään. Talouskasvun ansiosta perheiden ei enää toimeen tullakseen tarvitse rehkiä yötä päivää pellolla ja navetassa. Mikäli niin hyvin kävisi, että tulevaisuudessa yhteiskunta pyörisi vieläkin paremmin vähemmällä ihmistyöllä, ratkaistavaksi jää kysymys töiden järkevästä jakamisesta. Mikäli jollain alalla on kiveen hakattuna: ”Yhden henkilön työviikko on 38 tuntia + ylityöt ja sillä sipuli”, jakautuvat alan työntekijät karkeasti kahteen kastiin:

Ylikuormitetut työntekijät, jotka ansaitsevat enemmän kun oikeasti tarvitsisivat kulutukseen ja laiminlyövät perhettään läsnäolon puutteella.
Pitkäaikaistyöttömät, jotka eivät pääse kehittämään ammattitaitoaan käytännössä ja kykenevät tarjoamaan (yhteiskunnan talouskasvusta huolimatta) perheelleen vain niukan sosiaaliturvaan varaan rakennetun toimeentulon.

Kummallekaan ihmisryhmälle tilanne ei ole optimaalinen vaan kannattaisi etsiä eri osapuolia hyödyttäviä tapoja vähentyneiden töiden jakamiseen.

BKT mittarina

Bruttokansantuote on valittu talouskasvun mittariksi ilmeisesti sen yksinkertaisuuden takia, mutta se ei ole täydellinen. Omaa alaa läheltä löytyy esimerkkinä vaikkapa avoimen lähdekoodin algoritmit. Näitä syntyy esim. tutkijoilta tutkimusartikkelin sivutuotteena tai koodareiden harrastusten/vapaaehtoistyön puitteissa. Niiden levittyminen ei näy BKT-laskelmissa, mutta ovat yksi talouskasvua edistävä voima modernissa maailmassa. Alan miehenä kovasti tykkään hokemasta ”data on uusi öljy” ja siten varmaankin ”analyysialgoritmit ovat uusia moottoreita”.

Talouskasvussa ei siis ole itsessään mitään pelättävää. Yhteiskunnan rakenteiden pitää vaan pysyä kehityksessä mukana ja negatiiviset ulkoisvaikutukset kuten ympäristön tärveleminen täytyy pitää kurissa esimerkiksi saastuttamiseen kohdistuvan verotuksen avulla.

Statistickon steesit

Talouskasvu itsessään on hyvä asia, vaikka se joinan ajanhetkinä korreloisikin ikävien asioiden kanssa
Korrelaatiot eivät ole aina ikuisia

Aiheeseen liittyväksi lisälukemiseksi suosittelen:

Trendikkäät riippuvuussuhteet

Posted by :Statisticko On : 29.4.2016

0

Category: Tutkimukset

Tags:aika, aikasarja, autokorrelaatio, kausaliteetti, korrelaatio, riippuvuustutkimus, tilastotiede, trendi

Vieläkö muistat, mikä yhteys on uima-altaaseen hukkumisella ja Nicholas Cagen elokuvaesiintymisillä? Vastaus on että eipä juuri mikään, mutta silti niiden välille on mahdollista havaita keskinäistä riippuvuussuhdetta mittaavaa korrelaatiota. Aiemmassa blogikirjoituksessa havainnollistin kuinka korrelaatioita pompsahtelee esiin vain sattumalta kun tarpeeksi montaa eri muuttujaparia kokeillaan. Seuraavassa pureudutaan yleiseen hämäävien korrelaatioiden lähteeseen; aikaan.

Korrelaatio ja aikatrendit

Otin Gapminder –datapankista tiedot Lapsikuolleisuudesta Kiinassa (alle 5v kuolevia per 1000 syntymää) ja Sähkön käytöstä Suomessa (kWh per asukas). Molemmista löytyi dataa vuosilta 1960-2011. Nämä ovat tarkoituksella haetut muuttujat, joilla ei pitäisi olla mitään tekemistä toistensa kanssa. Eihän meillä voi olla niin huono säkä, että data näyttäisi silti niiden välille korrelaatiota? Katsotaan muuttujien välistä sirontakuviota oikealla.

Suomen sähkönkulutuksen ja Kiinan lapsikuolleisuuden sirontakuvio

Vaikuttaisi kuitenkin siltä, että silloin kun Suomessa on korkea sähkönkulutus, niin Kiinassa lapsia kuolee vähemmän. Korrelaatiokerroinkin -0.84 vahvistaa saman: muuttujien välillä on vahva negatiivinen lineaarinen yhteys. Pitäisikö tästä nyt tulkita, että mikäli haluamme pelastaa kiinalaisia lapsia, niin pitää heti laittaa uuni ja sähkösauna päälle?

Tutkitaan seuraavaksi molempien muuttujien kehitystä ajassa erikseen.

Lapsikuolleisuuden ja sähkönkulutuksen aikatrendit

Nähdään, että Kiinan lapsikuolemissa on ollut selvä laskeva trendi ja suomalaisten sähkönkulutuksessa selvä nouseva trendi. Omituinen korrelaatio näiden muuttujien välillä ei selity tällä kertaa sattumalla vaan yhteisellä taustatekijällä, mikä on nyt aikatrendi. Koska trendit ovat erisuuntaiset, korrelaatiokerroin on negatiivinen.

Tutkitaan sitten alkuperäisten havaintojen sijaan muutoksia edelliseen aikapisteeseen verrattuna. Näin saadaan trendit eliminoitua havainnoista, kuten kuvaajista nähdään.

Muutosmuuttujien kehitys ajassa

Näiden muutosmuuttujien välille laskettu korrelaatiokerroin on -0.03. Tämä on niin lähellä nollaa että voimme turvallisesti sanoa ettei Suomen sähkönkulutuksen muutoksella ole mitään yhteyttä saman vuoden Kiinan lapsikuolleisuuden muutokseen. Varmistetaan asia vielä piirtämällä sirontakuvio ja havaitsemalla ettei yhteistä systematiikkaa löydy.

Muutosmuuttujien sirontakuvio

Autokorrelaatiot

Myöskään trendittömien muuttujien aikahavaintojen tutkiminen ei ole aivan yksinkertaista. Mikäli olemme kiinnostuneita epävarmuudesta ja korrelaation tilastollisesta merkitsevyydestä, usein päävaivaksi tulee autokorrelaatio. Tällä tarkoitetaan sitä että saman muuttujan peräkkäiset havainnot korreloivat keskenään. Perusmenetelmiin liittyvä oletus riippumattomasta satunnaisotoksesta ei nyt päde ja kahden autokorreloituneen muuttujan riippuvuuden tutkimiseen on parempi käyttää esim. vektoriaikasarja-malleja.

Tilastoja tutkimaan

Lopuksi pitää vielä kehua datapankkia, josta lapsikuolleisuus ja sähkönkulutusdatat ovat haettu. Sivustolta löytyy läjäpäin muutakin terveys-, talous- ja muuta yhteiskunnallista dataa ympäri maailmaa ja niitä voi kätevästi graafisesti tutkailla tällä sivustolla. Mutta pidäthän tämän blogin opetukset mielessä ennen kuin vedät johtopäätöksiä liittyen syy-seuraus suhteisiin. Lopuksi voi vielä viihdyttää itseään käymällä tsekkaamassa vanhaa sivua, jossa on koottuna huumorikorrelaatioita. Nyt pitäisi olla valmiudet perustellusti spekuloida jokaisen kuvaajan kohdalla, johtuuko korrelaatio

jostain yhteisestä taustamuuttujasta
aikatrendistä
sattumasta
aidosta riippuvuussuhteesta
vai jostain edellisten yhdistelmästä.

Statistickon steesit

Aikatrendi on yleinen taustatekijä, joka selittää kahden muuttujan näennäisen riippuvuuden
Ajassa itsensä kanssa korreloituneita muuttujia tulee syvällisemmin analysoida aikasarja- tai pitkittäistutkimusmenetelmillä
Maailma on täynnä mielenkiintoisia tilastoja, mutta niitä on helppo ymmärtää väärin

Tuloerot ja taustatekijöiden hallinta

Posted by :Statisticko On : 30.11.2015

1

Category: Tutkimukset, Yhteiskunta

Tags:korrelaatio, köyhyys, riippuvuustutkimus, taustatekijät, tuloerot, valinnanvapaus

Julkisessa talouskeskustelussa pistää silmään usein tuloerojen korostaminen ongelmana, johon pitää erityisesti puuttua. Olen yrittänyt miettiä logiikkaa tämän taustalla. Koska eri ammattien vaatimukset ovat varsin erilaisia ja lisäksi ihmisten halukkuus tehdä tietyntyyppistä työtä poikkeaa paljon niin eikö ole luonnollista, että hintamekanismi myös palkitsee toisista töistä enemmän kuin toisista? Näin hinnat ohjaavat päteviä työntekijöitä hyvin tarpeellisten, mutta vaativien ja/tai yleisesti epämieluisten töiden pariin.

Tavoitteiden tärkeysjärjestys

Voisiko köyhimpien olojen parantaminen olla tärkeämpi tavoite kuin itseisarvoinen taistelu tuloerojen kaventamiseksi? Itse en ainakaan ole huolissani 2500€/kk tienaavasta vaikka kuinka hänen naapurinsa tienaisi 7500€. Sen sijaan huolestuttavampia ovat ihmiset, joilla on vaikeuksia täyttää elämisen perustarpeita.

Silloin ongelma on iso, mikäli ihmisten vapaudessa valita eri ammattien välillä on suuria eroja. Esimerkiksi hyvin palkattuihin, korkeisiin virkoihin ei voisi päästä ilman sopivia sukulaisuussuhteita tai kouluttautuminen ei olisi suuresta motivaatiosta huolimatta mahdollista kuin rikkaiden perheiden lapsille. Myös lisensioitumista vaativissa ammateissa (esim. lääkärit ja juristit) voi päästä palkkaneuvotteluissa epäreiluun asemaan, jos koulutuspaikkojen määrät ovat alimitoitettuja tarpeisiin nähden.

Tasavertaisten valintojen maailma

Tasavertaisten valintamahdollisuuksien maailmassa on vaikea nähdä tuloeroja vakavana ongelmana. Mikäli haluaa mammuttipalkkaiseen suuryrityksen toimitusjohtajan hommaan, niin voisi 20 vuotta määrätietoisesti hankkia ammatissa vaadittavaa osaamista ja työkokemusta. Sitten voisi loppuelämänsä omistaa ympärivuorokautisena keulakuvana toimiseen ja elämään median, työntekijöiden edustajien ja sijoittajien paineen jatkuvassa ristitulessa.

Riskien kantamisen, eli pääomatulojen puolella taas sijoittaja voisi halutessaan jättää sijoittamatta turvalliseksi koettuun kasvukeskuksen asuntoon ja laittaa säästönsä kiinni nuoriin startup-yrityksiin, joista iso osa ei tule tuottamaan mitään, mutta hyvällä säkällä joku voi räjäyttää pankin luoden yhteiskuntaan runsaasti tuottavia työpaikkoja ja riskinkantajalle palkkioksi mojovan omaisuuden.

Äärimmäisenä tuloerojen kauhuskenaariona näen sellaisen, että joku yksittäinen taho pystyisi ostamaan kaikki asuinkiinteistöt Suomesta ja siten monopoliasemansa turvin orjuuttamaan kaikki jotka haluavat Suomessa asua. En kuitenkaan hirveän realistisena tällaista skenaariota näe, vaikka moni on sitä Monopoli-pelin avulla lapsena kovasti harjoitellut. Ylipäätään monopolit ja kartellit ovat myrkkyä valinnan mahdollisuuksille. Aidosti kilpailevat yritykset ovat mielestäni avain ihmisten valinnan mahdollisuuksille joutuessaan kilpailemaan työntekijöistä, asiakkaista ja sijoittajista.

Tuloerot köyhyyden aiheuttajana?

Ehkä tuloeroilla on riippuvuussuhde absoluuttiseen köyhyyteen ja siksi se on tärkeä aihe. Lähdin ottamaan tästä selvää Tilastokeskuksen julkaisemien Euroopan maiden taloustilastojen (vuodelta 2012) avulla.

Vieressä on kuvaaja, jossa vaaka-akselilla on tulojen eroja kuvaava Gini-kerroin ja pystyakselilla oleva Puute-muuttuja kertoo, kuinka monta prosenttia väestöstä kokee vakavaa aineellista puutetta.

Vaikuttaa selkeältä: kun tuloerot kasvavat niin Puute kasvaa myös. Näiden välille laskettu korrelaatiokerroin (Spearmanin versio, koska yhteys ei ole lineaarinen) on 0.66 ja se on nyt tilastollisesti erittäin merkitsevä (totuuden mittareista tarkemmin tässä postauksessa). Voidaanko tästä vetää johtopäätös että suurista tuloeroista seuraa yhteiskuntaan vakavaa puutetta? Tässä vaiheessa on hyvä kerrata aiempi postaukseni korrelaatiotutkimuksista.

Alkujohdattelussa puhuin valintojen mahdollisuuksista ja sitä jollain tavalla kuvannee korruption määrä. Toinen oleellinen muuttuja, joka mahdollisesti vaikuttaa sekä Gini-kertoimeen että Puutteeseen on kansalaisten kokonaistulotaso, mitä kuvaa nyt vuositulojen mediaani maittain. Oma hypoteesini näiden muuttujien yhteyksistä on seuraava:

Seuraavassa kuviossa on kaikkien neljän tutkittavan muuttujien kuvaajat ja korrelaatiokertoimet:

Lävistäjältä löytyy jokaisen muuttujan oma jakauma. Oikealla ylhäällä löytyy vastaavan sarake- ja rivimuuttujan välinen Spearmanin korrelaatiokerroin sekä tilastollinen merkitsevyys tähtinä. Vasemmalla alhaalla jokaisen muuttujaparin sirontakuvio.

Kaikki neljä muuttujaa korreloivat pareittain. Esim. Korruptoimattomuuden korrelaatiokerroin Puutteen kanssa on -0.86, mikä tarkoittaa että maissa joissa on vähän korruptiota, on myös vähän puutetta.

Muodostin matemaattisesti uuden Puute-muuttujan, josta on eliminoitu Tulojen ja Korruption vaikutus. Ginin ja eliminoidun Puute-muuttujan sirontakuvio näyttää nyt aikalailla erilaiselta.

Yhteys ei ole enää niin selvä kuin aiemmassa kuvaajassa. Nyt korrelaatiokerroin on 0.27 ja P-arvo on 0.12, mikä ei ole enää tilastollisesti merkitsevä.

Muodostetaan vielä regressiomalli, jossa Puutteessa elävien osuutta (sen logit-muunnosta, jotta yhteys olisi lineaarinen) selitetään Ginillä, Mediaanituloilla ja Korruptoimattomuudella. Alla on R-ohjelmiston tuloste pro-lukijoita varten.

Menemättä taulukon yksityiskohtiin vaikuttaa, että kansakunnan yleinen tulotaso ja korruptoimattomuus ovat ne tärkeimmät tekijät puutteen selittämisessä. Toki Ginilläkin näyttäisi olevan yhteys (akateemiset tutkijat heittelevät nyt voltteja, koska P-arvo jäi hiuksen hienosti alle 0.05), mutta merkitys kokonaisuuteen on kuitenkin vähäinen. Gini-kertoimen mukanaolo regressiomallissa nosti selitysastetta vain 2%-yksikköä.

Mitä tästä opimme?

Siihen, kuinka paljon tuloeroihiin tulisi Euroopassa puuttua, ei tämä laskuharjoitus anna vastausta. Kyseessä on pintaraapaisu aiheeseen helposti löytyneellä datalla, eikä loppuunviety tutkimus. Tärkein opetus tässä on näyttää kuinka pelkkien kahdenvälisten korrelaatiokertoimien tutkiminen voi johtaa harhaan. Taloustutkimuksissa ei yleensä pystytä järjestämään satunnaistettuja koeasetelmia ja silloin tutkimustulokset heilahtelevat sen mukaan mitä oleellisia taustatekijöitä on huomioitu ja mitä ei.

Lukijagallup: Mitä muita tekijöitä tässä pitäisi huomioida, että tutkimus olisi vielä luotettavampi?

Statistickon steesi:

Kun tutkimusaineisto ei perustu satunnaistettuun kokeeseen, tulokset riippuvuuden suhteen ovat erityisen herkkiä yhteisten taustatekijöiden kontrolloimiselle

Aineistolähteet:

Puute

Tulot ja tuloerot

Korruptio

Mistä näitä korrelaatioita oikein tulee?

Posted by :Statisticko On : 21.10.2014

2

Category: Epävarmuus, Todennäköisyydet, Tutkimukset

Tags:kausaliteetti, korrelaatio, machine learning, riippuvuustutkimus

Kirjoitus on julkaistu myös Louhia-blogissa 21.10.2014.

Korrelaatiokerroin on eräs mittari kahden muuttujan välisen yhteyden mittaamiseen. Mikäli termi ei ole ennestään tuttu, sen ideaan voi tutustua esim. täällä. Sosiaalisessa mediassa on kiertänyt tällainen sivusto, jonne on listattu korrelaatiolla mitattuja yhteyksiä mitä eriskummallisimpien ilmiöiden välille. Mikä nämä selittää? Hukuttautuvatko ihmiset nähdessään Nicholas Cagen tähdittämän elokuvan vai onko taulukkolaskentaohjelma mennyt sekaisin?

Korrelaatioiden lähteet

Kahden ilmiön välinen korrelaation suuruus tilastoaineistossa voi johtua seuraavista neljästä asiasta tai jostain niiden yhdistelmästä.

1. Syy-seuraus suhde

Esim. kahvin juonti aiheuttaa verenpaineen kohoamista, mutta yhteys ei toimi toisinpäin. Korkea verenpaine ei yllytä juomaan lisää kahvia. Tällaista yhteyttä kutsutaan myös kausaaliteetiksi.

2. Molemminpuolinen riippuvuus

Esim. tietyn kenkämallin kysyntä ja tarjonta: kysynnän kasvaessa yritys alkaa valmistamaan kenkiä lisää ja tarjonta kasvaa. Toisaalta jos syystä tai toisesta kenkiä on valmistettu poikkeuksellisen paljon, yritys pyrkii tehostetulla markkinoinnilla tai alennuksilla lisäämään kysyntää.

3. Ilmiöt eivät suoraan riipu toisistaan, mutta molempiin vaikuttaa joku kolmas ilmiö

Esim. jo legendaarinen jäätelön syönti ja hukkumiskuolemat. Jäätelöä syömällä uimataidot eivät häviä vaan molempien taustalla on kolmas taustatekijä; lämpötila, mikä aiheuttaa samansuuntaista vaihtelua jäätelön syönnin ja hukkumiskuolemien välille.

4. Puhdas sattuma

Esittelemäni SoMe-artikkelin esimerkki, Nicholas Cagen leffaesiintymiset ja hukkumiset uima-altaaseen vuosina 1999-2009 saattaisi hyvinkin kuulua tähän kategoriaan. Ilmeistä on, että yhteys ei tule säilymään, mikäli seurantaa jatketaan vuodesta 2009 eteenpäin tarpeeksi pitkään.

Sattuman tuottamat korrelaatiot

Jos ihmiset eivät tarkoituksella hukuttaudu katsottuaan Cagen elokuvan tai juoksentele sähkölinjoihin mentyään naimisiin Alabamassa, niin mistä näitä merkillisiä korrelaatioita sitten tulee näin paljon? Tehdäänpä pieni kokeilu. Meillä on 7 muuttujaa, jotka voivat kuvata mitä numeroilla mitattavaa ilmiöitä tahansa, mutta niin etteivät ne todellisuudessa riipu millääan tavalla toisistaan. Nimetään muuttujat nyt X1, X2, …, X7. Arvoin kaikille näille muuttujille 12 (tyypillinen otoskoko SoMe-artikkelissa) satunnaislukuhavaintoa toisistaan riipumattomasti. Järkeenkäypää siis olisi, etteivät ne korreloisi keskenään ainakaan merkitsevästi. Tulokset näkyvät seuraavassa grafiikkamatriisissa.

Vasemmasta ylänurkasta oikeaan alanurkkaan kulkevalla matriisin lävistäjällä on aina yksittäisen muuttujan arvottuja havaintoja kuvaava histogrammi. Vasemmalla alhaalla olevat sirontakuviot kuvaavat kahden muuttujan havaintoja yhtäaikaa niin että pystyakselilla on se muuttuja jonka rivillä ollaan ja vaaka-akselilla sarakemuuttuja.

Oikealla ylhäällä olevissa ruuduissa on kyseisellä rivillä ja sarakkella olevan muuttujan välinen korrelaatiokerroin. Luku on printattu sitä isommalla fontilla, mitä suurempi (itseisarvoltaan) korrelaatio on ja vieressä on punainen tähti osoittamassa mahdollista korrelaatiokertoimen tilastollista merkitsevyyttä. Punainen piste taas tarkoittaa, että korrelaatio on ”melkein merkitsevä” mutta ei aivan ylitä tieteellistä merkitsevyysrajaa.

Nyt saatiin merkitsevä korrelaatiokerroin 0.69 muuttujien X4 ja X7 välille. Kun otetaan kyseiset muuttujat vielä lähempään tarkasteluun, huomataan että nouseva suora kuvaa hyvin muuttujien välistä yhteyttä aineistossa: X4:n ollessa suuri tuppaa X7 myös saamaan suuria arvoja. Nyt jos muuttujat sattuisivat olevaan vaikka ”Sabina Särkän lehtihaastattelujen lukumäärä yhden vuoden aikana” ja ”Matti Nykäsen vuoden pisimmän hypyn pituus”, SOME-hitti on valmis ja lööpit laulaa. Vain mielikuvitus on rajana keksiessä selityksiä tämän yhteyden välille.

Todennäköisyyslaskenta on tutkijan paras kaveri

Vielä saattaa herätä kysymys, että huijasinko ja toistin arvontoja niin monta kertaa, kunnes tuli tällainen poikkeama. Todellisuudessa tässä ilmentymässä ei ole mitään poikkevaa, koska todennäköisyys saada sattumalta vähintään yksi merkitsevä korrelaatio, kun testataan 21 toisistaan riippumatonta muuttujaparia on n. 66%. Ei tarvita montakaan sataa muuttujaparivertailua, jotta saadaan kasaan SoMe-artikkelissa olevat 19 erikoista ”tilastollisesti merkitsevää” yhteyttä pelkästään sattumalta. Todellisessa tutkimuksessa on todennäköisyyslaskennan avulla syytä säätää korrelaatioiden hyväksymiskriteerejä sen mukaan, onko tärkeämpää löytää paljon potentiaalisia yhteyksiä vai välttää virheellisiä tulkintoja. Aina pitää olla hereillä, kun tekee suurista muuttujamääristä ”machine learning”-tyyppistä datan penkomista. Systemaattinen laskentaprosessi ilman todennäköisyysajattelua päätyy helposti itsensä harhaanjohtamiseen. Ja hauskoihin lööppeihin.

Statistickon steesit:

Yksittäisestä aineistosta löytyy yllättävän suuria korrelaatioita sattumalta varsinkin kun havaintoja on vähän ja muuttujia paljon
Tilastotieteen syvällisempi osaaminen auttaa välttämään riippuvuustutkimuksen sudenkuopat

Archives for : korrelaatio

Talouskasvun pelko

Talouskasvun ja päästöjen yhteys

Hiipuva korrelaatio

Talouskasvu ja työ

BKT mittarina