{"id":351,"date":"2014-10-21T09:24:21","date_gmt":"2014-10-21T06:24:21","guid":{"rendered":"http:\/\/statistition.com\/?p=351"},"modified":"2014-10-21T09:24:21","modified_gmt":"2014-10-21T06:24:21","slug":"mista-naita-korrelaatioita-oikein-tulee","status":"publish","type":"post","link":"https:\/\/statistition.com\/?p=351","title":{"rendered":"Mist\u00e4 n\u00e4it\u00e4 korrelaatioita oikein tulee?"},"content":{"rendered":"<p><em>Kirjoitus on julkaistu my\u00f6s <a href=\"http:\/\/louhiablog.wordpress.com\" target=\"_blank\">Louhia-blogissa<\/a> 21.10.2014.<\/em><\/p>\n<p>Korrelaatiokerroin on er\u00e4s mittari kahden muuttujan v\u00e4lisen yhteyden mittaamiseen. Mik\u00e4li termi ei ole ennest\u00e4\u00e4n tuttu, sen ideaan voi tutustua esim. <a href=\"http:\/\/tilastoapu.wordpress.com\/2011\/11\/01\/10-korrelaatio-ja-sen-merkitsevyys\/\" target=\"_blank\">t\u00e4\u00e4ll\u00e4<\/a>. Sosiaalisessa mediassa on kiert\u00e4nyt <a href=\"http:\/\/tylervigen.com\/\" target=\"_blank\">t\u00e4llainen sivusto<\/a>, jonne on listattu korrelaatiolla mitattuja yhteyksi\u00e4 mit\u00e4 eriskummallisimpien ilmi\u00f6iden v\u00e4lille. Mik\u00e4 n\u00e4m\u00e4 selitt\u00e4\u00e4? Hukuttautuvatko ihmiset n\u00e4hdess\u00e4\u00e4n Nicholas Cagen t\u00e4hditt\u00e4m\u00e4n elokuvan vai onko taulukkolaskentaohjelma mennyt sekaisin?<\/p>\n<h3>Korrelaatioiden l\u00e4hteet<\/h3>\n<p>Kahden ilmi\u00f6n v\u00e4linen korrelaation suuruus tilastoaineistossa voi johtua seuraavista nelj\u00e4st\u00e4 asiasta tai jostain niiden yhdistelm\u00e4st\u00e4.<\/p>\n<h4><strong>1. Syy-seuraus suhde<\/strong><\/h4>\n<p>Esim. kahvin juonti aiheuttaa verenpaineen kohoamista, mutta yhteys ei toimi toisinp\u00e4in. Korkea verenpaine ei yllyt\u00e4 juomaan lis\u00e4\u00e4 kahvia. T\u00e4llaista yhteytt\u00e4 kutsutaan my\u00f6s <em>kausaaliteetiksi<\/em>.<\/p>\n<h3><a href=\"https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/dog_ice_cream_swim.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignright size-medium wp-image-358\" alt=\"Dog in the pool\" src=\"https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/dog_ice_cream_swim-239x300.jpg\" width=\"239\" height=\"300\" srcset=\"https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/dog_ice_cream_swim-239x300.jpg 239w, https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/dog_ice_cream_swim-817x1024.jpg 817w, https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/dog_ice_cream_swim.jpg 1232w\" sizes=\"(max-width: 239px) 100vw, 239px\" \/><\/a><\/h3>\n<h4><strong>2. Molemminpuolinen riippuvuus<\/strong><\/h4>\n<p>Esim. tietyn kenk\u00e4mallin kysynt\u00e4 ja tarjonta: kysynn\u00e4n kasvaessa yritys alkaa valmistamaan kenki\u00e4 lis\u00e4\u00e4 ja tarjonta kasvaa. Toisaalta jos syyst\u00e4 tai toisesta kenki\u00e4 on valmistettu poikkeuksellisen paljon, yritys pyrkii tehostetulla markkinoinnilla tai alennuksilla lis\u00e4\u00e4m\u00e4\u00e4n kysynt\u00e4\u00e4.<\/p>\n<h4><strong>3. Ilmi\u00f6t eiv\u00e4t suoraan riipu toisistaan, mutta molempiin vaikuttaa joku kolmas ilmi\u00f6<\/strong><\/h4>\n<p>Esim. jo legendaarinen j\u00e4\u00e4tel\u00f6n sy\u00f6nti ja hukkumiskuolemat. J\u00e4\u00e4tel\u00f6\u00e4 sy\u00f6m\u00e4ll\u00e4 uimataidot eiv\u00e4t h\u00e4vi\u00e4 vaan molempien taustalla on kolmas taustatekij\u00e4; <em>l\u00e4mp\u00f6tila<\/em>, mik\u00e4 aiheuttaa samansuuntaista vaihtelua j\u00e4\u00e4tel\u00f6n sy\u00f6nnin ja hukkumiskuolemien v\u00e4lille.<\/p>\n<h4><strong>4. Puhdas sattuma<\/strong><\/h4>\n<p>Esittelem\u00e4ni SoMe-artikkelin esimerkki, Nicholas Cagen leffaesiintymiset ja hukkumiset uima-altaaseen vuosina 1999-2009 saattaisi hyvinkin kuulua t\u00e4h\u00e4n kategoriaan. Ilmeist\u00e4 on, ett\u00e4 yhteys ei tule s\u00e4ilym\u00e4\u00e4n, mik\u00e4li seurantaa jatketaan vuodesta 2009 eteenp\u00e4in tarpeeksi pitk\u00e4\u00e4n.<\/p>\n<h3>Sattuman tuottamat korrelaatiot<\/h3>\n<p>Jos ihmiset eiv\u00e4t tarkoituksella hukuttaudu katsottuaan Cagen elokuvan tai juoksentele s\u00e4hk\u00f6linjoihin menty\u00e4\u00e4n naimisiin Alabamassa, niin mist\u00e4 n\u00e4it\u00e4 merkillisi\u00e4 korrelaatioita sitten tulee n\u00e4in paljon? Tehd\u00e4\u00e4np\u00e4 pieni kokeilu. Meill\u00e4 on 7 muuttujaa, jotka voivat kuvata mit\u00e4 numeroilla mitattavaa ilmi\u00f6it\u00e4 tahansa, mutta niin etteiv\u00e4t ne todellisuudessa riipu mill\u00e4\u00e4an tavalla toisistaan. Nimet\u00e4\u00e4n muuttujat nyt X1, X2, &#8230;, X7. Arvoin kaikille n\u00e4ille muuttujille 12 (tyypillinen otoskoko SoMe-artikkelissa) satunnaislukuhavaintoa toisistaan riipumattomasti. J\u00e4rkeenk\u00e4yp\u00e4\u00e4 siis olisi, etteiv\u00e4t ne korreloisi kesken\u00e4\u00e4n ainakaan merkitsev\u00e4sti. Tulokset n\u00e4kyv\u00e4t seuraavassa grafiikkamatriisissa.<\/p>\n<p><a href=\"https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/korrelaatiokuvaaja.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignright  wp-image-359\" alt=\"korrelaatiokuvaaja\" src=\"https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/korrelaatiokuvaaja-300x300.png\" width=\"588\" height=\"588\" srcset=\"https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/korrelaatiokuvaaja-300x300.png 300w, https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/korrelaatiokuvaaja-150x150.png 150w, https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/korrelaatiokuvaaja.png 500w\" sizes=\"(max-width: 588px) 100vw, 588px\" \/><\/a><\/p>\n<p>Vasemmasta yl\u00e4nurkasta oikeaan alanurkkaan kulkevalla matriisin l\u00e4vist\u00e4j\u00e4ll\u00e4 on aina yksitt\u00e4isen muuttujan arvottuja havaintoja kuvaava histogrammi. Vasemmalla alhaalla olevat sirontakuviot kuvaavat kahden muuttujan havaintoja yht\u00e4aikaa niin ett\u00e4 pystyakselilla on se muuttuja jonka rivill\u00e4 ollaan ja vaaka-akselilla sarakemuuttuja.<\/p>\n<p>Oikealla ylh\u00e4\u00e4ll\u00e4 olevissa ruuduissa on kyseisell\u00e4 rivill\u00e4 ja sarakkella olevan muuttujan v\u00e4linen korrelaatiokerroin. Luku on printattu sit\u00e4 isommalla fontilla, mit\u00e4 suurempi (itseisarvoltaan) korrelaatio on ja vieress\u00e4 on punainen t\u00e4hti osoittamassa mahdollista korrelaatiokertoimen tilastollista merkitsevyytt\u00e4. Punainen piste taas tarkoittaa, ett\u00e4 korrelaatio on &#8221;melkein merkitsev\u00e4&#8221; mutta ei aivan ylit\u00e4 tieteellist\u00e4 merkitsevyysrajaa.<\/p>\n<p><a href=\"https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/korrelaatiokuvaaja_yksi_pari4.png\"><img loading=\"lazy\" decoding=\"async\" class=\"alignright size-medium wp-image-375\" alt=\"korrelaatiokuvaaja_yksi_pari\" src=\"https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/korrelaatiokuvaaja_yksi_pari4-300x228.png\" width=\"300\" height=\"228\" srcset=\"https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/korrelaatiokuvaaja_yksi_pari4-300x228.png 300w, https:\/\/statistition.com\/wp-content\/uploads\/2014\/10\/korrelaatiokuvaaja_yksi_pari4.png 582w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a>Nyt\u00a0 saatiin merkitsev\u00e4 korrelaatiokerroin 0.69 muuttujien X4 ja X7 v\u00e4lille. Kun otetaan kyseiset muuttujat viel\u00e4 l\u00e4hemp\u00e4\u00e4n tarkasteluun, huomataan ett\u00e4 nouseva suora kuvaa hyvin muuttujien v\u00e4list\u00e4 yhteytt\u00e4 aineistossa: X4:n ollessa suuri tuppaa X7 my\u00f6s saamaan suuria arvoja. Nyt jos muuttujat sattuisivat olevaan vaikka &#8221;Sabina S\u00e4rk\u00e4n lehtihaastattelujen lukum\u00e4\u00e4r\u00e4 yhden vuoden aikana&#8221; ja &#8221;Matti Nyk\u00e4sen vuoden pisimm\u00e4n hypyn pituus&#8221;, SOME-hitti on valmis ja l\u00f6\u00f6pit laulaa. Vain mielikuvitus on rajana keksiess\u00e4 selityksi\u00e4 t\u00e4m\u00e4n yhteyden v\u00e4lille.<\/p>\n<h3>Todenn\u00e4k\u00f6isyyslaskenta on tutkijan paras kaveri<\/h3>\n<p>Viel\u00e4 saattaa her\u00e4t\u00e4 kysymys, ett\u00e4 huijasinko ja toistin arvontoja niin monta kertaa, kunnes tuli t\u00e4llainen poikkeama. Todellisuudessa t\u00e4ss\u00e4 ilmentym\u00e4ss\u00e4 ei ole mit\u00e4\u00e4n poikkevaa, koska todenn\u00e4k\u00f6isyys saada sattumalta v\u00e4hint\u00e4\u00e4n yksi merkitsev\u00e4 korrelaatio, kun testataan 21 toisistaan riippumatonta muuttujaparia on n. 66%. Ei tarvita montakaan sataa muuttujaparivertailua, jotta saadaan kasaan SoMe-artikkelissa olevat 19 erikoista &#8221;tilastollisesti merkitsev\u00e4\u00e4&#8221; yhteytt\u00e4 pelk\u00e4st\u00e4\u00e4n sattumalta. Todellisessa tutkimuksessa on todenn\u00e4k\u00f6isyyslaskennan avulla syyt\u00e4 s\u00e4\u00e4t\u00e4\u00e4 korrelaatioiden hyv\u00e4ksymiskriteerej\u00e4 sen mukaan, onko t\u00e4rke\u00e4mp\u00e4\u00e4 l\u00f6yt\u00e4\u00e4 paljon <strong>potentiaalisia<\/strong> yhteyksi\u00e4 vai v\u00e4ltt\u00e4\u00e4 virheellisi\u00e4 tulkintoja. Aina pit\u00e4\u00e4 olla hereill\u00e4, kun tekee suurista muuttujam\u00e4\u00e4rist\u00e4 &#8221;machine learning&#8221;-tyyppist\u00e4 datan penkomista. Systemaattinen laskentaprosessi ilman todenn\u00e4k\u00f6isyysajattelua p\u00e4\u00e4tyy helposti itsens\u00e4 harhaanjohtamiseen. Ja hauskoihin l\u00f6\u00f6ppeihin.<\/p>\n<p><strong>Statistickon steesit:<\/strong><\/p>\n<ol>\n<li>Yksitt\u00e4isest\u00e4 aineistosta l\u00f6ytyy yll\u00e4tt\u00e4v\u00e4n suuria korrelaatioita sattumalta varsinkin kun havaintoja on v\u00e4h\u00e4n ja muuttujia paljon<\/li>\n<li>Tilastotieteen syv\u00e4llisempi osaaminen auttaa v\u00e4ltt\u00e4m\u00e4\u00e4n riippuvuustutkimuksen sudenkuopat<\/li>\n<\/ol>\n<p>&nbsp;<\/p>\n<a class=\"synved-social-button synved-social-button-share synved-social-size-48 synved-social-resolution-single synved-social-provider-facebook nolightbox\" data-provider=\"facebook\" target=\"_blank\" rel=\"nofollow\" title=\"Share on Facebook\" href=\"https:\/\/www.facebook.com\/sharer.php?u=https%3A%2F%2Fstatistition.com&#038;t=Mist%C3%A4%20n%C3%A4it%C3%A4%20korrelaatioita%20oikein%20tulee%3F&#038;s=100&#038;p&#091;url&#093;=https%3A%2F%2Fstatistition.com&#038;p&#091;images&#093;&#091;0&#093;=https%3A%2F%2Fstatistition.com%2Fwp-content%2Fuploads%2F2014%2F10%2Fdog_ice_cream_swim.jpg&#038;p&#091;title&#093;=Mist%C3%A4%20n%C3%A4it%C3%A4%20korrelaatioita%20oikein%20tulee%3F\" style=\"font-size: 0px;width:48px;height:48px;margin:0;margin-bottom:5px;margin-right:5px\"><img loading=\"lazy\" decoding=\"async\" alt=\"Facebook\" title=\"Share on Facebook\" class=\"synved-share-image synved-social-image synved-social-image-share\" width=\"48\" height=\"48\" style=\"display: inline;width:48px;height:48px;margin: 0;padding: 0;border: none;box-shadow: none\" src=\"https:\/\/statistition.com\/wp-content\/plugins\/social-media-feather\/synved-social\/image\/social\/regular\/96x96\/facebook.png\" \/><\/a><a class=\"synved-social-button synved-social-button-share synved-social-size-48 synved-social-resolution-single synved-social-provider-twitter nolightbox\" data-provider=\"twitter\" target=\"_blank\" rel=\"nofollow\" title=\"Share on Twitter\" href=\"https:\/\/twitter.com\/intent\/tweet?url=https%3A%2F%2Fstatistition.com&#038;text=Hey%20check%20this%20out\" style=\"font-size: 0px;width:48px;height:48px;margin:0;margin-bottom:5px;margin-right:5px\"><img loading=\"lazy\" decoding=\"async\" alt=\"twitter\" title=\"Share on Twitter\" class=\"synved-share-image synved-social-image synved-social-image-share\" width=\"48\" height=\"48\" style=\"display: inline;width:48px;height:48px;margin: 0;padding: 0;border: none;box-shadow: none\" src=\"https:\/\/statistition.com\/wp-content\/plugins\/social-media-feather\/synved-social\/image\/social\/regular\/96x96\/twitter.png\" \/><\/a><a class=\"synved-social-button synved-social-button-share synved-social-size-48 synved-social-resolution-single synved-social-provider-reddit nolightbox\" data-provider=\"reddit\" target=\"_blank\" rel=\"nofollow\" title=\"Share on Reddit\" href=\"https:\/\/www.reddit.com\/submit?url=https%3A%2F%2Fstatistition.com&#038;title=Mist%C3%A4%20n%C3%A4it%C3%A4%20korrelaatioita%20oikein%20tulee%3F\" style=\"font-size: 0px;width:48px;height:48px;margin:0;margin-bottom:5px;margin-right:5px\"><img loading=\"lazy\" decoding=\"async\" alt=\"reddit\" title=\"Share on Reddit\" class=\"synved-share-image synved-social-image synved-social-image-share\" width=\"48\" height=\"48\" style=\"display: inline;width:48px;height:48px;margin: 0;padding: 0;border: none;box-shadow: none\" src=\"https:\/\/statistition.com\/wp-content\/plugins\/social-media-feather\/synved-social\/image\/social\/regular\/96x96\/reddit.png\" \/><\/a><a class=\"synved-social-button synved-social-button-share synved-social-size-48 synved-social-resolution-single synved-social-provider-pinterest nolightbox\" data-provider=\"pinterest\" target=\"_blank\" rel=\"nofollow\" title=\"Pin it with Pinterest\" href=\"https:\/\/pinterest.com\/pin\/create\/button\/?url=https%3A%2F%2Fstatistition.com&#038;media=https%3A%2F%2Fstatistition.com%2Fwp-content%2Fuploads%2F2014%2F10%2Fdog_ice_cream_swim.jpg&#038;description=Mist%C3%A4%20n%C3%A4it%C3%A4%20korrelaatioita%20oikein%20tulee%3F\" style=\"font-size: 0px;width:48px;height:48px;margin:0;margin-bottom:5px;margin-right:5px\"><img loading=\"lazy\" decoding=\"async\" alt=\"pinterest\" title=\"Pin it with Pinterest\" class=\"synved-share-image synved-social-image synved-social-image-share\" width=\"48\" height=\"48\" style=\"display: inline;width:48px;height:48px;margin: 0;padding: 0;border: none;box-shadow: none\" src=\"https:\/\/statistition.com\/wp-content\/plugins\/social-media-feather\/synved-social\/image\/social\/regular\/96x96\/pinterest.png\" \/><\/a><a class=\"synved-social-button synved-social-button-share synved-social-size-48 synved-social-resolution-single synved-social-provider-linkedin nolightbox\" data-provider=\"linkedin\" target=\"_blank\" rel=\"nofollow\" title=\"Share on Linkedin\" href=\"https:\/\/www.linkedin.com\/shareArticle?mini=true&#038;url=https%3A%2F%2Fstatistition.com&#038;title=Mist%C3%A4%20n%C3%A4it%C3%A4%20korrelaatioita%20oikein%20tulee%3F\" style=\"font-size: 0px;width:48px;height:48px;margin:0;margin-bottom:5px;margin-right:5px\"><img loading=\"lazy\" decoding=\"async\" alt=\"linkedin\" title=\"Share on Linkedin\" class=\"synved-share-image synved-social-image synved-social-image-share\" width=\"48\" height=\"48\" style=\"display: inline;width:48px;height:48px;margin: 0;padding: 0;border: none;box-shadow: none\" src=\"https:\/\/statistition.com\/wp-content\/plugins\/social-media-feather\/synved-social\/image\/social\/regular\/96x96\/linkedin.png\" \/><\/a><a class=\"synved-social-button synved-social-button-share synved-social-size-48 synved-social-resolution-single synved-social-provider-mail nolightbox\" data-provider=\"mail\" rel=\"nofollow\" title=\"Share by email\" href=\"mailto:?subject=Mist%C3%A4%20n%C3%A4it%C3%A4%20korrelaatioita%20oikein%20tulee%3F&#038;body=Hey%20check%20this%20out:%20https%3A%2F%2Fstatistition.com\" style=\"font-size: 0px;width:48px;height:48px;margin:0;margin-bottom:5px\"><img loading=\"lazy\" decoding=\"async\" alt=\"mail\" title=\"Share by email\" class=\"synved-share-image synved-social-image synved-social-image-share\" width=\"48\" height=\"48\" style=\"display: inline;width:48px;height:48px;margin: 0;padding: 0;border: none;box-shadow: none\" src=\"https:\/\/statistition.com\/wp-content\/plugins\/social-media-feather\/synved-social\/image\/social\/regular\/96x96\/mail.png\" \/><\/a>","protected":false},"excerpt":{"rendered":"<p>Kirjoitus on julkaistu my\u00f6s Louhia-blogissa 21.10.2014. Korrelaatiokerroin on er\u00e4s mittari kahden muuttujan v\u00e4lisen yhteyden mittaamiseen. Mik\u00e4li termi ei ole ennest\u00e4\u00e4n tuttu, sen ideaan voi tutustua esim. t\u00e4\u00e4ll\u00e4. Sosiaalisessa mediassa on kiert\u00e4nyt t\u00e4llainen sivusto, jonne on listattu korrelaatiolla mitattuja yhteyksi\u00e4 mit\u00e4 eriskummallisimpien ilmi\u00f6iden v\u00e4lille. Mik\u00e4 n\u00e4m\u00e4 selitt\u00e4\u00e4? Hukuttautuvatko ihmiset n\u00e4hdess\u00e4\u00e4n Nicholas Cagen t\u00e4hditt\u00e4m\u00e4n elokuvan vai onko [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":358,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[11,13,24],"tags":[44,43,46,45],"class_list":["post-351","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-epavarmuus","category-todennakoisyydet","category-tutkimukset","tag-kausaliteetti","tag-korrelaatio","tag-machine-learning","tag-riippuvuustutkimus"],"_links":{"self":[{"href":"https:\/\/statistition.com\/index.php?rest_route=\/wp\/v2\/posts\/351"}],"collection":[{"href":"https:\/\/statistition.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/statistition.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/statistition.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/statistition.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=351"}],"version-history":[{"count":29,"href":"https:\/\/statistition.com\/index.php?rest_route=\/wp\/v2\/posts\/351\/revisions"}],"predecessor-version":[{"id":391,"href":"https:\/\/statistition.com\/index.php?rest_route=\/wp\/v2\/posts\/351\/revisions\/391"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/statistition.com\/index.php?rest_route=\/wp\/v2\/media\/358"}],"wp:attachment":[{"href":"https:\/\/statistition.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=351"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/statistition.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=351"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/statistition.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=351"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}