Kun numeroaineiston perusteella tehdään tutkimusta, helppo vaihe on oppia ymmärtämään, minkälainen ilmiö on ollut kyseisessä aineistossa. Usein varsinainen mielenkiinnon kohde kuitenkin ymmärtää, mitä voisi tapahtua samassa ilmiössä aineiston ulkopuolella ja ehkä jopa ennustaa tulevaisuutta. Tässä vaiheessa on helppo langeta syntiin nimeltä ”ylisovittaminen”.
Valioliigaseurojen pelaajabudjetit
Tutkitaan edellistä Englannin Valioliigan jalkapallokautta 2015/2016. Meitä kiinnostaa, kuinka joukkueen pelaajabudjetti selittää joukkueen saavuttamaa pistemäärää sarjataulukossa. Tässä minitutkimuksessa olemme päätyneet tilanteeseen, jossa meillä on käytettävissä budjettitiedot ja sarjapisteet vain kymmeneltä satunnaiselta joukkueelta. Aineisto (lähde) näyttää seuraavalta:
Vaikuttaisi, että rahalla on odotettua vaikutusta, eli pisteet keskimäärin kasvavat kun budjettikin kasvaa. Mutta minkä muotoinen ”kasvukäyrä” on? Vaikka mahdollisesti muitakin hyviä malleja voisi löytyä, pysytään yksinkertaisuuden vuoksi polynomifunktioissa ja esitellään niistä ensin kaksi tapausta.
Ensimmäinen ajatus voisi olla kokeilla ensimmäisen asteen funktiota, mikä on tilastotieteen / ekonometrian peruskurssilta tuttu lineaarinen regressiomalli: .
Ajatuksena, on että pistemäärä kasvaa keskimäärin tasaisesti sitä mukaa kun budjettikin kasvaa. Kuvaan olikin jo piirretty sellainen regressiosuora.
Huomattavaa on, että jotkut pisteet jäävät hyvinkin kauaksi suorasta. Me kuitenkin tiedetään, että osumatarkkuutta voidaan kasvattaa kun lisätään selittäjiä, tässä tapauksessa budjetin korkeampia potensseja, malliin. Mikäli työvuorossa sattuu olemaan täydellisyyteen pyrkivä insinööri, hän saattaisi innostua käyttämään hyvinkin korkean asteen, sanotaan vaikka viidennen asteen, polynomia, .
Tällaisen mallin käyrä kulkee paljon paremmin eri havaintopisteiden kautta, minkä voi havaita alla olevasta kuvaajasta.
Selitysasteet
Tilastollisen mallin osumatarkkuutta kyseisessä aineistossa mittaa ns. selitysaste ja alla olevassa taulukossa on ratkaistu mallit 1-5 asteisille polynomifunktioille ja laskettu niiden selitysasteet.
Polynomifunktion aste | Mallin selitysaste (isompi parempi, max 100%) |
---|---|
1. aste (lineaarinen) | 20% |
2. aste (paraabeli) | 22% |
3. aste | 25% |
4. aste | 59% |
5. aste | 59% |
Selitysasteen perusteella paras (suurin arvo) malli olisi 5. asteen malli ja se vielä paranisi, mikäli kuudes tai seitsemäs termi lisättäisiin. Maalaisjärkikin kuitenkin alkaa jo kolkutella, että näinköhän kyseinen poukkoilevasti kiemurteleva käyrä kuvaisi ilmiötä oikeasti. Ensimmäinen korkea nyppylä n. 50 miljoonan punnan kohdalla selittyy varmaankin vain sillä, että kyseisellä kaudella poikkeuksellisen hyvin pienellä budjetilla menestynyt Leicester sattui omaaman sen suuruusluokan budjetin. Tuskin on mitään syytä, miksi jatkossa havainnot noudattelisivat juuri tuolla tavalla poukkoilevaa käyrää.
Havaitun aineiston ulkopuolelle
Kun halutaan tietää, kuinka hyvin joku tilastollinen malli toimisi aineiston ulkopuolella, niin selitysasteen sijaan mittarina pitää käyttää informaatiokriteerejä. Tunnetun tällainen on Akaiken informaatiokriteeri, AIC. AIC pyrkii arvioimaan sitä, kuinka hyvin mallimme toimii aineiston ulkopuolella. Se palkitsee kyllä hyvästä selitysasteesta, mutta rankaisee mallissa käytettävien tuntemattomien tekijöiden (tässä tapauksessa b-kertoimet) lukumäärästä ajatuksella ”Yksinkertaisella mallilla on pienempi riski ylisovittamiselle”. Ylisovittamisella tarkoitetaan, sitä että yritetään löytää matemaattinen selitys havaintoaineiston satunnaisvaihtelulle, mikä ei toistu samalla logiikalla aineiston ulkopuolella. Viidennen asteen polynomifunktion on malliesimerkki ylisovittamisesta. Seuraavassa taulukossa on laskettu kaikille viidelle mallillemme AIC:
Polynomifunktion aste | AIC (pienempi parempi) |
---|---|
1. aste (lineaarinen) | 82.6 |
2. aste (paraabeli) | 84.4 |
3. aste | 86.0 |
4. aste | 82.0 |
5. aste | 84.0 |
Koska AIC:ssä pyritään mahdollisimman pieneen lukuun, suositeltu malli on 4. asteen funktio ja heti alkuun kokeiltu lineaarinen 1. asteen funktio jää niukasti hopealle.
(Sivuhuomautuksena kerrottakoon, että AIC :n käyttöön liittyy tiettyjä oletuksia ja sen toiminta on epävarmaa silloin kuin oletukset eivät ole voimassa. Mikäli käyttäisimme Bayesläisiä analyysimenetelmiä, työkalupakista löytyisi esim. WAIC (widely applicaple information criterion), joka toimii yleisemmin.)
Havaittu ennustustarkkuus
Katsotaan vielä lopuksi kuinka sitten ennustamisessa kävikään. Alla olevassa kuvaajassa on alkuperäisten havaintojen päälle sovitettu AIC :n suosittelemat 4. asteen käyrä sekä lineaarinen suora ja lisäksi punaisella värillä loput kymmenen joukkuetta viime kaudelta, mitkä eivät vielä olleet mukana tilastollisessa mallinnuksessa.
Lasketaan, mikä polynomifunktioistamme olisi parhaiten ennustanut näitä punaisia uusia havaintoja. Mittarina käytetään keskineliövirhemittaria, RMSE, mikä on sitä parempi, mitä pienempi.
Polynomifunktion aste | RMSE (pienempi parempi) |
---|---|
1. aste (lineaarinen) | 66.7 |
2. aste (paraabeli) | 65.8 |
3. aste | 62.2 |
4. aste | 98.2 |
5. aste | 79.1 |
Huomaamme, että yksinkertaiset 1.-3. asteen funktiot ennustivat paremmin kuin monimutkaiset 4.-5. asteen funktiot, koska niillä on selvästi pienemmät RMSE-luvut. Ennustuskisan voiton vie lopulta kolmannen asteen funktio.
Ilmiön kuvaaminen
Ne ketkä ovat selvinneet tänne asti, saattavat olla kiinnostuneita siitä, mikä pelaajabudjetin vaikutus nyt olikaan menestykseen. Tässä kirjoituksessa päähuomio on uusien havaintojen ennustamisessa, jolloin ilmiön järjellinen selittäminen ei ole välttämättä edes mielenkiintoista. Nyt kun tuli kuitenkin aloitettua, niin…
Edellä esiteltyjen tunnuslukujen perusteella ei ole tällä pienellä aineistolla selvää, mitä mallia kannattaisi käyttää ilmiön selittämiseen. ”Keep it simple, stupid” -periaatteella vaaka kuitenkin kallistuu tasaisessa tilanteessa yksinkertaisempaan suuntaan. Niinpä sovitetaan lineaarinen regressiomalli nyt koko aineistolle ja se sanoo, että 25 miljoonan punnan budjetin jälkeen yhden miljoonan kasvatus pelaajabudjetissa lisäsi keskimärin 0.11 pistettä sarjan aikana. Toisin sanoen yksi lisäsarjapiste maksoi n. 9 miljoonaa puntaa.
Kuten nyt kaikki tiedämme, esim. Leicester ei paljoa lineaarista mallia kunnioittanut vaan paineli mestaruuteen häntäpään budjetilla. Ei lähdetä kuitenkaan ylisovittamaan mitään maagista 48 miljoonan euron optimibudjettia, vaikka selitysaste mittarina sitä tarjoaisikin.
Statistickon steesit
- Kun tilastollisen mallinnuksen tarkoitus on ennustaa uusia havaintoja, on varottava datan satunnaisten piirteiden selittämistä, eli ylisovittamista.
- Selitysaste kertoo, kuinka hyvin tilastomalli selittää jo havaittua dataa ja paranee aina kun malliin lisätään selittäviä muuttujia.
- Informaatiokriteerit ennustavat mallin toimivuutta havaitun datan ulkopuolella.
- Ennustemallin toimintaa kannattaa testata uudella ”testidatalla” aina ennen kuin alkaa tehdä sen avulla suuria päätöksiä.
- Ennustemallien rakentaminen on yhdistelmä tiedettä ja taidetta.
Lähdeteoksena useassa kohtaa on käytetty kirjaa Richard McElreath: Statistical Rethinking
[…] Ylisovittaminen: tietämättämme yritämme tulevaisuutta ennustaa sellaisilla historiallisilla piirteillä, jotka ovat toteutuneet aiemmin vain sattumalta eivätkä kuvaa ilmiötä tulevaisuudessa. Tätä ongelmaa olen ruotinut aiemmin tässä kirjoituksessa. […]
[…] erityisesti vaaraa, että laajoista harjoitusaineistoista luotavat tilastolliset mallit ”ylisovittuvat”. He korostavat, että tämä vaara korostuu erityisesti silloin, kun tekoälyä käytetään […]