Rss

  • linkedin

Archives for : Urheilu

Ylisovittaminen, case jalkapallojoukkueiden budjetit

football_stadiumKun numeroaineiston perusteella tehdään tutkimusta, helppo vaihe on oppia ymmärtämään, minkälainen ilmiö on ollut kyseisessä aineistossa. Usein varsinainen mielenkiinnon kohde kuitenkin ymmärtää, mitä voisi tapahtua samassa ilmiössä aineiston ulkopuolella ja ehkä jopa ennustaa tulevaisuutta. Tässä vaiheessa on helppo langeta syntiin nimeltä ”ylisovittaminen”.

Valioliigaseurojen pelaajabudjetit

Tutkitaan edellistä Englannin Valioliigan jalkapallokautta 2015/2016. Meitä kiinnostaa, kuinka joukkueen pelaajabudjetti selittää joukkueen saavuttamaa pistemäärää sarjataulukossa. Tässä minitutkimuksessa olemme päätyneet tilanteeseen, jossa meillä on käytettävissä budjettitiedot ja sarjapisteet vain kymmeneltä satunnaiselta joukkueelta. Aineisto (lähde) näyttää seuraavalta:

budjetit_otos_suora

Vaikuttaisi, että rahalla on odotettua vaikutusta, eli pisteet keskimäärin kasvavat kun budjettikin kasvaa. Mutta minkä muotoinen ”kasvukäyrä” on? Vaikka mahdollisesti muitakin hyviä malleja voisi löytyä, pysytään yksinkertaisuuden vuoksi polynomifunktioissa ja esitellään niistä ensin kaksi tapausta.

Ensimmäinen ajatus voisi olla kokeilla ensimmäisen asteen funktiota, mikä on tilastotieteen / ekonometrian peruskurssilta tuttu lineaarinen regressiomalli:  Points = a + b  \cdot Salary .

Ajatuksena, on että pistemäärä kasvaa keskimäärin tasaisesti sitä mukaa kun budjettikin kasvaa. Kuvaan olikin jo piirretty sellainen regressiosuora.

Huomattavaa on, että jotkut pisteet jäävät hyvinkin kauaksi suorasta. Me kuitenkin tiedetään, että osumatarkkuutta voidaan kasvattaa kun lisätään selittäjiä, tässä tapauksessa budjetin korkeampia potensseja, malliin. Mikäli työvuorossa sattuu olemaan täydellisyyteen pyrkivä insinööri, hän saattaisi innostua käyttämään hyvinkin korkean asteen, sanotaan vaikka viidennen asteen, polynomia,  Points = a + b_1 \cdot Salary + b_2 \cdot Salary ^2 + b_3 \cdot Salary ^3 + b_4\cdot Salary ^4 + b_5 \cdot Salary ^5 .

Tällaisen mallin käyrä kulkee paljon paremmin eri havaintopisteiden kautta, minkä voi havaita alla olevasta kuvaajasta.

budjet_otos_kayra

Selitysasteet

Tilastollisen mallin osumatarkkuutta kyseisessä aineistossa mittaa ns. selitysaste ja alla olevassa taulukossa on ratkaistu mallit 1-5 asteisille polynomifunktioille ja laskettu niiden selitysasteet.

Polynomifunktion aste Mallin selitysaste (isompi parempi, max 100%)
1. aste (lineaarinen) 20%
2. aste (paraabeli) 22%
3. aste 25%
4. aste 59%
5. aste 59%

Selitysasteen perusteella paras (suurin arvo) malli olisi 5. asteen malli ja se vielä paranisi, mikäli kuudes tai seitsemäs termi lisättäisiin. Maalaisjärkikin kuitenkin alkaa jo kolkutella, että näinköhän kyseinen poukkoilevasti kiemurteleva käyrä kuvaisi ilmiötä oikeasti. Ensimmäinen korkea nyppylä n. 50 miljoonan punnan kohdalla selittyy varmaankin vain sillä, että kyseisellä kaudella poikkeuksellisen hyvin pienellä budjetilla menestynyt Leicester sattui omaaman sen suuruusluokan budjetin. Tuskin on mitään syytä, miksi jatkossa havainnot noudattelisivat juuri tuolla tavalla poukkoilevaa käyrää.

Havaitun aineiston ulkopuolelle

Kun halutaan tietää, kuinka hyvin joku tilastollinen malli toimisi aineiston ulkopuolella, niin selitysasteen sijaan mittarina pitää käyttää informaatiokriteerejä. Tunnetun tällainen on Akaiken informaatiokriteeri, AIC. AIC pyrkii arvioimaan sitä, kuinka hyvin mallimme toimii aineiston ulkopuolella. Se palkitsee kyllä hyvästä selitysasteesta, mutta rankaisee mallissa käytettävien tuntemattomien tekijöiden (tässä tapauksessa b-kertoimet) lukumäärästä ajatuksella ”Yksinkertaisella mallilla on pienempi riski ylisovittamiselle”. Ylisovittamisella tarkoitetaan, sitä että yritetään löytää matemaattinen selitys havaintoaineiston satunnaisvaihtelulle, mikä ei toistu samalla logiikalla aineiston ulkopuolella. Viidennen asteen polynomifunktion on malliesimerkki ylisovittamisesta. Seuraavassa taulukossa on laskettu kaikille viidelle mallillemme AIC:

Polynomifunktion aste AIC (pienempi parempi)
1. aste (lineaarinen) 82.6
2. aste (paraabeli) 84.4
3. aste 86.0
4. aste 82.0
5. aste 84.0

Koska AIC:ssä pyritään mahdollisimman pieneen lukuun, suositeltu malli on 4. asteen funktio ja heti alkuun kokeiltu lineaarinen 1. asteen funktio jää niukasti hopealle.

(Sivuhuomautuksena kerrottakoon, että AIC :n käyttöön liittyy tiettyjä oletuksia ja sen toiminta on epävarmaa silloin kuin oletukset eivät ole voimassa. Mikäli käyttäisimme Bayesläisiä analyysimenetelmiä, työkalupakista löytyisi esim. WAIC (widely applicaple information criterion), joka toimii yleisemmin.)

Havaittu ennustustarkkuus

Katsotaan vielä lopuksi kuinka sitten ennustamisessa kävikään. Alla olevassa kuvaajassa on alkuperäisten havaintojen päälle sovitettu AIC :n suosittelemat 4. asteen käyrä sekä lineaarinen suora ja lisäksi punaisella värillä loput kymmenen joukkuetta viime kaudelta, mitkä eivät vielä olleet mukana tilastollisessa mallinnuksessa.

Lasketaan, mikä polynomifunktioistamme olisi parhaiten ennustanut näitä punaisia uusia havaintoja. Mittarina käytetään keskineliövirhemittaria, RMSE, mikä on sitä parempi, mitä pienempi.

Polynomifunktion aste RMSE (pienempi parempi)
1. aste (lineaarinen) 66.7
2. aste (paraabeli) 65.8
3. aste 62.2
4. aste 98.2
5. aste 79.1

Huomaamme, että yksinkertaiset 1.-3. asteen funktiot ennustivat paremmin kuin monimutkaiset 4.-5. asteen funktiot, koska niillä on selvästi pienemmät RMSE-luvut. Ennustuskisan voiton vie lopulta kolmannen asteen funktio.

Ilmiön kuvaaminen

Ne ketkä ovat selvinneet tänne asti, saattavat olla kiinnostuneita siitä, mikä pelaajabudjetin vaikutus nyt olikaan menestykseen. Tässä kirjoituksessa päähuomio on uusien havaintojen ennustamisessa, jolloin ilmiön järjellinen selittäminen ei ole välttämättä edes mielenkiintoista. Nyt kun tuli kuitenkin aloitettua, niin…

Edellä esiteltyjen tunnuslukujen perusteella ei ole tällä pienellä aineistolla selvää, mitä mallia kannattaisi käyttää ilmiön selittämiseen. ”Keep it simple, stupid” -periaatteella vaaka kuitenkin kallistuu tasaisessa tilanteessa yksinkertaisempaan suuntaan. Niinpä sovitetaan lineaarinen regressiomalli nyt koko aineistolle ja se sanoo, että 25 miljoonan punnan budjetin jälkeen yhden miljoonan kasvatus pelaajabudjetissa lisäsi keskimärin 0.11 pistettä sarjan aikana. Toisin sanoen yksi lisäsarjapiste maksoi n. 9 miljoonaa puntaa.

Kuten nyt kaikki tiedämme, esim. Leicester ei paljoa lineaarista mallia kunnioittanut vaan paineli mestaruuteen häntäpään budjetilla. Ei lähdetä kuitenkaan ylisovittamaan mitään maagista 48 miljoonan euron optimibudjettia, vaikka selitysaste mittarina sitä tarjoaisikin.

Statistickon steesit

  • Kun tilastollisen mallinnuksen tarkoitus on ennustaa uusia havaintoja, on varottava datan satunnaisten piirteiden selittämistä, eli ylisovittamista.
  • Selitysaste kertoo, kuinka hyvin tilastomalli selittää jo havaittua dataa ja paranee aina kun malliin lisätään selittäviä muuttujia.
  • Informaatiokriteerit ennustavat mallin toimivuutta havaitun datan ulkopuolella.
  • Ennustemallin toimintaa kannattaa testata uudella ”testidatalla” aina ennen kuin alkaa tehdä sen avulla suuria päätöksiä.
  • Ennustemallien rakentaminen on yhdistelmä tiedettä ja taidetta.

Lähdeteoksena useassa kohtaa on käytetty kirjaa Richard McElreath: Statistical Rethinking

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Vakioanalytiikkaa – näin tehdään miljardeja

Vieraskynä: Tämän postauksen on poikkeuksellisesti kirjoittanut kollega, vedonlyöntikonkari Johannes Ärje (Twitter: @JJArje)

Vakioveikkaus on Veikkaus Oy:n vanhin peli. Sen pelaaminen aloitettiin jo vuonna 1940, mutta tässä blogipostauksessa keskitytään vuoteen 2016. Mitä mahdollisuuksia kehittynyt tietotekniikka ja data-analytiikka tuo pelaamiseen?

Voittava vedonlyönti

Voittava vedonlyönti on helpompi määritellä kuin toteuttaa. Kaikki ne vedot, jotka odotusarvoisesti eli keskimäärin palauttavat enemmän kuin panos oli, ovat teoreettisesti voitollisia vetoja. Jos noppaa heitettäessä saisit kertoimen 6.5 silmäluvulle 6, olisi veto voitollinen, vaikka se ei juuri sillä kertaa toteutuisikaan. Suurin haaste voittavaan urheiluvedonlyöntiin on siinä että odotusarvon laskemiseen tarvittava vedon osumisen todennäköisyys joudutaan aina arvioimaan. Samasta syystä johtuen on vaikea arvioida, onko vedonlyönti kokonaisuudessaan voitollista, vaikka vetoja olisi takana satoja tai Vakion tapauksessa satojatuhansia. Vakion kaltaisissa totalisaattoripeleissä (voitto-osuudet määrittyvät sen mukaan mitä rivejä muut pelaajat pelaavat) toinen suuri haaste on ennakoida muiden vedonlyöjien pelaamista loppuhetkellä. Onneksi pelaamishetkellä on informaatiota sen hetken tilanteesta.

Todennäköisyydet

soccer_ballVakion kohteet vaihtelevat laidasta (ampumahiihto) laitaan (jalkapallo) ja tuskin kukaan pystyy / ehtii jokaiseen kohteeseen arvioimaan todennäköisyyksiä omassa päässä luotettavasti. Vailla parempaa tietoa voi turvautua vedonlyöntimarkkinan informaatioon eli muodostaa vaikkapa suuria panoksia ottavan firman kertoimista todennäköisyydet. Useimmissa lajeissa / sarjoissa viime hetken kertoimista voidaan poimia suhteellisen luotettavat arviot eri tulosten todennäköisyyksille. Toki vedonlyöjä, joka pystyy arvioimaan markkinaa paremmin todennäköisyyksiä, saa valtavaa etua Vakion kaltaisessa pelissä, jos pelin muut puolet ovat hallussa. Henkilökohtaisesti turvaudun eri lajeissa eri informaatiolähteisiin.

API

Veikkaus tarjoaa yhtenä harvoista vedonlyöntiyhtiöistä ohjelmointirajapintaa (API, application programming interface), jonka avulla voidaan tietokoneohjelman kautta hakea tietoa kertoimista, voitto-osuuksista ja peleistä sekä myös suorittaa itse vedonlyönti. Näin ollen koko pelaaminen alusta loppuun on mahdollista automatisoida jopa niin, että vedonlyöjä voi lähteä viikoksi Karibian risteilylle netin ulottumattomiin ja kone hoitaa kaiken likaisen työn.

Algoritmi:

– tutki onko tänään Vakiossa sopivia kohteita

– vähän ennen kohteen sulkeutumista:

  1. hae / arvioi yksittäisten kohteiden todennäköisyydet
  2. hae infoa pelatuista vakioriveistä
  3. lyö odotusarvoltaan positiivisiksi arvioidut rivit sisään, mutta jätä koko kierros välistä, jos jokin epäilyttää

– analysoi lopullisilla tiedoilla vetokokonaisuuden odotusarvoa

Rivien hakeminen

Veikkauksen API:sta voidaan tosiaan hakea tietoa jokaisen rivin voitto-osuudesta ja pelatusta rivimäärästä. Niinpä se on mahdollista tehdä kaikille riveille, joita 12 kohteen Vakiossa on 531441 kappaletta. Harmi, että tarjolla ei ole mitään yhtä tiedostoa, josta nämä määrät löytyisivät. Tai no, hyvähän se on niille, jotka pystyvät hakemaan silti rivit. Moniajot siis käyntiin, mutta Veikkauksen sääntöjä noudattaen rajoitetaan prosessit maksimissaan viiteen.

(https://github.com/VeikkausOy/sport-games-robot)

Voitto-osuudet

Tällä hetkellä 8 kohteen Vakiossa on vain yksi voittoluokka, joten kyseisen pelin matemaattinen puoli on lastenleikkiä (Verrataan rivin todennäköisyyttä odotettuun voitto-osuuteen). 18 kohteen Vakio Grand Prix:ssa puolestaan rivitiedot eivät ole haettavissa, joten sen pelin allekirjoittanut on kokonaan skipannut. Keskitytään tässä 12 kohteen Vakioon, joka on hieman yksinkertaisempi kuin perinteinen 13 kohteen Vakio.

12 kohteen Vakiossa on kolme voitto-osuusluokkaa (12, 11 ja 10 oikein), joten jokaisen rivin odotusarvo muodostuu 1 + 24 + 264 = 289:stä eri osasta, jotka summataan yhteen. Yksittäisellä rivillä voi siis saada osumaan 24 eri tavalla 11 oikeaa tulosta. Lisähaasteena kaikkien luokkien voitto-osuudet muuttuvat vielä sen mukaan, jos jossakin voitto-osuusluokassa joko voitto-osuus jäisi alle 2 euron tai siinä ei ole yhtään riviä. Kun tällainen laskenta tehdään pelin kaikille riveille, niin laskutoimenpiteitä tulee suoritettua lähes puoli miljardia. En muuten suosittele tämän koodaamiseen for-silmukkaa.

Ennustaminen

Konepelaajat kilpailevat erityisesti toisiaan vastaan. Usein muut pelaajat / peliporukat löytävät viime hetkellä ison osan samoja rivejä. Niinpä pelatessa on syytä myös ennustaa muualta tulevaa peliä. Eipä siinä siis muu auta kuin luoda sopiva ennustemalli aiempien kierrosten datojen perusteella. Alustavan arvioni perusteella viikonpäivistä perjantai on paras eli silloin on kilpailua vähiten. Liekö joku muu robotti eksynyt silloin baariin?

Toki myös omat lähellä toisiaan olevat rivit vaikuttavat odotusarvoihin, joten on syytä tehdä uusi ennustetuilla rivimäärillä toteutettu voitto-osuuslaskentaruljanssi ja karsia vielä huonoksi tippuneita rivejä pois.

Rivit sisään

Lopulta kun on saatu aikaan arvio hyvistä riveistä, pitää vedot saada lyötyä vielä sisään niin nopeasti kuin mahdollista. Joko peliaika on päättymässä tai Veikkaus on päivittämässä tietojaan (10 minuutin välein). Jälkimmäisessä tapauksessa on tärkeä määritellä reviiriään muille pelaajille, sillä jokainen veto tiettyyn riviin vähentää sen kannattavuutta muille. Rivejä on mahdollista myös yhdistellä järjestelmiksi ja usein 5000 rivin kokonaisuus tiivistyykin alle puoleen ja samoin käy syöttöön tarvittavalle ajalle.

Kuinka sitten kävikään

Kuinka hyvänä rivikokonaisuuden odotusarvo lopulta säilyikään muiden pelaajien tulituksessa? Olennaisin tekijä tähän on aika, jolloin kertoimia päivitetään viimeisen kerran. Itselleni täydellinen päivitysaika on kuusi minuuttia ennen kohteen sulkeutumista, jolloin ehdin vielä tämän kaiken tehdä, mikäli pelattava rivimäärä ei ole poikkeuksellisen korkea. Lopullisten tietojen päivityttyä on syytä vielä tarkastaa lopullinen odotusarvo, mutta itse otteluiden katsominen saa jäädä muiden henkilöiden vastuulle.

Kannattaako tehdä Vakiorobotti?

  • Ei, koska edut ovat pieniä.
  • Ei. Jos joku pelaisi samat rivit kuin itse pelaan, niin molempien odotusarvo painuisi pakkasen puolelle.
  • Ei, koska liikaa vaivaa.

Vastauksia usein esitettyihin kysymyksiin:

  • Koneeni on Suomen paras (loppupelin analytiikan perusteella)
  • Jäin tappiolle Karibian risteilyn aikana
  • Kaikki tämä on tehty R:llä (http://www.r-project.org)
  • En kertonut lähellekään kaikkea
  • Tarjoan kerrointa 6.5, että Kimblessä tulee valitsemani numero, jos saan itse suorittaa painalluksen

Mitä tykkäsit blogipostauksesta ”Vakioanalytiikkaa – näin tehdään miljardeja laskutoimituksia”?

– Johannes Ärje

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Voitto- ja tappioputket jääkiekossa

Tietokirjailija/kääntäjä Kimmo Pietiläisen blogikirjoituksessa käsitellään koripallon ”kuuma käsi” -ilmiötä, jolla perinteisesti tarkoitetaan pelaajan heittosuorituksen parantumista, kun alla on useampi onnistunut heitto putkeen. Tutkimukset ovat kuitenkin paljastaneet kyseisen ilmiön ainoastaan urheiluselostajien luomaksi myytiksi. Kirjoituksessa kerrotaan tutkimusten jopa osoittaneen päinvastaista ilmiötä: useamman onnistumisen jälkeen koripalloilijoilla on taipumus hakea onnistumisten jälkeen liian vaikeita heittoja, mikä tekee heidän osumisputkistaan lyhempiä kuin mitä tulisi puhtaan satunnaisvaihtelun ansiosta.

Kirjoitus herätti kiinnostukseni voittoputkien pituuksia kohtaan joukkueurheilussa ja otin oman pikatutkimuksen kohteeksi Liigan jääkiekkopelit viimeisen kymmenen vuoden ajalta. Penkkiurheilija-psykologia tarjoaa useita selityksiä sekä putkien keston pitkittymiselle että katkeamiselle ennen aikojaan:

Voittoputki

+ Joukkueessa on hurmostila, minkä vuoksi joukkue pelaa entistä paremmin seuraavissa peleissä

–  Joukkueesta tulee ylimielinen, mikä heikentää suoritusta seuraavissa peleissä

–  Joukkueesta tulee himoittu päänahka ja vastustaja on poikkeuksellisen syttynyt

Tappioputki

kiekkoilijat_vasyneena+ Joukkue halua katkasta tappioputken hinnalla millä hyvänsä ja on entistä motivoituneempi voittamaan

+ Vastustaja suhtautuu ylimielisesti viimeaikojen heittopussiin, mikä parantaa yllätyssaumoja

–  Joukkue menettää itseluottamuksen ja joukkuehenki on latistunut, mikä heikentää suoritusta

–  Pitkän tappioputken jälkeen kotiyleisö voi kääntyä omiaan vastaan tehden voittamisesta kotipelissä vaikeampaa

Kymmenen kauden tutkimus

Lähdin tutkimaan vuosina 2006-2015 alkaneiden Liiga-kausien pelejä tiputtaen kauden lopusta kuitenkin kaikki 31.1. jälkeen pelatut pelit pois. Syynä tälle on se, että runkosarjan lopussa playoff-paikkojen varmistuttua monien joukkueiden motivaatiotasot vaihtelevat ja siirtoikkunan kynnyksellä tammi-helmikuun vaihteessa on nähty kesken kauden pelaajien ”tyhjennysmyyntejä”. Nämä ovat muuttaneet joukkueiden taitotasoja kesken kauden. En halua näiden häiriötekijöiden sekoittavan analyysiä voitto- ja tappioputkien psykologiasta. Aineistoa jäi analyysiin 2840 ottelun verran.

Kyseisestä aineistosta laskin (koodaamani funktio laski puolestani) ennen jokaisen ottelun alkua, kuinka pitkä voitto/tappio putki on alla kotijoukkueella ja vierasjoukkueella. Sitten lajittelin putkien pituudet seuraaviin luokkiin:

  1. Vähintään 7 ottelun tappioputki
  2. 5-6 ottelun tappioputki
  3. 3-4 ottelun tappioputki
  4. Ei kunnon putkea (maksimissaan 2 ottelun putki)
  5. 3-4 ottelun voittoputki
  6. 5-6 ottelun voittoputki
  7. Vähintään 7 ottelun voittoputki

Tämän jälkeen muutin satunnaisesti jokaisen kauden sisällä otteluiden järjestystä ja muodostin sata uutta aineistoa alkuperäisen aineiston pohjalta (ns. bootstrap-otos). Nämä uudet sekoitetut aineistot kertovat nyt todennäköisyydet eri putkien pituuksille puhtaan sattuman johdosta. Alla olevassa kuvaajassa punainen pylväs kertoo, kuinka eri putkien pituudet jakaantuivat alkuperäisessä aineistossa. Sininen pylväs taas kertoo sekoitetun aineiston osuudet kussakin putkiluokassa. Kuvaajassa vasemmalla puolella on tappioputket ja oikealla voittoputket.

Putki_graafi

Pitkät putket ovat havaitussa aineistossa aavistuksen sekoitettua yleisempiä, muttei tilastollisesti merkitsevästi (P-arvo = 0.12). Tämän perusteella ei siis ole selvää näyttöä että Liigassa syntyisi keskimäärin enemmän tai vähemmän pitkiä putkia kuin mitä puhtaan sattuman takia tulee. Analyysi tarjoaa kuitenkin lohdutuksen sanan tappioputkessa seuraavaan otteluun alamaissa valmistautuvalle joukkueelle: ”12 kertaa sadasta ottelun alla on vähintään 3 ottelun tappioputki pelkästään puhtaan sattuman taki.”

Tilastollinen mallinnus

Edellinen analyysi jättää kuitenkin useita kysymyksiä. Yllä olevat putket saattavat vaikuttaa joukkueiden suoritukseen eritavoin koti- ja vieraspeleissä. Lisäksi putkien muodostumiseen vaikuttavat myös fyysiset rasitustekijät, mutta erityisesti meitä kiinnostavat psykologiset tekijät. Muodostetaan vielä toinen analyysi, jossa tilastollisella mallilla (yleistetty sekamalli logit-linkkifunktiolla) selitetään kotijoukkueen voittotodennäköisyyttä seuraavilla tekijöillä:

  • Kotijoukkueen alla oleva putken pituus
  • Vierasjoukkueen alla oleva putken pituus
  • Kotijoukkueen fyysinen rasitus
  • Vierasjoukkueen fyysinen rasitus
  • Kotijoukkueen keskimääräinen taitotaso kotipeleissä kyseisellä kaudella
  • Vierasjoukkueen keskimääräinen taitotaso vieraspeleissä kyseisellä kaudella

Fyysinen rasitustekijä -muuttujassa on neljä vaihtoehtoa:

  1. Edellisenä päivänä peli ja sitä ennen vähintään 3 peliä viikon sisällä
  2. Edellisenä päivänä peli, mutta alle 3 peliä sitä edeltävän viikon sisällä
  3. Ei peliä edellisenä päivänä, mutta vähintään 3 peliä sitä edeltävän viikon sisällä
  4. Ei aiemmissa luokissa määriteltyjä rasitustekijöitä

Tämän analyysin tuloksessa mielenkiintoa herättävä vaikutus on kotijoukkueiden erittäin pitkien putkien näkyminen heikentävänä suorituksena. Mallin mukaan kotijoukkueen voittotodennäköisyys tippuisi muuten tasaisessa pelissä 50% -> 42%, mikäli kotijoukkueella on alla 5-6 ottelun tappioputki. Vähintään 7 ottelun tappioputkessa todennäköisyys putoaisi jopa 23% :iin. Efekti ei ole kuitenkaan aivan tilastollisesti merkitsevä (P-arvo = 0.1) ja vähintään 7 ottelun putken osalta epäilyttävän suuri. Tutkimus kuitenkin herättää ainakin epäilyksen, että kotiluolassa pitkän putken katkaiseminen voisi olla oikeasti vaikeaa.

Muille alussa luetelluille penkkiurheilijoiden psykologisille teorioille aineisto ei anna oikein minkäänlaista tukea. Tosin on mahdollista, että eri joukkueet käsittelevät putkia eri tavoin ja siten positiiviset vaikutukset kumoutuvat negatiivisilla vaikutuksella pidemmän päälle. Mielenkiintoinen sivutulos löytyi fyysisen rasituksen osalta. Fyysisellä rasituksella oli mallin mukaan heikentävää vaikutusta suoritukseen lähinnä vain vieraspeleissä ja erityisesti edellisenä päivänä pelatun pelin takia. Tästä lienee jääkiekon ammattivedonlyöjillä tarkempia tutkimustuloksia, mistä kuulen mielelläni jos joku haluaa salaisuuksiaan paljastaa.

Tiivistelmä

  • Pitkä alla oleva tappioputki mahdollisesti heikentää suoritusta kotipeleissä jääkiekossa
  • Muuten putkilla ei vaikuttaisi olevan näkyviä vaikutuksia suoritukseen seuraavassa pelissä
  • Edelleen on mahdollista että toisinaan putkien vaikutukset ovat suoritukseen positiivisia ja toisinaan negatiivisia, jolloin ne pitkässä juoksussa kumoavat toisensa
Facebooktwittergoogle_plusredditpinterestlinkedinmail

Urheiluvedonlyönti sijoitustuotteena

Hajauttamiseen pyrkivät sijoittavat etsivät kuumeisesti erilaisia sijoituskohteita, joiden välinen riippuvuutta mittaava korrelaatiokerroin olisi mahdollisimman lähellä nollaa tai jopa negatiivinen. Tausta-ajatuksena on, että kun sijoituskohteella A menee huonosti, niin sijoituskohteella B menisi mahdollisimman hyvin, mikä tasaa kokonaistulosta. Nykymaailman globaaleilla markkinoilla eri maailman kolkat ovat yhteyksissä toisiinsa ja rahoitusmarkkinoiden korot vaikuttavat yleensä samansuuntaisesti sekä osakkeisiin että asuntoihin. Niinpä helppotajuisia korreloimattomia sijoituskohteita on vaikea löytää.

Mutta tiedän yhden sijoitusmuodon, jonka korrelaatio niin osakkeiden ja asuntojen kuin metsänkin kanssa on hyvin lähellä nollaa: urheiluvedonlyönti ylikertoimilla (joukkueen voittotodennäköisyyteen nähden liian korkealle asetettu kerroin, joita pelaamalla jää pitkässä juoksussa voitolle). Ostat vedonlyöntivihjeet toimijalta, joka pystyy osoittamaan kykynsä voittaa reilulla marginaalilla markkinat ja lyöt vetoa tämän suosittelemista kohteista. Kuulostaa helpolta, mutta kyseisen taidon osoittaminen on hyvin vaikeaa. Parhaiten kykynsä todistaa esittelemällä uskottavaa tilastodataa aiemmista vedoistaan. Käyn seuraavassa läpi kyseisen datalla vakuuttamiseen liittyviä oleellisia seikkoja:

1. Datan määrä

Ensimmäinen kysymys on tietenkin, kuinka suuri on riittävä otos? Tein simulointikokeen jossa jaoin kuvitteelliset aktiiviset vedonlyöjät karkeasti kahteen ryhmään:

  • Innokkaat harrastajat, jotka pysyvät keskimäärin omillaan
  • Huippuammattilaiset, jotka todellisuudessa pystyvät saamaan 6% tuottoa sijoitetulle pääomalle

Olkoon meillä vaatimuksena vähintään 4% tuotto. Seuraava taulukko kertoo, kuinka hyvin erikokoiset tilastoaineistot erottelevat huippuammattilaiset harrastajista. Simuloinneissa kaikki vedot lyödään n. 50% todennäköisyydellä (joka toinen kerta) toteutuviin kohteisiin. Taulukossa oleva luku kertoo, mikä on todennäköisyys päästä vähintään 4% tuottoon eri otoskoilla.

Pelaajaryhmä Otoskoko 500 Otoskoko 1000 Otoskoko 2000
Harrastajat 20% 11% 4%
Ammattilaiset 70% 76% 82%

Tästä nähdään, että jo suurelta tuntuvan 500 vedon jälkeen 20% harrastajista on hyvällä tuurilla saavuttanut 4% tuottotavoitteen. Tosiammattilaisista 30% on taas jäänyt alle tavoitteen huonon tuurin takia. Tässä kohtaa on huomioitava prioritieto (lue lisää totuuden etsimisen periaatteista aiemmasta postauksestani), että 6% tuottoon kykeneviä vedonlyöjiä on hyvin vähän verrattuna omillaan pysyviin yrittäjiin. Tämän lisäksi kun huomioidaan moni muu satunnaistekijä, jota tässä ei ole huomioitu, niin voidaan todeta, että otoskoko 500 ei vielä kerro hirveästi. Kahdentuhannen vedon otos karsii 96% harrastelijoista pois ja alkaa olla jonkinlainen merkki taidoista, mutta jättää sekin vielä sattumalle sijaa.

2. Datan nykyaikaisuus

Etteivät asiat olisi liian yksinkertaisia, niin suuri aineiston koko itsessään ei riitä vaan sen pitää kuvata tulevaa potentiaalia. Mikään määrä aineistoa ei riitä, jos se on kasattu kauan aikaa sitten paljon nykypäivää löysemmillä vedonlyöntimarkkinoilla. Fiilispohjalta heittäisin, että data saa olla maksimissaan 5 vuotta vanhaa, että sillä on todistusarvoa tulevaisuuden suhteen.

3. Markkinoiden likviditeetti

Historiadata pitää perustua sellaisiin kertoimiin, joilla myös asiakkaat olisivat voineet tehdä samaa tulosta. Mikäli ”gurun” tilastot perustuvat pienten firmojen kertoimiin, jotka romahtavat heti parin isohkon vedon jälkeen, hyöty asiakkaalle jää olemattomaksi.

Muut näytöt

Tuhansien vetojen historia ja lyhyt ajallinen jakso on vaikeasti tavoitettava, jossain lajeissa jopa mahdoton, yhdistelmä. Niinpä palvelun tarjoajan on pystyttävä muillakin keinoilla osoittamaan poikkeavan kovan lajituntemuksen ja todennäköisyyslaskennan osaaminen. Esimerkiksi blogin pitäminen ja aktiivisuus sosiaalisessa mediassa ovat tällaisia vakuuttamiskanavia, jota kautta voi nostaa asiakkaan silmissä priori-todennäköisyyttä kuulua todellisten osaajien kerhoon. Tässä kirjoituksessa on kerrottu tavasta, jolla voi hieman vaivaa näkemällä selvittää kerroinmuutosten avulla pienemmästäkin otoksesta, kuinka taitava vihjaaja todellisuudessa on.

Yksittäisten osumien hehkuttamisen informaatioarvo on taas tasan nolla. Kaikki vedonlyöntiä säännöllisesti harrastavat osuvat aika-ajoin ja tappiot on helppo jättää hehkuttamatta. Mikäli hakee pitkän tähtäimen sijoitustuottojen sijaan yhteisöä, jossa voi hilpeällä porukalla iloita urheilun jännityksestä, fantsuilla termeillä mainostavat pankinräjäytys-palvelut ovat silloin omiaan.

Pelikassan koko

Samoin kuin kaikissa muissakin sijoituskohteissa, myös vedonlyönnissä kassanhallinta (rahapelien riskienhallinnasta enemmän aiemmassa postauksessani) on kaikista tärkein taito. Myös voittavalle vedonlyöjälle tulee aika-ajoin tuskastuttavan pitkiä tappioputkia joten yksittäisen kohteen panostus tulee olla hyvin pieni osuus (aloittelijan nyrkkisääntönä maksimissaan 2%) koko pelikassasta. Tämä taas valitettavasti rajaa useimmat piensijoittajat ulos markkinoilta. Olkoon meillä vihjepalvelu, jonka vihjeet tuottavat 5% tuoton. He veloittavat keskimäärin 5€ per vihje. Mikäli asiakkaan tuottovaatimus on 4%, täytyy hänen panostaa 500€, jotta odotusarvoisesti haluttu tuottovaatimus tulee täyteen. Nyt jos riskienhallinnallisesti sopiva panostus on 1% pelikassasta, täytyy asiakkaalla olla 50 000€ pelikassa että hänen kannattaa palvelun ostoa harkita.

Ilmaiset vihjaajat

Olipa pelikassan koko suuri tai pieni, pelisijoittaminen kannattaa aloittaa ilmaisvihjeillä hyvin pienillä panoksilla. Vie aikansa harjoittelua, että vetovihjeitä oppii hyödyntämään optimaalisella tavalla. Väistämättä vastaantulevat oppirahat kannatta pitää pienenä. Verkosta löytyy nettisivustoja ja Twitter-tilejä, joita kautta voi saada laadukkaitakin vetovihjeitä ilmaiseksi. Tosin harrastelijoiden ja ammattilaisten erottaminen on edelleen hankalaa. Nykypäivän ”tatsista” en mene henkilökohtaisesti takuuseen muista kuin yhtiökumppanistani Johannes Ärjestä. Mutta muita meritoituneita vedonlyönnin lajiasiantuntijoita, joita kannattaa Twitterissä ilmaisvihjeiden toivossa seurata on esim. Juha Koivula (Jääkiekko), Olli Koski (Jalkapallo) sekä Marko Virtanen (Koripallo).

Vanhat vihjeet

Oleellisin virhe, mitä itse olen tehnyt toisia vedonlyöjiä seuratessa, on ollut vihjeiden lyöminen liikaa muuttuneilla kertoimilla. Vihje saattaa olla vaikka ”Lyö HJK kertoimella 2.00, rajakerroin on 1.85”. Itse olen huomannut vihjeen tunnin myöhässä ja saatavilla on enää kerroin 1.9. Onhan sekin suurempi kuin rajakerroin, joten eikö sekin kannattaisi poimia talteen? Useat vihjaajat saattavat tehdä voittoisaa tulosta, muttei niin hyvää kuin heidän omien laskelmiensa mukaan olisi odotettavissa. He siis ottavat keskimäärin liikaa näkemystä markkinoita vastaan. Nyt vihjaajan kattavat tilastot kertovat, että odotettu tuotto pitäisi olla 8%. Toteutuma on kuitenkin ollut 4%. Nyt HJK-vihjeen todellinen rajakerroin voisi olla ehkä 1.92. Alkuperäinen vihje kertoimella 2.00 siis oli hyvä, mutta minun vetämä 1.9 onkin tappiollinen alikerroin.

Plussat

  • Urheiluvedonlyönti ylikertoimilla on mahdollisuus sijoittaa ilman korrelaatiota muihin sijoitustuotteisiin.
  • Pääoma kiertää nopeasti (rahat kiinni yhdessä kohteessa päivän tai pari)
  • Pelijoittaminen tuo lisämielenkiintoa penkkiurheiluun.

Miinukset

  • Asiakkaalle tuottoisan vedonlyöntipalvelun tunnistaminen hyvien myyntimiesten joukosta on vaikeaa. Vaaditaan pitkä voitollinen vetohistoria lähimenneisyydestä ja sen tueksi muita näyttöjä ammattitaidosta.
  • Vaikka vihjeet olisivat päteviä, jää asiakkaan omalle vastuulle pelata kohde ajoissa ennen kokoonpanotietojen ja kerrointen muutoksia järkevän kokoisella panoksella.

Loppukaneetti:

Toisten vihjeillä pelaaminen soveltuu parhaiten henkilölle, joka on penkkiurheilijana kiinnostunut lajista ja ymmärtää itsekin perusteet riskien hallinnasta sekä todennäköisyyksistä.

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Kaunismielistä lentopalloa

”Kaunis mieli”-elokuva on tositapahtumiin perustuva tarina peliteorian merkittävästä kehittäjästä; Nobel-palkitusta John Nashista. Ainakin elokuvan mukaan ensimmäinen peliteorian sovellus oli parinvalintatilanne opiskelijakemuissa: muiden miesten pörrätessä saman kauneimman naisen ympärillä, John laski maksimoivansa omat odotuksensa illan iloille satsaamalla huomionsa toiseksi kauneimpaan. Parhaiten nykymatematiikassa hänet tunnetaan Nashin tasapainoteoriasta. Kyse on kilpailutilanteesta, jossa kaikki osapuolet pelavaat optimaalisesti eikä kukaan saa taktista etua toista vastaan. Jos jollain kilpailijalla on isoimmat lihakset, niin se vie todennäköisimmin voiton. Mutta jos kilpailun ”lihaskimppu” ei pelaa taktisesti optimaalisesti, voi voimiltaan heikompi kääntää edun itselleen hyvällä peliteorian ymmärryksellä. Parhaiten peliteorian oppeja on otettu käytäntöön yritystalouden kilpailutilanteissa, mutta myös esim. menestyvät pokerinpelaajat käyttävät Nashin tasapainoa apuna pelistrategiaa pohtiessaan.

Peliteorian mahdollisuudet lentopallossa

Peliteorian oppeja voi kuitenkin soveltaa moniin urheilulajiin ja lentopallo on tästä erittäin hyvä esimerkki. Mietitään seuraavaa yksinkertaisettua tilannetta (kts. kuva):lentopallo_kentallinen4

Hyökkäävä joukkue, Sininen:lentopallo_kentallinen2lentopallo_kentallinen2
-Passari voi passata kolmeen paikkaan: 2-paikkaan Olli-Pekalle, keskelle Matille tai 4-paikkaan Antille. Oletuksena on, että takana 6-paikalla oleva pelaaja on tehnyt noston heittäytyen eikä ole hyökkäysvalmiudessa.

Torjuva joukkue, Punainen:
– Laitatorjujat torjuvat aina omaa laitaansa
– Keskitorjuja Mark voi joko

  • Jäädä keskelle odottamaan mahdollista keskihyökkäystä
  • Aavistaa hieman Simonin avuksi Olli-Pekkaa vastaan tai
  • Aavistaa hieman Waynen avuksi Anttia vastaan

Kuvassa näkyvät kaikille hyökkääville pelaajille tähän nimenomaiseen tilanteeseen liittyvät hyökkäystehoprosentit (todennäköisyys, että pallo päättyy oman joukkueen voittoon, jos pelaaja saa passin) kahdessa eri tapauksessa:

  1. Vastustajan keskitorjuja satsaa johonkin muuhun pelaajaan (isommat prosentit)
  2. Vastustajan keskitorjuja satsaa juuri häneen (pienemmät prosentit)

Oletetaan myös, että molempien joukkueiden tilastovalmentajilla on kattavat tilastot, joiden perusteella molempien joukkueiden valmentajat tietävät kuvassa esitetyt hyökkäystehoprosentit kaikille hyökkääjille. Tästä eteenpäin pelin voidaan olettaa olevan hyökätessä oman joukkueen pallonvoittotodennäköisyyden maksimointia ja puolustaessa vastustajan pallonvoittotodennäköisyyden minimointia.

Taktiikan kehitys

  1. Hyökkäävän Sinisen joukkueen aluksi hyvin yksinkertaisesti ajatteleva valmentaja käskisi passarin passata aina tässä tilanteessa Olli-Pekalle, koska sillä on parhaat tehoprosentit.
  2. Kun näin tapahtuu monta kertaa peräkkäin, Punaisen valmentaja huomaa toistuvat passit Olli-Pekalle ja käskee keskitorjuja Markin mennä aina Simonin avuksi pitämään Olli-Pekkaa.
  3. Kun Sinisen valmentaja huomaa tämän, hän järkeilee, ettei Olli-Pekalle enää kannata kokoajan passata. Olli-Pekan hyökkäyprosentti (65%) on vähemmän kuin esim. Matin (71%)  oletuksella, että keskitorjuja Mark aavistaa aina Olli-Pekan kimppuun. Ratkaisuksi tähän hän käskee passarin aina satunnaisesti passata 50% ajasta Olli-Pekalle ja 50% ajasta Matille.
  4. Kun Punaisen valmentaja huomaa tämän taktiikkamuutoksen, tajuaa hän että Mattiakin on pidettävä kiinni, ettei hän pääsisi tekemään pisteitä lähes vapaalta verkolta. Niinpä hän käskee Markia jatkossa satsaamaan satunnaisesti jatkossa 50% ajasta Mattiin ja 50% ajsta Olli-Pekkaan.
  5. Tässä tilanteessa pystymme esim. Excelillä laskemaan siniselle pallonvoittotodennäköisyydeksi 67.8%. Nyt Sinisen  tilastovalmentaja huomaa, missä mennään: molempien joukkueiden taktiikat huomioiden Sinisen pisteen todennäköisyys on 67.8%, mutta Antti voittaisi pallot 69% todennäköisyydellä nyt kun keskitorjuja jättää hänet aina rauhaan (samoin kun John Nashin opiskelukaverit jättivät toiseksi kauniimman naisen rauhaan). Kannattaisikohan Antillekin välillä passata?

Kohti tasapainoa

Jos edellisessä kappaleessa kuvattua valveentuneiden valmentajien (tilastovalmentajien avustuksella) käymää taktiikoiden ja vastataktiikoiden säätämistä jatkettaisiin loputtomiin, päädytään jossain vaiheessa ns. tasapainotilaan. Tällöin kumpikin joukkue pelaa sellaisella taktiikalla, jota vastaan vastustaja ei voi enää saada lisäetua muuttamalla taktiikkaa. Kiitos John Nashin, pystymme tämän tasapainotilan laskemaan. Tässä tapauksessa se olisi seuraava:

Wayne Wingman Mark Middleman Simon Sideman
Torjunnan tasapainojakauma: 7% 25% 68%
———————– ———————– ———————–
Passien tasapainojakauma: 30% 33% 37%
Antti Siltala Matti Oivanen Olli-Pekka Ojansivu

Tämä tarkoittaa, että passari valitsee satunnaisesti passin suunnan niin, että 30% todennäköisyydellä passi menne Antille, 33% todennäköisyydellä passi menee Matille ja 37% todennäköisyydellä passi menee Olli-Pekalle. Toisaalta Mark aavistelee 7% ajasta Antin suuntaan, 68% ajasta Olli-Pekan suuntaan ja 25% ajasta jää odottamaan passia keskelle. Käytännössä tällainen pelitaktiikka pitäisi toteuttaa pesäpallosta tutun merkkiviuhkan kanssa: tilastovalmentaja arpoo seuraavan siirron tietokoneella tilanteeseen sopivasti painotetulla satunnaisgeneraattorilla ja näyttää salaisen merkin pelaajille.

Kun pelaajat pelaavat tasapainon mukaisesti, niin näissä tilanteissa Sininen voittaa pallon 68.2% todennäköisyydellä.

Onko Nashin tasapaino optimaalinen pelitapa?

Vastaus otsikon kysymykseen: ei välttämättä. Tasapainon mukaan pelaaminen varmistaa sen, ettei vastustaja voi saada taktista etua joukkuettamme vastaan. Näin ollen se on paras lähtökohta kun vastassa on taktisesti valveutunut joukkue. Mutta jos vastustaja poikkeaa tasapainosta ja me tiedetään se, niin meidänkin kannattaa adjustaa taktiikkaa vastustajan mukaan. Palataan esimerkissämme taktiikan kehityksessä kohtaan 4. ja oletetaan nyt Punaisen valmentajaksi tilastoista piittaamaton jääräpää. Hän käskee Markin keskittyä aina vain Mattiin ja Olli-Pekkaan. Nyt Sininen joukkue saa taktiikalla ”ilmaisen lounaan” passaamalla aina Antille: tasapainotaktiikan 68.2% muuttuu nyt 69%:ksi.

Kurkistus todellisuuteen

volleyball competitionJohn Nash aikanaan sairastui skitsofreniaan matemaatikon uransa aikana. Yritetään me kuitenkin vielä pitää ajatukset lähellä todellisuutta. On selvää että esitettyssä esimerkissä on jouduttu tekemään monia yksinkertaistuksia todellisiin tilanteisiin verrattuna. Prosenttien kymmenyksen verran laskimen näytöllä etua tuovat taktiikka-muutokset ovat käytännön epävarmuuksista johtuen yhtä tyhjän kanssa. Tärkein tapa kehittää joukkueen peliä on edelleen harjoituttaa hyökkäystaitoja, jotta omat tehoprosentit nousee ja harjoittelemalla puolustamista, jotta vastustajan tehoprosentit laskee. Jos kuitenkin vastustajalle antaa useita prosenttiyksikköjä ylimääräistä taktista etua joka pallossa niin varmasti se näkyy myös ottelun lopputuloksessa. Peliteorialla olisi varmasti annettavaa monille lentopallojoukkueille, vaikkei sitä prosentin kymmenyksien tarkkuudella pystyisikään toteuttamaan.

Tämä kirjoitus on kirjoitettu yhdessä Mestaruusliigan ex-tilastovalmentaja Johannes Ärjen kanssa. Esimerkissä käytettyjen pelaajien nimet ja niihin liittyvät hyökkäystehoprosentit ovat keksittyjä. Jos jollakin todellisella pelaajalla on sama nimi, niin se on puhdasta sattumaa. Voit kokeilla itse laskea tasapainojakaumia erilaisiin tilanteisiin Ärjen tekemällä laskurilla.

Facebooktwittergoogle_plusredditpinterestlinkedinmail