Rss

  • linkedin

Archives for : aineistokritiikki

Jalkapalloanalytiikan kulta-aikaa

group watching football matchNäin jalkapallon MM-kisojen kynnyksellä elämme analytiikan kulta-aikoja. Ihmiset laidasta laitaan kiinnostuvat analysoimaan jalkapallojoukkueita ja yrittävät löytää taikakaavaa voittajan ennustamiseen. Työyhteisöjen kisaveikkaukset saavat harvemminkin urheilua seuraavat sukeltamaan hetkeksi veikkausten ihmeelliseen maailmaan. Mutta tästä lisää kirjoituksen lopussa. Katsotaan kuitenkin ensin, kuinka mediassa taho jos toinenkin on valjastanut tilapäisen analytiikkainnostuksen huomion keräämiseen.

Kosmofyysikko jalkapallon pauloissa

Tässä artikkelissa fyysikko Stephen Hawking kokeilee siipiään tilastotieteilijänä analysoimalla Englannin menestymismahdollisuuksia edellisten maailmanmestaruuskisojen perusteella. Hänen tutkimustuloksensa paljastaa mm. seuraavaa Englannin menestymiseen liittyen:

  • Englannin kannattaa käyttää punaisia paitoja valkoisten sijaan
  • Taktiikka ”4-3-3” toimii taktiikkaa ”4-4-2” paremmin
  • Eurooppalainen tuomari parantaa voittotodennäköisyyttä eteläamerikkalaiseen verrattuna
  • Korkealla pelaaminen murskaa Englannin voittomahdollisuudet

Olipa Hawkingin saavutukset fysiikan saralla kuinka kovat tahansa, niin tilastotieteilijänä on vielä petraamisen varaa. Jo tuon lehtiartikkelin perusteella hän onnistuu sortumaan useaan aloittelijan virheeseen analyysissaan. Toki näiden lehtijuttujen ensisijainen tarkoitus on tarjota vain ”höpöhöpö”-viihdettä, mutta koska juttuun on sotkettu oikea tiedemies, yritetään avata joitain ilmenneitä hämäryyksiä ja selviä virheitä:

  1. Valikoitu aineisto? Aineistona on MM-vuodesta 1966 lähtien. Miksi juuri tähän on aineisto rajattu? Eihän vaan Englannin kotikisoilla 1966 ole jotain tekemistä ”valinnan” kanssa?
  2. Aineiston käyttökelpoisuus?”Logistinen regressio” on varsin etevä analyysityökalu monien todennäköisyyksien mallintamiseen, kun aineistona on nykyhetkenkin populaatiota kattavasti kuvaava satunnaisotos. Kuinka hyvin 1960-luvun joukkue tai MM-kisat ylipäätään kuvaa nykypäivän joukkuetta tai kisoja?
  3. Aineiston koko? Tutkimuksessa on mukana kokonaista 12 turnausta (kisojen lukumäärä vuodesta 1966 alkaen). Jos Englanti pelaisi keskimäärin 5 ottelua turnauksessa, olisi tutkimuksen otoskoko 60. Aineiston riittävyys luotettaviin päätelmiin riippuu paljon siitä, kuinka montaa eri muuttujaa on tarkoitus tutkia. Jos huomioidaan vaikka pelkästään mainitut kolme luokittelevaa tekijää (puna/valkea pelipaita, ”4-3-3″/”4-4-2” taktiikka, eurooppalainen/etelä-amerikkalainen tuomari), jakautuu aineisto 2 * 2 * 2 = 8 osaan. Jokaiseen osioon jää siis keskimäärin 60 / 8 = 7.5 havaintoa. Pelipaidan väri tuskin on kuitenkaan ollut tutkimuksen pääkohde vaan haiskahtaa, että tässä on tutkittu lisäksi hyvin monia muitakin muuttujia, mutta nämä ovat nyt tällä kertaa sattuneet putkahtamaan esiin.

Tutkimuslöydöksiin liittyvästä epävarmuudesta ei artikkelissa puhuttu mitään, mutta ei tarvitse olla Einstein (Hawkingin esikuva) arvatakseen, ettei se taida kestää päivänvaloa.

Jalkapallovedonlyönti – kuin rahaa laittaisi pankkiin?

Toinen vastaantullut yritys on maailman mahtipontisimman pankin Goldman Sachs tekemät ennusteet. Tässä tutkimuksessa on päästy eroon monista Hawkingin ongelmista ottamalla mukaan kaikki muutkin maaottelut kuin MM-kisat lähes sadan vuoden aikana. Joukkueiden tasoerojen muutoksia on pyritty kontrolloimaan edeltävien pelien avulla automaattisesti joukkeiden taitotasoa pisteyttävällä ELO-menetelmällä. Lisäksi tutkimuksessa on pelipaitojen värin sijaan keskitytty oleellisiin muuttujiin.

Koneisto antaa paljon ihan uskottavan suuruisia arvioita, mutta esim. Brasilia saa pelottavan suuria todennäköisyyksiä: tutkimuksen mukaan Brasilia tulee voittamaan kotikisansa 50% todennäköisyydellä. Tutkijat lopussa myöntävätkin, että heidän käyttämämä ELO-pisteytys korostaa mahdollisesti liikaa aivan viimeisiä tuloksia ja Brasilialla sattuu olemaan juuri nyt alla suurinumeroiset voitot kovista maista viime kesältä( 3-0 vs. Espanja ja 4-2 vs. Italia). Lisäksi tutkimuksen mallissa on suuri painoarvo MM-kisojen kotiedulla, minkä voisi epäillä hieman laimenneen historian saatossa, vaikka 1930-1970-luvuilla nähtiinkin paljon kotimestaruuksia.

football bet slipKyseessä on sinällään mielenkiintoinen ja kunnianhimoinen yritys mallintaa tilastollisin menetelmin todennäköisyyksiä ilman syvällistä jalkapallo-osaamista. Tutkijat oikeaoppisesti myös testaavat menetelmän tomivuutta vuoden 2010 kisojen otteluihin ennen sitä tunnettujen tietojen avulla ja tulevat siihen lopputulokseen, että sattumalla on hyvästä analyysista huolimatta suuri vaikutus lopputuloksiin. Firman kannattaa siis edelleen keskittyä jauhamaan rahaa pankkibisneksillään. Internetin vedonlyöntimarkkinoilla vahvimmilla ovat ne, jotka historiadatan hallitsemisen lisäksi osaavat muuttaa numeroiksi yksittäisten pelaajien taitotasot ja joukkueen pelitaktiikan sekä yhteensopivuuden vastustajan taktiikkaa ja pelaajia vastaan. Nykypäivänä menestyvä vedonlyönti on siis yhdistelmä pitkälle vietyä lajituntemusta ja tilastotiedettä.

Itselläni ei futistietämys riitä vedonlyöntimarkkinoilla riittävän hyvään todennäköisyyslaskentaan, mutta sen sijaan osaan hyödyntää joitain vedonlyöntimarkkinoilla olevia tehottomuuksia. Näistä kiinnostuneiden kannattaa olla hereillä Twitterissä lähipäivinä.

Statistickon steesi:

  • Tilastomenetelmien turvallinen käyttö vaatii tutkittavan aiheen sisältöosaamista ja aineiston soveltuvuuden kriittistä arviointia

Bonussteesit työporukkaveikkauksiin (ei vielä tieteellisesti todistettuja):

  • Maalien tarkkuudella annetuissa tulosveikkauksissa yllätykset osuvat liian harvoin. Todennäköisin lopputulos on yleensä aina ’1-1’, mikäli ottelu on vähääkään tasaväkinen. Jos toinen joukkue on selvä suosikki, kannattaa veikata ’1-0’ ja murskasuosikille ’2-0’
  • Kannattaa valita yksi ”idea-joukkue”, jolla on hyvät mahdollisuudet päästä pitkälle, mutta jota muut kisan veikkaajat eivät ehkä osaa arvata.  Nyt potentiaalinen musta hevonen voisi olla jokin vähemmän tunnettu Etelä-Amerikan maa kuten Uruguay, Kolumbia tai Chile.
  • Pääasiassa kannattaa suosia todennäköisiä menestyjiä ja lopputuloksia, mutta pelkkiä yleisiä suosikkeja veikkaamalla on vaikea nousta veikkauksen kärkiryhmästä voittajaksi.  Sen takia voittaja tarvitsee ripauksen tuuria ”idea-joukkueensa” onnistumisen muodossa.
Facebooktwittergoogle_plusredditpinterestlinkedinmail