Marcos Lopez de Prado toteaa kirjansa Advances in Financial Machine Learning johdannossa (vapaa suomennos): “Minulla ei ole epäilystäkään, ekonometria on ensisijainen syy, miksei rahoituksen ja taloustieteen tutkimus ole sanottavasti kehittynyt viimeisen 70 vuoden aikana.”. Voimakas mielipide, osin varmasti liioiteltukin, mutta todennäköisesti Lopez de Prado tietää mistä puhuu omatessaan vuosikymmenten kokemuksen näiden alojen käytännöstä ja akateemisesta tutkimuksesta.
Mitä on ekonometria? Kysymyksessä on tilastotieteestä omaksi tieteenalakseen erkaantunut haara, jota käytetään rahoituksen, taloustieteen ja laskentatoimen tutkimuksessa. Keskeinen piirre ekonometriassa on oletus, että kaikki ilmiöt voidaan mallintaa lineaarisesti. Eli yksinkertaistettuna ilmiö voidaan kuvata suoran avulla. Toki tästä on joitain poikkeuksia, mutta väittäisin että yli 90 % tutkimuksista käyttää lineaarisia malleja.
Mutta onko maailma lineaarinen? Ja erityisesti, onko rahoituksen, taloustieteen ja laskentatoimen tutkimusalaan kuuluvat ilmiöt lineaarisia? Oikeastaan jokainen meistä, joka harrastaa jotain, tietää tähän vastauksen. Oli harrastus mikä hyvänsä, kun olet hankkimassa siihen välineitä, näiden hinta ei todellakaan kasva lineaarisesti. Aluksi lisäeuroilla saa mukavasti paremmat välineet, mutta sitten parantuminen hidastuu ja koko ajan saa lyödä enemmän euroja pöytään saadakseen pienen parannuksen välineen ominaisuuksiin. Nämä samat piirteet toistuvat myös rahoituksen, taloustieteen ja laskentatoimen tutkimuskohteissa.
Maailma ei todellakaan ole lineaarinen. Mutta onko siitä haittaa? Voisiko ajatella, että lineaarisella mallilla saadaan riittävän tarkkaan kuvattua tutkimuksen kohteena oleva ilmiö. Valitettavasti näyttää siltä, että ei. Lähtökohtaisesti teoreettisessa tutkimuksessa, siis sellaisessa, joka pyrkii rakentamaan jonkinlaisen selittävän teorian havaitulle ilmiölle, mallin pitäisi vastata mahdollisimman tarkkaan tarkasteltavan ilmiön ”mekaniikkaa”. Jos tämä mekaniikka ei ole lineaarinen, malli ei toimi ja teoriat ovat huonoja. Lisäksi aivan viime aikoina on julkaistu tutkimuksia, joissa simuloinneilla on voitu osoittaa, miten vaarallista on mallintaa lineaarisilla malleilla epälineaarisia ilmiöitä. On mahdollista, että seurauksena saadaan merkittäviä yhteyksiä muuttujille, joilla ei todellisuudessa ole mitään tekemistä ilmiön kanssa. Tämä on äärimmäisen huolestuttava löytö, koska hyvin suuri osa näiden alojen tutkimuksesta keskittyy etsimään yhteyksiä eri muuttujien välillä. Esimerkiksi etsitään, mitkä yrityksen ominaispiirteet vaikuttavat sen suorituskykyyn.
Entä jos suurin osa näistä aiemmin löydetyistä yhteyksistä ei olekaan todellisia, vaan seurausta lineaarisen mallin käytöstä epälineaarisen ilmiön selittämiseen? Tämän takia ekonometrisen tutkimuksen olisi tärkeää siirtyä suosimaan epälineaarisia malleja. Aikaisemmin niiden käyttö oli vaikeaa, koska tyypillisesti kysymyksessä oli erilaiset koneoppimismallit, jotka ovat hyvin vaikeita tulkita. Ennusteet ovat ensiluokkaisia, mutta mallista on vaikeaa todeta, miten eri muuttujat vaikuttavat tähän ennusteeseen.
Edellä mainittuun ongelmaan on kuitenkin koneoppimismallien tutkimus tuonut viime aikoina muutoksen, ja erilaisilla explainable AI -menetelmillä on nykyään mahdollista tulkita monimutkaiset koneoppimismallit kuten lineaariset mallit. Täten mahdollisuus tehdä tutkimusta niin, että saadaan selville todelliset rakenteet ja muuttujien vaikutukset tarkasteltavana olevaan ilmiöön ovat huomattavasti parantuneet. Valitettavasti kyseisten alojen tutkijayhteisö on hyvin konservatiivista ja siirtyminen pois satoja vuosia käytössä olleista lineaarisista malleista on hyvin hidasta.
Kirjoittaja työskentelee tutkijatohtorina (tenure track) Laskentatoimen ja rahoituksen yksikössä sekä Digital Economy -tutkimusalustalla.