Miksi tutkimustulosten toistettavuus on tieteessä tärkeää? 

Tulitikkuja rivissä. Ensimmäiset ovat palaneet, jonka jälkeen tikut toistuvat samanlaisina ja ehjinä.

Tutkimustulosten toistettavuudesta eli replikaatiosta on käyty viime vuosina paljon keskustelua. Monella alalla on huomattu, ettei tutkimuksia ole useinkaan onnistuttu toistamaan. Vaakalaudalla on tieteellisen tiedon puolueettomuus ja luotettavuus.

Huolellisinkin tutkija voi tehdä tutkimuksessaan virheitä tai vetää vääriä johtopäätöksiä tuloksistaan. Joskus taas sattuma voi tuottaa harhatuloksia. Virheellisten tutkimustulosten ajatellaan kuitenkin karsiutuvan pois tiedeyhteisön kriittisen toiminnan myötä, kun yhteisö jatkuvasti tarkistaa ja korjaa tuloksiaan. Tieteen ehkä tärkeimpänä ominaisuutena pidetäänkin sen itseäänkorjaavuutta. Sen ansiosta paikkansapitävät löydökset siivilöityvät esiin vähemmän luotettavien joukosta ja tiede etenee kohti yhä totuudenmukaisempaa kuvaa maailmasta.   

Tärkeä kriteeri tutkimustulosten luotettavuudelle on se, että ne ovat eri tutkijoiden toisistaan riippumattomasti toistettavissa eli replikoitavissa. Tulosten toistettavuus takaa, että tutkimustieto on objektiivista eikä sidoksissa vain joihinkin erityisolosuhteisiin tai jonkun yksittäisen tutkijan henkilökohtaisiin toiveisiin ja kuvitelmiin. 2010-luvulla monilla tieteenaloilla havahduttiin kuitenkin siihen, että tutkimustulosten toistettavuudessa vaikutti ilmenevän ongelmia yllättävän usein. Esimerkiksi kun kansainvälisessä yhteistyöprojektissa toistettiin sata psykologian tutkimusta, jotka oli alun perin julkaistu kolmessa arvostetussa tieteellisessä lehdessä, vain 36 prosenttia niistä onnistuttiin toistamaan samoin tuloksin.  

Joskus voi kestää pitkäänkin, ennen kuin tutkimustulosten toistettavuusongelmat huomataan. Vuonna 1988 julkaistiin psykologian tutkimus, jossa selvitettiin ilmeitä säätelevien kasvolihasten toiminnan yhteyttä tunnekokemuksiin. Koehenkilöt arvioivat sarjakuvien hauskuutta samalla kun he ensimmäisessä koetilanteessa pitivät kynää etuhampaidensa välissä, mikä jännitti hymyilyyn liittyviä suupielen lihaksia. Toisessa tilanteessa kynä oli huulien välissä, mikä esti hymyilyn. Tutkijat raportoivat, että samat sarjakuvat koettiin ensimmäisessä tilanteessa hauskemmiksi kuin jälkimmäisessä. Tulos sopi yhteen myös tiettyjen psykologian tunneteorioiden kanssa. Niiden mukaan tunnekokemukseen myötävaikuttaisi aistipalaute, jota saadaan ilmeitä säätelevien kasvolihasten jännitystiloista. Kynäkokeeseen on sittemmin viitattu yli tuhannessa muussa tieteellisessä julkaisussa, ja se on päätynyt lukuisiin psykologian oppikirjoihinkin. Mutta kun tämä koe toistettiin lähes 30 vuotta julkaisunsa jälkeen seitsemässätoista eri laboratoriossa, sen tulosta ei saatu toistettua. Eri laboratorioiden tuloksista tehdyn yhteenvedon perusteella kynän sijainnilla suussa ei ollut mitään vaikutusta siihen, miten hauskoiksi sarjakuvat koettiin.  

Replikaatiokriisistä eli tutkimustulosten toistettavuuskriisistä alettiin puhua pian monilla muillakin tieteenaloilla, muun muassa biolääketieteessä, aivotutkimuksessa, biologiassa sekä yhteiskuntatieteissä. Keskustelu on kohdistunut erityisesti kokeellista menetelmää ja kvantitatiivista eli määrällistä lähestymistapaa käyttäviin tieteenaloihin. Niissä tuloksia analysoidaan ja kuvataan erilaisin matemaattisin ja tilastollisin menetelmin.  

Replikaatiokriisin taustalla on monenlaisia tekijöitä. Replikaatiotutkimuksia tehdään liian vähän, koska tutkijat ymmärrettävästi haluavat yleensä mieluummin testata omia ideoitaan kuin toistaa jotain jonkun toisen jo aiemmin tekemää. Yliopistot, tutkimuslaitokset ja tutkimusrahoittajat eivät ole erityisemmin kannustaneet replikaatiotutkimusten tekoon vaan painottaneet alkuperäistutkimuksen merkitystä esimerkiksi tutkijapaikkoja täytettäessä ja tutkimusmäärärahoja jaettaessa. Tutkimuksia julkaisevat tieteelliset lehdetkin ovat arvostaneet enemmän tutkimustulosten uutuusarvoa kuin niiden toistettavuutta. Mikäli replikaatiotutkimuksia ei tehdä riittävästi, tieteen itseäänkorjaavuus ei toteudu. Virheelliset tutkimustulokset voivat pahimmassa tapauksessa johtaa pitkäänkin tutkimusta harhaan. 

Tieteeseen havaittiin myös pesiytyneen ongelmallisia tutkimuskäytäntöjä. Monesti kyseessä on ollut virheellinen tilastollisten menetelmien soveltaminen, kun tutkijat ovat analysoineet tutkimusaineistoa. Monissa tieteellisissä lehdissä yhtenä tutkimusten julkaisukriteerinä on ollut niiden tulosten tilastollinen merkitsevyys, millä yksinkertaistettuna tarkoitetaan sitä, että tulokset ovat pelkän sattuman aiheuttamiksi epätodennäköisiä. Mikäli tulokset eivät alustavassa tilastollisessa analyysissä ole osoittautuneet tilastollisesti merkitseviksi, tutkijat ovat saattaneet  kokeilla monia erilaisia tapoja analysoida aineistoaan ja lopulta valinneet tavan, joka näyttäisi tuottavan heidän kannaltaan parhaimmat lopputulokset. Tällaiset ongelmalliset tutkimuskäytännöt heikentävät kuitenkin tulosten luotettavuutta ja toistettavuutta. 

Erilaiset vinoumat voivat niin ikään heikentää tutkimustulosten luotettavuutta. Tutkijatkin ovat alttiita ihmisen ajattelulle tyypilliselle vahvistusvinoumalle eli etsimään ja suosimaan sellaisia todisteita, jotka ovat sopusoinnussa heidän aiempien näkemystensä kanssa ja jättämään vähemmälle huomiolle niitä vastaan sotivat todisteet. Tieteelliset lehdet taas ovat ensisijaisesti julkaisseet vain tilastollisesti merkitseviä tuloksia saaneita tutkimuksia. Osa näistä tuloksista saattaa kuitenkin olla eri syistä johtuvia virhelöydöksiä. Jos vain ”onnistuneet” tutkimukset julkaistaan ja samaa aihetta koskeneet, negatiivisia tuloksia saaneet tutkimukset jäävät ”epäonnistuneina” raportoimatta, voi tästä aiheutuva julkaisuvinouma antaa harhaanjohtavan kuvan jonkin tutkimusalueen tulosten yhdenmukaisuudesta ja luotettavuudesta. 

Yhtenä replikaatiokriisin juurisyynä on pidetty tiedemaailman toimintaperiaatteita, jotka voivat kannustaa tutkijoita asettamaan julkaisujensa määrän etusijalle niiden laadun asemesta tai julkaisemaan mediahuomiota herättäviä mutta huonosti varmistettuja tutkimustuloksia. Kun tutkijat julkaisevat paljon tai saavat mediajulkisuutta, se voi edistää heidän uraansa (etenemismahdollisuuksia, tutkimusrahoituksen saamista jne.). Replikaatiotutkimusten arvostusta on viime aikoina pyritty nostamaan, jotta tieteen itseään korjaavuutta saataisiin tehostettua. Tieteessä on alettu painottaa myös tutkijan työn laatua ja hänen tulostensa toistettavuutta pelkkien julkaisumäärien sijasta. Julkaisuvinouman vähentämiseksi tieteelliset lehdet ovat alkaneet julkaista myös pätevästi toteutetuiksi arvioituja tutkimuksia vaikkei niissä tutkittua ilmiötä tai vaikutusta olisi pystyttykään osoittamaan. Yhtenä tärkeänä päämääränä pidetään tieteen avoimuutta: kaikki tutkimuksen toteutuksen eri vaiheet ja niissä tehdyt päätökset, kuten aineiston analysointitavat, tulisi kuvata mahdollisimman tarkasti ja mitään pimittämättä, jolloin voidaan ehkäistä kyseenalaisia tutkimuskäytäntöjä. Tiedeyhteisö on replikaatiokriisin johdosta ryhtynyt korjausliikkeisiin, jotka ovat jo johtaneet muutoksiin tieteen toimintakulttuurissa. Siksi voimme tulevaisuudessakin pitää tutkittua tieteellistä tietoa parhaimpana mahdollisena perustana päätöksenteolle.

Kirjoittajasta

FT Petri Paavilainen toimii yliopistonlehtorina Helsingin yliopiston psykologian osastossa. Hän tutkii ihmisaivojen tiedonkäsittelyä ja on julkaissut useita tietokirjoja, viimeisimpänä Tieteen replikaatiokriisi – voiko tutkimustuloksiin luottaa? (Gaudeamus 2026).

Kysymyksiä pohdittavaksi

  1. Mitä erilaisia syitä tieteen replikaatiokriisin taustalla on? 
  2. Mitä itse ajattelet luotettavuuden ja rehellisyyden tärkeydestä – tieteessä tai elämässä ylipäätään?