Julkaisuvinouma, raportointivinouma ja viittausvinouma -- eli kuinka hajanaisista tutkimustuloksista syntyy vaikutelma yksiselitteisestä tutkimusnäytöstä
Nykyään tiedekirjallisuuden lukeminen herättää ristiriitaisia tuntemuksia. Toisaalta luen jatkuvasti metatieteellisiä artikkeleita, jotka käsittelevät, kuinka puutteellista tutkimusmetodologia usein on, tai kuinka tuloksia raportoidaan tavalla tai toisella vääristyneesti. Silti, aina psykologisemmista aiheista kirjallisuuskatsauksia ja artikkelien johdantoja lukiessa syntyy vaikutelma, että asiasta tiedetään paljon, ja näyttö on melko selkeää. Tässä kirjoituksessa käsittelen tätä ristiriitaa. Tarkemmin, käsittelen sitä kuinka erilaiset vinoumat saavat jotkin löydökset saavuttamaan tiedeyhteisön “kollektiivisessa uskomusjärjestelmässä” yleisesti hyväksytyn faktan aseman, vaikka tutkimusnäyttö olisi todellisuudessa hajanaista.
Tämä kirjoitus ei suoranaisesti käsittele replikaatiokriisiä, tilastokikkailuita tai hypoteesien sepittämistä, mutta menee samaan laajempaan kokonaisuuteen: miksi tutkimuskirjallisuutta tulee lukea kriittisesti. Nämä ongelmat ovat oma matopurkkinsa, joista saatan kirjoittaa tuonnempana. Sen sijaan käsittelen tässä erilaisia vinoumia, jotka tyypillisesti voimistavat tietynlaisten tutkimuslöydösten vaikuttavuutta ja heikentävät toisenlaisten: julkaisuvinoumaa, raportointivinoumaa ja viittausvinoumaa.
Aluksi täytyy avata käsitteet positiivinen ja negatiivinen tutkimuslöydös. Positiivisella löydöksellä tarkoitetaan tutkimustulosta, jonka mukaan joidenkin asioiden välillä todettiin vaikutus, yhteys, eroavaisuus jne. Hieman mutkia oikoen voisi sanoa että hypoteesi sai tukea. Esimerkkeinä positiivisista löydöksistä voisi olla, että jokin terapia vähentää masennusoireita, tai että älykkyystestin tulos ennustaa kouluarvosanoja. Negatiivisella tuloksella vastaavasti tarkoitetaan löydöstä, jossa EI saatu tukea edellämainitun kaltaisille väitteille. Vastaavat esimerkit olisivat että terapia ei vähennä masennusoireita tai älykkyystestin tulos ei ennusta kouluarvosanoja.
Julkaisuvinouma
Tutkimuksia lukiessa altistuu välittömästi valikoitumisvaikutukselle: lukemasi tutkimukset on kirjoitettu käsikirjoituksiksi, ja julkaistu tavalla tai toisella (joko vertaisarvioiduissa lehdissä tai esijulkaisuina). Ei välttämättä ole tietoa, kuinka paljon tietystä aiheesta on tehty tutkimusta josta ei ole olemassa minkäänlaista raporttia, ja kuinka suuren osan nämä muodostavat kaikesta tehdystä tutkimuksesta.
Monesti negatiivisista löydöksistä ei edes kirjoiteta tutkimusraporttia, koska uskotaan että lehdet eivät ole kiinnostuneita julkaisemaan niitä (pöytälaatikkovaikutus). Tämä tarkoittaisi tutkijalle mahdollisesti ”turhaa” työtä jo muutenkin tuottavuuden suhteen hyper-kilpailullisessa ympäristössä. Tämä on isolta osin julkaisukulttuurin aiheuttama ongelma, jonka seurauksena positiiviset tulokset ovat yliedustettuna julkaistuissa tutkimuksissa.
Psykologiassa on tieteenalana eräs korkeimmista osuuksista vahvistetuille hypoteeseille: 92% julkaistuista artikkeleista raportoi positiivisen löydöksen hypoteesintestauksessa (Fanelli, 2010). Näin korkea osuus on epäilyttävä useammastakin syystä. Ensinnäkin, tällaista osuutta varten otoskokojen pitäisi olla niin suuria että keskimääräinen tilastollinen voima (todennäköisyys saada tilastollisesti merkitsevä tulos jos olemassa vaikutus) olisi vähintään 92%, mutta tätä lähellä ei tyypillisesti olla edes vahvojen ilmiöiden suhteen (Szucs & Ioannidis, 2017). Toinen syy on heikot tai löyhästi määritellyt teoriat. Näin korkea osuus vaatisi jättiosan testatuista hypoteeseista olevan hyvin perusteltuja eikä esimerkiksi puutteellisesta teoriasta johdettu tai puhtaasti hakuammuntaa. Nuorena tieteenä psykologian teoriat kuitenkin hakevat yhä muotoaan, ja monesti ei ole edes yksiselitteistä mitä ne ennustavat.
Scheel, Schijen ja Lakens (2020, preprint) tutkivat julkaisuvinouman voimakkuutta vertaamalla tuloksia kahden erilaisen julkaisuprosessin artikkelityypeistä. Ensimmäinen näistä oli “perinteiset” artikkelit, joissa vertaisarviointi sekä julkaisupäätös tehdään kokoversiolle, jossa editori ja arvioitsijat näkevät tulokset. Toinen ryhmä oli registered report -artikkelit, joissa vertaisarvioidaan ensin tutkimussuunnitelma, ja mikäli tämä on pätevä, artikkeli saa julkaisuhyväksynnän jo ennen datan keräämistä. Ajatuksena on, että jälkimmäisessä vääristymä on vähäisempää koska tutkijoiden ei tarvitse huolehtia hylätäänkö artikkeli “vääränlaisten” tulosten takia.
Perinteisissä artikkeleissa positiivisten löydösten osuus oli hyvin vastaavanlainen kuin aiemmin psykologiassa todettu: 96% artikkeleista löysi tukea tutkijoiden hypoteesille. Registed reports -formaatin artikkeleissa vastaava luku puolestaan oli… 44%. Siis viidenkymmenen prosenttiyksikön ero. Tämä on viisitoistakertainen suhteellinen osuus negatiivisille löydöksille, kun julkaisupäätös tehtiin ennen datan keruuta ja analysointia, mikä vaikuttaa viittaavan siihen että negatiivisia tuloksia jää huomattavan paljon pöytälaatikon kätköön. Kirjoittajat pohtivat vaihtoehtoisena selityksenä löydökselleen sitä, onko registered report -artikkeleita kirjoitettu enemmän tutkimuksista, joiden hypoteesi on lähtökohtaisesti tavalla tai toisella epäilyttävä (monet replikaatiotutkimukset). Tämän seikan huomioiminen ei kuitenkaan muuttanut tuloksia huomattavasti. On toki mahdollista että artikkelityyppien välillä on jokin muu (tuntematon) sekoittava tekijä.
Raportointivinouma
On yksi asia että negatiiviset tulokset jäävät julkaisematta, ja toinen että ne julkaistaan… mutta positiivisina. Toisinaan tutkimusta päädytään raportoimaan tavalla, jota niiden tulokset eivät tilastollisten käytäntöjen kannalta oikeuta, tai joka on vähintään heikompi versio siitä tuesta, jota tutkimuksella oli hypoteesille tavoiteltu.
De Vries, Roest, Jonge, Cujipers, Munafó ja Bastiaansen (2017) tutkivat kuinka sadan masennuksen hoitoa (lääkeellisesti tai psykoterapialla) käsittelevän tutkimuksen tulosten raportointi muuttui matkan varrella kohti julkaisua. Lääketieteellisessä tutkimuksessa täytyy usein esirekisteröidä tutkimusprotokollat ja lähettää data FDA:lle “väliraporttina” ennen varsinaisen artikkelin julkaisua. Siten tutkijat pääsivät käsiksi tuloksiin, jotka edelsivät niiden mahdollista julkaisua vertaisarvioiduissa lehdissä.
Puolessa tutkimuksista (50%) tehtiin positiivinen löydös ja puolessa negatiivinen. Edellisen tutkimuksen tapaan kirjoittajat totesivat huomattavan julkaisuvinouman: positiivisista löydöksistä myöhemmin julkaistavaksi päätyi 98%, mutta negatiivisista vain 48%. Toisinsanoen, positiivinen löydös julkaistiin kaksi kertaa todennäköisemmin kuin negatiivinen.
Negatiiviset tulokset eivät kuitenkaan jääneet kokonaan julkaisematta, vaan osa näistä muuttui “positiivisiksi”, kun ensisijainen (negatiivisen tuloksen tuottanut) vastemuuttuja jätettiin raportoimatta, ja keskityttiin toissijaisiin muuttujiin, minkä jälkeen 79% julkaistuista tutkimuksista esitti löydöksen positiivisena (raportointivinouma). Lisäksi osa alunperin negatiivisista tuloksista tulkittiin julkaisussa positiivisina tavoilla, joita tilastolliset käytännöt eivät salli, jolloin osuus positiivisena näyttäytyvistä tuloksista kipusi 94%:iin (spin).
Viittausvinouma
Julkaisuvinouman ja raportointivinouman lisäksi myös kirjallisuuskatsaukset ja artikkelien johdannot usein maalailevat erilaista kokonaiskuvaa, kuin mitä edes julkaistujen tutkimustulosten perusteella pitäisi. Kun tutkijat viittaavat positiivisiin tutkimuksiin useammin kuin negatiivisiin, syntyy vaikutelma selkeästä tutkimusnäytöstä, ja tutkimusväite saattaa vakiinnuttaa yleisesti hyväksytyn tiedon aseman hajanaisista tuloksista huolimatta.
Greenberg (2009) teki toisiinsa viittaavista artikkeleista verkoston: mihin kaikkiin artikkeleihin viitattiin ja minkä artikkeleiden toimesta. Hän etsi julkaistuja artikkeleita, jotka käsittelivät erään proteiinin (beta-amyloidi) yhteyttä lihassairauteen. Hän tunnisti kymmenen alkuperäistätutkimusta, joista puolessa tehtiin positiivinen löydös ja puolessa negatiivinen. Kuitenkin myöhemmät kirjallisuuskatsaukset viittasivat posiitivisen löydöksen tehneisiin artikkeleihin huomattavasti useammin kuin negatiivisen löydöksen tehneisiin. Tarkalleen ottaen 94% kaikista viittauksista alkuperäistutkimuksiin oli positiivisen löydöksen tehneisiin viiteen tutkimukseen. Toisin sanoen, kun myöhemmissä artikkeleissa käsiteltiin aiempaa tutkimusta, puuttui maininnat löydöstä tukemattomista tutkimuksista.
Kirjoittaja puhuu viittausvinoumasta, valikoivasta tutkimustulosten poimimisesta, joka luo mielikuvaa todellisuutta yksiselitteisemmästä tuesta väitteelle. Laajemmin kyseessä on eräänlainen kaikukammiovaikutus: myöhemmät kirjallisuuskatsaukset viittasivat alkuperäistutkimuksia valikoivasti käsitelleisiin aiempiin kirjallisuuskatsauksiin, ja tämän kautta myös itse valikoivasti alkuperäistutkimuksiin. Tämä puolestaan johti siihen että positiivisen löydöksen tehneiden artikkeleiden viittausmäärät kasvoivat eksponentiaalisesti, mutta negatiivisen löydöksen tehneiden hädin tuskin ollenkaan. Kirjoittaja kutsuu tätä amplifikaatioksi: väitteen vaikutusvaltaisuuden kasvuksi kun positiivisiin löydöksiin viitattaan kiihtyvällä tahdilla, mutta negatiivisiin ei.
Vielä huolestuttavampaa on, että tutkija huomasi viittausketjun pituuden kasvaessa joidenkin väitteiden “totuusarvon” muuttuvan rikkinäisen puhelimen tapaan. Alkuperäisissä tutkimusartikkeleissa spekulatiivisena esitettyihin (eli testaamattomiin) selityksiin viitattiin myöhempien artikkelien toimesta virheellisesti, minkä myötä niitä pidettiin tosiasioina. Nämä väitteet nousivat hypoteesin asemasta “faktoiksi” ilman testaamista, ja levisivät pitkin uskomusverkkoa, mitä kirjoittaja kutsuu viittaustransmutaatioksi.
Kirjoittaja oli myös huolestunut siitä, että valikoivaa viittaamista käytettiin vaikutuskeinona esimerkiksi rahoitushakemusten hypen kasvattamiseen. Hän tarkasteli miten NIH:n saamat aihetta koskevat rahoitushakemukset viittasivat tutkimuksiin, ja huomasi että 8/9 hakemuksista sisälsi joko valikoivaa tai virheellistä viittausta.
Dataa sisältäviä artikkeleita oli lopulta varsin vähän verrattuna muunlaisiin artikkeleihin, jotka olivat suuremmassa roolissa väitteen ympärillä käydyn keskustelun ylläpitämisessä. Kaikkiaan tutkimus maalailee aika pessimististä kuvaa siitä kuinka tutkimuskirjallisuus voi alkaa elää omaa elämäänsä: vain osajoukkoon tutkimuksia viitataan, mikä luo vaikutelmaa yksiselitteisestä tuesta löydökselle, ja näiden viittausten myötä jopa syntyy uusia “faktoja”, joita alkuperäiset tutkimukset eivät puolla.
Loppusanat
Negatiivisia tuloksia päädytään julkaisemaan harvemmin, tai julkaistaessa ne on saatettu naamioida positiivisiksi, minkä lisäksi aidosti negatiiviset löydökset saavat huomattavasti vähemmän huomiota kuin positiiviset. Nämä kolme seikkaa, julkaisuvinouma, raportointivinouma ja viittausvinouma saavat tutkimusväitteet näyttämään huomattavasti paremmin tuetuilta kuin mihin todellsiet tutkimustulokset oikeuttaisi.
Yllä annetut esimerkit ovat pääosin lääketieteestä - ei siksi että minulla olisi jotain hampaankolossa lääketiedettä kohtaan, vaan koska lääketieteessä on pidemmät perinteet tutkimusten esirekisteröinnissä, joka on välttämätöntä joillekin yllä esitetyille tarkasteluille. Tämän käytännön pitäisi yleistyä psykologiassakin, jotta esiteltyjen kaltaisia tarkasteluita voitaisiin tehdä laajemmin kokonaisille tutkimussuuntauksille, eikä vain sekalaisille artikkeleille.
En henkilökohtaisesti usko tilanteen olevan psykologiassa parempi. Lääketieteen kohdalla on helppo vedota lääkeyhtiöiden taloudellisiin kannustimiin, mutta tutkijan ammatti itsessään sisältää eturistiriitoja asiallisen raportoinnin ja urakehityksen välillä. Pikemminkin, ja ehkä hieman ironisesti lääketeollisuuden kannustimien tiedostaminen on johtanut siihen, että lääketieteessä esirekisteröintiä pidetään välttämättömyytenä, siinä missä psykologiassa sitä saatetaan yhä pitää tähtisilmäisten maailmanparantajien intoiluna. Psykologit kuitenkin myös harjoittavat ammattiaan ja antavat asiantuntijalausuntoja nojaten tutkimuskirjallisuuteen psykologisista ilmiöistä. Jos otetaan mikä tahansa psykologiaa koskeva väite niin on mahdollista, että tutkimuskirjallisuus on edustavaa, mutta tulee ottaa vakavasti myös mahdollisuus että se ei ole. Emme todellakaan halua olla pimennossa näille vinoumille.
Acknowledgementit
Kaisa Sauriolle kiitos tämän kirjoituksen draftin kommentoinnista
Viitteet:
de Vries, Y. A., Roest, A. M., de Jonge, P., Cuijpers, P., Munafò, M. R., & Bastiaansen, J. A. (2018). The cumulative effect of reporting and citation biases on the apparent efficacy of treatments: The case of depression. Psychological Medicine, 48(15), 2453–2455. https://doi.org/10.1017/S0033291718001873
Fanelli, D. (2010). “Positive” Results Increase Down the Hierarchy of the Sciences. PLoS ONE, 5(4), e10068. https://doi.org/10.1371/journal.pone.0010068
Greenberg, S. A. (2009). How citation distortions create unfounded authority: Analysis of a citation network. BMJ, 339(jul20 3), b2680–b2680. https://doi.org/10.1136/bmj.b2680
Scheel, A. M., Schijen, M., & Lakens, D. (2020). An excess of positive results: Comparing the standard Psychology literature with Registered Reports [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/p6e9c
Szucs, D., & Ioannidis, J. P. A. (2017). Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature. PLOS Biology, 15(3), e2000797. https://doi.org/10.1371/journal.pbio.2000797