Mitä on tutkimusaineisto ja sen hallinta?

Läheltä katsottuna kaikki tieteelliset tutkimukset näyttävät erilaisilta, mutta jos ottaa askeleen tai parikymmentä taaksepäin, kaikki tutkimukset seuraavat samankaltaista kaavaa. Ensin tutkimusprojektille haetaan rahoitusta, seuraavaksi kerätään aineistoa, sitten aineistoa analysoidaan ja lopuksi analyysi julkaistaan artikkelina tai kirjana. Mutta mitä tuo analysoitava tutkimusaineisto on ja miten sitä hallitaan?

Jokaisessa tutkimuksessa käsitellään jonkinlaista aineistoa. Historioitsijalle tutkimusaineistoa voivat olla esimerkiksi vanhat kirjeet, joita hän lukee ja analysoi saadakseen tarkemman kuvan menneisyydestä. Yhteiskuntatieteilijät saattavat haastatella ihmisiä, jolloin haastattelut ovat tutkimusaineistoa. Biologeille mikroskooppiin päätyvät solunäytteet ovat tutkimusaineistoa.

Tutkimusaineistoa on siis niin monenlaista kuin on tutkimustakin. Kaikki tutkijat tekevät myös tutkimusaineiston hallintaa, vaikka eivät välttämättä asiaa aina tiedostakaan tai näitä sanoja käytäkään. Huolimattomasti hallinnoitu tutkimusaineisto saattaa kadota, tuhoutua, päätyä vääriin käsiin tai osoittautua niin heikkolaatuiseksi, että sillä ei pysty vastaamaan tutkimuskysymyksiin. Tutkimusaineiston hallinnan työkaluilla pyritään tekemään tutkijan työstä eettisempää, turvallisempaa ja helpompaa.

Tutkimusaineiston hallintaa suunnitellaan ja hahmotetaan aineistonhallintasuunnitelman eli DMP:n (data management plan) avulla. Tutkimusaineiston hallinta jakautuu kuuteen pääosioon, jotka muodostavat rakenteen kansalliselle aineistonhallintapohjalle: aineiston yleiskuvaus, tietosuoja ja lainsäädäntö, metadata ja dokumentaatio1, tallentaminen, avaaminen sekä aineistonhallintaan tarvittavat resurssit. Kaikkiin näihin liittyy omia niksejään ja jäyniään. Keskityn tässä kolmeen yleensä haastavimmaksi osoittautuvaan osioon: tietosuojaan, tutkimusaineiston tallentamiseen, ja aineiston avaamiseen jatkokäyttöön muille tutkijoille.

Tietosuoja ja lainsäädäntö. EU:n säätämä yleinen tietosuoja-asetus eli GDPR määrittelee, millä tavoilla ihmisiin yhdistettävää aineistoa eli henkilötietoa saa kerätä, käsitellä ja jakaa. GDPR:n soveltaminen tieteellisessä tutkimuksessa on aiheuttanut monille harmaita hiuksia tai suoranaista kaljuuntumista, sillä lainsäädännön vaatimukset ovat samaan aikaan tiukkoja että tulkinnanvaraisia. Melkein kaikki tutkimusprojektit käsittelevät henkilötietoa, koska henkilötieto on määritelty laveasti kaikeksi tiedoksi, jonka voi suoraan tai epäsuorasti yhdistää tiettyyn henkilöön. Kengänkoko, suosikkijäätelömaku ja sormenjälki ovat kaikki yhtä lailla henkilötietoa, joiden pitää täyttää GDPR:n vaatimukset silloin kun niitä kerätään tutkimuskäyttöön. Tämä ei tarkoita, että kaikki henkilötieto olisi samalla viivalla, vaan sormenjälki on sensitiivisempää tietoa kuin kengänkoko, koska vääriin käsiin päätyessään se voisi aiheuttaa suurempaa haittaa tutkimukseen osallistuvalle henkilölle kuin kengänkoko. Sensitiivisellä tiedolla tarkoitetaan informaatiota, joka voi vääriin käsiin päätyessään aiheuttaa merkittävää haittaa: sormenjälkien päätyessä vaikkapa rikollisorganisaation ulottuville, kuka tietää mitä häijyä he voivat niillä tehdä?

Tallentaminen. Jos tutkimuksessa kerätään henkilötietoa, se tulee säilyttää väärien käsien ulottumattomissa – ja mitä sensitiivisempää henkilötieto on, sitä paremmin aineisto tulee pitää turvassa. Käytännön tasolla tämä tarkoittaa sitä, että aineistoa ei saa laittaa ihan mihin vain: kaupallisiin pilvipalveluihin kuten Google Driveen tai Dropboxiin tallennettu henkilötieto on suuremmassa riskissä päätyä vääriin käsiin kuin vaikkapa CSC:n eli Tieteen tietotekniikan keskuksen palveluun tallennettuna. Aineiston säilytyksen turvallisuus on kuitenkin vain niin vahvaa kuin sen heikoin lenkki. Aineiston koko elinkaari sen syntymisestä tallentamiseen ja jatkokäyttöön on pidettävä tallennettaessa mielessä.

Avaaminen. Avoimen tieteen periaatteisiin kuuluu, että tutkimusaineisto tai osa siitä pyritään julkaisemaan muiden tutkijoiden jatkokäytettäväksi. Mutta kuinka varmistetaan, että tutkimuksessa tuotettu aineisto, joka on usein digitaalisessa muodossa, on käyttökelpoista myös jatkossa? Tietokoneohjelmistot muuttuvat alituisesti, ja tällä hetkellä laajasti käytetyt tiedostomuodot voivat muuttua tietotekniseksi mössöksi tulevaisuudessa. Tämän takia aineistonhallinnassa suositellaan tutkimusaineiston avaamista siten, että aineisto on tallennettu avoimesti käytettäviin tiedostomuotoihin: esimerkiksi taulukkolaskentaohjelma Microsoft Excel tallentaa datan oletusarvoisesti .xlsx-muotoon, mutta .xlsx-tiedosto ei ole avoin tiedostoformaatti eli se toimii parhaiten vain Excelillä. Vastaava avoin tiedostomuoto on .csv, jonka saa varmuudella auki muillakin ohjelmilla kuin Excelillä. Näin ollen aineistonhallinnan näkökulmasta .csv on parempi tiedostomuoto avaamiseen kuin .xlsx.

Tämä kuvaus saattaa tuntua kovin yksityiskohtaiselta, mutta tavallaan se on aineistonhallinnan tyyppiominaisuuksia: yleisten periaatteiden toteuttaminen käytännössä vaatii tilannekohtaista soveltamista ja yksityiskohtien pyörittelyä. Aineistonhallinnan maailma on laaja ja monitahoinen, mutta ratkaisukeskeinen ja täynnä löytämisen riemua.

  1. Metadatalla tarkoitetaan perustietoja kerätystä aineistosta, ”dataa datasta”. Dokumentaatio on tutkimuksen aineiston ja sen kokoamis- ja säilyttämistapojen kirjallista kuvailua, jotta aineisto säilyy ymmärrettävänä ja käyttökelpoisena. ↩︎

Kirjoittajasta

Aleksi Peura on tietoasiantuntija Helsingin yliopiston datatuessa ja kirjastossa. Hän on kirjoittanut kaksi tietokirjaa: Jumalan viholliset: Euroopan noitavainojen historiaa (2018) ja Uskon ritarit: Ristiretkien historiaa (2021). Vapaa-ajalla hän työstää väitöskirjaa ja kirjoittaa Substackia Änkyrärakin haja-ajatukset.

Kysymyksiä pohdittavaksi

  1. Mihin tutkimusaineiston hallintaa tarvitaan?
  2. Millaisia asioita joudut itse miettimään tai tekemään, kun tallennat jonnekin tietoja, koulutehtäviä tai projekteja?