Vad är forskningsdata och dess hantering?

Om man tittar noga ser alla vetenskapliga studier olika ut, men om man tar ett steg eller tjugo bakåt följer alla studier ett liknande mönster. Först ansöker man finansiering till forskningsprojektet, sedan samlas forskningsmaterial in, därefter analyseras materialet och slutligen publiceras analysen som artikel eller bok. Men vad är egentligen detta forskningsmaterial som ska analyseras, och hur hanteras den?
I varje forskning används någon form av material. För en historiker kan forskningsmaterial vara gamla brev som forskaren läser och analyserar för att få en tydligare bild av det förflutna. Samhällsvetare kan intervjua människor, där intervjuerna utgör forskningsmaterialet. För biologer kan materialet vara cellprover som hamnar under mikroskopet.
Forskningsmaterial finns alltså i lika många former som det finns olika forskningsprojekt. Alla forskare hanterar också sitt forskningsmaterial, även om de inte alltid är medvetna om det. Slarvigt hanterat material kan försvinna, förstöras, hamna i fel händer eller visa sig vara av så låg kvalitet att det inte kan svara på forskningsfrågorna. Verktyg för hantering av forskningsmaterial syftar till att göra forskarens arbete mer etiskt, säkert och smidigt.
Hanteringen av forskningsmaterial planeras och struktureras med hjälp av en plan för hantering av forskningsdata (data management plan, DMP). Hanteringen delas in i sex huvuddelar, som utgör strukturen för en nationell plan för datahantering: en översikt av materialet, dataskydd och lagstiftning, metadata och dokumentation[1], lagring, öppnande och resurser som krävs för datahantering. Varje del har sina egna knep och utmaningar. Här fokuserar jag på de tre som ofta visar sig vara mest utmanande: dataskydd, lagring av forskningsdata och att göra data tillgänglig för vidare användning av andra forskare.
Dataskydd och lagstiftning. EU:s allmänna dataskyddsförordning (GDPR) anger hur personuppgifter, dvs. information som kan kopplas till en individ, får samlas in, bearbetas och delas. Tillämpningen av GDPR inom forskning har orsakat många gråa hår eller direkt skallighet, eftersom lagens krav är både strikta och öppna för tolkning. Nästan alla forskningsprojekt hanterar personuppgifter, eftersom definitionen av personuppgift är bred, allt som direkt eller indirekt kan kopplas till en specifik person räknas. Skostorlek, favoritglassmak och fingeravtryck är alla personuppgifter som måste uppfylla GDPR-kraven när de samlas in för forskning. Detta betyder inte att alla personuppgifter är lika känsliga: ett fingeravtryck betraktas som mer känslig information än skostorlek, eftersom det kan orsaka större skada för deltagaren om personens fingeravtryck hamnar i fel händer. Med känslig information menas uppgifter som kan orsaka betydande skada om den hamnar i fel händer. Om fingeravtryck skulle hamna i händerna på en kriminell organisation, vem vet vilka skadliga handlingar de skulle kunna använda dem till?
Lagring. Om det inom forskningen samlas in personuppgifter ska de förvaras på ett sätt som säkerställer att obehöriga inte får tillgång till dem – och ju mer känsliga uppgifterna är, desto säkrare måste materialet hållas. I praktiken innebär detta att forskningsdata inte får lagras var som helst. Kommersiella molntjänster, såsom Google Drive eller Dropbox, medför en större risk att personuppgifter hamnar i fel händer, jämfört med exempelvis tjänster som tillhandahålls av CSC – IT-centret för vetenskap. Säkerheten för forskningsdata är dock bara så stark som den svagaste länken i kedjan. Hela livscykeln för forskningsdata, från skapande till lagring och vidare användning, måste beaktas vid förvaringen.
Öppnande. Principerna för öppen vetenskap innebär att forskningsdata eller delar av det ska göras tillgängligt för andra forskare för fortsatt användning. Men hur säkerställer man att data, som ofta är digitalt, förblir användbar även i framtiden? Datorprogram förändras ständigt, och filformat som används idag kan bli tekniskt föråldrade eller svåra att använda i framtiden. Därför rekommenderas inom datahanteringen att det öppnas i filformat som är öppet tillgängliga. Till exempel sparar kalkylprogrammet Microsoft Excel data som standard i .xlsx-format, men .xlsx är inte ett öppet filformat och fungerar därför bäst endast i Excel. Ett motsvarande öppet filformat är .csv, som med säkerhet kan öppnas i andra program än Excel. Ur ett datahanteringsperspektiv är .csv därför ett bättre filformat för öppnande än .xlsx.
Denna beskrivning kan verka mycket detaljerad, men den visar typiska egenskaper inom datahantering: att tillämpa allmänna principer i praktiken kräver situationsanpassning och finjustering av detaljer. Datahantering är ett omfattande och mångfacetterat område, men samtidigt lösningsorienterat, vilket ger glädje i att upptäcka nya möjligheter.