Universiteit Leiden

nl en

RDM Checklist

Datamanagement is kort samengevat het creëren, opslaan, onderhouden, beschikbaar maken, archiveren en langdurig bewaren van onderzoeksdata. Hierbij wordt als einddoel vaak gerefereerd aan de zogenaamde FAIR principes: 'Findable, Accessible, Interoperable and Re-usable'.

Vooraf aan het verzamelen of creëren goed over data nadenken, zorgt ervoor dat deze vindbaar, toegankelijk, uitwisselbaar en herbruikbaar zijn. Niet alleen voor anderen, maar ook voor eigen gebruik in de toekomst.

Goed datamanagement is belangrijk om:

  • Onderzoeksgegevens vindbaar en toegankelijk te houden, ook op de lange termijn;
  • De veiligheid en vertrouwelijkheid van gegevens te garanderen;
  • De kwaliteit van onderzoek te borgen;
  • Data herbruikbaar te maken en vooruitgang in de wetenschap te bevorderen;
  • De zichtbaarheid – impact - van het onderzoek te vergroten;
  • Te voldoen aan eisen van financiers, instituten en uitgevers.

RDM Checklist

Goed datamanagement begint met een goede planning. Als over alle fasen van een project wordt nagedacht bij de start, kan veel tijd worden bespaard bij de uitvoering en de afronding.

Zelfs bij het uitwerken van een onderzoeksvraag speelt datamanagement al een rol. Zo is het bijvoorbeeld goed om, net als bij een literatuuronderzoek, na te gaan of er bruikbare datasets voorhanden zijn. Het is belangrijk om na te denken over het soort data dat men gaat verzamelen. Grote volumes data vragen om specifieke voorzieningen. Privacy of anderszins gevoelige gegevens ook. Samenwerken met partners aan gezamenlijke datasets stelt weer andere eisen aan toegang en vindbaarheid. Ook de kosten voor datamanagement kunnen worden meegenomen in een subsidieaanvraag.

Het Centre for Digital Scholarship kan helpen in de planningsfase. Het geeft advies met betrekking tot de eisen die gelden voor datamanagement vanwege het universitaire datamanagementbeleid, onderzoeksfinanciers als NWO of H2020 of uitgevers. We helpen bij het opstellen van een datamanagementplan en het begroten van de kosten. We geven advies met betrekking tot de bescherming van onderzoeksdata, zonodig met behulp van de Data Protection Officer. We kunnen adviseren over voorzieningen tijdens het onderzoek en het beheer van de data op de lange termijn. Veel beslissingen die aan het begin van het traject worden genomen, bepalen of de data duurzaam en bruikbaar, ofwel FAIR, zullen zijn aan het eind van het project.

Beleid en eisen

De Universiteit Leiden heeft in april 2016 beleid vastgesteld voor datamanagement. De belangrijkste bepalingen uit de regeling zijn dat:

  • alle onderzoeksprojecten een datamanagementplan moeten schrijven vóór de start van het project;
  • onderzoeksdata veilig opgeslagen moeten zijn tijdens het onderzoek, hetgeen betekent dat de integriteit, beschikbaarheid en – indien vereist - vertrouwelijkheid van de data gegarandeerd moeten blijven;
  • na het project data zodanig beheerd moeten worden dat zij vindbaar, toegankelijk, begrijpelijk, herbruikbaar en duurzaam zijn;
  • data moeten gearchiveerd worden volgens internationale richtlijnen voor ten minste 10 jaar.

Het universitaire beleid volgt de eisen van de belangrijkste onderzoeksfinanciers. Op de onderzoekswebsite staat de volledige regeling.

Kosten

Kosten die tijdens een project worden gemaakt voor datamanagement kunnen worden opgevoerd in de begroting bij de onderzoeksaanvraag. Kosten voor tijdelijke opslag, voor assistentie bij het anonimiseren of het transcriberen van data of voor het gereed maken voor duurzame opslag bijvoorbeeld. Op de website van het Landelijk Coördinatiepunt Research Data Management staat een gids met mogelijke activiteiten en hoe de kosten voor deze activiteiten kunnen worden berekend.

Een goede organisatie van je onderzoeksdata is een waardevolle investering die zich terugbetaalt, wanneer na afloop van het onderzoek data gemakkelijk en geheel intact terug zijn te vinden, zonder moeite te begrijpen, te archiveren en te delen met collega's of tijdschriftuitgevers.

Opslag van data

De meeste data zullen opgeslagen worden op het universitair netwerk, of de J-schijf. Het ISSC zorgt ervoor dat van deze data iedere nacht een back-up wordt gemaakt.

Er zijn ook uitzonderingen: bijvoorbeeld bij data uit veldwerk, patiëntgegevens uit ziekenhuizen of data die aan een instrument verbonden zijn. In dat geval moet een plan op maat worden gemaakt: hoe vaak worden de data op het netwerk gezet, welke data mogen op het netwerk worden gezet en welke niet, wanneer wordt een back-up gemaakt?

Een virtuele samenwerkingsomgeving kan een uitkomst bieden voor groepen onderzoekers, die op verschillende locaties buiten het universitair netwerk samenwerken.

Naamgeving, structuur en versiebeheer

Een logische en eenduidige naamgeving van data zorgt ervoor dat de data ook te begrijpen zijn door collega’s, of na verloop van enige tijd. Volg hierbij vooral een standaard procedures of werkwijze op van de specifieke vakgebieden. Dit geldt niet alleen voor bestandsnamen: ook de mappenstructuur en velden in een spreadsheet verdienen een goede naamgeving.

Versiebeheer houdt de data in verschillende stadia van het onderzoek uit elkaar en voorkomt dat data onnodig verdubbelen of juist overschreven worden.

Metadata en documentatie

Met behulp van metadata en documentatie worden data vindbaar en begrijpelijk gemaakt voor anderen. De methode hiervoor verschilt per vakgebied en kan variëren van een database, tot xml  volgens internationale standaarden tot een readme.txt. Ook hier is het verstandig om aan te haken bij de werkwijze binnen het vakgebied.

Toegang tot data

Op sommige data kunnen toegangsrestricties van toepassing zijn: er kan privacygevoelige informatie in zitten, of een beperking vanwege commerciële belangen of aanvragen van patenten. Dit kan gevolgen hebben voor de plaats van opslag en de mensen die wel of geen toegang kunne krijgen tot de data. Anonimisering en/of encryptie kan ook een uitkomst bieden.

Als het onderzoek is gedaan, is het tijd om het onderzoek naar de buitenwereld te brengen. Hoogstwaarschijnlijk in de vorm van een of meerdere artikelen, maar misschien ook wel in de vorm van publicatie van een dataset. In ieder geval moet de belangrijkste data na het onderzoek volgens de universitaire richtlijn voor 10 jaar opgeslagen worden. Maar welke data is eigenlijk belangrijk?

Selectiecriteria voor data

Sommige data heeft een grote waarde voor andere onderzoekers of de maatschappij, maar bewaren is niet altijd even noodzakelijk. Soms is dit gewoonweg te kostbaar vanwege de grootte en is repliceren goedkoper. In andere gevallen gaat het om gegenereerde data en is het model belangrijker. Stel daarbij de volgende vragen:

  • Is de data uniek (bijvoorbeeld observatiedata)?
  • Zijn de kosten voor replicatie qua geld en kosten erg hoog?
  • Zijn er eisen om de data langdurig op te slaan, bijvoorbeeld vanuit de financier of de journal waarin het onderzoek is gepubliceerd?

Zie ook de hand-out ‘Selection of Data for Archiving’.

Open data

Natuurlijk is het mogelijk om data op te slaan in een kluis op het eigen instituut, maar in sommige gevallen eist een journal of financier openstelling van de data. Dat heeft voor onderzoekers ook voordelen. Door datasets citeerbaar te maken, kan ook dit deel van het onderzoek credits krijgen. Bovendien kunnen toekomstige werkgevers zien hoe goed er met data wordt omgegaan. Daarnaast kan het openen van de data soms zelfs voor veel grotere eigen onderzoeksmogelijkheden zorgen.

Vereiste voor publicatie

Steeds meer journals eisen dat de data onderliggende aan een artikel als open data beschikbaar is gesteld via een data-archief of als 'supplementary materials'. Dit geldt niet alleen voor toptijdschriften als Science en Nature. In sommige gevallen zijn de data zelfs onderdeel van het peer-review. Hou hier tijdens het onderzoek al rekening mee, zodat niemand niet voor een verrassing komt te staan bij het daadwerkelijk publiceren; publiceren gaat immers een stuk vlotter als de data al in het juiste formaat zijn en op de juiste manier zijn beschreven.

Data publiceren

Als wetenschapper haal je het meeste uit je werk door het juiste archief te kiezen en supplementary materials te vermijden: dit zorgt ervoor dat de data betrouwbaar toegankelijk zijn voor in ieder geval de komende 10 jaar, gevonden en geciteerd kunnen worden via een permanente url (zoals de doi) en het vergroot de zichtbaarheid van de onderzoekers, die aan de data hebben gewerkt. Uit diverse onderzoeken blijkt dat artikelen waarbij de data beschikbaar is gesteld vaker geciteerd worden. In de Research Data Services catalogus is een overzicht te vinden van de belangrijkste archieven en in hoeverre deze voldoen aan de universitaire richtlijn. Een overzicht van bestaande data-archieven per discipline is ook te vinden op www.re3data.org.

Data als publicatie

Bij negatieve resultaten kan het zelfs interessant zijn om alleen de dataset te publiceren; op die manier is duplicatie van het onderzoek te voorkomen en misschien is de data zelf nog bruikbaar in een ander of uitgebreider onderzoek.

De dataset kan nog extra onder de aandacht worden gebracht door hem ook te beschrijven in een datajournal als GigaScience of Scientific Data. Daarin staan de belangrijkste metadata van de set: hoe hij is verzameld en te gebruiken. In sommige gevallen staan ook mogelijke toepassingen vermeld, waardoor een dataset eerder opgepikt wordt door anderen.

De Universiteit Leiden, maar ook de meeste subsidieverstrekkers stellen een datamanagementplan (DMP) aan het begin van nieuwe projecten verplicht.

In een DMP staat alle informatie over de te verzamelen data bij elkaar. Welke en hoe de data worden verzameld bijvoorbeeld, welke formats en documentatie worden gebruikt, welke voorzieningen beschikbaar zijn, of er juridische of ethische bezwaren zijn tegen het delen van data, hoe de data worden gedeeld en hoe de data zullen worden bewaard op de langere termijn.

Het CDS verzorgt een workshop "How to write a datamanagement plan" en heeft een handig overzicht van tips voor het invullen van het DMP gemaakt .

Templates

Er zijn verschillende templates beschikbaar voor een datamanagementplan. 

Wanneer u met persoonsgegevens werkt, moet u volgens de Algemene Verordening Gegevensbescherming (AVG) vastleggen wat er met deze data gebeurt. In het verwerkingsregister onderzoek houdt u bij welke persoonsgegevens worden verzameld, wie er toegang heeft, hoe u de data beschermt en hoe lang deze gegevens worden opgeslagen. De universiteit ondersteunt u in privacyproof werken: op de medewerkersportal wordt uitgelegd wat u moet doen.

Vragen over de AVG en het verwerkingsregister onderzoek kunt u stellen aan uw  privacy officer of het Privacyloket.

Tools & tips voor veilig digitaal werken
Op de medewerkersportal staat ook een informatief overzicht met 15 tips om gegevens te beschermen.

We hebben een catalogus gemaakt voor onderzoekers met faciliteiten voor data(opslag), die zij bij hun onderzoek kunnen gebruiken

Research Data Services

Deze website helpt onderzoekers om beredeneerde keuzes te maken bij het plannen van hun datamanagement en dataopslag. Dat is handig bij het opstellen van projectvoorstellen, maar ook bij het aanvragen van opslagcapaciteit of het nadenken over archivering.

Daarbij hopen we dat het beschrijven van de faciliteiten eventuele tekortkomingen en beperkingen aan het licht bengt.

https://digitalscholarship.nl/rds/

In onze traininigen verwijzen we naar diverse (engelstalige) handouts en best practices.

Back-up strategies File naming and folder structure
Versioning and authenticity Anonymisation
Metadata Selection of research data
Sensitive data protection FAIR data

Andere nuttige verwijzingen zijn:

Deze website maakt gebruik van cookies.