Universiteit Leiden

nl en

Text- & datamining

Binnen onderzoek wordt in toenemende mate Text- & Datamining (TDM) toegepast om uit ongestructureerde data (tekst) en gestructureerde data (data in databases) informatie en kennis te extraheren.

Het CDS biedt ondersteuning aan onderzoekers die gebruik (willen) maken van TDM.

Tot de verschillende diensten behoren:

  • Het toegankelijk en bruikbaar maken van digitale en gedigitaliseerde collecties van de UBL voor onderzoek met TDM
  • Ondersteuning bij data cleaning en dataverrijking
  • Ondersteuning bij data-analyse en datavisualisatie
  • Ondersteuning bij data curation en data preservation

Op deze website vindt u meer informatie over TDM, een kort overzicht van tools en software die voor TDM gebruikt kunnen worden, informatie over (licentie)voorwaarden die van toepassing kunnen zijn bij TDM, bronnen, tutorials, blogs en publicaties over TDM.

Wat is text- & datamining?

Datamining is een proces waarin computers kennis ontlenen aan gestructureerde data. Textmining is een process waarin kennis wordt ontleend aan ongestructureerde data.

Datamining maakt deel uit van het textmining proces. Om deze reden wordt vaak de afkorting text- & datamining (TDM) gebruikt. De technieken uit TDM wordt in toenemende mate toegepast op wetenschappelijke literatuur, zoals tijdschriftartikelen, monografiën en conference papers.

TDM kan verschillende activiteiten inhouden, zoals:

  • information retrieval (het vinden van relevante teksten)
  • information extraction (het identificeren van zaken als persoonsnamen, organisaties of onderwerpen binnen teksten, en het vaststellen van relaties tussen deze entiteiten)
  • datamining (het vaststellen van correlaties, regelmatigheden of andere patronen binnen teksten)

TDM kan worden toegepast binnen alle stadia van het onderzoeksproces. De mogelijkheden hangen echter sterk samen met licenties, met het formaat van teksten.

Doordat de hoeveelheid aan digitale data vrijwel voortdurend toeneemt hebben onderzoeksgebieden als Data Science en de Digital Humanities zich ook sterk kunnen ontwikkelen. In September 2014 ging binnen de Universiteit Leiden het Leiden Centre of Data Science van start. Dit centrum richt zich op de ontwikkeling van statische en computationele methoden voor het doorzoeken van wetenschappelijke data.

Meer informatie over de technieken en de methoden die bij TDM horen kan worden gevonden bij Ronen Feldman, James Sanger, The text mining handbook : advanced approaches in analyzing unstructured data , Cambridge : Cambridge University Press, 2007

De Universitaire Bibliotheken Leiden hebben een belangrijke collectie met publicaties over TDM (opvraagbaar via onze catalogus).

Uitgevers en hun beleid

Springer
Gale Cengage
Ebsco
Oxford University Press (Oxford Journals)
Elsevier
CrossRef Text and Data Mining services  

Algemene portals (inclusief TDM software & tools)

  • DiRT (Digital Research Tools)
    De DiRT Directory is een register voor digitale onderzoekstools.
    De inhoud varieert van content management systemen tot  OCR voor muziek, van pakketten voor statistische analyse tot software voor mindmapping.
    De DiRT directory wordt ondersteund door de Andrew W. Mellon Foundation

  • PORT (Postgraduate Online Research Training)
    PORT is een openbaar platform voor training op onderzoeksgebied van de School of Advanced Study of the University of London. Het platform bevat een gevarieerd aanbod aan trainingsmateriaal gericht op postgraduate studie in the humaniora. De meeste van deze materialen worden gratis beschikbaar gesteld. 
    Quantitative Methods bevat tools op het gebied van:  semantische data, text mining, visualisatie, linked data, cloud computing. Bij iedere tool wordt naast een beoordeling ook een aantal toepassingen getoond. Gratis login.

  • TaPOR
    Text Analysis Portal for Research

Tools & software

  • Matrix met de meest gebruikte tools voor text analyse
    De UBL heeft deze lijst samengesteld in samenwerking met Book & Digital Media Studies, Universiteit Leiden

  • Ngram Viewers
    Tool waarmee het gebruik van een woord of woordengroep in teksten kan worden gevisualiseerd
    Enkele voorbeelden zijn: Google Ngram ViewerDBNL Ngram ViewerHathi-Time

  • AntConc
    Een freeware toolkit voor analyse van tekstcorpora en het maken van concordantielijsten.

  • Voyant
    Een webgebaseerde omgeving om digitale teksten te lezen en te analyseren.
    Voyant tools

  • Stanford topic modelling toolbox 
    Topic modelling tools voor sociale wetenschappers en anderen die datasets met een grote tekstuele component willen analyseren.
     
  • NaCTeM Service Systems & Software Tools
    Text mining tools voor biomedisch onderzoek, die worden gebruikt door   NaCTeM (The National Centre for Text Mining)

  • Textpresso    
    Een pakket waarmee informatie uit biomedische en biologische literatuur wordt geëxtraheerd en verwerkt.
    Textpresso is een onderdeel van WormBase, California Institute of Technology in Californië, en ontvangt subsidie van de National Human Genome Research Institute van de US National Institutes of Health 

  • GATE (General Architecture for Text Engineering)
    Ontwikkeld door de University of Sheffield

  • Ontotext
    Stelt tools voor textmining, data integratie en semantische annotatie en curatie ter beschikking

  • WMatrix
    Campus licentie via de Universiteit Leiden

    Parsers

  • PDFMiner-Python PDF parser and analyzer
    Een tool waarmee informatie uit pdf bestanden kan worden geëxtraheerd. Er zit een PDF converter in, waarmee PDF bestanden omgezet kunnen worden naar andere tekstformaten.

  • Stanford parser
    Statistische parser

  • Alpino
    'Dependency parser' voor het Nederlands, die ontwikkeld is in de context van het PIONIER project Algorithms for Linguistic Processing.

Een selectie van de meest gebruikte tools en software in (open source of via een universitaire licentie)

Populaire  progammeertalen die gebruikt worden bij TDM

  • Python
    Een breed inzetbare en veel gebruikte programmeertaal. Python heeft een grote library met tools voor dataanalyse en datamodellering. De Python Tutorial biedt een introductie tot de eerste concepten en mogelijkheden van de taal en het systeem.

  • Perl
    Bevat krachtige tools om tekst te verwerken, waardoor het ideaal is om te werken met HTML, XML en alle andere vormen van mark-up toegepast bij natuurlijke taal.

  • Deel je code via GitHub


Quantitative data analysis software
 

  • R
    Voor statistische bewerkingen en grafieken

  • Mallet
    Dit pakket is gebaseerd op Java en wordt gebruikt voor de statistische verwerking van natuurlijke taal, het classificeren van documenten, het clusteren en extraheren van informatie, 'topic modeling', en andere applicaties om 'machine learning' toe te passen op tekst.

  • WinStats

  • SPSS


Qualitative data analysis software

  • Atlas ti
    Tool voor data-analyse en datamanagement
    Tutorial van de University Library, University of Illinois in Urbana-Champaign.
    Campus licentie Universiteit Leiden


Data cleaning


OCR


Visualisatie

  • Textexture
    Netwerkvisualisatie van tekst

  • Gephi 
    Visualisatie en netwerkanalyse
    Introduction to Network Visualization with Gephi door Martin Grandjean, Universiteit van Lausanne

  • QGIS

  • Tableau public
    Gratis versie van het commerciële pakket Tableau Desktop voor data-analyse en visualisatie. Het programma maakt interactieve diagrammen, grafieken en kaarten van de data.

  • OpenHeatMap
    Tool waarmee data gebruikt worden om statische and interactieve kaarten te maken. 

  • Spreadsheets uit Excel of Google Docs worden gebruikt om een dataset met geografische locaties, zoals straatnamen, lengte- en breedtecoördinaten of zelfs IP adressen in een kaart weer te geven.

  • Google Fusion Tables
    Diagrammen, kaarten en netwerkgrafieken.

De mogelijkheiden voor text- en datamining zijn afhankelijk van intellectueel eigendom, of internationaal Intellectual Property Rights (IPR), en de licenties waaronder materiaal beschikbaar wordt gesteld. IPR is voornamelijk een kwestie van nationaal recht met als gevolg dat het per land kan verschillen. Licentiebeleid kan varieren per uitgever.

In 2012 heeft  JISC een rapport gepubliceerd, Value and Benefits of Text Mining, over de voordelen, maar ook de barrieres en risico's die gepaard gaan met TDM in het Verenigd Koninkrijk; in dit rapport wordt het belang benadrukt van een herziening van IPR wetgeving.

Onder onderzoekers, onderzoeksorganisaties en bibliotheken is al langer een belangrijke discussie gaande over nationaal IPR en het TDM gerelateerde licentiebeleid van een aantal grotere uitgevers. Meer informatie over deze discussie is te vinden op:

  • The Hague Declaration

  • LIBER (Ligue des Bibliothèques Européennes de Recherche – Association of European Research Libraries)

  • IFLA (International Federation of Library Associations and Institutions)

  • ALPSP (Association of Learned and Professional Society Publishers)

  • The Content Mine

Meer informatie over IPR is te vinden op de site van ons Auteursrechteninformatiepunt. Het e-mailadres is: auteursrecht@library.leidenuniv.nl 

De licentiemanager kan advies en ondersteuning bieden bij licenties die betrekking hebben op TDM: e-resources@library.leidenuniv.nl 

 

Digitale collecties

  • Delpher
    Meer dan 1 miljoen Nederlandse boeken, kranten en tijdschriften

  • Google Books

  • Hathi Trust Digital Library
    Meer dan 13, 5 miljoen banden
    Login is vereist

  • Hathi Trust Research Centre
    Het HathiTrust Research Center (HTRC) biedt digitale toegangsmogelijkheden tot gepubliceerd werk in het publieke domein voor nonprofit en onderwijsgerelateerd gebruik.

  • The New York Public Digital Library
    Login vereist

  • The University of Oxford Text Archive
    Het University of Oxford Text Archive ontwikkelt, verzamelt, catalogiseert en archiveert digitale letterkundige en literaire bronnen voor gebruik in hoger onderwijs, onderzoek en studie. Het OTA geeft ook advies over het aanleggen en gebruiken van deze bronnen én houdt zich bezig met de ontwikkeling van standaarden en een infrastructuur voor elektronisch taalkundig materiaal.

  • Early English Books Online Text Creation Partnership (EEBO-TCP)
    Het corpus van EEBO-TCP bestrijkt de periode van 1473 tot 1700 en bevat naar schatting meer dan 2 miljoen pagina's en meer dan een miljard woorden. In het verleden was het slechts toegankelijk voor abonnees van ProQuest’s Early English Books Online resource, maar sinds januari 2015 zijn meer dan 25.000 teksten uit de eerste fase van EEBO-TCP vrij toegankelijk als open data in het publieke domein.

APIs voor wetenschappelijke bronnen

APIs, acroniem voor application programming interfaces, zijn tools die gebruikt worden om data uit te wisselen tussen software applicaties. Veel academische uitgevers, databases en digitale bronnen bieden met behulp van een API de mogelijkheid aan gebruikers om met eigen programmatuur data op grootschalige wijze snel te extraheren en bevragen; dit biedt een breed scala aan nieuwe onderzoeksmogelijkheden.  

Catalogue of APIs for scholarly research (MIT libraries)

De mogelijkheden, voordelen en achtergronden van text- en datamininng worden het beste uitgelegd in een aantal tutorials, blogs en publicaties, die we hieronder op een rijtje hebben gezet.

Tutorials

Blogs

Publicaties

Deze website maakt gebruik van cookies.