Universiteit Leiden

nl en

Wat is text- & datamining?

Datamining is een proces waarin computers kennis ontlenen aan gestructureerde data. Textmining is een process waarin kennis wordt ontleend aan ongestructureerde data.

Datamining maakt deel uit van het textmining proces. Om deze reden wordt vaak de afkorting text- & datamining (TDM) gebruikt. De technieken uit TDM wordt in toenemende mate toegepast op wetenschappelijke literatuur, zoals tijdschriftartikelen, monografiƫn en conference papers.

TDM kan verschillende activiteiten inhouden, zoals:

  • information retrieval (het vinden van relevante teksten)
  • information extraction (het identificeren van zaken als persoonsnamen, organisaties of onderwerpen binnen teksten, en het vaststellen van relaties tussen deze entiteiten)
  • datamining (het vaststellen van correlaties, regelmatigheden of andere patronen binnen teksten)

TDM kan worden toegepast binnen alle stadia van het onderzoeksproces. De mogelijkheden hangen echter sterk samen met licenties, met het formaat van teksten.

Doordat de hoeveelheid aan digitale data vrijwel voortdurend toeneemt hebben onderzoeksgebieden als Data Science en de Digital Humanities zich ook sterk kunnen ontwikkelen. In September 2014 ging binnen de Universiteit Leiden het Leiden Centre of Data Science van start. Dit centrum richt zich op de ontwikkeling van statische en computationele methoden voor het doorzoeken van wetenschappelijke data.

Meer informatie over de technieken en de methoden die bij TDM horen kan worden gevonden bij Ronen Feldman, James Sanger, The text mining handbook : advanced approaches in analyzing unstructured data , Cambridge : Cambridge University Press, 2007

De Universitaire Bibliotheken Leiden hebben een belangrijke collectie met publicaties over TDM (opvraagbaar via onze catalogus).

Deze website maakt gebruik van cookies. Meer informatie