Text- & datamining
Binnen onderzoek wordt in toenemende mate Text- & Datamining (TDM) toegepast om uit ongestructureerde data (tekst) en gestructureerde data (data in databases) informatie en kennis te extraheren.
Het CDS biedt ondersteuning aan onderzoekers die gebruik (willen) maken van TDM.
Tot de verschillende diensten behoren:
- Het toegankelijk en bruikbaar maken van digitale en gedigitaliseerde collecties van de UBL voor onderzoek met TDM
- Ondersteuning bij data cleaning en dataverrijking
- Ondersteuning bij data-analyse en datavisualisatie
- Ondersteuning bij data curation en data preservation
Op deze website vindt u meer informatie over TDM, een kort overzicht van tools en software die voor TDM gebruikt kunnen worden, informatie over (licentie)voorwaarden die van toepassing kunnen zijn bij TDM, bronnen, tutorials, blogs en publicaties over TDM.
Wat is text- & datamining?
Datamining is een proces waarin computers kennis ontlenen aan gestructureerde data. Textmining is een process waarin kennis wordt ontleend aan ongestructureerde data.
Datamining maakt deel uit van het textmining proces. Om deze reden wordt vaak de afkorting text- & datamining (TDM) gebruikt. De technieken uit TDM wordt in toenemende mate toegepast op wetenschappelijke literatuur, zoals tijdschriftartikelen, monografiën en conference papers.
TDM kan verschillende activiteiten inhouden, zoals:
- information retrieval (het vinden van relevante teksten)
- information extraction (het identificeren van zaken als persoonsnamen, organisaties of onderwerpen binnen teksten, en het vaststellen van relaties tussen deze entiteiten)
- datamining (het vaststellen van correlaties, regelmatigheden of andere patronen binnen teksten)
TDM kan worden toegepast binnen alle stadia van het onderzoeksproces. De mogelijkheden hangen echter sterk samen met licenties, met het formaat van teksten.
Doordat de hoeveelheid aan digitale data vrijwel voortdurend toeneemt hebben onderzoeksgebieden als Data Science en de Digital Humanities zich ook sterk kunnen ontwikkelen. In September 2014 ging binnen de Universiteit Leiden het Leiden Centre of Data Science van start. Dit centrum richt zich op de ontwikkeling van statische en computationele methoden voor het doorzoeken van wetenschappelijke data.
Meer informatie over de technieken en de methoden die bij TDM horen kan worden gevonden bij Ronen Feldman, James Sanger, The text mining handbook: advanced approaches in analyzing unstructured data, Cambridge: Cambridge University Press, 2007
De Universitaire Bibliotheken Leiden hebben een belangrijke collectie met publicaties over TDM (opvraagbaar via onze Catalogus).
Uitgevers en hun beleid
Springer
Gale Cengage
Ebsco
Oxford University Press (Oxford Journals)
Elsevier
CrossRef Text and Data Mining services
Algemene portals (inclusief TDM software & tools)
-
DiRT (Digital Research Tools)
De DiRT Directory is een register voor digitale onderzoekstools.
De inhoud varieert van content management systemen tot OCR voor muziek, van pakketten voor statistische analyse tot software voor mindmapping.
De DiRT directory wordt ondersteund door de Andrew W. Mellon Foundation -
PORT (Postgraduate Online Research Training)
PORT is een openbaar platform voor training op onderzoeksgebied van de School of Advanced Study of the University of London. Het platform bevat een gevarieerd aanbod aan trainingsmateriaal gericht op postgraduate studie in the humaniora. De meeste van deze materialen worden gratis beschikbaar gesteld.
Quantitative Methods bevat tools op het gebied van: semantische data, text mining, visualisatie, linked data, cloud computing. Bij iedere tool wordt naast een beoordeling ook een aantal toepassingen getoond. Gratis login. - TaPOR
Text Analysis Portal for Research
Tools & software
-
Matrix met de meest gebruikte tools voor text analyse
De UBL heeft deze lijst samengesteld in samenwerking met Book & Digital Media Studies, Universiteit Leiden -
Ngram Viewers
Tool waarmee het gebruik van een woord of woordengroep in teksten kan worden gevisualiseerd
Enkele voorbeelden zijn: Google Ngram Viewer, DBNL Ngram Viewer, Hathi-Time -
AntConc
Een freeware toolkit voor analyse van tekstcorpora en het maken van concordantielijsten. -
Voyant
Een webgebaseerde omgeving om digitale teksten te lezen en te analyseren.
Voyant tools - Stanford topic modelling toolbox
Topic modelling tools voor sociale wetenschappers en anderen die datasets met een grote tekstuele component willen analyseren. -
NaCTeM Service Systems & Software Tools
Text mining tools voor biomedisch onderzoek, die worden gebruikt door NaCTeM (The National Centre for Text Mining) -
Textpresso
Een pakket waarmee informatie uit biomedische en biologische literatuur wordt geëxtraheerd en verwerkt.
Textpresso is een onderdeel van WormBase, California Institute of Technology in Californië,en ontvangt subsidie vande National Human Genome Research Institute van de US National Institutes of Health -
GATE (General Architecture for Text Engineering)
Ontwikkeld door de University of Sheffield -
Ontotext
Stelt tools voor textmining, data integratie en semantische annotatie en curatie ter beschikking -
WMatrix
Campus licentie via de Universiteit Leiden
Parsers -
PDFMiner-Python PDF parser and analyzer
Een tool waarmee informatie uit pdf bestanden kan worden geëxtraheerd. Er zit een PDF converter in, waarmee PDF bestanden omgezet kunnen worden naar andere tekstformaten. -
Stanford parser
Statistische parser -
Alpino
'Dependency parser' voor het Nederlands, die ontwikkeld is in de context van het PIONIER project Algorithms for Linguistic Processing.
Een selectie van de meest gebruikte tools en software in (open source of via een universitaire licentie)
Populaire progammeertalen die gebruikt worden bij TDM
-
Python
Een breed inzetbare en veel gebruikte programmeertaal. Python heeft een grote library met toolsvoor dataanalyse en datamodellering. De Python Tutorial biedt een introductie tot de eerste concepten en mogelijkheden van de taal en het systeem. -
Perl
Bevat krachtige tools om tekst te verwerken, waardoor het ideaal is om te werken met HTML, XML en alle andere vormen van mark-up toegepast bij natuurlijke taal. -
Deel je code via GitHub
Quantitative data analysis software
-
R
Voor statistische bewerkingen en grafieken -
Mallet
Dit pakket isgebaseerd op Java en wordt gebruikt voor de statistische verwerking van natuurlijke taal, het classificeren van documenten, het clusteren en extraherenvan informatie, 'topic modeling' en andere applicaties om 'machine learning' toe te passen op tekst.
Qualitative data analysis software
-
Atlas ti
Tool voor data-analyse en datamanagement
Tutorial van de University Library, University of Illinois in Urbana-Champaign.
Campus licentie Universiteit Leiden
Data cleaning
-
OpenRefine
Tool voor 'data cleaning' en formaatbewerking, voorheen Google Refine
Tutorial van Owen Stephens, British Library (owen@ostephens.com)
OCR
Visualisatie
-
Textexture
Netwerkvisualisatie van tekst -
Gephi
Visualisatie en netwerkanalyse
Introduction to Network Visualization with Gephi door Martin Grandjean, Universiteit van Lausanne -
Tableau public
Gratis versie van het commerciële pakket Tableau Desktop voor data-analyse en visualisatie. Het programma maakt interactieve diagrammen, grafieken en kaarten van de data. -
OpenHeatMap
Tool waarmee data gebruikt worden om statische and interactieve kaarten te maken. -
Spreadsheets uit Excel of Google Docs worden gebruikt om een dataset met geografische locaties, zoals straatnamen, lengte- en breedtecoördinaten of zelfs IP adressen in een kaart weer te geven.
-
Google Fusion Tables
Diagrammen, kaarten en netwerkgrafieken.
De mogelijkheiden voor text- en datamining zijn afhankelijk van intellectueel eigendom, of internationaal Intellectual Property Rights (IPR), en de licenties waaronder materiaal beschikbaar wordt gesteld. IPR is voornamelijk een kwestie van nationaal recht met als gevolg dat het per land kan verschillen. Licentiebeleid kan varieren per uitgever.
In 2012 heeft JISC een rapport gepubliceerd, Value and Benefits of Text Mining, over de voordelen, maar ook de barrieres en risico's die gepaard gaan met TDM in het Verenigd Koninkrijk; in dit rapport wordt het belang benadrukt van een herziening van IPR wetgeving.
Onder onderzoekers, onderzoeksorganisaties en bibliotheken is al langer een belangrijke discussie gaande over nationaal IPR en het TDM gerelateerde licentiebeleid van een aantal grotere uitgevers. Meer informatie over deze discussie is te vinden op:
-
LIBER (Ligue des Bibliothèques Européennes de Recherche – Association of European Research Libraries)
-
IFLA (International Federation of Library Associations and Institutions)
-
ALPSP (Association of Learned and Professional Society Publishers)
Meer informatie over IPR is te vinden op de site van ons Auteursrechteninformatiepunt. Het e-mailadres is: auteursrecht@library.leidenuniv.nl
De licentiemanager kan advies en ondersteuning bieden bij licenties die betrekking hebben op TDM: e-resources@library.leidenuniv.nl
Digitale collecties
-
Delpher
Meer dan 1 miljoen Nederlandse boeken, kranten en tijdschriften -
Hathi Trust Digital Library
Meer dan 13, 5 miljoen banden
Login is vereist -
Hathi Trust Research Centre
Het HathiTrust Research Center (HTRC) biedt digitale toegangsmogelijkheden tot gepubliceerd werk in het publieke domein voor nonprofit en onderwijsgerelateerd gebruik. -
The New York Public Digital Library
Login vereist -
The University of Oxford Text Archive
Het University of Oxford Text Archive ontwikkelt, verzamelt, catalogiseert en archiveert digitale letterkundige en literaire bronnen voor gebruik in hoger onderwijs, onderzoek en studie. Het OTA geeft ook advies over het aanleggen en gebruiken van deze bronnen én houdt zich bezig met de ontwikkeling van standaarden en een infrastructuur voor elektronisch taalkundig materiaal. -
Early English Books Online Text Creation Partnership (EEBO-TCP)
Het corpus van EEBO-TCP bestrijkt de periode van 1473 tot 1700 en bevat naar schatting meer dan 2 miljoen pagina's en meer dan een miljard woorden. In het verleden was het slechts toegankelijk voor abonnees van ProQuest’s Early English Books Online resource, maar sinds januari 2015 zijn meer dan 25.000 teksten uit de eerste fase van EEBO-TCP vrij toegankelijk als open data in het publieke domein.
APIs voor wetenschappelijke bronnen
APIs, acroniem voor application programming interfaces, zijn tools die gebruikt worden om data uit te wisselen tussen software applicaties. Veel academische uitgevers, databases en digitale bronnen bieden met behulp van een API de mogelijkheid aan gebruikers om met eigen programmatuur data op grootschalige wijze snel te extraheren en bevragen; dit biedt een breed scala aan nieuwe onderzoeksmogelijkheden.
Catalogue of APIs for scholarly research (MIT libraries)
De mogelijkheden, voordelen en achtergronden van text- en datamininng worden het beste uitgelegd in een aantal tutorials, blogs en publicaties, die we hieronder op een rijtje hebben gezet.
Tutorials
- Tutorial and Introduction into Programming with Python for the Humanities
Ontwikkeld door Folgert Karsdorp van het Meertens Instituut - Text Mining: an Introduction for Historians
Institute of historical research - University of London - The Programming Historian
Een open source en Open Access, peer reviewed suite van tutorials, waarmee onderzoekers uit de humaniora een breed scala aan digtale tools, technieken en workflows kunnen aanleren, die hun onderzoek vergemakkelijken. Inclusief instructies over Application Programming Interfaces (API's), datamanagement, datamanipulatie, 'distant reading', visualisatie en geografische informatiesystemen (GIS), netwerkanalyse, digitale tentoonstellingen, programmeren, and 'web scraping'. De tutorials bevatten om en nabij een dozijn instructies voor populaire Digital Humanities tools waaronder MALLET, Omeka, and QGIS. - Semantic Markup: an Introduction for Historians
- Sentiment Mining Tutorial
Blogs
-
KD nuggets
Gregory Piatetsky-Shapiro
Website met bronnen over Big Data, Datamining, Data Science and Knowledge Discovery -
The Scottbot irregular
Scott Weingarten - Stanford University, VS
Digital Humanities -
The Stone and the Shell
Ted Underwood - University of Illinois, Urbana-Champaign, VS
Digital Humanities -
Bethany Nowviskie
University of Virginia Library, VS
Digital Humanities -
DHdBlog : Digital Humanities im deutschsprachigen Raum
Text-Grid &DARIAH-DE (coördinator. Staats- und Universitätsbibliothek Göttingen), Max-Planck Institut für Wissenschaftsgeschichte
Digital Humanities
Publicaties
The Historian's Macroscope : Big Digital History
Shawn Graham, Ian Milligan, Scott Weingart
Carleton University, University of Waterloo, Indiana University, VS