Info

Op deze pagina worden enkele bestaande oplossingen besproken die ondersteuning bieden bij Master Data Management. Deze lijst werd opgemaakt op basis van reeds gevoerd onderzoek naar de praktische implementatie van deze tools [1,2,3] en op basis van onze eigen ervaringen en bevindingen als onderzoeksgroep. Bij elk van deze tools zullen de data quality metrics, monitoring en profiling mogelijkheden worden omschreven. Meer informatie over deze termen is terug te vinden op de pagina Data Quality.

Criteria waaraan onderstaande tools voldoen

Data Profiling
Data Quality Measurement
Data Quality Monitoring

Open Refine  

Open Source (Gratis)

Deze geavanceerde tool, voorheen bekend als Google Refine, is handig voor het omgaan met 'dirty' gegevens, het opschonen en wijzigen ervan. OpenRefine is een Open Source-programma. Het belangrijkste voordeel ten opzichte van de andere tools op onze lijst is dat het gratis te gebruiken en te configureren is omdat het open source is.

OpenRefine kan gegevens converteren tussen meerdere indelingen en ervoor zorgen dat deze goed gestructureerd zijn. Het kan ook worden gebruikt om gegevens van internet te ontleden. Het lijkt op een relationele database. Dit maakt het zeer nuttig voor data-analisten die meer informatie willen dan een standaard Excel-bestand kan bieden.

Een ander belangrijk voordeel is dat de gegevens de eigen machine niet verlaten, waardoor de gegevens absoluut veilig blijven. OpenRefine kan connecteren met externe online diensten en andere cloudbronnen om een dataset te valideren of uit te breiden. Hoewel het een reeks complexe taken kan uitvoeren om het te gebruiken, heb je slechts een beperkte technische kennis nodig om OpenRefine te gebruiken.

Data Profiling:

Full:Cardinalities, Full:Value Distributions, Partial:Cluster analysis, Partial:Duplicate Detection

Data Quality Measurement:

Full:Creation and application of business rules

Data Quality Monitoring:

Full:Storage of results

Drake  

Commercieel (licentie/jaar)

Drake is een eenvoudig te gebruiken, uitbreidbare, op tekst gebaseerde workflowtool voor gegevens die de uitvoering van opdrachten organiseert rond gegevens en de bijbehorende afhankelijkheden. Gegevensverwerkingsstappen worden gedefinieerd samen met hun invoer en uitvoer en Drake lost automatisch hun afhankelijkheden op en berekent: Welke opdrachten moeten worden uitgevoerd (op basis van bestandstijdstempels) en in welke volgorde de opdrachten moeten worden uitgevoerd (op basis van afhankelijkheden). Drake is vergelijkbaar met GNU Make, maar is speciaal ontworpen voor gegevensworkflowbeheer. Het heeft HDFS-ondersteuning, maakt meerdere in- en uitgangen mogelijk en bevat een groot aantal functies die zijn ontworpen om u te helpen uw anders chaotische workflows voor gegevensverwerking gezond te houden.

 

Belangrijk om te vermelden is dat Drake niet meer actief lijkt onderhouden te worden.

Data Profiling:

Full:Value Distributions, Partial:Cardinalities, Partial:Correlation analysis, Partial:Duplicate Detection

Data Quality Measurement:

Full:Accuracy, Partial:Completeness

Data Quality Monitoring:

Full:Storage of results

Trifacta Wrangler  

Commercieel (licentie/mnd)

Een interactieve tool voor het opschonen en transformeren van gegevens. Het helpt data-analisten bij het sneller en nauwkeuriger opschonen en voorbereiden van rommelige gegevens.Trifacta Wrangler geeft aan waar er patroonafwijkingen zijn in de gegevensinvoer van elke kolom, zodat er gemakkelijk opmaakfouten kunnen geïdentificeerd worden.

Het gebruikt machine learning om de gegevens conflict vrij te maken door gemeenschappelijke transformaties en aggregaties voor te stellen. De basisversie is gratis tot 100 MB aan gegevens, daarna start de prijs van de licentie vanaf $ 419 per maand met extra functies.

Data Profiling:

Full:Cardinalities, Full:Value Distributions, Partial:Correlation analysis, Partial:Outlier detection

Data Quality Measurement:

Partial:Accuracy, Partial:Creation and application of business rules

Data Quality Monitoring:

Full:Storage of results, Full:Task scheduling

Ataccama ONE profiler  

Commercieel (licentie/jaar)

Hoewel de licentie van de volledige DQ-oplossingen onderhevig is aan kosten, is de dataprofileringsmodule van Ataccama ONE vrij toegankelijk. Bij de gratis "Ataccama ONE profiler" ligt de focus op dataprofilering en is er jammer genoeg geen monitoringfunctionaliteit aanwezig, die wel beschikbaar is in de betalende versie. Volgens de website van Ataccama zou de betaalde tool ook een veel rijker scala aan functies bieden, inclusief DQ-monitoring. De dataprofileringsmodule is zeer intuïtief en gebruiksvriendelijk, ook voor niet-technische gebruikers.

Data Profiling:

Full:Cardinalities, Partial:Outlier detection, Partial:Value Distributions

Data Quality Measurement:

Partial:Completeness

Data Quality Monitoring:

Full:Storage of results

Data Cleaner (Community Editie)  

Open Source (Gratis)

DataCleaner is een sterke dataprofileringsengine voor het ontdekken en analyseren van de kwaliteit van uw data. Vind de patronen, ontbrekende waarden, tekensets en andere kenmerken van uw gegevenswaarden. Het opvragen en profileren van uw gegevens is een essentiële activiteit van elk Data Quality-, Master Data Management- of Data Governance-programma. Als je niet weet waar je mee te maken hebt, heb je weinig kans om het op te lossen.

DataCleaner is gebouwd om zowel grote als kleine gegevens te verwerken. DataCleaner kan omgaan met allerhande databronnen zoals: CSV-bestanden, Excel-spreadsheets, relationele databases (RDBM's) en NoSQL-databases. DataCleaner gebruikt externe en interne referentiegegevens om te controleren of de gegevenswaarden overeenkomen met de echte wereld. Met DataCleaner kunt men eigen opschoningsregels bouwen en deze samenstellen in verschillende gebruiksscenario's of doeldatabases. Of het nu gaat om eenvoudige zoek-/vervangregels, reguliere expressies, patroonovereenkomst of volledig aangepaste transformaties, het is allemaal mogelijk.

Pluggability en Connectivity zijn sleutelwoorden voor de open source ontwerpfilosofie van DataCleaner. De applicatie biedt niet alleen kant-en-klare functionaliteit, maar herbergt ook een ecosysteem van door de gemeenschap aangestuurde integratie van applicatie-extensies, gedeelde inhoud en meer. Ontwikkelaars hebben de mogelijkheid om DataCleaner in te sluiten in andere applicaties, plug-ins te bouwen voor het specifieke gebruik of zelfs adapters te gebruiken die DataCleaner laten werken met Apache Hadoop en Apache Spark. Andere prominente integraties bestaan rond de integratie met Pentaho Data Integration, evenals ondersteuning voor aangepaste gegevensbrondefinities via het Apache MetaModel-framework.

Data Profiling:

Full:Cardinalities, Full:Duplicate Detection, Full:Patterns and Domains, Partial:Value Distributions

Data Quality Measurement:

Partial:Completeness

Data Quality Monitoring:

Full:Storage of results, Full:Task scheduling

Referenties

[1] Ehrlinger, L., Rusz, E., & Wöß, W. (2019). A survey of data quality measurement and monitoring tools. arXiv preprint arXiv:1907.08138.

[2] José Barateiro and Helena Galhardas. A Survey of Data Quality Tools. Datenbank-Spektrum, 14:15–21, 2005.

[3] Philip Woodall, Martin Oberhofer, and Alexander Borek. A Classification of Data Quality Assessment and Improvement Methods. International Journal of Information Quality, 3(4):298–321, 2014.