Trifacta Wrangler

Beschikbaarheid

Body

Een interactieve tool voor het opschonen en transformeren van gegevens. Het helpt data-analisten bij het sneller en nauwkeuriger opschonen en voorbereiden van rommelige gegevens.Trifacta Wrangler geeft aan waar er patroonafwijkingen zijn in de gegevensinvoer van elke kolom, zodat er gemakkelijk opmaakfouten kunnen geïdentificeerd worden.

Het gebruikt machine learning om de gegevens conflict vrij te maken door gemeenschappelijke transformaties en aggregaties voor te stellen. De basisversie is gratis tot 100 MB aan gegevens, daarna start de prijs van de licentie vanaf $ 419 per maand met extra functies.

Data Profiling Tekst
Full:Cardinalities;Full:Value Distributions;Partial:Correlation analysis;Partial:Outlier detection
Data Quality Measurement Tekst
Partial:Accuracy;Partial:Creation and application of business rules
Data Quality Monitoring Tekst
Full:Storage of results;Full:Task scheduling
Documentatie Beschikbaar
Uit

Drake

Beschikbaarheid

Body

Drake is een eenvoudig te gebruiken, uitbreidbare, op tekst gebaseerde workflowtool voor gegevens die de uitvoering van opdrachten organiseert rond gegevens en de bijbehorende afhankelijkheden. Gegevensverwerkingsstappen worden gedefinieerd samen met hun invoer en uitvoer en Drake lost automatisch hun afhankelijkheden op en berekent: Welke opdrachten moeten worden uitgevoerd (op basis van bestandstijdstempels) en in welke volgorde de opdrachten moeten worden uitgevoerd (op basis van afhankelijkheden). Drake is vergelijkbaar met GNU Make, maar is speciaal ontworpen voor gegevensworkflowbeheer. Het heeft HDFS-ondersteuning, maakt meerdere in- en uitgangen mogelijk en bevat een groot aantal functies die zijn ontworpen om u te helpen uw anders chaotische workflows voor gegevensverwerking gezond te houden.

 

Belangrijk om te vermelden is dat Drake niet meer actief lijkt onderhouden te worden.

Data Profiling Tekst
Full:Value Distributions;Partial:Cardinalities;Partial:Correlation analysis;Partial:Duplicate Detection

Data Quality Measurement

Data Quality Measurement Tekst
Full:Accuracy;Partial:Completeness

Data Quality Monitoring

Data Quality Monitoring Tekst
Full:Storage of results
Documentatie Beschikbaar
Uit

Open Refine

Beschikbaarheid

Body

Deze geavanceerde tool, voorheen bekend als Google Refine, is handig voor het omgaan met 'dirty' gegevens, het opschonen en wijzigen ervan. OpenRefine is een Open Source-programma. Het belangrijkste voordeel ten opzichte van de andere tools op onze lijst is dat het gratis te gebruiken en te configureren is omdat het open source is.

OpenRefine kan gegevens converteren tussen meerdere indelingen en ervoor zorgen dat deze goed gestructureerd zijn. Het kan ook worden gebruikt om gegevens van internet te ontleden. Het lijkt op een relationele database. Dit maakt het zeer nuttig voor data-analisten die meer informatie willen dan een standaard Excel-bestand kan bieden.

Een ander belangrijk voordeel is dat de gegevens de eigen machine niet verlaten, waardoor de gegevens absoluut veilig blijven. OpenRefine kan connecteren met externe online diensten en andere cloudbronnen om een dataset te valideren of uit te breiden. Hoewel het een reeks complexe taken kan uitvoeren om het te gebruiken, heb je slechts een beperkte technische kennis nodig om OpenRefine te gebruiken.

Data Profiling Tekst
Full:Cardinalities;Full:Value Distributions;Partial:Cluster analysis;Partial:Duplicate Detection
Data Quality Measurement Tekst
Full:Creation and application of business rules

Data Quality Monitoring

Data Quality Monitoring Tekst
Full:Storage of results
Documentatie Beschikbaar
Aan
Abonneer op Full:Value Distributions