Workshop in Data Cleaning met OpenRefine

Heeft u ooit geworsteld met het opschonen en manipuleren van gegevens tijdens uw werk? Of wilt u uw 'data cleaning' vaardigheden oefenen om zo vlotter aan de slag te kunnen gaan met de Master Data die in uw bedrijf aanwezig is?

Op dinsdag 8 november 2022 organiseren wij een workshop die zich richt op bedrijven die graag hun datakwaliteit willen verbeteren. Tijdens de workshop krijgt u een uitgebreide uitleg over verschillende mogelijkheden en 'best practices' in OpenRefine. Ook kan u tijdens de workshop met al uw vragen bij ons terecht.

Clustering m.b.v. OpenRefine

De dataset die we voor deze blogpost gebruiken is er eentje met 27156 rijen en bevat de Engelstalige naamgevingen van enkele landen. In de dataset zijn er initieel 146 unieke waarden aanwezig, die we doorheen deze blogpost zullen trachten op te schonen. Het is dan ook opmerkelijk dat door onderstaande stappen te volgen, we onze data kunnen reduceren tot 122 unieke waarden.

Fuzzy matching en duplicaat detectie

Duplicaatdetectie

Een vaak voorkomend probleem bij masterdata is dat verschillende records verwijzen naar dezelfde entiteit in de echte wereld. Dit kan bv. voorkomen wanneer een klant dubbel werd geregistreerd (één keer bij het eerste contact met het bedrijf en een tweede keer wanneer er effectief een bestelling werd geplaatst.), of wanneer een product dubbel werd aangemaakt.

Kick-off Project

Onze Kick-off meeting vindt online plaats op donderdag 13 januari 2022. Normaliter zouden we dit op onze campus Schoonmeersen te Gent laten doorgaan, maar gezien de huidige coronamaatregelen proberen we er alsnog knallende (online)opening van te maken. Leden van de begeleidingsgroep en de projectmedewerkers komen bij deze gelegenheid voor de eerste keer bij elkaar om elkaar inzichten te verlenen en om de roadmap van het TETRA Hogescholen AI-project te bespreken.

Labels

Hoe Master Data Management (MDM) een aanwinst is voor bedrijven

In de 21e-eeuwse wereldeconomie maakt data het verschil tussen het creëren van geweldige resultaten en het slecht uitvoeren van bedrijfsprocessen. De noodzaak om één enkele bron van waarheid te creëren, te beheren en te leveren, is de drijvende kracht achter digitale transformatie voor veel organisaties vandaag de dag. Het leveren van een superieure product- of klantervaring wordt gevoed door het op orde hebben van de data samen met een duidelijke datastrategie.

Kostenreductie door Master Data Cleaning

Met een constant dreigend gevaar voor de ontregeling van zowel de demand, alsook de supply chain, hebben een groot aantal bedrijven ingezet op de implementatie van nieuwe technologieën en nieuwe manieren van werken om te streven naar meer veerkracht, wendbaarheid en controle in hun activiteiten. Deze initiatieven omvatten doorgaans digitale transformatie, in de hoop dat een betere zichtbaarheid en analyse van de datasets waarover bedrijven vandaag de dag beschikken, deze bedrijven zal helpen hun doelen te bereiken.