Workshop in Data Cleaning met OpenRefine

Heeft u ooit geworsteld met het opschonen en manipuleren van gegevens tijdens uw werk? Of wilt u uw 'data cleaning' vaardigheden oefenen om zo vlotter aan de slag te kunnen gaan met de Master Data die in uw bedrijf aanwezig is?

Op dinsdag 8 november 2022 organiseren wij een workshop die zich richt op bedrijven die graag hun datakwaliteit willen verbeteren. Tijdens de workshop krijgt u een uitgebreide uitleg over verschillende mogelijkheden en 'best practices' in OpenRefine. Ook kan u tijdens de workshop met al uw vragen bij ons terecht.

Clustering m.b.v. OpenRefine

De dataset die we voor deze blogpost gebruiken is er eentje met 27156 rijen en bevat de Engelstalige naamgevingen van enkele landen. In de dataset zijn er initieel 146 unieke waarden aanwezig, die we doorheen deze blogpost zullen trachten op te schonen. Het is dan ook opmerkelijk dat door onderstaande stappen te volgen, we onze data kunnen reduceren tot 122 unieke waarden.

Abonneer op OpenRefine