Spellingsfouten | Ai Assisted MDM

Clustering m.b.v. OpenRefine

Mario Verstraeten 23 August 2022

De dataset die we voor deze blogpost gebruiken is er eentje met 27156 rijen en bevat de Engelstalige naamgevingen van enkele landen. In de dataset zijn er initieel 146 unieke waarden aanwezig, die we doorheen deze blogpost zullen trachten op te schonen. Het is dan ook opmerkelijk dat door onderstaande stappen te volgen, we onze data kunnen reduceren tot 122 unieke waarden.

Labels

OpenRefine
Data Cleaning
Clustering
Spellingsfouten

Lees meer over Clustering m.b.v. OpenRefine
Login of registreer om te reageren

Search

Clustering m.b.v. OpenRefine

Labels