Para desduplicar o seu ficheiro basta seguir os seguintes passos:
- Copie os campos Nome e Morada para campos separados do ficheiro;
- Trabalhando sempre sobre os novos campos, aplique os seguintes passos;
- passe todo o texto para maiúsculas;
- retire os acentos e substitua os caracteres acentuados por caracteres não acentuados;
- retire as vírgulas, os pontos, os “o” e “a” elevados e, em geral, todos sinais de pontuação incluindo hifen, aspas, parentesis, etc.
- retire as palavras “DE”, “DO”, “DA”, “DOS”, “DAS”;
- retire todas as vogais, excepto a primeira letra de cada palavra (!!!)
- Ordene o ficheiro por código postal + nome + morada através da função aplicável do Excel compare os registos dois a dois, utilizando os campos novos, do posterior para o anterior e marque os conjuntos iguais;
- Poderá ainda fazer mais umas quantas ordenações e comparações, p.ex. por nome + morada + código postal, ou por morada + nome + código postal, embora possa não parecer à primeira vista, em cada ordenação vai conseguir detectar mais alguns duplicados.
Neste momento já tem um ficheiro razoavelmente desduplicado.
Analise cuidadosamente os conjuntos identificados como mestre + duplicado e terá um ficheiro desduplicado com uma margem de erro aceitável.
Pode eliminar os campos especialmente criados para este trabalho e ficar com o ficheiro “limpo”.