Existem alguns casos em que a desduplicação pode apresentar falhas:
- Casos em que as palavras estão abreviadas;
- Casos em que os códigos postais estão errados;
- Casos em que as pessoas usam nomes escritos de forma diferente (p.ex. António Carlos Silva / António Silva);
- Casos em que as moradas são escritas de forma diferente (p.ex. Rua Marechal Costa Gomes / Rua General Costa Gomes);
- Casos em que as pessoas ignoram um dos nomes próprios (p.ex. Maria do Carmo Santos / Carmo Santos);
- Casos em que as pessoas não usam todos os apelidos (p.ex. Maria do Carmo Santos Silva e Cunha / Maria do Carmo Santos);
Etc.
Tem ainda que ter em conta que, quanto maior é o ficheiro, maior é a margem de erro. Se no ficheiro só tiver 4 registos de um dado código postal é fácil identificar duplicados, mas se tiver 50.000 é bastante mais difícil.