Mysql

sql >> Base de Dados > >> RDS >> Mysql

mySQL:Usando a distância Levenshtein para encontrar duplicatas em 20.000 linhas

Conheço pelo menos uma otimização que pode reduzir o tempo de execução pela metade:

AND a.id < b.id

Isso evita que você teste a=1, b=2 quando já testou a=2, b=1.

Ainda vai ser O(n^2), mas não vejo como você pode fazer muito sobre isso.

Formato XML inválido - Como evitar isso

Não é possível executar nada do mysql-utilities:Nenhum módulo chamado mysql.utilities.common.tools