Mysql
 sql >> Base de Dados >  >> RDS >> Mysql

Função Jaro-winkler:por que a mesma pontuação corresponde a palavras muito semelhantes e muito diferentes?


A fórmula de distância de Jaro-Winkler é tendenciosa para strings com um início comum. Por exemplo, Valentina e Valenteria .

Ele também tem algumas "regras" não tão intuitivas (veja wikipedia ).

Você provavelmente deve primeiro determinar que tipo de diferença você está esperando e, em seguida, procurar uma fórmula de distância adequada. Por exemplo, por escrito, "angular" e "angelworm" é um erro muito provável, então a distância entre as duas cordas deve ser baixa. Embora a incompatibilidade entre "lá" e "três" seja menos provável e "éter" ainda mais. Com anagramas mais longos, a distância de Jaro pode ser exatamente a mesma, e mesmo a correção de Winkler pode não funcionar.

Como você pode ler nesta página (ênfase minha)