Mysql
 sql >> Base de Dados >  >> RDS >> Mysql

Obtenha os campos semelhantes mais repetidos no banco de dados MySQL


O que você está falando é um processo de agrupamento de texto. Você está tentando encontrar trechos de texto semelhantes e escolhendo arbitrariamente um deles. Não conheço nenhum banco de dados que faça essa forma de mineração de texto.

Para o que você descreve, uma técnica de mineração de texto bastante básica provavelmente funcionaria. Crie uma matriz termo-documento com todas as palavras, exceto os nomes de usuário. Em seguida, use a decomposição de valor singular para obter o maior valor e vetor singular (este é o primeiro componente principal da matriz de correlação). As atividades semelhantes devem se agrupar nessa linha.

Se você tiver um vocabulário limitado e tiver os termos em uma tabela, poderá medir a distância entre duas ações pela proporção de palavras que se sobrepõem. Você tem uma lista de todas as palavras nas ações?