MySQL Workbench
 sql >> Base de Dados >  >> Database Tools >> MySQL Workbench

Erro de tamanho de heap java ao tentar agrupar documentos 15980 via carrot2workbench


Sua suspeita está correta, é um problema de tamanho de heap, ou mais precisamente, uma restrição de escalabilidade. Direto das perguntas frequentes do cenoura2:http://project.carrot2.org/faq.html#scalability

Como o clustering Carrot2 é dimensionado em relação ao número e comprimento dos documentos? A característica mais importante dos algoritmos Carrot2 a serem lembrados é que eles executam o clustering na memória. Por esta razão, como regra geral, Carrot2 deve lidar com sucesso com até mil documentos, alguns parágrafos cada. Para algoritmos projetados para processar milhões de documentos, você pode conferir o projeto Mahout.

Um desenvolvedor também postou sobre isso aqui:https://stackoverflow.com/a/28991477

Embora os desenvolvedores recomendem o Mahout, e este é provavelmente o caminho a seguir, já que você não estaria vinculado às restrições de clustering na memória como no carrot2, pode haver outras possibilidades:

  1. Se você realmente gosta de cenoura2, mas não precisa necessariamente de k-means, você pode dar uma olhada no comercial Lingo3G, baseado no campo "Time of clustering 100000 snippets [s] " e na observação (***) em http://carrotsearch.com/lingo3g-comparison deve ser capaz de lidar com mais documentos. Verifique também sua entrada de FAQ em "Qual é o número máximo de documentos que o Lingo3G pode agrupar?" em http://carrotsearch.com/lingo3g-faq

  2. Tente minimizar o tamanho de seus rótulos nos quais o k-means está realizando o agrupamento. Em vez de agrupar todo o conteúdo dos documentos, tente agrupar no resumo/sumário ou extrair palavras-chave importantes e agrupar nelas.