MongoDB
 sql >> Base de Dados >  >> NoSQL >> MongoDB

Conector Spark Mongo, MongoShardedPartitioner não funciona


Desculpe José saber que você está tendo um problema com o conector.

Informações sobre particionadores podem ser encontradas no site de documentação do conector Spark . Envie um tíquete no projeto Docs jira se você sentir que algo está faltando ou não está claro, isso realmente pode ajudar futuros usuários!

O particionador padrão é um wrapper fino em torno do MongoSamplePartitioner . Ele divide uma coleção em partições dimensionadas com base na amostragem estatística da coleção.

O MongoShardedPartitioner usa a shardKey para gerar as partições. Por padrão, ele usará _id como a chave. Pode ser necessário configurar esse valor.

Observação: As chaves de fragmentação com hash não suportado pelo MongoShardedPartitioner como atualmente não há como consultar uma coleção em relação ao valor com hash - portanto, ao recuperar partições, ele não retornará resultados. Adicionei DOCS-12345 para atualizar a documentação.

Parece que há um problema em sua configuração em que o MongoShardedPartitioner está falhando ao particionar a coleção conforme o esperado e retornando 0 resultados. A inferência de esquema ainda funcionará devido à forma como consulta a coleção. Se não for um problema de shardkey de configuração / hash, registre um bug no projeto Spark jira e posso ajudar a identificar a causa e liberar uma correção para você.