MongoDB

sql >> Base de Dados > >> NoSQL >> MongoDB

Como removo os tweets vazios usando filter() no pyspark?

Se seus dados assim

tweets = sc.parallelize(["title1", "", "title2", "title3", ""])

você pode usar len(x) como a condição do filtro:

tweets.filter(lambda x: len(x) > 0).count()

Encontre um documento de uma coleção inteira, com um valor específico aninhado em vários subdocumentos incorporados

Filtro Mongo $ lookup usando consulta aninhada