MongoDB
 sql >> Base de Dados >  >> NoSQL >> MongoDB

Como removo os tweets vazios usando filter() no pyspark?


Se seus dados assim
tweets = sc.parallelize(["title1", "", "title2", "title3", ""])

você pode usar len(x) como a condição do filtro:
tweets.filter(lambda x: len(x) > 0).count()