Se você deseja modificar (excluir registros) a fonte real de dados, ou seja, tabelas no postgres, o Spark não seria uma ótima maneira. Você pode usar o cliente jdbc diretamente para obter o mesmo.
Se você quiser fazer isso de qualquer maneira (de maneira distribuída com base em algumas pistas que você está computando como parte de dataframes); você pode ter o mesmo código do cliente jdbc escrito em correspondência com o dataframe que possui informações de lógica/gatilho para excluir registros e que podemos executar em vários trabalhadores paralelamente.