No Linux você pode usar o
iconv comando como sugerido em: Como remover caracteres não UTF-8 do arquivo de texto
iconv -f utf8 -t utf8 -c file.txt Não estou familiarizado com o MongoDB, então não tenho informações sobre como preservar os caracteres inválidos durante a importação.