Não é à toa que está dando errado. Você tem um tamanho de pilha de 128Mb por thread, mas apenas 4096Mb no geral. Isso lhe dá apenas espaço suficiente para usar 40 threads e não ter nenhum objeto no heap.
Provavelmente é melhor descomentar todos os tamanhos de espaço e deixar a JVM fazer suas coisas automaticamente.