Eu recomendaria fazer um pequeno perfil para ver onde está o gargalo. Meu palpite desinformado é que, com objetos tão grandes, você pode ser limitado pela conexão entre o servidor de aplicativos e o memcached e, portanto, verá resultados semelhantes com redis. Também pode ser que seu aplicativo esteja demorando muito para empacotar e desempacotar muitos objetos. Se for fácil, pode valer a pena tentar um esquema de cache em que você está apenas armazenando em cache a solicitação que está sendo enviada para o cliente (que tenho certeza que é muito menos que 128 MB).
Outra coisa a tentar seria ativar a compactação. Isso daria uma compactação/descompactação de latência adicional, mas reduziria a latência da rede se esse for realmente o problema.