"Agrupar por" e "estupidamente rápido" não combinam. Essa é apenas a natureza daquela fera... Daí as limitações na operação do grupo de Mongo; O Cassandra nem o suporta nativamente (embora o faça para consultas Hive ou Pig via Hadoop ... mas elas não devem ser estupidamente rápidas).
Sistemas como o Rainbird do Twitter (que usa o Cassandra) fazendo análises em tempo real fazem isso desnormalizando/pré-computando as contagens:http://www.slideshare.net/kevinweil/rainbird-realtime-analytics-at-twitter-strata-2011