A resposta curta é:você não pode, não com base apenas no avg. tamanho do documento (pelo menos não de forma precisa).
Para explicar mais detalhadamente:
O espaço necessário em disco não é simplesmente uma função do tamanho médio do documento. Há também o espaço necessário para quaisquer índices que você criar. Depois, há o espaço necessário se você acionar esses movimentos (apesar do preenchimento, isso acontece) - esse espaço é colocado em uma lista para ser reutilizado, mas dependendo dos dados inseridos posteriormente, pode ou não ser possível reutilize esse espaço.
Você também pode adicionar o fato de que a pré-alocação significa que, ocasionalmente, um punhado de documentos aumentará sua utilização de espaço em disco em ~ 2 GB à medida que um novo arquivo de dados é alocado. É claro que, com dados suficientes, isso será essencialmente um erro de arredondamento, mas vale a pena ter em mente.
A única maneira de estimar este tipo de proporção de dados para tamanho, assumindo um padrão de uso consistente, é fazer uma tendência ao longo do tempo para seu caso de uso específico e rastrear o uso do espaço em disco versus os dados inseridos (o número de documentos pode ser melhor que o volume de dados dependendo da variabilidade do tamanho do documento).
Da mesma forma, se você acompanhar a taxa de inserção, o tamanho do documento e o espaço recuperado de uma ressincronização/reparo. FYI - você pode ressincronizar um secundário do zero para obter uma cópia "fresca" dos arquivos de dados em vez de executar um reparo, que pode ser menos perturbador e usar menos espaço, dependendo da configuração.