Parabéns à equipe de pesquisa por avançar a inferência do DeepSeek V3/R1.
Na NVIDIA GB200 NVL72, estão a alcançar 26k tokens de entrada/s e 13k tokens de saída/s por GPU — uma aceleração de quase 4× / 5× em comparação com H100.
Eles conseguiram isso com NVFP4 MoE, atenção FP8, paralelismo de especialistas em redução de escala.
Ver original