Parabéns à equipe de pesquisa por avançar a inferência do DeepSeek V3/R1.
Na NVIDIA GB200 NVL72, estão a alcançar 26k tokens de entrada/s e 13k tokens de saída/s por GPU — uma aceleração de quase 4× / 5× em comparação com H100.
Eles conseguiram isso com NVFP4 MoE, atenção FP8, paralelismo de especialistas em redução de escala.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
13 gostos
Recompensa
13
7
Republicar
Partilhar
Comentar
0/400
MEVSupportGroup
· 18h atrás
4 vezes mais poderoso, não é?
Ver originalResponder0
shadowy_supercoder
· 19h atrás
Isto está muito competitivo, não está?
Ver originalResponder0
DefiOldTrickster
· 19h atrás
O velho já está acostumado a grandes tempestades, a GPU também pode até à lua em um segundo.
Parabéns à equipe de pesquisa por avançar a inferência do DeepSeek V3/R1.
Na NVIDIA GB200 NVL72, estão a alcançar 26k tokens de entrada/s e 13k tokens de saída/s por GPU — uma aceleração de quase 4× / 5× em comparação com H100.
Eles conseguiram isso com NVFP4 MoE, atenção FP8, paralelismo de especialistas em redução de escala.