Parabéns à equipe de pesquisa por avançar a inferência do DeepSeek V3/R1.
Na NVIDIA GB200 NVL72, estão a alcançar 26k tokens de entrada/s e 13k tokens de saída/s por GPU — uma aceleração de quase 4× / 5× em comparação com H100.
Eles conseguiram isso com NVFP4 MoE, atenção FP8, paralelismo de especialistas em redução de escala.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
13 Curtidas
Recompensa
13
7
Repostar
Compartilhar
Comentário
0/400
MEVSupportGroup
· 12h atrás
4 vezes mais poderoso, não é?
Ver originalResponder0
shadowy_supercoder
· 13h atrás
Isto está muito competitivo, não está?
Ver originalResponder0
DefiOldTrickster
· 13h atrás
O velho já está acostumado a grandes tempestades, a GPU também pode até à lua em um segundo.
Parabéns à equipe de pesquisa por avançar a inferência do DeepSeek V3/R1.
Na NVIDIA GB200 NVL72, estão a alcançar 26k tokens de entrada/s e 13k tokens de saída/s por GPU — uma aceleração de quase 4× / 5× em comparação com H100.
Eles conseguiram isso com NVFP4 MoE, atenção FP8, paralelismo de especialistas em redução de escala.