تهانينا لفريق البحث على تقدم استنتاج DeepSeek V3/R1.
على NVIDIA GB200 NVL72، يحققون 26 ألف توكن مدخلات/ثانية و 13 ألف توكن مخرجات/ثانية لكل GPU - وهو تسريع يقارب 4× / 5× مقارنةً بـ H100.
لقد حققوا ذلك باستخدام NVFP4 MoE، انتباه FP8، وتقليل التوازي بين الخبراء
شاهد النسخة الأصلية