Félicitations à l'équipe de recherche pour l'avancement de l'inférence DeepSeek V3/R1.
Sur NVIDIA GB200 NVL72, ils atteignent 26k jetons d'entrée/s et 13k jetons de sortie/s par GPU — une accélération presque 4× / 5× par rapport à H100.
Ils ont réalisé cela avec NVFP4 MoE, attention FP8, parallélisme expert à échelle réduite.
Voir l'original