Félicitations à l'équipe de recherche pour l'avancement de l'inférence DeepSeek V3/R1.
Sur NVIDIA GB200 NVL72, ils atteignent 26k jetons d'entrée/s et 13k jetons de sortie/s par GPU — une accélération presque 4× / 5× par rapport à H100.
Ils ont réalisé cela avec NVFP4 MoE, attention FP8, parallélisme expert à échelle réduite.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
13 J'aime
Récompense
13
7
Reposter
Partager
Commentaire
0/400
MEVSupportGroup
· Il y a 8h
C'est vraiment trop incroyable d'avoir une augmentation de 4 fois.
Voir l'originalRépondre0
shadowy_supercoder
· Il y a 9h
C'est vraiment trop compétitif.
Voir l'originalRépondre0
DefiOldTrickster
· Il y a 9h
Le vieux est habitué aux tempêtes, le GPU peut aussi décoller en une seconde.
Félicitations à l'équipe de recherche pour l'avancement de l'inférence DeepSeek V3/R1.
Sur NVIDIA GB200 NVL72, ils atteignent 26k jetons d'entrée/s et 13k jetons de sortie/s par GPU — une accélération presque 4× / 5× par rapport à H100.
Ils ont réalisé cela avec NVFP4 MoE, attention FP8, parallélisme expert à échelle réduite.