Felicitaciones al equipo de investigación por avanzar en la inferencia de DeepSeek V3/R1.
En NVIDIA GB200 NVL72, están logrando 26k tokens de entrada/s y 13k tokens de salida/s por GPU, lo que representa una aceleración de casi 4× / 5× en comparación con H100.
Lograron esto con NVFP4 MoE, atención FP8, disminución de la paralelización de expertos.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
13 me gusta
Recompensa
13
7
Republicar
Compartir
Comentar
0/400
MEVSupportGroup
· hace19h
¿No es demasiado impresionante un aumento de 4 veces?
Ver originalesResponder0
shadowy_supercoder
· hace19h
Esto es demasiado intenso, ¿no?
Ver originalesResponder0
DefiOldTrickster
· hace19h
El viejo está acostumbrado a grandes tormentas, la GPU también puede irse a la luna en un segundo.
Ver originalesResponder0
DaoTherapy
· hace19h
Otra sacudida de innovación tecnológica
Ver originalesResponder0
MerkleDreamer
· hace19h
La sensación es buena, ¡la velocidad es increíble!
Felicitaciones al equipo de investigación por avanzar en la inferencia de DeepSeek V3/R1.
En NVIDIA GB200 NVL72, están logrando 26k tokens de entrada/s y 13k tokens de salida/s por GPU, lo que representa una aceleración de casi 4× / 5× en comparación con H100.
Lograron esto con NVFP4 MoE, atención FP8, disminución de la paralelización de expertos.