Selamat kepada tim riset atas kemajuan inferensi DeepSeek V3/R1.
Pada NVIDIA GB200 NVL72, mereka mencapai 26k token input/detik dan 13k token output/detik per GPU — peningkatan kecepatan hampir 4× / 5× dibandingkan H100.
Mereka mencapainya dengan NVFP4 MoE, perhatian FP8, dan penskalaan ke bawah paralelisme ahli
Lihat Asli