Chúc mừng đội nghiên cứu đã tiến bộ trong suy diễn DeepSeek V3/R1.
Trên NVIDIA GB200 NVL72, họ đạt được 26k token đầu vào/s và 13k token đầu ra/s mỗi GPU — tốc độ nhanh hơn gần 4× / 5× so với H100.
Họ đã đạt được điều này với NVFP4 MoE, chú ý FP8, giảm quy mô song song chuyên gia
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
13 thích
Phần thưởng
13
7
Đăng lại
Retweed
Bình luận
0/400
MEVSupportGroup
· 14giờ trước
4 lần tăng mạnh quá đi.
Xem bản gốcTrả lời0
shadowy_supercoder
· 14giờ trước
Cái này cuốn quá đi.
Xem bản gốcTrả lời0
DefiOldTrickster
· 14giờ trước
Lão già đã quen với gió lớn sóng cả, GPU cũng có thể To da moon trong một giây.
Chúc mừng đội nghiên cứu đã tiến bộ trong suy diễn DeepSeek V3/R1.
Trên NVIDIA GB200 NVL72, họ đạt được 26k token đầu vào/s và 13k token đầu ra/s mỗi GPU — tốc độ nhanh hơn gần 4× / 5× so với H100.
Họ đã đạt được điều này với NVFP4 MoE, chú ý FP8, giảm quy mô song song chuyên gia