2026-03-25 18:56:17

Tại sao chạy models cục bộ?

Thường có hai lý do chính - quyền riêng tư và chi phí
Hãy khám phá phía chi phí với một ví dụ và xem cách tính toán
Giả sử bạn muốn chạy một vòng Autoresearch suốt đêm như @karpathy
Nếu bạn có quyền truy cập vào H100, bạn có thể chạy 100 thí nghiệm suốt đêm bằng Opus-4.6 và chi phí API có thể sẽ trong khoảng $10-25
Nhưng hầu hết chúng ta không may mắn có quyền truy cập vào H100
Chúng ta vẫn có thể chạy 100 thí nghiệm Autoresearch trên MacBook với chi phí $10-25 tương tự, nhưng nó sẽ không so sánh được
H100 sẽ hoàn thành 50-100x bước huấn luyện nhiều hơn trong cùng khoảng thời gian
Vì vậy nếu bạn muốn tái tạo lại cùng số lượng bước huấn luyện, bạn có thể kết thúc với chi phí API $1000+, và tất nhiên nó sẽ mất nhiều thời gian hơn suốt một đêm
Điều này sẽ không rất thông minh vì bạn có thể thuê H100 với chi phí thấp hơn nhiều và hoàn thành công việc nhanh hơn
Nhưng nó bắt đầu vẽ ra bức tranh về lý do tại sao bạn muốn chạy models cục bộ - nó cho phép bạn thực hiện các thí nghiệm mà nếu không sẽ quá tốn kém đối với hầu hết mọi người
Nó bắt đầu cân bằng sân chơi
Tôi đang chạy Qwen3.5 9B trên một chiếc PC cũ và bây giờ có ý nghĩa khi thử nghiệm những thứ mà tôi không thể làm nếu phải trả chi phí API
Và đó là một bước phát triển quan trọng và sẽ mở rộng hơn nữa theo thời gian khi các models trở nên tốt hơn và nhỏ hơn

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.