Học tăng cường của AI thực sự nổi bật trong ba kịch bản cụ thể. Hãy nghĩ về điều đó - hệ thống cần xử lý các thất bại một cách duyên dáng, có nghĩa là bạn chỉ cần nhấn nút khôi phục và thử lại. Tốc độ cũng quan trọng; nếu mỗi lần thử mất quá nhiều thời gian, việc đào tạo trở nên không thực tế. Và đây là điểm mấu chốt: phải có một cách tự động để chấm điểm mỗi lần thử. Không cần phán đoán của con người. Khi ba tiêu chí này được đáp ứng - khôi phục nhanh, lặp lại nhanh chóng và phản hồi tự động - đó là lúc các thuật toán RL thực sự tỏa sáng.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
6 thích
Phần thưởng
6
3
Đăng lại
Retweed
Bình luận
0/400
WalletAnxietyPatient
· 17giờ trước
Ừm.. vậy nên RL chính là phải nhanh chóng thử sai và có phản hồi tự động, nếu không thì thật sự không có ý nghĩa.
Xem bản gốcTrả lời0
SatoshiNotNakamoto
· 17giờ trước
Nói thật, bộ RL này chỉ có thể chơi trong game thôi, chứ những điều kiện trong thực tế không thể kết hợp lại được thật là ngượng ngùng.
Xem bản gốcTrả lời0
ChainSpy
· 17giờ trước
Ha, ba điều kiện này nói trắng ra chính là quy tắc sinh tồn của RL, thất bại có thể làm lại, tốc độ phải theo kịp, tự động chấm điểm... đúng là được thiết kế riêng cho trò chơi và môi trường mô phỏng.
Học tăng cường của AI thực sự nổi bật trong ba kịch bản cụ thể. Hãy nghĩ về điều đó - hệ thống cần xử lý các thất bại một cách duyên dáng, có nghĩa là bạn chỉ cần nhấn nút khôi phục và thử lại. Tốc độ cũng quan trọng; nếu mỗi lần thử mất quá nhiều thời gian, việc đào tạo trở nên không thực tế. Và đây là điểm mấu chốt: phải có một cách tự động để chấm điểm mỗi lần thử. Không cần phán đoán của con người. Khi ba tiêu chí này được đáp ứng - khôi phục nhanh, lặp lại nhanh chóng và phản hồi tự động - đó là lúc các thuật toán RL thực sự tỏa sáng.