Pembelajaran penguatan AI benar-benar bersinar dalam tiga skenario spesifik. Pikirkan tentang itu - sistem perlu menangani kegagalan dengan baik, yang berarti Anda dapat langsung mengatur ulang dan mencoba lagi. Kecepatan juga penting; jika setiap percobaan memakan waktu selamanya, pelatihan menjadi tidak praktis. Dan ini yang paling penting: harus ada cara otomatis untuk menilai setiap percobaan. Tidak perlu penilaian manusia. Ketika ketiga kotak ini dicentang - pengaturan ulang yang cepat, iterasi yang cepat, dan umpan balik otomatis - di situlah algoritma RL benar-benar unggul.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
6 Suka
Hadiah
6
3
Posting ulang
Bagikan
Komentar
0/400
WalletAnxietyPatient
· 15jam yang lalu
Hmm.. jadi RL memang harus cepat mencoba dan kesalahan plus umpan balik otomatis ini baru bisa berhasil, kalau tidak benar-benar tidak ada artinya.
Lihat AsliBalas0
SatoshiNotNakamoto
· 15jam yang lalu
Sejujurnya, jebakan RL ini hanya bisa dimainkan di dalam permainan, di dunia nyata situasi yang tidak memenuhi syarat itu sangat canggung.
Lihat AsliBalas0
ChainSpy
· 15jam yang lalu
Hah, ketiga syarat ini secara langsung adalah hukum kelangsungan hidup RL, kan? Kegagalan bisa diulang, kecepatan harus mengikuti, dan penilaian otomatis... benar-benar dirancang khusus untuk permainan dan lingkungan simulasi.
Pembelajaran penguatan AI benar-benar bersinar dalam tiga skenario spesifik. Pikirkan tentang itu - sistem perlu menangani kegagalan dengan baik, yang berarti Anda dapat langsung mengatur ulang dan mencoba lagi. Kecepatan juga penting; jika setiap percobaan memakan waktu selamanya, pelatihan menjadi tidak praktis. Dan ini yang paling penting: harus ada cara otomatis untuk menilai setiap percobaan. Tidak perlu penilaian manusia. Ketika ketiga kotak ini dicentang - pengaturan ulang yang cepat, iterasi yang cepat, dan umpan balik otomatis - di situlah algoritma RL benar-benar unggul.