L'apprentissage par renforcement de l'IA brille vraiment dans trois scénarios spécifiques. Pensez-y - le système doit gérer les échecs de manière élégante, ce qui signifie que vous pouvez simplement appuyer sur réinitialiser et réessayer. La vitesse compte aussi ; si chaque tentative prend une éternité, l'entraînement devient impraticable. Et voici le meilleur : il doit y avoir un moyen automatique d'évaluer chaque essai. Pas besoin de jugement humain. Lorsque ces trois cases sont cochées - réinitialisations rapides, itérations rapides et retour d'information automatisé - c'est là que les algorithmes d'apprentissage par renforcement excellent.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
6 J'aime
Récompense
6
3
Reposter
Partager
Commentaire
0/400
WalletAnxietyPatient
· Il y a 17h
Eh bien... donc RL doit vraiment être un piège d'essais rapides et de rétroaction automatique, sinon ça n'a vraiment aucun sens.
Voir l'originalRépondre0
SatoshiNotNakamoto
· Il y a 17h
Pour être honnête, ce piège RL ne fonctionne que dans les jeux, dans la réalité, les conditions ne sont pas réunies et c'est très embarrassant.
Voir l'originalRépondre0
ChainSpy
· Il y a 17h
Ah, ces trois conditions, en d'autres termes, sont les lois de survie de RL, échec pouvant être recommencé, la vitesse doit suivre, notation automatique... C'est tout simplement fait sur mesure pour les jeux et les environnements de simulation.
L'apprentissage par renforcement de l'IA brille vraiment dans trois scénarios spécifiques. Pensez-y - le système doit gérer les échecs de manière élégante, ce qui signifie que vous pouvez simplement appuyer sur réinitialiser et réessayer. La vitesse compte aussi ; si chaque tentative prend une éternité, l'entraînement devient impraticable. Et voici le meilleur : il doit y avoir un moyen automatique d'évaluer chaque essai. Pas besoin de jugement humain. Lorsque ces trois cases sont cochées - réinitialisations rapides, itérations rapides et retour d'information automatisé - c'est là que les algorithmes d'apprentissage par renforcement excellent.