Отсканируйте, чтобы загрузить приложение Gate
qrCode
Больше вариантов загрузки
Не напоминай мне больше сегодня.

Усиленное обучение ИИ действительно проявляет себя в трех конкретных сценариях. Подумайте об этом - система должна уметь справляться с неудачами, что означает, что вы можете просто нажать сброс и попробовать снова. Скорость тоже важна; если каждая попытка занимает вечность, обучение становится непрактичным. И вот в чем дело: должен быть какой-то автоматический способ оценивать каждую попытку. Никакого человеческого суждения не нужно. Когда эти три условия выполняются - быстрые сбросы, быстрые итерации и автоматическая обратная связь - вот где алгоритмы RL действительно преуспевают.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 3
  • Репост
  • Поделиться
комментарий
0/400
WalletAnxietyPatientvip
· 21ч назад
Ну.. значит, RL действительно должен основываться на быстрой ошибке и автоматической обратной связи, иначе это действительно не имеет смысла.
Посмотреть ОригиналОтветить0
SatoshiNotNakamotovip
· 21ч назад
Скажем так, эта ловушка RL работает только в играх, а в реальной жизни такие условия не могут быть собраны, это очень неловко.
Посмотреть ОригиналОтветить0
ChainSpyvip
· 21ч назад
Ха, эти три условия, по сути, являются законами выживания RL: возможность повторной попытки после неудачи, скорость должна соответствовать, автоматическая оценка... это просто создано для игр и симуляционных сред.
Посмотреть ОригиналОтветить0
  • Закрепить