Gateアプリをダウンロードするにはスキャンしてください
qrCode
その他のダウンロードオプション
今日はこれ以上表示しない

AIの強化学習は、特に3つのシナリオで真価を発揮します。考えてみてください - システムは失敗を優雅に扱う必要があります。つまり、リセットして再挑戦することができるのです。速度も重要です。各試行に永遠に時間がかかると、トレーニングは実用的ではなくなります。そして、肝心なのは、各試行をスコアリングする自動的な方法が必要です。人間の判断は必要ありません。これらの3つの条件が満たされると - クイックリセット、迅速な反復、自動フィードバック - そこで強化学習アルゴリズムが絶対に優れた性能を発揮します。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 3
  • リポスト
  • 共有
コメント
0/400
WalletAnxietyPatientvip
· 15時間前
うん..つまりRLは素早く試行錯誤して自動フィードバックを得るこの罠が必要だということだね、さもなければ本当に意味がない。
原文表示返信0
SatoshiNotNakamotovip
· 15時間前
正直に言うと、RLのこの罠はゲームの中でしかうまくいかないですね。現実の条件が整っていないシーンはとても気まずいです。
原文表示返信0
ChainSpyvip
· 15時間前
ああ、この3つの条件は要するにRLの生存法則ですね。失敗はやり直せる、スピードについていかなければならない、自動採点...まさにゲームとシミュレーション環境のために作られたようです。
原文表示返信0
  • ピン