امسح ضوئيًا لتحميل تطبيق Gate
qrCode
خيارات تحميل إضافية
لا تذكرني بذلك مرة أخرى اليوم

تتألق تقنيات التعلم المعزز للذكاء الاصطناعي حقًا في ثلاثة سيناريوهات محددة. فكر في الأمر - يحتاج النظام إلى التعامل مع الفشل بشكل سلس، مما يعني أنه يمكنك فقط الضغط على إعادة الضبط والمحاولة مرة أخرى. السرعة مهمة أيضًا؛ إذا استغرق كل محاولة وقتًا طويلاً، فإن التدريب يصبح غير عملي. وإليك المفاجأة: يجب أن تكون هناك طريقة تلقائية لتقييم كل محاولة. لا حاجة إلى حكم بشري. عندما يتم تحقيق هذه المتطلبات الثلاثة - إعادة الضبط السريع، والتكرارات السريعة، والتغذية الراجعة الآلية - هنا تتألق خوارزميات التعلم المعزز بشكل مذهل.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 3
  • إعادة النشر
  • مشاركة
تعليق
0/400
WalletAnxietyPatientvip
· منذ 17 س
حسنا.. لذلك يجب أن تكون RL تجربة وخطأ سريعة بالإضافة إلى ردود الفعل التلقائية ، وإلا فهي لا معنى لها حقا
شاهد النسخة الأصليةرد0
SatoshiNotNakamotovip
· منذ 17 س
صراحة، هذه الفخ في RL لا يمكن اللعب بها إلا في الألعاب، أما في الواقع فهذه الظروف غير متوافقة تجعل المشهد محرجًا جدًا.
شاهد النسخة الأصليةرد0
ChainSpyvip
· منذ 17 س
ها، هذه الشروط الثلاثة تعني ببساطة القواعد الأساسية للبقاء في RL، الفشل يمكن أن يُعاد، يجب أن تكون السرعة متناسبة، تقييم تلقائي... إنها مصممة خصيصًا للألعاب والبيئات المحاكاة.
شاهد النسخة الأصليةرد0
  • تثبيت