تتألق تقنيات التعلم المعزز للذكاء الاصطناعي حقًا في ثلاثة سيناريوهات محددة. فكر في الأمر - يحتاج النظام إلى التعامل مع الفشل بشكل سلس، مما يعني أنه يمكنك فقط الضغط على إعادة الضبط والمحاولة مرة أخرى. السرعة مهمة أيضًا؛ إذا استغرق كل محاولة وقتًا طويلاً، فإن التدريب يصبح غير عملي. وإليك المفاجأة: يجب أن تكون هناك طريقة تلقائية لتقييم كل محاولة. لا حاجة إلى حكم بشري. عندما يتم تحقيق هذه المتطلبات الثلاثة - إعادة الضبط السريع، والتكرارات السريعة، والتغذية الراجعة الآلية - هنا تتألق خوارزميات التعلم المعزز بشكل مذهل.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 6

أعجبني
6
3
إعادة النشر
مشاركة

تعليق

0/400

WalletAnxietyPatient

· منذ 17 س

حسنا.. لذلك يجب أن تكون RL تجربة وخطأ سريعة بالإضافة إلى ردود الفعل التلقائية ، وإلا فهي لا معنى لها حقا

شاهد النسخة الأصليةرد0

SatoshiNotNakamoto

· منذ 17 س

صراحة، هذه الفخ في RL لا يمكن اللعب بها إلا في الألعاب، أما في الواقع فهذه الظروف غير متوافقة تجعل المشهد محرجًا جدًا.

شاهد النسخة الأصليةرد0

ChainSpy

· منذ 17 س

ها، هذه الشروط الثلاثة تعني ببساطة القواعد الأساسية للبقاء في RL، الفشل يمكن أن يُعاد، يجب أن تكون السرعة متناسبة، تقييم تلقائي... إنها مصممة خصيصًا للألعاب والبيئات المحاكاة.

شاهد النسخة الأصليةرد0

المواضيع الرائجةعرض المزيد
#TopGainersInADownMarket
11.38K درجة الشعبية
#FOMCMeetingMinutesComingUp
10.99K درجة الشعبية
#BitcoinPriceWatch
10.16K درجة الشعبية
#GovShutdownOfficiallyEnded
32.45K درجة الشعبية
#BuyTheDipOrWaitNow?
18.34K درجة الشعبية

Gate Fun الساخنعرض المزيد

1
GTRENCHESGATE TRENCHES
القيمة السوقية:$3.8Kعدد الحائزين:1
0.00%
2
吉林东哥吉林东哥
القيمة السوقية:$3.75Kعدد الحائزين:1
0.00%
3
TRNTrun the volume up
القيمة السوقية:$3.73Kعدد الحائزين:1
0.00%
4
AKAZA猗窝座
القيمة السوقية:$3.76Kعدد الحائزين:1
0.00%
5
KarinaKarina
القيمة السوقية:$3.72Kعدد الحائزين:1
0.00%

تثبيت

خريطة الموقع