Araştırmalar, LLM'ler için çevrimiçi ve çevrimdışı RL arasında bir performans farkı olduğunu göstermektedir—özellikle ölçeklendirme sırasında—ancak çevrimdışı algoritmalara on-policy örneklerin dahil edilmesi (iteratif/yarı çevrimiçi RL) farkı kapatabilir; eğitim verisinin kalitesi genellikle RL yönteminin seçiminden daha önemlidir.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
9 Likes
Reward
9
6
Repost
Share
Comment
0/400
GhostAddressMiner
· 6h ago
Veri kalitesi sahtekarlığı on-chain sinyali izlendi
View OriginalReply0
WagmiOrRekt
· 6h ago
Eğitim verisinin kalitesi önemli olan.
View OriginalReply0
ContractFreelancer
· 6h ago
Çevrimdışı eğitim hâlâ biraz eksik.
View OriginalReply0
MEVSupportGroup
· 6h ago
Çevrimdışı eğitim ya da blok zinciri üzerinde eğitim, hepsi aynı bok.
Araştırmalar, LLM'ler için çevrimiçi ve çevrimdışı RL arasında bir performans farkı olduğunu göstermektedir—özellikle ölçeklendirme sırasında—ancak çevrimdışı algoritmalara on-policy örneklerin dahil edilmesi (iteratif/yarı çevrimiçi RL) farkı kapatabilir; eğitim verisinin kalitesi genellikle RL yönteminin seçiminden daha önemlidir.