بالتأكيد، أعتقد أنه من الواضح أنك تحصل على طلبات جديدة من الطوارئ/الجمال/التماسك مع RL. ولكن بالطبع، فإنه يفتح أيضًا الطريق أمام جميع أنواع الأضرار والخسائر.


أعتقد حتى أن RL يمكن أن يجعل النماذج أفضل في "المحاكاة" من النماذج الأساسية! ( على سبيل المثال من خلال جعلها تصحح نفسها بشكل وكيل )
THINK-6.21%
GET6.55%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 6
  • إعادة النشر
  • مشاركة
تعليق
0/400
AirdropHunterWangvip
· منذ 9 س
تأثير rl جيد ولكنه خطير
شاهد النسخة الأصليةرد0
TokenVelocityvip
· منذ 9 س
rl قد استعمل الغش
شاهد النسخة الأصليةرد0
WhaleWatchervip
· منذ 9 س
قد يكون تصحيح النموذج الذاتي أكثر موثوقية من الإنسان
شاهد النسخة الأصليةرد0
SelfCustodyIssuesvip
· منذ 9 س
rt حقًا قادر على تحليل الجانبين بشكل جيد، من يفهم يفهم.
شاهد النسخة الأصليةرد0
IfIWereOnChainvip
· منذ 9 س
قرار آخر sacrifice الأمان
شاهد النسخة الأصليةرد0
DataPickledFishvip
· منذ 9 س
سأقوم بالتدريب فقط، لكنني لا أستطيع كتابة الشيفرة.
شاهد النسخة الأصليةرد0
  • تثبيت