Certainement, je pense qu'il est évident que vous obtenez de nouveaux ordres d'émergence/belle/cohérence avec RL. Mais bien sûr, cela ouvre également la voie à toutes sortes de dommages et de pertes.


Je pense même que RL peut rendre les modèles meilleurs pour "simuler" que les modèles de base ! ( par exemple en les rendant auto-correcteurs de manière agentique )
THINK-6.21%
GET6.55%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Reposter
  • Partager
Commentaire
0/400
AirdropHunterWangvip
· Il y a 9h
rl est efficace mais dangereux.
Voir l'originalRépondre0
TokenVelocityvip
· Il y a 9h
rl a triché, c'est sûr.
Voir l'originalRépondre0
WhaleWatchervip
· Il y a 9h
L'auto-correction des modèles pourrait être plus fiable que celle des humains.
Voir l'originalRépondre0
SelfCustodyIssuesvip
· Il y a 9h
rt peut vraiment analyser les deux côtés de manière très compétente, ceux qui comprennent comprennent.
Voir l'originalRépondre0
IfIWereOnChainvip
· Il y a 9h
Une autre décision au détriment de la sécurité.
Voir l'originalRépondre0
DataPickledFishvip
· Il y a 9h
Je ne peux que m'entraîner, je ne peux pas écrire de code.
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)