2025-08-09 03:35:42

Certainement, je pense qu'il est évident que vous obtenez de nouveaux ordres d'émergence/belle/cohérence avec RL. Mais bien sûr, cela ouvre également la voie à toutes sortes de dommages et de pertes.

Je pense même que RL peut rendre les modèles meilleurs pour "simuler" que les modèles de base ! ( par exemple en les rendant auto-correcteurs de manière agentique )

THINK-6.21%

GET6.55%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

13 J'aime

Récompense
13
6
Reposter
Partager

Commentaire

0/400

AirdropHunterWang

· Il y a 9h

rl est efficace mais dangereux.

Voir l'originalRépondre0

TokenVelocity

· Il y a 9h

rl a triché, c'est sûr.

Voir l'originalRépondre0

WhaleWatcher

· Il y a 9h

L'auto-correction des modèles pourrait être plus fiable que celle des humains.

Voir l'originalRépondre0

SelfCustodyIssues

· Il y a 9h

rt peut vraiment analyser les deux côtés de manière très compétente, ceux qui comprennent comprennent.

Voir l'originalRépondre0

IfIWereOnChain

· Il y a 9h

Une autre décision au détriment de la sécurité.

Voir l'originalRépondre0

DataPickledFish

· Il y a 9h

Je ne peux que m'entraîner, je ne peux pas écrire de code.

Voir l'originalRépondre0

Rubrique
#Gate & WLFI USD1 Points Program
51k Popularité
#Trump Allows 401(k) Crypto Investing
27k Popularité
#Join Copy Trading Share to Win $2,000
21k Popularité
#Show My Alpha Points
77k Popularité
#SOL Futures Reach New High
22k Popularité

Épingler