DeepMind permet aux grands modèles d’apprendre l’induction et la déduction, et la précision GPT-4 s’améliore de 13,7 %

Source de l’image : Généré par Unbounded AI

À l’heure actuelle, les grands modèles de langage (LLM) montrent des capacités impressionnantes pour les tâches d’inférence, en particulier lorsqu’on leur donne des exemples et des étapes intermédiaires. Cependant, les méthodes s’appuient souvent sur des connaissances tacites en LLM, et la LLM donne des réponses incorrectes lorsque les connaissances tacites sont erronées ou incohérentes avec la tâche.

Aujourd’hui, des chercheurs de Google, de l’Institut Mila et d’autres institutions de recherche ont exploré conjointement une nouvelle façon de permettre au LLM d’apprendre des règles d’inférence et de proposer un nouveau cadre appelé Hypotheses-to-Theories (HtT). Cette nouvelle approche améliore non seulement le raisonnement en plusieurs étapes, mais présente également les avantages de l’interprétabilité, de la transférabilité, etc.

Adresse papier :

Des expériences sur des problèmes de raisonnement numérique et relationnel montrent que HtT améliore les méthodes existantes avec une précision de 11 à 27 % supérieure. Les règles apprises peuvent également être transférées à différents modèles ou à différentes formes d’un même problème.

Introduction à la méthode

En résumé, le cadre HtT se compose de deux phases : une phase inductive et une phase déductive, similaire à l’entraînement et aux tests dans l’apprentissage automatique traditionnel.

Dans la phase d’intégration, LLM est d’abord invité à générer et à valider des règles pour un ensemble d’exemples d’apprentissage. L’étude utilise CoT pour déclarer des règles et en déduire des réponses, juger de la fréquence et de l’exactitude des règles, et collecter des règles qui apparaissent souvent et conduisent à des réponses correctes pour former une base de règles.

Avec une bonne base de règles, l’étape suivante consiste à étudier comment appliquer ces règles pour résoudre le problème. À cette fin, dans la phase déductive, l’étude ajoute une base de règles et demande à LLM de récupérer des règles de la base de règles pour la déduction, transformant l’inférence implicite en inférence explicite.

Cependant, l’étude a révélé que même les LLM très puissants, tels que GPT-4, ont du mal à récupérer les bonnes règles à chaque étape. À cette fin, l’étude a développé une astuce de balisage XML pour améliorer les capacités de récupération de contexte de LLM.

Résultats expérimentaux

Pour évaluer HtT, l’étude a été comparée à deux problèmes d’inférence en plusieurs étapes. Les résultats expérimentaux montrent que HtT améliore la méthode sans échantillon. Les auteurs ont également mené des études approfondies sur l’ablation afin de fournir une compréhension plus complète de HtT.

Ils évaluent de nouvelles approches à des problèmes de raisonnement numérique et relationnel. En raisonnement numérique, ils ont observé une amélioration de 21,0 % de la précision avec GPT-4. En inférence relationnelle, GPT-4 a amélioré la précision de 13,7 %, tandis que GPT-3.5 en a encore plus bénéficié, doublant les performances. Le gain de performance provient principalement de la réduction de l’illusion de régularité.

Plus précisément, le tableau 1 ci-dessous présente les résultats sur les jeux de données arithmétiques en base 16, en base 11 et en base 9. De tous les systèmes de base, le CoT 0-shot est le moins performant dans les deux LLM.

LE TABLEAU 2 PRÉSENTE LES RÉSULTATS DE LA COMPARAISON DE DIFFÉRENTES MÉTHODES SUR CLUTRR. On peut observer que le CoT 0-shot a les pires performances dans GPT3.5 et GPT4. Pour la méthode de l’indice à quelques coups, les performances de CoT et LtM sont similaires. En termes de précision moyenne, HtT surpasse systématiquement la méthode de repérage des deux modèles de 11,1 à 27,2 %. Il est intéressant de noter que GPT3.5 n’est pas mauvais pour récupérer les règles CLUTRR et bénéficie plus de HtT que GPT4, probablement parce qu’il y a moins de règles dans CLUTRR que dans l’arithmétique.

Il convient de mentionner qu’en utilisant les règles de GPT4, les performances du CoT sur GPT3.5 s’améliorent de 27,2 %, ce qui est plus du double des performances du CoT et proche des performances du CoT sur GPT4. Par conséquent, les auteurs pensent que HtT peut servir de nouvelle forme de distillation des connaissances du LLM fort au LLM faible.

Le tableau 3 montre que HtT améliore considérablement les performances de GPT-4 (version texte). Pour GPT3.5, cette amélioration n’est pas significative, car elle produit souvent des erreurs autres que l’illusion de règles lors du traitement de la saisie de texte.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)