DeepMind permet aux grands modèles d’apprendre l’induction et la déduction, et la précision GPT-4 s’améliore de 13,7 %

巴比特_ · 2023-10-14T06:07:02+00:00

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ffd367b189-dd1a6f-69ad2a) Source de l’image : Généré par Unbounded AIÀ l’heure actuelle, les grands modèles de langage (LLM) montrent des capacités impressionnantes pour les tâches d’inférence, en particulier lorsqu’on leur donne des exemples et des étapes intermédiaires. Cependant, les méthodes s’appuient souvent sur des connaissances tacites en LLM, et la LLM donne des réponses incorrectes lorsque les connaissances tacites sont erronées ou incohérentes avec la tâche.Aujourd’hui, des chercheurs de Google, de l’Institut Mila et d’autres institutions de recherche ont exploré conjointement une nouvelle façon de permettre au LLM d’apprendre des règles d’inférence et de proposer un nouveau cadre appelé Hypotheses-to-Theories (HtT). Cette nouvelle approche améliore non seulement le raisonnement en plusieurs étapes, mais présente également les avantages de l’interprétabilité, de la transférabilité, etc.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9d63fa595d-dd1a6f-69ad2a) Adresse papier :Des expériences sur des problèmes de raisonnement numérique et relationnel montrent que HtT améliore les méthodes existantes avec une précision de 11 à 27 % supérieure. Les règles apprises peuvent également être transférées à différents modèles ou à différentes formes d’un même problème. ## **Introduction à la méthode** En résumé, le cadre HtT se compose de deux phases : une phase inductive et une phase déductive, similaire à l’entraînement et aux tests dans l’apprentissage automatique traditionnel.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3607e1160d-dd1a6f-69ad2a) Dans la phase d’intégration, LLM est d’abord invité à générer et à valider des règles pour un ensemble d’exemples d’apprentissage. L’étude utilise CoT pour déclarer des règles et en déduire des réponses, juger de la fréquence et de l’exactitude des règles, et collecter des règles qui apparaissent souvent et conduisent à des réponses correctes pour former une base de règles.Avec une bonne base de règles, l’étape suivante consiste à étudier comment appliquer ces règles pour résoudre le problème. À cette fin, dans la phase déductive, l’étude ajoute une base de règles et demande à LLM de récupérer des règles de la base de règles pour la déduction, transformant l’inférence implicite en inférence explicite.Cependant, l’étude a révélé que même les LLM très puissants, tels que GPT-4, ont du mal à récupérer les bonnes règles à chaque étape. À cette fin, l’étude a développé une astuce de balisage XML pour améliorer les capacités de récupération de contexte de LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a898320f9-dd1a6f-69ad2a) **Résultats expérimentaux**Pour évaluer HtT, l’étude a été comparée à deux problèmes d’inférence en plusieurs étapes. Les résultats expérimentaux montrent que HtT améliore la méthode sans échantillon. Les auteurs ont également mené des études approfondies sur l’ablation afin de fournir une compréhension plus complète de HtT.Ils évaluent de nouvelles approches à des problèmes de raisonnement numérique et relationnel. En raisonnement numérique, ils ont observé une amélioration de 21,0 % de la précision avec GPT-4. En inférence relationnelle, GPT-4 a amélioré la précision de 13,7 %, tandis que GPT-3.5 en a encore plus bénéficié, doublant les performances. Le gain de performance provient principalement de la réduction de l’illusion de régularité.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-71e15afe44-dd1a6f-69ad2a) Plus précisément, le tableau 1 ci-dessous présente les résultats sur les jeux de données arithmétiques en base 16, en base 11 et en base 9. De tous les systèmes de base, le CoT 0-shot est le moins performant dans les deux LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-19e04741d8-dd1a6f-69ad2a) LE TABLEAU 2 PRÉSENTE LES RÉSULTATS DE LA COMPARAISON DE DIFFÉRENTES MÉTHODES SUR CLUTRR. On peut observer que le CoT 0-shot a les pires performances dans GPT3.5 et GPT4. Pour la méthode de l’indice à quelques coups, les performances de CoT et LtM sont similaires. En termes de précision moyenne, HtT surpasse systématiquement la méthode de repérage des deux modèles de 11,1 à 27,2 %. Il est intéressant de noter que GPT3.5 n’est pas mauvais pour récupérer les règles CLUTRR et bénéficie plus de HtT que GPT4, probablement parce qu’il y a moins de règles dans CLUTRR que dans l’arithmétique.Il convient de mentionner qu’en utilisant les règles de GPT4, les performances du CoT sur GPT3.5 s’améliorent de 27,2 %, ce qui est plus du double des performances du CoT et proche des performances du CoT sur GPT4. Par conséquent, les auteurs pensent que HtT peut servir de nouvelle forme de distillation des connaissances du LLM fort au LLM faible.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1b148a426b-dd1a6f-69ad2a) Le tableau 3 montre que HtT améliore considérablement les performances de GPT-4 (version texte). Pour GPT3.5, cette amélioration n’est pas significative, car elle produit souvent des erreurs autres que l’illusion de règles lors du traitement de la saisie de texte.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-34c583517d-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7cb28b6cd4-dd1a6f-69ad2a)

巴比特_

2023-10-14 06:07:02

Source de l’image : Généré par Unbounded AI

À l’heure actuelle, les grands modèles de langage (LLM) montrent des capacités impressionnantes pour les tâches d’inférence, en particulier lorsqu’on leur donne des exemples et des étapes intermédiaires. Cependant, les méthodes s’appuient souvent sur des connaissances tacites en LLM, et la LLM donne des réponses incorrectes lorsque les connaissances tacites sont erronées ou incohérentes avec la tâche.

Aujourd’hui, des chercheurs de Google, de l’Institut Mila et d’autres institutions de recherche ont exploré conjointement une nouvelle façon de permettre au LLM d’apprendre des règles d’inférence et de proposer un nouveau cadre appelé Hypotheses-to-Theories (HtT). Cette nouvelle approche améliore non seulement le raisonnement en plusieurs étapes, mais présente également les avantages de l’interprétabilité, de la transférabilité, etc.

Adresse papier :

Des expériences sur des problèmes de raisonnement numérique et relationnel montrent que HtT améliore les méthodes existantes avec une précision de 11 à 27 % supérieure. Les règles apprises peuvent également être transférées à différents modèles ou à différentes formes d’un même problème.

Introduction à la méthode

En résumé, le cadre HtT se compose de deux phases : une phase inductive et une phase déductive, similaire à l’entraînement et aux tests dans l’apprentissage automatique traditionnel.

Dans la phase d’intégration, LLM est d’abord invité à générer et à valider des règles pour un ensemble d’exemples d’apprentissage. L’étude utilise CoT pour déclarer des règles et en déduire des réponses, juger de la fréquence et de l’exactitude des règles, et collecter des règles qui apparaissent souvent et conduisent à des réponses correctes pour former une base de règles.

Avec une bonne base de règles, l’étape suivante consiste à étudier comment appliquer ces règles pour résoudre le problème. À cette fin, dans la phase déductive, l’étude ajoute une base de règles et demande à LLM de récupérer des règles de la base de règles pour la déduction, transformant l’inférence implicite en inférence explicite.

Cependant, l’étude a révélé que même les LLM très puissants, tels que GPT-4, ont du mal à récupérer les bonnes règles à chaque étape. À cette fin, l’étude a développé une astuce de balisage XML pour améliorer les capacités de récupération de contexte de LLM.

Résultats expérimentaux

Pour évaluer HtT, l’étude a été comparée à deux problèmes d’inférence en plusieurs étapes. Les résultats expérimentaux montrent que HtT améliore la méthode sans échantillon. Les auteurs ont également mené des études approfondies sur l’ablation afin de fournir une compréhension plus complète de HtT.

Ils évaluent de nouvelles approches à des problèmes de raisonnement numérique et relationnel. En raisonnement numérique, ils ont observé une amélioration de 21,0 % de la précision avec GPT-4. En inférence relationnelle, GPT-4 a amélioré la précision de 13,7 %, tandis que GPT-3.5 en a encore plus bénéficié, doublant les performances. Le gain de performance provient principalement de la réduction de l’illusion de régularité.

Plus précisément, le tableau 1 ci-dessous présente les résultats sur les jeux de données arithmétiques en base 16, en base 11 et en base 9. De tous les systèmes de base, le CoT 0-shot est le moins performant dans les deux LLM.

LE TABLEAU 2 PRÉSENTE LES RÉSULTATS DE LA COMPARAISON DE DIFFÉRENTES MÉTHODES SUR CLUTRR. On peut observer que le CoT 0-shot a les pires performances dans GPT3.5 et GPT4. Pour la méthode de l’indice à quelques coups, les performances de CoT et LtM sont similaires. En termes de précision moyenne, HtT surpasse systématiquement la méthode de repérage des deux modèles de 11,1 à 27,2 %. Il est intéressant de noter que GPT3.5 n’est pas mauvais pour récupérer les règles CLUTRR et bénéficie plus de HtT que GPT4, probablement parce qu’il y a moins de règles dans CLUTRR que dans l’arithmétique.

Il convient de mentionner qu’en utilisant les règles de GPT4, les performances du CoT sur GPT3.5 s’améliorent de 27,2 %, ce qui est plus du double des performances du CoT et proche des performances du CoT sur GPT4. Par conséquent, les auteurs pensent que HtT peut servir de nouvelle forme de distillation des connaissances du LLM fort au LLM faible.

Le tableau 3 montre que HtT améliore considérablement les performances de GPT-4 (version texte). Pour GPT3.5, cette amélioration n’est pas significative, car elle produit souvent des erreurs autres que l’illusion de règles lors du traitement de la saisie de texte.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1CandyDrop Airdrop Event 6.0
17k Popularité
2White House Crypto Report
34k Popularité
3Join Alpha RION Airdrop to Earn $40
9k Popularité
4Fed Holds Rates Decision
8k Popularité
5July Spark Program TOP 10 Creators Announced
2k Popularité

Épingler