Il existe une nouvelle solution au problème des hallucinations des grands modèles !
Meta AI Labs propose une solution « diviser pour mieux régner ».
Avec cette solution, la précision des informations fournies par Llama-65B a doublé, dépassant même ChatGPT**.
La soi-disant illusion du grand modèle consiste à produire un contenu qui semble raisonnable mais qui est complètement faux.
La « Chaîne de vérification » (CoVe) proposée cette fois par Meta est une méthode en chaîne similaire à la « Chaîne de pensée » (CoT).
La différence est que la chaîne de réflexion « étape par étape » se concentre davantage sur le raisonnement logique, tandis que la chaîne de vérification se concentre davantage sur les informations factuelles**.
Après l'avoir lu, certains internautes ont découvert que cette chaîne de vérification est très similaire à une méthode scientifique lors de l'écriture de code à l'aide de ChatGPT :
Alors, qu’est-ce exactement que la méthode de la « chaîne de vérification » et qu’est-ce que la « vérification » ?
Démontez la réponse, divisez pour régner
L'idée centrale de la chaîne de vérification est de décomposer un gros morceau de contenu à vérifier en petits problèmes. Le processus spécifique est le suivant :
Premièrement, le modèle génère des réponses comme d'habitude en fonction de la question posée par l'utilisateur.
Ensuite, sur la base du contenu de la réponse généré, une série de questions de vérification est générée pour chaque élément d'information.
Le modèle est ensuite autorisé à répondre seul à ces questions, et les réponses initiales sont ajustées en fonction des résultats pour arriver au résultat final.
Pour donner un exemple simple, supposons que vous souhaitiez demander au modèle quelles ont été les principales causes de la guerre américano-mexicaine au 19e siècle.
Le modèle répond quand l’événement s’est produit et ce qui s’est passé avant.
Ensuite, pour cette série d’événements, demandez-leur un par un quand ils se sont produits.
En conséquence, le modèle a constaté que l’heure de l’un des éléments mentionnés était trop éloignée et l’a ajusté pour donner la réponse finale.
Parmi elles, la génération et la vérification des questions constituent la partie la plus critique. À cet égard, les chercheurs ont proposé quatre méthodes spécifiques :
*Joint, c'est-à-dire rédiger des instructions pour générer des questions et des réponses dans le même mot d'invite
* 2 étapes, c'est-à-dire laisser d'abord le modèle générer des questions, puis ouvrir une nouvelle conversation (une fois) pour répondre aux questions soulevées.
Factored, basé sur 2-Step, ouvre un nouveau dialogue pour chaque question posée.
Factor+Revise, ajoute des tests de cohérence sur la base de Factored, permettant au modèle de se concentrer sur le contenu incohérent
Ces quatre modes sont de plus en plus raffinés et leur précision est de plus en plus élevée.
###### △En commençant par le rouge, les quatre couleurs ne représentent pas CoVe, Joint, Factored et Factor+Revise dans l'ordre
Alors pourquoi les questions fractionnées peuvent-elles améliorer la précision du modèle ?
Tout d'abord, parce que les questions démontées sont plus faciles que la tâche globale, les questions à développement deviennent des questions et réponses ou même des questions à choix multiples et de jugement.Les questions sont plus simples et le taux d'exactitude est amélioré.
De plus, décomposer le problème permet au modèle de véritablement repenser le problème plutôt que de répéter encore et encore la mauvaise réponse.
Alors, quel est l’effet de la méthode de la chaîne de vérification ?
La précision des informations dépasse ChatGPT
Afin d’explorer cette question, les chercheurs ont utilisé Llama pour réaliser un test comportant un total de trois tâches de test.
Le premier est le énumération d'informations, par exemple la liste des célébrités nées dans un certain endroit et engagées dans un certain secteur.
Dans cette tâche, les chercheurs ont testé un total de deux ensembles de données : le Wikidata le plus simple et la liste Wiki-Category la plus difficile (extraite de Wikipédia).
Les résultats ont montré qu'avec la prise en charge de la chaîne de vérification du mode en deux étapes de Llama avec des paramètres 65B, la précision des questions simples a augmenté de 0,17 à 0,36, soit plus que doublé**, et la précision des questions complexes a également presque doublé.
Vient ensuite la question « Questions et réponses de domaine fermé ». Les chercheurs ont extrait plusieurs informations discontinues de l'ensemble de données MultiSpanQA et ont posé des questions.
Par exemple, « Qui a fondé la première maison d'édition au monde, en quelle année » (la réponse est Johannes Gutenberg, 1450).
En conséquence, Cove a également apporté une amélioration de 20 % de la précision de Llama.
La troisième tâche est "Génération d'une biographie textuelle longue". La question est "Dites-moi une biographie de (nom de la personne)", qui est évaluée à l'aide de l'ensemble de données FactScore.
En conséquence, dans le mode Factor+Reviese, le taux de précision est non seulement nettement supérieur à celui du mode chaîne de non-vérification, mais dépasse également ChatGPT.
Les amis intéressés par cette recherche peuvent obtenir plus de détails dans le document.
Adresse papier :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
La précision des informations textuelles longues dépasse ChatGPT, et Meta propose une nouvelle méthode pour réduire l'illusion des grands modèles
Source : Qubits
Il existe une nouvelle solution au problème des hallucinations des grands modèles !
Meta AI Labs propose une solution « diviser pour mieux régner ».
Avec cette solution, la précision des informations fournies par Llama-65B a doublé, dépassant même ChatGPT**.
La « Chaîne de vérification » (CoVe) proposée cette fois par Meta est une méthode en chaîne similaire à la « Chaîne de pensée » (CoT).
La différence est que la chaîne de réflexion « étape par étape » se concentre davantage sur le raisonnement logique, tandis que la chaîne de vérification se concentre davantage sur les informations factuelles**.
Après l'avoir lu, certains internautes ont découvert que cette chaîne de vérification est très similaire à une méthode scientifique lors de l'écriture de code à l'aide de ChatGPT :
Démontez la réponse, divisez pour régner
L'idée centrale de la chaîne de vérification est de décomposer un gros morceau de contenu à vérifier en petits problèmes. Le processus spécifique est le suivant :
Premièrement, le modèle génère des réponses comme d'habitude en fonction de la question posée par l'utilisateur.
Ensuite, sur la base du contenu de la réponse généré, une série de questions de vérification est générée pour chaque élément d'information.
Le modèle est ensuite autorisé à répondre seul à ces questions, et les réponses initiales sont ajustées en fonction des résultats pour arriver au résultat final.
Pour donner un exemple simple, supposons que vous souhaitiez demander au modèle quelles ont été les principales causes de la guerre américano-mexicaine au 19e siècle.
Le modèle répond quand l’événement s’est produit et ce qui s’est passé avant.
En conséquence, le modèle a constaté que l’heure de l’un des éléments mentionnés était trop éloignée et l’a ajusté pour donner la réponse finale.
*Joint, c'est-à-dire rédiger des instructions pour générer des questions et des réponses dans le même mot d'invite * 2 étapes, c'est-à-dire laisser d'abord le modèle générer des questions, puis ouvrir une nouvelle conversation (une fois) pour répondre aux questions soulevées.
Ces quatre modes sont de plus en plus raffinés et leur précision est de plus en plus élevée.
Alors pourquoi les questions fractionnées peuvent-elles améliorer la précision du modèle ?
Tout d'abord, parce que les questions démontées sont plus faciles que la tâche globale, les questions à développement deviennent des questions et réponses ou même des questions à choix multiples et de jugement.Les questions sont plus simples et le taux d'exactitude est amélioré.
De plus, décomposer le problème permet au modèle de véritablement repenser le problème plutôt que de répéter encore et encore la mauvaise réponse.
Alors, quel est l’effet de la méthode de la chaîne de vérification ?
La précision des informations dépasse ChatGPT
Afin d’explorer cette question, les chercheurs ont utilisé Llama pour réaliser un test comportant un total de trois tâches de test.
Le premier est le énumération d'informations, par exemple la liste des célébrités nées dans un certain endroit et engagées dans un certain secteur.
Dans cette tâche, les chercheurs ont testé un total de deux ensembles de données : le Wikidata le plus simple et la liste Wiki-Category la plus difficile (extraite de Wikipédia).
Vient ensuite la question « Questions et réponses de domaine fermé ». Les chercheurs ont extrait plusieurs informations discontinues de l'ensemble de données MultiSpanQA et ont posé des questions.
Par exemple, « Qui a fondé la première maison d'édition au monde, en quelle année » (la réponse est Johannes Gutenberg, 1450).
En conséquence, Cove a également apporté une amélioration de 20 % de la précision de Llama.
En conséquence, dans le mode Factor+Reviese, le taux de précision est non seulement nettement supérieur à celui du mode chaîne de non-vérification, mais dépasse également ChatGPT.
Adresse papier :