Le modèle linguistique présente des défauts majeurs et la déduction des connaissances s’avère être un problème de longue date.

2023-10-02 05:11:12

Découverte surprenante : les grands modèles présentent de sérieux défauts dans la déduction des connaissances.

L’application flexible des connaissances est la clé de la sagesse. Le cerveau humain peut traiter les connaissances rapidement, par exemple en répondant rapidement « Combien de mots y a-t-il dans « Silent Night Thoughts » ». Alors, des opérations similaires peuvent-elles être réalisées sur de grands modèles ? On sait que les grands modèles peuvent d'abord écrire silencieusement des « Pensées de la nuit silencieuse » via la chaîne de pensée (CoT), puis répondre aux questions basées sur le contenu écrit, mais cela rendra le texte généré long. En revanche, les humains peuvent effectuer des déductions de connaissances simples dans leur cerveau sans écrire les étapes intermédiaires. Alors, un très grand modèle de langage peut-il générer des réponses directement dans son cerveau artificiel sans avoir à écrire au préalable les points de connaissance ?

**La réponse s'est avérée être non ! La figure 1/2/3 montre de nombreux contre-exemples sur GPT4. Même la classification la plus élémentaire (comme déterminer la parité de l'anniversaire d'une célébrité) et la comparaison (comme comparer les anniversaires de deux présidents) doivent passer par la chaîne de pensée. Pire encore, les grands modèles sont presque totalement incapables d’extraire à rebours les connaissances de l’ensemble de formation. **

Figure 1 : GPT4 fait des erreurs dans la classification/comparaison des connaissances, mais la bonne réponse peut être obtenue grâce à la chaîne de réflexion

Figure 2 : Exemple d'erreur de recherche inversée de connaissances GPT4

*Figure 3 : Bien que GPT4 puisse répondre correctement « Quand est l'anniversaire de quelqu'un » et « Un certain nombre est-il pair ? », en combinant les deux, le taux de précision n'est que de 50 % sans chaîne de pensée (CoT). Lorsqu’on compare les anniversaires de célébrités de 1900 à 1910, la performance est également proche d’une supposition aveugle. *

La dernière recherche « Language Model Physics Part 3.2 : Manipulation of Knowledge » menée par Zhu Zeyuan (MetaAI) et Li Yuanzhi (MBZUAI) se concentre sur les questions ci-dessus.

Adresse papier :

Permettez-moi d'abord de poser une question. Pour des problèmes tels que les figures 1/2/3, est-ce parce que GPT4 ne se souvient pas assez précisément des anniversaires des gens (le taux de compression n'est pas suffisant et la perte d'entraînement n'est pas assez faible), ou est-ce que ne parvient-il pas à approfondir sa compréhension de la parité en la peaufinant ? Est-il possible d'affiner GPT4 afin qu'il puisse combiner les connaissances existantes au sein du modèle pour générer de nouvelles connaissances telles que la « parité d'anniversaire », répondant ainsi directement à des questions connexes sans s'appuyer sur CoT ? Comme nous ne connaissons pas l'ensemble de données d'entraînement de GPT4, nous ne pouvons pas l'affiner. Par conséquent, l'auteur propose d'utiliser des ensembles de formation contrôlables pour étudier plus en profondeur la capacité de « déduction de connaissances » des modèles linguistiques.

Figure 4 : Pour les modèles pré-entraînés tels que GPT4, en raison de la nature incontrôlable des données Internet, il est difficile de déterminer si les situations B/C/D se produisent

Dans "Language Model Physics Part 3.1: Knowledge Storage and Retrieval", l'auteur a créé un ensemble de données contenant 100 000 biographies. Chaque biographie comprend le nom de la personne et six attributs : date de naissance, lieu de naissance, spécialité universitaire, nom de l'université, lieu de travail et unité de travail. Par exemple:

« Anya Briar Forger est originaire de Princeton, dans le New Jersey. Elle a consacré ses études à la communication. Elle a acquis une expérience professionnelle à Menlo Park, en Californie. Elle a développé sa carrière chez Meta Platforms. Elle est venue au monde le 2 octobre 1996. Elle a suivi des cours avancés au MIT.」

Les auteurs ont veillé à la diversité des entrées biographiques pour aider le modèle à mieux accéder aux connaissances. Après la pré-formation, le modèle peut répondre avec précision aux questions d'extraction de connaissances telles que « Quand est l'anniversaire d'Anya » grâce à un réglage fin (le taux de précision est proche de 100 %)

Ensuite, l'auteur a continué à affiner, en essayant de faire apprendre au modèle des problèmes de déduction de connaissances, tels que la classification/comparaison/addition et soustraction de connaissances. L'article révèle que les modèles de langage naturel ont des capacités très limitées en matière de déduction des connaissances et qu'il est difficile de générer de nouvelles connaissances par un réglage fin, même s'il ne s'agit que de simples transformations/combinaisons des connaissances déjà maîtrisées par le modèle. **

Figure 5 : Si CoT n'est pas utilisé lors du réglage fin, permettre au modèle de classer/comparer/soustraire des connaissances nécessitera un grand nombre d'échantillons, sinon la précision sera extrêmement faible - 100 majeurs ont été utilisés dans l'expérience

Comme le montre la figure 5, l'auteur a constaté que même si le modèle peut répondre avec précision à l'anniversaire de chacun après le pré-entraînement (le taux de précision est proche de 100 %), il doit être affiné pour répondre « Le mois de naissance de xxx est-il un nombre pair ? et atteindre un taux de précision de 75 % - n'oubliez pas que la supposition aveugle a un taux de précision de 50 % - nécessite au moins 10 000 échantillons de réglage fin. En comparaison, si le modèle peut compléter correctement la combinaison de connaissances « anniversaire » et « parité », alors selon la théorie traditionnelle de l'apprentissage automatique, le modèle n'a besoin que d'apprendre à classer 12 mois, et généralement environ 100 échantillons suffisent !

De même, après la pré-formation, le modèle peut répondre avec précision à la majeure de chaque personne (un total de 100 majeures différentes), mais même si 50 000 échantillons de réglage fin sont utilisés pour comparer « Quelle est la meilleure, la majeure d'Anya ou la majeure de Sabrina », la précision le taux n’est que de 53,9 %, ce qui est presque une estimation aveugle.

Cependant, lorsque nous utilisons le réglage fin de CoT pour permettre au modèle d'apprendre des phrases telles que "Le mois de naissance d'Anya est octobre, c'est donc un nombre pair", la précision du modèle pour juger de la parité du mois de naissance sur l'ensemble de test est grandement améliorée. (voir "test d'utilisation" dans la colonne Figure 5 CoT").

L'auteur a également essayé de mélanger les réponses CoT et non-CoT dans les données d'entraînement de réglage fin, et a constaté que la précision du modèle sans utiliser CoT sur l'ensemble de test était encore très faible (voir la colonne « test sans CoT » dans la figure 5). Cela montre que même si suffisamment de données de réglage fin du CoT sont ajoutées, le modèle ne peut toujours pas apprendre à « penser dans la tête » et rapporter directement la réponse.

Ces résultats montrent qu’il est extrêmement difficile pour les modèles de langage d’effectuer des opérations de connaissances simples ! Le modèle doit d'abord noter les points de connaissance, puis effectuer des calculs. Il ne peut pas être utilisé directement dans le cerveau comme un être humain. Même après un réglage suffisamment fin, cela n'aidera pas. **

Défis de la recherche inversée de connaissances

L’article révèle également que les modèles de langage naturel ne peuvent pas rechercher à rebours les connaissances acquises. Bien qu'il puisse répondre à toutes les informations sur une personne, il ne peut pas déterminer le nom de la personne sur la base de ces informations.

Comme pour la classification/comparaison des connaissances, l'auteur a mené des expériences sur GPT3.5/4 et a constaté qu'elles fonctionnaient mal dans l'extraction inverse des connaissances (voir Figure 6). Cependant, comme nous ne pouvons pas déterminer l'ensemble de formation de GPT3.5/4, cela ne prouve pas que tous les modèles de langage ont ce problème.

*Figure 6 : Comparaison de la recherche de connaissances avant/arrière de GPT3.5/4. Le travail "d'inversion de la malédiction" (arxiv 2309.12288) dont nous avons rendu compte il y a quelques jours a également observé cela sur de grands modèles existants. *

L'auteur a utilisé l'ensemble de données biographiques susmentionnées pour mener une expérience contrôlée plus approfondie sur les capacités de recherche inversée de connaissances du modèle. Puisque les noms de toutes les biographies se trouvent au début du paragraphe, l'auteur a conçu 10 problèmes d'extraction inverse d'informations, tels que :

« S'il vous plaît, dites-moi le nom d'une personne née le 2 octobre 1996 à Princeton, dans le New Jersey ?

"S'il vous plaît, dites-moi le nom d'une personne qui a étudié les communications au MIT, est née le 2 octobre 1996 à Princeton, dans le New Jersey, et travaille chez Meta Platforms à Menlo Park, en Californie ?"

Figure 7 : Expérience contrôlée sur un ensemble de données biographiques de célébrités

L'auteur a vérifié que bien que le modèle réalise une compression des connaissances sans perte et une amélioration suffisante des connaissances, et puisse extraire ces connaissances presque à 100 % correctement, après un réglage fin, le modèle est toujours incapable d'effectuer une recherche inversée des connaissances et la précision est presque nulle ( voir Figure 7) . Cependant, une fois que les connaissances inverses apparaissent directement dans l'ensemble de pré-formation, la précision de la recherche inverse monte immédiatement en flèche.

En résumé, ce n'est que lorsque les connaissances inverses sont directement incluses dans les données de pré-entraînement que le modèle peut répondre à la question inverse par un réglage fin - mais c'est en fait de la triche, car si les connaissances ont été inversées, ce n'est plus de la « Connaissance inverse ». Recherche". Si l'ensemble de pré-formation ne contient que des connaissances avancées, le modèle ne peut pas maîtriser la capacité de répondre aux questions à l'envers grâce à un réglage fin. Par conséquent, utiliser des modèles linguistiques pour l’indexation des connaissances (base de données de connaissances) semble actuellement impossible. **

En outre, certaines personnes pourraient penser que l'échec de la « recherche inversée de connaissances » mentionnée ci-dessus pourrait être dû à la nature unidirectionnelle des modèles de langage autorégressifs tels que GPT. Mais en fait, les modèles de langage bidirectionnels tels que BERT fonctionnent moins bien dans l’extraction de connaissances, et échouent même dans l’extraction vers l’avant. Les lecteurs intéressés peuvent se référer au document pour plus de détails.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Gate Launchpad List IKA
51k Popularité
2ETH Back to $3,800
8k Popularité
3Tariff Deal New Update
7k Popularité
4Stablecoin Regulation
658 Popularité
5Gate ETH 10th Anniversary Celebration
24k Popularité

Épingler