À mesure que la taille du modèle augmente, les gens commencent à explorer comment les grands modèles peuvent maîtriser une grande quantité de connaissances. Certains pensent que cela est dû à une « compression sans perte », c'est-à-dire que le modèle subit un entraînement approfondi et mémorise davantage de contenu pour améliorer la précision des prédictions. Mais la « compression sans perte » peut-elle vraiment permettre aux grands modèles de comprendre ces connaissances ? La dernière recherche « Language Model Physics Part 3.1 : Knowledge Storage and Retrieval » de Zhu Zeyuan (MetaAI) et Li Yuanzhi (MBZUAI) explore cette question en profondeur.
Adresse papier :
Concernant les êtres humains, il existe un dicton qui dit « lisez un livre cent fois et son sens apparaîtra tout seul ». Bien que cette phrase ne s'applique pas à toutes les connaissances, pour les connaissances simples, tant que nous pouvons nous souvenir des livres pertinents, nous pouvons facilement répondre aux questions connexes. Par exemple, tant que nous nous souvenons du poème ancien « Pensées de la nuit silencieuse », nous pouvons facilement répondre « À quoi le clair de lune se compare-t-il dans le poème ? » ; tant que nous nous souvenons du paragraphe sur « Chu Shi Biao/Contexte créatif ». dans l'Encyclopédie Baidu, nous pouvons facilement répondre "Chu Shi Biao" Quand a eu lieu la création de ? Alors, les modèles plus grands peuvent-ils faire de même ?
Figure 1 : Quelques exemples d'extraction de connaissances par GPT-4 (l'image de gauche est ChatGPT, l'image de droite est API)
Bien que GPT-4 puisse comprendre et répéter des paragraphes liés à la question, pourquoi ne peut-il pas répondre à des questions simples comme celles des humains ? Est-ce parce que le modèle n'est pas assez grand, que la mémoire est insuffisante ou que les réglages fins après l'entraînement ne suffisent pas ? ni l'un ni l'autre! L’article souligne que même si un modèle de langage naturel est suffisamment grand, formé suffisamment longtemps et suffisamment affiné, il ne sera peut-être toujours pas en mesure de répondre à des questions que les humains pensent simples. La raison sous-jacente à cela est liée à la manière dont les connaissances sont présentées dans les données de pré-entraînement. La même connaissance doit apparaître plusieurs fois dans l'ensemble de données de pré-formation et présente suffisamment de « diversité » pour être plus facile à extraire après un réglage fin.
Pour confirmer cela, les deux auteurs ont créé un ensemble de données contenant 100 000 biographies. Chaque personnage possède une entrée biographique contenant le nom de la personne et six attributs fixes : date de naissance, lieu de naissance, spécialité universitaire, nom de l'université et lieu de travail. Ils ont conçu deux ensembles de données, BioS et BioR. Chaque phrase de BioS a été sélectionnée parmi 50 modèles fixes, et BioR a été réécrit avec LLaMA-30B, qui est plus réaliste et diversifié. Les résultats des deux ensembles de données sont cohérents. En prenant BioS comme exemple, un exemple d'entrée est présenté ci-dessous :
Anya Briar Forger est née le 2 octobre 1996. Elle a passé ses premières années à Princeton, dans le New Jersey. Elle a reçu le mentorat et les conseils de membres du corps professoral du MIT. Elle a complété ses études en se concentrant sur les communications. Elle a occupé un rôle professionnel chez Meta Platforms. Elle travaillait à Menlo Park, en Californie.
Figure 2
Même si un modèle de langage naturel est parfaitement pré-entraîné (pré-entraîné) sur 100 000 autobiographies personnelles, il ne sera pas en mesure de répondre avec précision à la question « Dans quelle école Anya est allée pour le premier cycle » grâce à un réglage fin de l'assurance qualité (réglage fin). Comme le montre la figure 2, même si 50 000 personnes sont utilisées comme données de formation pour le réglage fin du contrôle qualité et que diverses méthodes de réglage fin sont essayées, y compris LoRA, la précision du modèle sur les 50 000 personnes restantes n'est que de 10 %. Même si un modèle de 682 millions (7 000 fois plus grand que le nombre de personnes) a été utilisé et formé 1 350 fois, et que l'auteur a même ajouté des données standard de pré-formation en PNL telles que WikiBook, le taux de précision ne s'est pas amélioré. On peut voir que « avec une grande force, les miracles » ne se sont pas produits.
Par conséquent, les grands modèles ne capturent ou n’extraient pas nécessairement les connaissances sur la « compression sans perte ». Alors, comment GPT-4 maîtrise-t-il les connaissances ? Afin d'étudier ce problème, les deux auteurs ont apporté des modifications à l'ensemble de pré-formation - les auteurs l'ont appelé amélioration des connaissances :
Diversité - multiM : créez M entrées de biographie pour chaque personne, en utilisant des langages narratifs différents mais en conservant les mêmes informations (il existe un total de 100 méthodes narratives pour chaque phrase, et chaque phrase de chaque biographie en sélectionne une)
Disposition aléatoire - permutation : Disposez aléatoirement les phrases biographiques
Nom complet - nom complet : remplacez tous les pronoms, noms et prénoms de la biographie par le nom complet
Les auteurs ont qualifié l’ensemble de données original bioS de unique et ont expérimenté 15 combinaisons d’améliorations des connaissances. Par exemple, bioS multi5+permute signifie que chaque personne a 5 biographies et que l'ordre des mots est perturbé. Voici un exemple de bioS multi5+permute :
Anya Briar Forger est originaire de Princeton, New Jersey. Elle a consacré ses études à la communication. Elle a acquis une expérience professionnelle à Menlo Park, en Californie. Elle a développé sa carrière chez Meta Platforms. Elle est venue au monde le 2 octobre 1996. Elle a suivi des cours avancés au MIT.
Pour les humains et les grands modèles, rappelez-vous que bioS single et bioS multi5+permute sont presque aussi difficiles (ils ont la même quantité d'informations et chaque phrase est sélectionnée parmi 50 modèles). Ainsi, si un pré-entraînement est effectué sur ce nouvel ensemble de données enrichi en connaissances et que l'assurance qualité est ensuite affinée, y aura-t-il de nouvelles performances ?
image 3
La figure 3 montre que le taux de précision de l'assurance qualité du modèle pré-entraîné unique bioS n'est que de 9,7 %, tandis que le taux de précision du modèle pré-entraîné bioS multi5+permute atteint 96,6 %. Cette amélioration significative n'a rien à voir avec le réglage fin du modèle, sa taille ou le temps de formation, mais avec la façon dont les connaissances sont présentées en pré-formation, c'est-à-dire comment les connaissances sont « récitées » par le grand modèle.
L'étude a également révélé qu'en divisant les biographies en célébrités et en groupes minoritaires, tant que la biographie de la célébrité améliore les connaissances, même si ce n'est pas le cas du groupe minoritaire, la précision de l'extraction des connaissances du modèle pour le groupe minoritaire sera grandement améliorée - bien sûr. , le meilleur L'effet nécessite encore une amélioration des connaissances de toutes les données.
Figure 4 : En augmentant simplement la diversité des données de formation des célébrités, la précision de l'extraction des connaissances pour les groupes minoritaires s'envole
Alors pourquoi la capacité du modèle à répondre aux questions varie-t-elle considérablement après avoir récité différentes données ? Pourquoi la récitation répétée de biographies de célébrités peut-elle améliorer la capacité d’extraction de connaissances des groupes minoritaires ? La raison en est que les modèles adoptent des méthodes de mémoire différentes.
L'auteur explore en profondeur le principe de la connaissance de la mémoire du modèle à travers deux sondages linéaires. Examinons une méthode appelée P-probing.
Dans P-probe, nous saisissons des entrées biographiques dans le modèle pré-entraîné et formons un classificateur linéaire pour prédire six attributs cibles (tels que l'université, la spécialisation, etc.). Nous voulions voir si le modèle pouvait extraire ces informations plus tôt que les attributs. Si le classificateur montre une grande précision pour « unité de travail » immédiatement après le nom de la personne, cela signifie que le modèle a directement appris « l'employeur d'Anya est Meta ». Si une grande précision n'est obtenue qu'à la fin de la biographie, il se peut que le modèle utilise une méthode de mémorisation défectueuse, telle que « l'anniversaire de quelqu'un est le 2 octobre 1996, l'université est le MIT, donc l'employeur est Meta ».
Le plan expérimental de la sonde P est le suivant. Trouvez les positions dans chaque biographie où les 6 attributs apparaissent pour la première fois, puis entraînez un classificateur linéaire pour prédire chaque attribut cible à la position précédant immédiatement ces positions. Cela a abouti à 36 tâches de classification.
*Figure 5 : Les résultats des tests de sonde P montrent que l'amélioration des connaissances de l'ensemble de données de pré-formation entraîne le stockage des connaissances à des emplacements antérieurs, et certaines sont même stockées directement sur les noms des personnes. La capacité du modèle à répondre aux questions grâce à un réglage précis dépend du fait que les informations soient stockées directement sur le nom de la personne pendant la pré-formation (comparez la figure 3 et la figure 5). *
Les résultats du test P-probe montrent que le modèle de langage naturel peut mémoriser des informations via les noms des personnes pour obtenir une compression pendant la pré-formation, ou qu'il peut également utiliser d'autres informations (telles que « L'unité de travail d'une personne qui a étudié au MIT et dont l'anniversaire est le 2 octobre 1996 est...")mémoire. Bien que la deuxième méthode de mémoire ne soit « pas naturelle » pour les humains, les taux de compression des deux méthodes sont les mêmes pour le modèle. Si le modèle utilise la deuxième méthode pour mémoriser les informations, il ne sera pas en mesure de répondre aux questions par un réglage fin après la formation. Grâce à l'enrichissement des connaissances, le modèle pré-entraîné aura progressivement tendance à apprendre à utiliser la première méthode de mémorisation.
On pourrait affirmer que l’échec de « l’extraction des connaissances » ci-dessus pourrait être dû à la nature unidirectionnelle des modèles de langage autorégressifs tels que GPT. En fait, les modèles de langage bidirectionnels tels que BERT sont encore pires en matière d'extraction de connaissances : ils ne peuvent stocker que des connaissances multi-phrases telles que « Meta Platform » mais ne peuvent pas les extraire. Les lecteurs intéressés peuvent se référer au chapitre 6 du document.
En général, la question de savoir si le modèle de langage peut répondre à la question « d'extraction de connaissances » dépend non seulement de la « compression sans perte », mais également de « comment compresser dans le modèle ». L'article souligne qu'il est nécessaire d'améliorer la connaissance des données clés mais rares au cours du processus de pré-formation (comme l'utilisation de ChatGPT pour plusieurs réécritures). Sans cette étape, peu importe à quel point vous travaillez sur le réglage fin, même si le modèle pré-entraîné a compressé les données d'entraînement sans perte, il se peut qu'il ne soit toujours pas en mesure d'extraire ces connaissances !
Conclusion
Comment comprendre le fonctionnement des modèles de langage naturel ? La plupart des chercheurs spéculent sur ses capacités en s’appuyant sur des modèles tels que le GPT-4. Cependant, l'auteur de la série d'articles "Language Model Physics" a proposé une méthode plus précise pour explorer le mécanisme interne de Transformer et expliquer sa capacité à gérer des tâches d'IA grâce à des données d'entraînement soigneusement conçues et des expériences contrôlées.
Dans la « Partie 3.1 : Stockage et extraction des connaissances », l'auteur a testé avec précision la réponse du modèle à différentes données et a trouvé la relation précise entre les connaissances et capacités d'apprentissage du modèle et les données de formation.
Ils ont également publié la « Partie 3.2 : Fonctionnement des connaissances » pour étudier plus en détail comment le modèle exploite les connaissances dans des situations spécifiques. Par exemple, si le grand modèle se souvient de « Silent Night Thoughts », peut-il être affiné pour en déduire que la dernière phrase de « Quiet Night Thoughts » est « Inclinez la tête et manquez votre ville natale » ? Nous vous apporterons bientôt des rapports de suivi.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Réciter ne signifie pas comprendre, analyser en profondeur le stockage et l’extraction des connaissances derrière les grands modèles
Source : Cœur de la Machine
À mesure que la taille du modèle augmente, les gens commencent à explorer comment les grands modèles peuvent maîtriser une grande quantité de connaissances. Certains pensent que cela est dû à une « compression sans perte », c'est-à-dire que le modèle subit un entraînement approfondi et mémorise davantage de contenu pour améliorer la précision des prédictions. Mais la « compression sans perte » peut-elle vraiment permettre aux grands modèles de comprendre ces connaissances ? La dernière recherche « Language Model Physics Part 3.1 : Knowledge Storage and Retrieval » de Zhu Zeyuan (MetaAI) et Li Yuanzhi (MBZUAI) explore cette question en profondeur.
Concernant les êtres humains, il existe un dicton qui dit « lisez un livre cent fois et son sens apparaîtra tout seul ». Bien que cette phrase ne s'applique pas à toutes les connaissances, pour les connaissances simples, tant que nous pouvons nous souvenir des livres pertinents, nous pouvons facilement répondre aux questions connexes. Par exemple, tant que nous nous souvenons du poème ancien « Pensées de la nuit silencieuse », nous pouvons facilement répondre « À quoi le clair de lune se compare-t-il dans le poème ? » ; tant que nous nous souvenons du paragraphe sur « Chu Shi Biao/Contexte créatif ». dans l'Encyclopédie Baidu, nous pouvons facilement répondre "Chu Shi Biao" Quand a eu lieu la création de ? Alors, les modèles plus grands peuvent-ils faire de même ?
Bien que GPT-4 puisse comprendre et répéter des paragraphes liés à la question, pourquoi ne peut-il pas répondre à des questions simples comme celles des humains ? Est-ce parce que le modèle n'est pas assez grand, que la mémoire est insuffisante ou que les réglages fins après l'entraînement ne suffisent pas ? ni l'un ni l'autre! L’article souligne que même si un modèle de langage naturel est suffisamment grand, formé suffisamment longtemps et suffisamment affiné, il ne sera peut-être toujours pas en mesure de répondre à des questions que les humains pensent simples. La raison sous-jacente à cela est liée à la manière dont les connaissances sont présentées dans les données de pré-entraînement. La même connaissance doit apparaître plusieurs fois dans l'ensemble de données de pré-formation et présente suffisamment de « diversité » pour être plus facile à extraire après un réglage fin.
Pour confirmer cela, les deux auteurs ont créé un ensemble de données contenant 100 000 biographies. Chaque personnage possède une entrée biographique contenant le nom de la personne et six attributs fixes : date de naissance, lieu de naissance, spécialité universitaire, nom de l'université et lieu de travail. Ils ont conçu deux ensembles de données, BioS et BioR. Chaque phrase de BioS a été sélectionnée parmi 50 modèles fixes, et BioR a été réécrit avec LLaMA-30B, qui est plus réaliste et diversifié. Les résultats des deux ensembles de données sont cohérents. En prenant BioS comme exemple, un exemple d'entrée est présenté ci-dessous :
Même si un modèle de langage naturel est parfaitement pré-entraîné (pré-entraîné) sur 100 000 autobiographies personnelles, il ne sera pas en mesure de répondre avec précision à la question « Dans quelle école Anya est allée pour le premier cycle » grâce à un réglage fin de l'assurance qualité (réglage fin). Comme le montre la figure 2, même si 50 000 personnes sont utilisées comme données de formation pour le réglage fin du contrôle qualité et que diverses méthodes de réglage fin sont essayées, y compris LoRA, la précision du modèle sur les 50 000 personnes restantes n'est que de 10 %. Même si un modèle de 682 millions (7 000 fois plus grand que le nombre de personnes) a été utilisé et formé 1 350 fois, et que l'auteur a même ajouté des données standard de pré-formation en PNL telles que WikiBook, le taux de précision ne s'est pas amélioré. On peut voir que « avec une grande force, les miracles » ne se sont pas produits.
Par conséquent, les grands modèles ne capturent ou n’extraient pas nécessairement les connaissances sur la « compression sans perte ». Alors, comment GPT-4 maîtrise-t-il les connaissances ? Afin d'étudier ce problème, les deux auteurs ont apporté des modifications à l'ensemble de pré-formation - les auteurs l'ont appelé amélioration des connaissances :
Diversité - multiM : créez M entrées de biographie pour chaque personne, en utilisant des langages narratifs différents mais en conservant les mêmes informations (il existe un total de 100 méthodes narratives pour chaque phrase, et chaque phrase de chaque biographie en sélectionne une)
Disposition aléatoire - permutation : Disposez aléatoirement les phrases biographiques
Nom complet - nom complet : remplacez tous les pronoms, noms et prénoms de la biographie par le nom complet
Les auteurs ont qualifié l’ensemble de données original bioS de unique et ont expérimenté 15 combinaisons d’améliorations des connaissances. Par exemple, bioS multi5+permute signifie que chaque personne a 5 biographies et que l'ordre des mots est perturbé. Voici un exemple de bioS multi5+permute :
Pour les humains et les grands modèles, rappelez-vous que bioS single et bioS multi5+permute sont presque aussi difficiles (ils ont la même quantité d'informations et chaque phrase est sélectionnée parmi 50 modèles). Ainsi, si un pré-entraînement est effectué sur ce nouvel ensemble de données enrichi en connaissances et que l'assurance qualité est ensuite affinée, y aura-t-il de nouvelles performances ?
La figure 3 montre que le taux de précision de l'assurance qualité du modèle pré-entraîné unique bioS n'est que de 9,7 %, tandis que le taux de précision du modèle pré-entraîné bioS multi5+permute atteint 96,6 %. Cette amélioration significative n'a rien à voir avec le réglage fin du modèle, sa taille ou le temps de formation, mais avec la façon dont les connaissances sont présentées en pré-formation, c'est-à-dire comment les connaissances sont « récitées » par le grand modèle.
L'étude a également révélé qu'en divisant les biographies en célébrités et en groupes minoritaires, tant que la biographie de la célébrité améliore les connaissances, même si ce n'est pas le cas du groupe minoritaire, la précision de l'extraction des connaissances du modèle pour le groupe minoritaire sera grandement améliorée - bien sûr. , le meilleur L'effet nécessite encore une amélioration des connaissances de toutes les données.
Alors pourquoi la capacité du modèle à répondre aux questions varie-t-elle considérablement après avoir récité différentes données ? Pourquoi la récitation répétée de biographies de célébrités peut-elle améliorer la capacité d’extraction de connaissances des groupes minoritaires ? La raison en est que les modèles adoptent des méthodes de mémoire différentes.
L'auteur explore en profondeur le principe de la connaissance de la mémoire du modèle à travers deux sondages linéaires. Examinons une méthode appelée P-probing.
Dans P-probe, nous saisissons des entrées biographiques dans le modèle pré-entraîné et formons un classificateur linéaire pour prédire six attributs cibles (tels que l'université, la spécialisation, etc.). Nous voulions voir si le modèle pouvait extraire ces informations plus tôt que les attributs. Si le classificateur montre une grande précision pour « unité de travail » immédiatement après le nom de la personne, cela signifie que le modèle a directement appris « l'employeur d'Anya est Meta ». Si une grande précision n'est obtenue qu'à la fin de la biographie, il se peut que le modèle utilise une méthode de mémorisation défectueuse, telle que « l'anniversaire de quelqu'un est le 2 octobre 1996, l'université est le MIT, donc l'employeur est Meta ».
Le plan expérimental de la sonde P est le suivant. Trouvez les positions dans chaque biographie où les 6 attributs apparaissent pour la première fois, puis entraînez un classificateur linéaire pour prédire chaque attribut cible à la position précédant immédiatement ces positions. Cela a abouti à 36 tâches de classification.
Les résultats du test P-probe montrent que le modèle de langage naturel peut mémoriser des informations via les noms des personnes pour obtenir une compression pendant la pré-formation, ou qu'il peut également utiliser d'autres informations (telles que « L'unité de travail d'une personne qui a étudié au MIT et dont l'anniversaire est le 2 octobre 1996 est...")mémoire. Bien que la deuxième méthode de mémoire ne soit « pas naturelle » pour les humains, les taux de compression des deux méthodes sont les mêmes pour le modèle. Si le modèle utilise la deuxième méthode pour mémoriser les informations, il ne sera pas en mesure de répondre aux questions par un réglage fin après la formation. Grâce à l'enrichissement des connaissances, le modèle pré-entraîné aura progressivement tendance à apprendre à utiliser la première méthode de mémorisation.
On pourrait affirmer que l’échec de « l’extraction des connaissances » ci-dessus pourrait être dû à la nature unidirectionnelle des modèles de langage autorégressifs tels que GPT. En fait, les modèles de langage bidirectionnels tels que BERT sont encore pires en matière d'extraction de connaissances : ils ne peuvent stocker que des connaissances multi-phrases telles que « Meta Platform » mais ne peuvent pas les extraire. Les lecteurs intéressés peuvent se référer au chapitre 6 du document.
En général, la question de savoir si le modèle de langage peut répondre à la question « d'extraction de connaissances » dépend non seulement de la « compression sans perte », mais également de « comment compresser dans le modèle ». L'article souligne qu'il est nécessaire d'améliorer la connaissance des données clés mais rares au cours du processus de pré-formation (comme l'utilisation de ChatGPT pour plusieurs réécritures). Sans cette étape, peu importe à quel point vous travaillez sur le réglage fin, même si le modèle pré-entraîné a compressé les données d'entraînement sans perte, il se peut qu'il ne soit toujours pas en mesure d'extraire ces connaissances !
Conclusion
Comment comprendre le fonctionnement des modèles de langage naturel ? La plupart des chercheurs spéculent sur ses capacités en s’appuyant sur des modèles tels que le GPT-4. Cependant, l'auteur de la série d'articles "Language Model Physics" a proposé une méthode plus précise pour explorer le mécanisme interne de Transformer et expliquer sa capacité à gérer des tâches d'IA grâce à des données d'entraînement soigneusement conçues et des expériences contrôlées.
Dans la « Partie 3.1 : Stockage et extraction des connaissances », l'auteur a testé avec précision la réponse du modèle à différentes données et a trouvé la relation précise entre les connaissances et capacités d'apprentissage du modèle et les données de formation.
Ils ont également publié la « Partie 3.2 : Fonctionnement des connaissances » pour étudier plus en détail comment le modèle exploite les connaissances dans des situations spécifiques. Par exemple, si le grand modèle se souvient de « Silent Night Thoughts », peut-il être affiné pour en déduire que la dernière phrase de « Quiet Night Thoughts » est « Inclinez la tête et manquez votre ville natale » ? Nous vous apporterons bientôt des rapports de suivi.