Meta Princeton propose la solution ultime pour le contexte LLM ! Laissez le modèle devenir un agent autonome et lisez l’arborescence des nœuds de contexte par lui-même
Quelle est la solution ultime pour les modèles LLM à contexte long ?
Une solution récemment proposée par des chercheurs de l’Université de Princeton et de Meta AI consiste à considérer le LLM comme un agent interactif qui lui permet de décider comment lire le texte par le biais d’invites itératives.
Adresse papier :
Ils ont conçu un système appelé MemWalker qui peut traiter de longs contextes dans une arborescence de nœuds récapitulatifs.
Lorsqu’une requête est reçue, le modèle peut récupérer cette arborescence de nœuds pour trouver des informations pertinentes et répondre lorsqu’il a collecté suffisamment d’informations. Dans les tâches de réponse à des questions de texte long, cette méthode est nettement meilleure que la méthode de base utilisant de longues fenêtres contextuelles, la récursivité et la récupération.
LeCun a également tweeté son soutien à leurs recherches.
MemWalker se compose de deux parties principales :
Tout d’abord, vous devez construire l’arborescence de la mémoire :
Découpez le texte long en nœuds de résumé. Les noeuds de cumul sont ensuite résumés en noeuds de niveau supérieur et atteignent enfin la racine.
La deuxième partie est la navigation :
Après avoir accepté la requête, LLM navigue dans l’arborescence pour trouver des informations pertinentes et y répondre de manière appropriée. Le LLM accomplit ce processus par le raisonnement – peut-être en travaillant pour trouver une réponse, en choisissant d’aller plus loin dans une voie, ou en se trouvant mal orienté et en revenant de la même manière.
Ce processus de navigation peut être implémenté avec des invites sans échantillon et s’adapte facilement à n’importe lequel des grands modèles de langage spécifiés.
L’équipe de recherche a montré qu’en lisant de manière interactive l’arbre de mémoire construit par ce modèle, MemWalker surpassait les autres lignes de base de contexte long et les variantes de récupération et de boucle, en particulier pour les exemples plus longs.
L’efficacité de MemWalker dépend de deux éléments clés :
Taille de la mémoire de travail – LLM a de meilleures capacités de contexte global lorsqu’il permet à LLM d’obtenir plus d’informations le long du chemin qu’il récupère.
2) La capacité de raisonnement de la LLM - Lorsque la LLM atteint le seuil d’inférence, MemWalker est efficace. Lorsque la capacité d’inférence est inférieure au seuil, le taux d’erreur lors de la navigation est élevé.
MEMWALKER : UN LECTEUR INTERACTIF**
L’équipe de recherche étudie les tâches liées à la réponse à des questions à contexte long – étant donné le texte long x et la requête q, l’objectif du modèle est de générer une réponse r.
MEMWALKER SUIT DEUX ÉTAPES :
La construction d’arbres de mémoire, où les contextes longs sont divisés en structures de données en forme d’arbre. Cette construction ne repose pas sur des requêtes, donc s’il y a des données de séquence au préalable, elles peuvent être calculées à l’avance.
La navigation, où le modèle navigue dans cette structure lorsqu’il reçoit une requête, en recueillant des informations pour formuler une réponse appropriée.
MEMWALKER suppose l’accès au LLM sous-jacent et implémente la génération et la navigation en itérant sur les invites LLM.
Navigation
Après réception de la requête Q, le modèle de langage est supprimé du nœud racine
Commencez à naviguer dans l’arborescence pour générer une réponse.
Le noeud traversé dans LLM
, il observe le niveau suivant de noeuds
Résumé de .
LLM a décidé en
+ Choisissez l’une des 1 actions suivantes : sélectionnez un noeud enfant pour une inspection plus approfondie ou revenez au noeud parent.
Dans le noeud feuille
LLM peut décider de l’une des deux actions suivantes : soumettre le nœud feuille et répondre à la requête, ou si le nœud feuille contient des informations
(c.-à-d.
) n’est pas suffisant, retournez au noeud parent
。
Pour prendre des décisions de navigation, l’équipe de recherche pourrait également demander à LLM de générer d’abord une justification en langage naturel en incitant l’action, puis le choix de l’action elle-même.
Plus précisément, à chaque nœud, le modèle génère une réponse r ∼ LLM(r | s, q), où la réponse est l’un des deux tuples suivants : 1) r = (raisonnement, action, réponse) lorsque LLM est dans un nœud feuille ou 2) r = (raisonnement, action) lorsque LLM est dans un nœud non feuille.
Conception de conseils de navigation
L’équipe de recherche a activé la navigation LLM avec des invites sans échantillon. Il existe deux types de conseils dont vous avez besoin :
les pointes de triage et 2) les pointes des feuilles (mises en évidence dans le tableau ci-dessous).
L’invite de triage contient la requête, un résumé des nœuds enfants et les instructions que LLM doit suivre. Les pointes de triage sont utilisées pour les nœuds non feuillus.
L’invite de feuille contient le contenu des paragraphes, les requêtes (et les options) et les instructions qui nécessitent que LLM génère une réponse ou retourne au nœud parent.
Les pointes de triage et les pointes de feuille spécifient le format de sortie que LLM doit suivre. Le non-respect du format entraîne des actions non valides et la gestion des points de vue doit être régénérée. Si LLM ne parvient pas à produire une sortie résolvable trois fois de suite, la navigation s’arrête et renvoie « No Answer ».
Mémoire de travail
Lorsque LLM a fini de récupérer l’arborescence, il peut conserver les informations dans le chemin de navigation et les ajouter au contexte.
Pour être précis, LLM génère une réponse r ∼ LLM(r | s, q, m) avec une mémoire de travail supplémentaire
Soit vide, soit contient du contenu provenant de nœuds précédemment visités.
L’équipe de recherche a tronqué la mémoire de travail afin qu’elle puisse s’intégrer dans la fenêtre contextuelle du LLM.
LE TABLEAU CI-DESSUS MONTRE ÉGALEMENT COMMENT AJOUTER DE LA MÉMOIRE DE TRAVAIL À L’INVITE VIA LA MÉMOIRE DE TRAVAIL.
Configuration expérimentale
Ensembles de données et évaluations
L’équipe de recherche a utilisé trois ensembles de données : QuALITY, SummScreenFD et GovReport, qui proviennent du benchmark SCROLLS. L’équipe de recherche a démontré l’exactitude de tous les ensembles de données.
Qualité
QuALITY est un jeu de données de questions et réponses à choix multiples.
L’ensemble de données contient des histoires longues du projet Gutenberg et des questions annotées par des annotateurs humains. L’équipe de recherche a expérimenté à l’aide d’un sous-ensemble de 187 exemples.
SummScreenFD
SummScreenFD est un jeu de données de scripts de télévision et de films conçu à l’origine pour être résumé.
Ces textes sont présentés sous forme de dialogues entre acteurs. L’équipe de recherche a converti cet ensemble de données en une tâche de questions-réponses, dans laquelle le texte sommaire véridique de base fourni a été utilisé pour générer une question « qui » à l’aide de Stable Beluga 2, qui a ensuite été vérifiée par un expert humain.
La question, associée au long texte original, est devenue 306 exemples de tâches d’assurance qualité repositionnées.
Rapport du gouvernement
L’ensemble de données GovReport rassemble des documents du Congressional Research Service et du U.S. Government Accountability Office, ainsi que des résumés fournis par des experts.
L’équipe de recherche a converti cet ensemble de données en un ensemble de données de questions-réponses avec 101 exemples, de la même manière que SummScreenFD.
Les trois ensembles de données sont caractérisés par de longs contextes de longueurs différentes, certains exemples plus courts et d’autres plus longs.
Par conséquent, l’équipe de recherche a présenté des résultats à la fois sur l’ensemble de données original et sur un sous-ensemble des séquences plus longues contenues dans chaque tâche afin de mieux évaluer l’accès à la mémoire dans des situations de contexte plus difficiles et plus longues.
Les seuils sont les 8 000 jetons de QuALITY, les 6 000 jetons de SummScreenFD et les 12 000 jetons de GovReport.
Modèle
L’équipe de recherche a utilisé Stable Beluga 2 comme LLM de base dans la plupart de ses expériences, car il offre des performances de pointe par rapport à plusieurs autres variantes de LLM, ce que l’équipe de recherche démontrera.
Stable Beluga 2 est un modèle d’ajustement d’instructions basé sur 70B LLaMA-2 dans lequel le réglage fin ne chevauche pas la tâche d’évaluation de l’équipe de recherche.
Il a une longueur de contexte maximale de 4 096 jetons. L’équipe de recherche a utilisé le modèle d’une manière sans autre coup d’œil sans autre ajustement ni fournir un petit nombre d’exemples de la tâche de l’équipe de recherche dans son contexte.
L’équipe de recherche a utilisé l’échantillonnage p supérieur pour la construction de l’arbre de mémoire ainsi que les actions et l’inférence pour générer la navigation.
L’équipe de recherche a défini le nombre maximal de nœuds pour QuALITY, SummScreenFD et GovReport, maxt Mt = 8, 5, 8 et segment size|c|, respectivement = 1000, 1000, 1200。
Point de référence
L’équipe de recherche a comparé trois technologies de mémoire basées sur le même LLM sous-jacent à Stable Beluga 2 :
Fenêtre contextuelle complète
La récursivité
Récupération
La ligne de base de la fenêtre de contexte complète utilise les 4 096 jetons pour traiter le texte d’entrée long et la générer. Étant donné que les instances de l’ensemble de données dépassent souvent les limites du contexte, l’équipe de recherche a tronqué la longueur, en prenant la droite (la plus proche) ou la gauche (la moins proche) du texte comme entrée, et a évalué les deux méthodes.
Pour la recherche, l’équipe de recherche a utilisé Contriever (Izacard et al., 2022) pour sélectionner des paragraphes dans de longs contextes en fonction de requêtes. Les passages ayant obtenu les scores les plus élevés sont concaténés dans le contexte d’entrée du LLM jusqu’à ce qu’ils remplissent le contexte.
Enfin, l’équipe de recherche a mis en œuvre une base de référence qui boucle le résumé jusqu’au paragraphe actuel des informations des jetons du paragraphe précédent, où chaque paragraphe est de 2 500 jetons et la taille maximale du résumé est de 500 jetons.
Résultats et analyses
Principaux résultats
Le tableau 2 ci-dessous présente une comparaison entre MEMWALKER et d’autres références.
MEMWALKER A LARGEMENT DÉPASSÉ LA LIGNE DE BASE RÉCURSIVE DANS TOUTES LES TÂCHES.
Cela montre la limite de la récursivité, où les informations pertinentes pour la requête sont perdues après quelques étapes.
MEMWALKER VA ÉGALEMENT AU-DELÀ DE LA RECHERCHE, OÙ LES PASSAGES PROVIENNENT D’UNE HISTOIRE COHÉRENTE PLUTÔT QUE D’UN DOCUMENT SÉPARÉ.
Dans ces tâches, la base de référence contextuelle complète peut être performante dans le paramètre de tâche « brute », qui peut contenir des séquences relativement courtes, bien que le choix d’une troncature à gauche ou à droite pour de meilleures performances semble dépendre du jeu de données.
Cependant, à l’exception de la variable hold-right sur QuALITY et de la variable hold-left sur GovReport, MEMWALKER obtient des performances supérieures dans la configuration d’origine que la ligne de base en contexte complet, ce qui peut être dû à un biais positionnel dans l’ensemble de données, où les paragraphes pertinents apparaissent généralement au début ou à la fin du texte.
CEPENDANT, SUR LES VERSIONS LONGUES DES TROIS TÂCHES, MEMWALKER A DÉPASSÉ TOUTES LES LIGNES DE BASE, C’EST-À-DIRE QU’IL A MONTRÉ DE SOLIDES PERFORMANCES À MESURE QUE L’ACCÈS À LA MÉMOIRE DEVENAIT PLUS CRITIQUE.
MEMWALKER surpasse également d’autres modèles accessibles au public, notamment LongChat et MPT.
MEMWALKER améliore les performances sur les longues séquences. L’équipe de recherche a fourni une ventilation de la performance de la longueur de la séquence d’entrée pour chaque tâche dans la figure 2 ci-dessus.
LORSQUE LA LONGUEUR DU TEXTE EST PLUS COURTE, MEMWALKER EST INFÉRIEUR À LA LIGNE DE BASE CONTEXTUELLE COMPLÈTE (TRONCATURE À GAUCHE OU À DROITE), MAIS SURPASSE LES DEUX TYPES DE TRONCATURE SUR DES SÉQUENCES PLUS LONGUES POUR TOUTES LES TÂCHES.
L’avantage de la lecture interactive est que l’augmentation appropriée de la longueur du texte devient apparente, c’est-à-dire que de meilleures performances sont affichées une fois que la longueur de la séquence est significativement supérieure à 4 096 LLM de longueur de contexte.
L’inférence est essentielle pour la navigation dans l’arborescence de la mémoire.
L’EFFICACITÉ DE MEMWALKER DÉPEND FORTEMENT DES CAPACITÉS DE RAISONNEMENT DU LLM SOUS-JACENT. Pour chaque décision de navigation, l’équipe de recherche a utilisé une invite LLM qui demandait au LLM de générer d’abord une justification en langage naturel pour justifier la prochaine action prédite, comme le montre le tableau 1 ci-dessous.
L’équipe de recherche montre dans le tableau 3 ci-dessous comment le raisonnement affecte les performances en comparant Llama 2 Chat (variantes de paramètres 13B et 70B) avec Stable Beluga 2 (70B) et en supprimant la ligne « Fournir un raisonnement avant de prendre une décision... » de l’invite.
Pour les modèles plus petits et moins performants (13B), les performances sont nettement inférieures à celles des modèles 70B en raison de l’incapacité à suivre les instructions. En fait, exiger des justifications d’inférence pour les modèles les plus faibles peut dégrader les performances, peut-être parce qu’ils ne peuvent pas générer et exploiter ces justifications.
Stable Beluga 2 a surpassé Llama 2 Chat de la même taille de LLM et a également montré des capacités de raisonnement améliorées.
Pour Stable Beluga 2, le fait d’exiger des justifications de raisonnement dans toutes les tâches améliore les performances. CELA MET EN ÉVIDENCE LA PRINCIPALE CARACTÉRISTIQUE DE MEMWALKER : SI LE LLM DÉPASSE LE SEUIL DE CAPACITÉ DE RAISONNEMENT CRITIQUE, IL PEUT RAISONNER SUR DE LONGUES ENTRÉES SUR PLUSIEURS TOURS SANS GÉNÉRER RAPIDEMENT D’ERREURS ENTRE LES TOURS.
Pour les LLM faibles qui ne parviennent pas à prendre de bonnes décisions de navigation, les erreurs peuvent s’accumuler et les performances globales sont altérées.
AU FUR ET À MESURE QUE LES CAPACITÉS DE RAISONNEMENT DU LLM CONTINUERONT DE S’AMÉLIORER DANS LES ANNÉES À VENIR, L’ÉQUIPE DE RECHERCHE S’ATTEND À CE QUE DES MÉTHODES COMME MEMWALKER DEVIENNENT PLUS EFFICACES.
La mémoire de travail est nécessaire pour naviguer dans l’arborescence de la mémoire. LORSQUE MEMWALKER PREND LA DÉCISION DE PARCOURIR L’ARBRE DE LA MÉMOIRE ET DE LIRE LES PARAGRAPHES ASSOCIÉS, IL PEUT PERDRE LA CONNAISSANCE DU CONTEXTE GLOBAL.
Par conséquent, le modèle transporte les informations du nœud le long du chemin de navigation en tant que mémoire de travail, où le contenu de la mémoire de travail est mis à jour lorsque le modèle choisit le chemin suivant.
L’ÉQUIPE DE RECHERCHE A ÉVALUÉ LES PERFORMANCES DE MEMWALKER AVEC OU SANS MÉMOIRE DE TRAVAIL, ET LES RÉSULTATS SONT PRÉSENTÉS DANS LA FIGURE 3 CI-DESSOUS.
L’équipe de recherche a constaté que l’épuisement de la mémoire de travail entraînait une diminution significative des performances dans toutes les tâches, avec une baisse de 5 à 13 % de la précision, ce qui démontre l’importance de cette composante.
MEMWALKER peut se remettre d’un mauvais chemin.
LORSQUE MEMWALKER NAVIGUE DANS L’ARBORESCENCE DE LA MÉMOIRE, IL DOIT NON SEULEMENT TROUVER SON CHEMIN VERS LES PARAGRAPHES LES PLUS PERTINENTS, MAIS IL PEUT ÉGALEMENT AVOIR BESOIN DE RÉCUPÉRER TOUTES LES ERREURS DE RÉCUPÉRATION.
L’équipe de recherche présente les statistiques de rétablissement dans le tableau 4 ci-dessous. MEMWALKER effectue des opérations de navigation de récupération (et donc des changements de chemins) sur environ 15 % à 20 % des échantillons, mais dans ces exemples, il est possible de les récupérer et de les obtenir correctement dans QuALITY, 60 % pour SummScreenFD et ∼ 80 % pour GovReport.
MEMWALKER permet une lecture efficace. ÉTANT DONNÉ QUE MEMWALKER DÉTERMINE QUELLES PARTIES D’UN TEXTE LONG DOIVENT ÊTRE LUES, LA CHARGE UTILE QUI DOIT ÊTRE LUE PEUT ÊTRE PLUS PETITE QUE LA SÉQUENCE ENTIÈRE.
L’équipe de recherche montre la moyenne des pourcentages de lectures contextuelles longues pour tous les exemples, comme le montre la figure 4 ci-dessous pour chacune des trois tâches. L’équipe de recherche a constaté qu’en moyenne, seulement 63 à 69 % du texte devait être lu pour répondre à des questions, y compris le contenu des nœuds de l’arbre.
Sur la voie du succès, la lecture requise est encore réduite à 59 % – 64 %.
Compromis pour la construction de l’arbre de mémoire
Lorsque l’équipe de recherche construit l’arbre de mémoire, un compromis fondamental se pose : résumer des paragraphes plus volumineux en nœuds pour réduire la profondeur de l’arbre, mais potentiellement perdre la précision du contenu.
De même, la connexion de nombreux nœuds de niveau inférieur aux nœuds situés au-dessus peut aider à aplatir l’arborescence, mais peut rendre les tâches de navigation LLM sur chaque nœud plus difficiles.
La figure 5 ci-dessous montre les performances des différentes configurations de l’arborescence de mémoire sur QuALITY. Il est souvent plus avantageux de résumer des paragraphes plus volumineux que de résumer des paragraphes plus petits et de connecter davantage de nœuds enfants au nœud parent.
Cependant, les performances ont plafonné à mesure que le nombre maximal de nœuds augmentait, ce qui montre le compromis entre la quantité d’informations pouvant être compressée dans les nœuds lors de la construction de l’arborescence de la mémoire.
Ressources:
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Meta Princeton propose la solution ultime pour le contexte LLM ! Laissez le modèle devenir un agent autonome et lisez l’arborescence des nœuds de contexte par lui-même
Source originale : Shin Ji Yuan
Quelle est la solution ultime pour les modèles LLM à contexte long ?
Une solution récemment proposée par des chercheurs de l’Université de Princeton et de Meta AI consiste à considérer le LLM comme un agent interactif qui lui permet de décider comment lire le texte par le biais d’invites itératives.
Ils ont conçu un système appelé MemWalker qui peut traiter de longs contextes dans une arborescence de nœuds récapitulatifs.
Lorsqu’une requête est reçue, le modèle peut récupérer cette arborescence de nœuds pour trouver des informations pertinentes et répondre lorsqu’il a collecté suffisamment d’informations. Dans les tâches de réponse à des questions de texte long, cette méthode est nettement meilleure que la méthode de base utilisant de longues fenêtres contextuelles, la récursivité et la récupération.
LeCun a également tweeté son soutien à leurs recherches.
Tout d’abord, vous devez construire l’arborescence de la mémoire :
Découpez le texte long en nœuds de résumé. Les noeuds de cumul sont ensuite résumés en noeuds de niveau supérieur et atteignent enfin la racine.
Après avoir accepté la requête, LLM navigue dans l’arborescence pour trouver des informations pertinentes et y répondre de manière appropriée. Le LLM accomplit ce processus par le raisonnement – peut-être en travaillant pour trouver une réponse, en choisissant d’aller plus loin dans une voie, ou en se trouvant mal orienté et en revenant de la même manière.
L’efficacité de MemWalker dépend de deux éléments clés :
L’équipe de recherche étudie les tâches liées à la réponse à des questions à contexte long – étant donné le texte long x et la requête q, l’objectif du modèle est de générer une réponse r.
MEMWALKER SUIT DEUX ÉTAPES :
La construction d’arbres de mémoire, où les contextes longs sont divisés en structures de données en forme d’arbre. Cette construction ne repose pas sur des requêtes, donc s’il y a des données de séquence au préalable, elles peuvent être calculées à l’avance.
La navigation, où le modèle navigue dans cette structure lorsqu’il reçoit une requête, en recueillant des informations pour formuler une réponse appropriée.
MEMWALKER suppose l’accès au LLM sous-jacent et implémente la génération et la navigation en itérant sur les invites LLM.
Navigation
Après réception de la requête Q, le modèle de langage est supprimé du nœud racine
Le noeud traversé dans LLM
LLM a décidé en
Dans le noeud feuille
(c.-à-d.
Pour prendre des décisions de navigation, l’équipe de recherche pourrait également demander à LLM de générer d’abord une justification en langage naturel en incitant l’action, puis le choix de l’action elle-même.
Plus précisément, à chaque nœud, le modèle génère une réponse r ∼ LLM(r | s, q), où la réponse est l’un des deux tuples suivants : 1) r = (raisonnement, action, réponse) lorsque LLM est dans un nœud feuille ou 2) r = (raisonnement, action) lorsque LLM est dans un nœud non feuille.
Conception de conseils de navigation
L’équipe de recherche a activé la navigation LLM avec des invites sans échantillon. Il existe deux types de conseils dont vous avez besoin :
L’invite de feuille contient le contenu des paragraphes, les requêtes (et les options) et les instructions qui nécessitent que LLM génère une réponse ou retourne au nœud parent.
Les pointes de triage et les pointes de feuille spécifient le format de sortie que LLM doit suivre. Le non-respect du format entraîne des actions non valides et la gestion des points de vue doit être régénérée. Si LLM ne parvient pas à produire une sortie résolvable trois fois de suite, la navigation s’arrête et renvoie « No Answer ».
Mémoire de travail
Lorsque LLM a fini de récupérer l’arborescence, il peut conserver les informations dans le chemin de navigation et les ajouter au contexte.
Pour être précis, LLM génère une réponse r ∼ LLM(r | s, q, m) avec une mémoire de travail supplémentaire
L’équipe de recherche a tronqué la mémoire de travail afin qu’elle puisse s’intégrer dans la fenêtre contextuelle du LLM.
LE TABLEAU CI-DESSUS MONTRE ÉGALEMENT COMMENT AJOUTER DE LA MÉMOIRE DE TRAVAIL À L’INVITE VIA LA MÉMOIRE DE TRAVAIL.
Configuration expérimentale
Ensembles de données et évaluations
L’équipe de recherche a utilisé trois ensembles de données : QuALITY, SummScreenFD et GovReport, qui proviennent du benchmark SCROLLS. L’équipe de recherche a démontré l’exactitude de tous les ensembles de données.
Qualité
QuALITY est un jeu de données de questions et réponses à choix multiples.
L’ensemble de données contient des histoires longues du projet Gutenberg et des questions annotées par des annotateurs humains. L’équipe de recherche a expérimenté à l’aide d’un sous-ensemble de 187 exemples.
SummScreenFD
SummScreenFD est un jeu de données de scripts de télévision et de films conçu à l’origine pour être résumé.
Ces textes sont présentés sous forme de dialogues entre acteurs. L’équipe de recherche a converti cet ensemble de données en une tâche de questions-réponses, dans laquelle le texte sommaire véridique de base fourni a été utilisé pour générer une question « qui » à l’aide de Stable Beluga 2, qui a ensuite été vérifiée par un expert humain.
La question, associée au long texte original, est devenue 306 exemples de tâches d’assurance qualité repositionnées.
Rapport du gouvernement
L’ensemble de données GovReport rassemble des documents du Congressional Research Service et du U.S. Government Accountability Office, ainsi que des résumés fournis par des experts.
L’équipe de recherche a converti cet ensemble de données en un ensemble de données de questions-réponses avec 101 exemples, de la même manière que SummScreenFD.
Les trois ensembles de données sont caractérisés par de longs contextes de longueurs différentes, certains exemples plus courts et d’autres plus longs.
Par conséquent, l’équipe de recherche a présenté des résultats à la fois sur l’ensemble de données original et sur un sous-ensemble des séquences plus longues contenues dans chaque tâche afin de mieux évaluer l’accès à la mémoire dans des situations de contexte plus difficiles et plus longues.
Les seuils sont les 8 000 jetons de QuALITY, les 6 000 jetons de SummScreenFD et les 12 000 jetons de GovReport.
Modèle
L’équipe de recherche a utilisé Stable Beluga 2 comme LLM de base dans la plupart de ses expériences, car il offre des performances de pointe par rapport à plusieurs autres variantes de LLM, ce que l’équipe de recherche démontrera.
Stable Beluga 2 est un modèle d’ajustement d’instructions basé sur 70B LLaMA-2 dans lequel le réglage fin ne chevauche pas la tâche d’évaluation de l’équipe de recherche.
Il a une longueur de contexte maximale de 4 096 jetons. L’équipe de recherche a utilisé le modèle d’une manière sans autre coup d’œil sans autre ajustement ni fournir un petit nombre d’exemples de la tâche de l’équipe de recherche dans son contexte.
L’équipe de recherche a utilisé l’échantillonnage p supérieur pour la construction de l’arbre de mémoire ainsi que les actions et l’inférence pour générer la navigation.
L’équipe de recherche a défini le nombre maximal de nœuds pour QuALITY, SummScreenFD et GovReport, maxt Mt = 8, 5, 8 et segment size|c|, respectivement = 1000, 1000, 1200。
Point de référence
L’équipe de recherche a comparé trois technologies de mémoire basées sur le même LLM sous-jacent à Stable Beluga 2 :
Fenêtre contextuelle complète
La récursivité
Récupération
La ligne de base de la fenêtre de contexte complète utilise les 4 096 jetons pour traiter le texte d’entrée long et la générer. Étant donné que les instances de l’ensemble de données dépassent souvent les limites du contexte, l’équipe de recherche a tronqué la longueur, en prenant la droite (la plus proche) ou la gauche (la moins proche) du texte comme entrée, et a évalué les deux méthodes.
Pour la recherche, l’équipe de recherche a utilisé Contriever (Izacard et al., 2022) pour sélectionner des paragraphes dans de longs contextes en fonction de requêtes. Les passages ayant obtenu les scores les plus élevés sont concaténés dans le contexte d’entrée du LLM jusqu’à ce qu’ils remplissent le contexte.
Enfin, l’équipe de recherche a mis en œuvre une base de référence qui boucle le résumé jusqu’au paragraphe actuel des informations des jetons du paragraphe précédent, où chaque paragraphe est de 2 500 jetons et la taille maximale du résumé est de 500 jetons.
Résultats et analyses
Principaux résultats
Le tableau 2 ci-dessous présente une comparaison entre MEMWALKER et d’autres références.
Cela montre la limite de la récursivité, où les informations pertinentes pour la requête sont perdues après quelques étapes.
MEMWALKER VA ÉGALEMENT AU-DELÀ DE LA RECHERCHE, OÙ LES PASSAGES PROVIENNENT D’UNE HISTOIRE COHÉRENTE PLUTÔT QUE D’UN DOCUMENT SÉPARÉ.
Dans ces tâches, la base de référence contextuelle complète peut être performante dans le paramètre de tâche « brute », qui peut contenir des séquences relativement courtes, bien que le choix d’une troncature à gauche ou à droite pour de meilleures performances semble dépendre du jeu de données.
Cependant, à l’exception de la variable hold-right sur QuALITY et de la variable hold-left sur GovReport, MEMWALKER obtient des performances supérieures dans la configuration d’origine que la ligne de base en contexte complet, ce qui peut être dû à un biais positionnel dans l’ensemble de données, où les paragraphes pertinents apparaissent généralement au début ou à la fin du texte.
CEPENDANT, SUR LES VERSIONS LONGUES DES TROIS TÂCHES, MEMWALKER A DÉPASSÉ TOUTES LES LIGNES DE BASE, C’EST-À-DIRE QU’IL A MONTRÉ DE SOLIDES PERFORMANCES À MESURE QUE L’ACCÈS À LA MÉMOIRE DEVENAIT PLUS CRITIQUE.
MEMWALKER surpasse également d’autres modèles accessibles au public, notamment LongChat et MPT.
LORSQUE LA LONGUEUR DU TEXTE EST PLUS COURTE, MEMWALKER EST INFÉRIEUR À LA LIGNE DE BASE CONTEXTUELLE COMPLÈTE (TRONCATURE À GAUCHE OU À DROITE), MAIS SURPASSE LES DEUX TYPES DE TRONCATURE SUR DES SÉQUENCES PLUS LONGUES POUR TOUTES LES TÂCHES.
L’avantage de la lecture interactive est que l’augmentation appropriée de la longueur du texte devient apparente, c’est-à-dire que de meilleures performances sont affichées une fois que la longueur de la séquence est significativement supérieure à 4 096 LLM de longueur de contexte.
L’inférence est essentielle pour la navigation dans l’arborescence de la mémoire.
L’EFFICACITÉ DE MEMWALKER DÉPEND FORTEMENT DES CAPACITÉS DE RAISONNEMENT DU LLM SOUS-JACENT. Pour chaque décision de navigation, l’équipe de recherche a utilisé une invite LLM qui demandait au LLM de générer d’abord une justification en langage naturel pour justifier la prochaine action prédite, comme le montre le tableau 1 ci-dessous.
Stable Beluga 2 a surpassé Llama 2 Chat de la même taille de LLM et a également montré des capacités de raisonnement améliorées.
Pour Stable Beluga 2, le fait d’exiger des justifications de raisonnement dans toutes les tâches améliore les performances. CELA MET EN ÉVIDENCE LA PRINCIPALE CARACTÉRISTIQUE DE MEMWALKER : SI LE LLM DÉPASSE LE SEUIL DE CAPACITÉ DE RAISONNEMENT CRITIQUE, IL PEUT RAISONNER SUR DE LONGUES ENTRÉES SUR PLUSIEURS TOURS SANS GÉNÉRER RAPIDEMENT D’ERREURS ENTRE LES TOURS.
Pour les LLM faibles qui ne parviennent pas à prendre de bonnes décisions de navigation, les erreurs peuvent s’accumuler et les performances globales sont altérées.
AU FUR ET À MESURE QUE LES CAPACITÉS DE RAISONNEMENT DU LLM CONTINUERONT DE S’AMÉLIORER DANS LES ANNÉES À VENIR, L’ÉQUIPE DE RECHERCHE S’ATTEND À CE QUE DES MÉTHODES COMME MEMWALKER DEVIENNENT PLUS EFFICACES.
La mémoire de travail est nécessaire pour naviguer dans l’arborescence de la mémoire. LORSQUE MEMWALKER PREND LA DÉCISION DE PARCOURIR L’ARBRE DE LA MÉMOIRE ET DE LIRE LES PARAGRAPHES ASSOCIÉS, IL PEUT PERDRE LA CONNAISSANCE DU CONTEXTE GLOBAL.
Par conséquent, le modèle transporte les informations du nœud le long du chemin de navigation en tant que mémoire de travail, où le contenu de la mémoire de travail est mis à jour lorsque le modèle choisit le chemin suivant.
L’ÉQUIPE DE RECHERCHE A ÉVALUÉ LES PERFORMANCES DE MEMWALKER AVEC OU SANS MÉMOIRE DE TRAVAIL, ET LES RÉSULTATS SONT PRÉSENTÉS DANS LA FIGURE 3 CI-DESSOUS.
MEMWALKER peut se remettre d’un mauvais chemin.
LORSQUE MEMWALKER NAVIGUE DANS L’ARBORESCENCE DE LA MÉMOIRE, IL DOIT NON SEULEMENT TROUVER SON CHEMIN VERS LES PARAGRAPHES LES PLUS PERTINENTS, MAIS IL PEUT ÉGALEMENT AVOIR BESOIN DE RÉCUPÉRER TOUTES LES ERREURS DE RÉCUPÉRATION.
L’équipe de recherche présente les statistiques de rétablissement dans le tableau 4 ci-dessous. MEMWALKER effectue des opérations de navigation de récupération (et donc des changements de chemins) sur environ 15 % à 20 % des échantillons, mais dans ces exemples, il est possible de les récupérer et de les obtenir correctement dans QuALITY, 60 % pour SummScreenFD et ∼ 80 % pour GovReport.
L’équipe de recherche montre la moyenne des pourcentages de lectures contextuelles longues pour tous les exemples, comme le montre la figure 4 ci-dessous pour chacune des trois tâches. L’équipe de recherche a constaté qu’en moyenne, seulement 63 à 69 % du texte devait être lu pour répondre à des questions, y compris le contenu des nœuds de l’arbre.
Compromis pour la construction de l’arbre de mémoire
Lorsque l’équipe de recherche construit l’arbre de mémoire, un compromis fondamental se pose : résumer des paragraphes plus volumineux en nœuds pour réduire la profondeur de l’arbre, mais potentiellement perdre la précision du contenu.
De même, la connexion de nombreux nœuds de niveau inférieur aux nœuds situés au-dessus peut aider à aplatir l’arborescence, mais peut rendre les tâches de navigation LLM sur chaque nœud plus difficiles.
La figure 5 ci-dessous montre les performances des différentes configurations de l’arborescence de mémoire sur QuALITY. Il est souvent plus avantageux de résumer des paragraphes plus volumineux que de résumer des paragraphes plus petits et de connecter davantage de nœuds enfants au nœud parent.
Cependant, les performances ont plafonné à mesure que le nombre maximal de nœuds augmentait, ce qui montre le compromis entre la quantité d’informations pouvant être compressée dans les nœuds lors de la construction de l’arborescence de la mémoire.