Pourquoi le grand modèle est-il si lent ?Il s'avère que je réfléchis trop : la nouvelle direction est le même algorithme de pensée que les êtres humains

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c2cea925b5-dd1a6f-6d2ef1) Source de l'image : générée par Unbounded AIL’intuition humaine est une capacité souvent négligée par les chercheurs en IA, mais elle est si subtile que même nous-mêmes ne la comprenons pas pleinement. Une équipe de recherche de Virginia Tech et Microsoft a proposé l'algorithme de réflexion (AoT) dans un article récent, qui combine l'intuition et l'ordre des méthodes algorithmiques pour réduire considérablement les coûts tout en garantissant les performances du LLM.Les modèles de langage à grande échelle se sont développés à un rythme rapide récemment, démontrant des capacités remarquables à résoudre des problèmes généraux, à générer du code et à suivre des instructions.Alors que les premiers modèles reposaient sur des stratégies de réponse directe, les recherches actuelles ont évolué vers une voie de raisonnement linéaire en décomposant le problème en sous-tâches pour découvrir des solutions, ou en modifiant le contexte pour exploiter des mécanismes externes afin de modifier la génération de jetons.Semblables à la cognition humaine, les premières stratégies LLM semblaient imiter l’immédiat 1 (réactions rapides), caractérisé par une prise de décision impulsive. En revanche, des méthodes plus récentes telles que Chain of Thoughts (CoT) et le moins au plus ing (L2M) reflètent la nature introspective du 2 (pensée lente). Il convient de noter que la capacité de raisonnement arithmétique du LLM peut être améliorée en intégrant des étapes de raisonnement intermédiaires.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-569cc3c2cd-dd1a6f-6d2ef1) Cependant, si la tâche nécessite une planification plus approfondie et une exploration mentale plus large, les limites de ces méthodes deviennent évidentes. Bien que le CoT intégré et auto-cohérent (CoT-SC) puisse utiliser plusieurs résultats du LLM pour atteindre des résultats consensuels, le manque d'évaluation détaillée peut conduire le modèle à aller dans la mauvaise direction. L’Arbre de la Pensée (ToT) qui émergera en 2023 est une solution remarquable. Un LLM est utilisé pour générer des idées, et un autre LLM est utilisé pour évaluer les mérites de ces idées, suivis d'un cycle « pause-évaluation-continuation ». Ce processus itératif basé sur la recherche arborescente est clairement efficace, notamment pour les tâches ayant de longues suites. Les chercheurs pensent que ce développement repose sur l’utilisation d’outils externes pour améliorer le LLM, à l’image des humains qui utilisent des outils pour contourner les limitations de leur propre mémoire de travail.En revanche, cette méthode LLM améliorée n’est pas sans inconvénients. Un inconvénient évident est que le nombre de requêtes et les exigences de calcul peuvent monter en flèche. Chaque requête adressée à une API LLM en ligne telle que GPT-4 entraîne des dépenses monétaires considérables et augmente la latence, une limitation particulièrement critique pour les applications en temps réel. La latence accumulée de ces requêtes peut nuire à l’efficacité globale du scénario. Au niveau de l'infrastructure, des interactions constantes peuvent exercer une pression sur le système, ce qui peut limiter la bande passante et réduire la disponibilité des modèles. De plus, l'impact sur l'environnement ne peut être ignoré : les requêtes continues augmenteront la consommation d'énergie du centre de données déjà énergivore, augmentant ainsi encore l'empreinte carbone.Sur la base de ces considérations, l'objectif d'optimisation des chercheurs est de réduire considérablement le nombre de requêtes utilisées par les méthodes d'inférence multi-requêtes actuelles, tout en maintenant des performances suffisantes pour permettre au modèle de faire face à des tâches qui nécessitent une utilisation compétente des connaissances du monde, guidant ainsi les personnes. être plus responsable et plus compétent. Utiliser efficacement les ressources de l’IA.En réfléchissant à l’évolution du LLM du 1 au 2, on peut voir émerger un facteur clé : les algorithmes. Les algorithmes sont structurés et fournissent un moyen d'aider les gens à explorer les domaines problématiques, à développer des stratégies et à élaborer des solutions. Bien qu'une grande partie de la littérature traditionnelle traite les algorithmes comme des outils externes au LLM, compte tenu de la reproductibilité générative inhérente du LLM, pouvons-nous guider cette logique itérative pour internaliser un algorithme dans le LLM ?Une équipe de recherche de Virginia Tech et Microsoft a réuni la sophistication du raisonnement humain et la précision méthodique des méthodes algorithmiques dans le but d'améliorer le raisonnement au sein du LLM en fusionnant les deux aspects.Les recherches existantes soulignent que les humains s’appuient instinctivement sur leurs expériences passées lorsqu’ils résolvent des problèmes complexes afin de s’assurer qu’ils pensent de manière holistique plutôt que de se concentrer étroitement sur un détail. La gamme de génération de LLM n’est limitée que par sa limite symbolique, et elle semble destinée à briser les obstacles de la mémoire de travail humaine.Inspirés par cette observation, les chercheurs ont exploré si le LLM pourrait permettre une exploration hiérarchique similaire des idées, en filtrant les options irréalisables en se référant aux étapes intermédiaires précédentes, le tout dans le cycle de génération du LLM. Alors que les humains sont bons en intuition et en acuité, les algorithmes sont bons en exploration organisée et systématique. Les technologies actuelles telles que CoT ont tendance à se détourner de ce potentiel synergique et à trop se concentrer sur la précision sur le terrain du LLM. En exploitant les capacités récursives du LLM, les chercheurs ont construit une approche hybride humain-algorithme. Cela se fait grâce à l'utilisation d'exemples algorithmiques qui capturent l'essence de l'exploration, des candidats initiaux aux solutions éprouvées.Sur la base de ces observations, les chercheurs ont proposé l'algorithme de pensées (AoT).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5a6502b539-dd1a6f-6d2ef1) papier:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6c579d7634-dd1a6f-6d2ef1)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ff36193be5-dd1a6f-6d2ef1) À une échelle plus large, cette nouvelle approche devrait ouvrir la voie à un nouveau paradigme d’apprentissage contextuel. Au lieu d'utiliser le modèle d'apprentissage supervisé traditionnel de [question, réponse] ou [question, étapes ultérieures pour obtenir la réponse], cette nouvelle approche adopte un nouveau modèle [question, processus de recherche, réponse]. Naturellement, lorsque nous demandons à LLM d’utiliser un algorithme via des instructions, nous nous attendons généralement à ce que LLM imite simplement la pensée itérative de l’algorithme. Cependant, ce qui est intéressant, c'est que LLM a la capacité d'injecter sa propre « intuition », rendant même sa recherche plus efficace que l'algorithme lui-même.**Algorithme de réflexion**Les chercheurs affirment que l’essentiel de leur stratégie de recherche consiste à reconnaître les principales lacunes du paradigme actuel d’apprentissage contextuel. Bien que le CoT puisse améliorer la cohérence des connexions mentales, il peut parfois mal tourner et donner lieu à de mauvaises étapes intermédiaires.Pour illustrer ce phénomène, les chercheurs ont conçu une expérience. Lors de l'interrogation de text-davinci-003 avec une tâche arithmétique (telle que 11 − 2 =), le chercheur ajoutera plusieurs équations de contexte devant qui obtiendront le même résultat (telles que 15 − 5 = 10, 8 + 2 = 10). ).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0a05333aae-dd1a6f-6d2ef1) La précision a chuté précipitamment, ce qui suggère que le simple fait de donner un raisonnement correct dans son contexte peut par inadvertance altérer les capacités arithmétiques sous-jacentes de LLM.Pour réduire ce biais, rendre les exemples plus diversifiés pourrait être une solution viable, mais cela pourrait légèrement modifier la répartition des résultats. Le simple fait d'ajouter quelques tentatives infructueuses (comme une recherche aléatoire) peut encourager par inadvertance le modèle à réessayer sans réellement résoudre le problème. Comprenant la véritable nature du comportement algorithmique (où les recherches échouées et les récupérations ultérieures sont importantes, ainsi que l'apprentissage de ces tentatives), la façon dont les chercheurs intègrent des exemples contextuels consiste à suivre le modèle des algorithmes de recherche, en particulier la recherche en profondeur d'abord (DFS) et Recherche en largeur d'abord (BFS). La figure 1 donne un exemple.Cet article se concentre sur une large classe de tâches similaires aux problèmes de recherche arborescente.Ce type de tâche nécessite de décomposer le problème principal, de construire une solution réalisable pour chaque partie et de décider d'adopter ou d'abandonner certaines voies, avec la possibilité de réévaluer les parties ayant le plus grand potentiel.Au lieu de proposer des requêtes distinctes pour chaque sous-ensemble, les chercheurs ont profité des capacités itératives de LLM pour les résoudre dans le cadre d’une analyse générative unifiée. En se limitant à seulement une ou deux interactions LLM, l'approche peut naturellement intégrer les idées des candidats contextuels précédents et résoudre des problèmes complexes qui nécessitent une exploration approfondie du domaine de solution. Les chercheurs ont également donné leur propre avis sur l'ampleur que devraient avoir ces réflexions et sur le type d'exemples contextuels qui devraient être fournis pour que le LLM améliore l'efficacité des jetons. Les composants clés de l'algorithme de recherche arborescente et leur représentation dans le nouveau cadre sont donnés ci-dessous.**1. Décomposez-le en sous-problèmes. ** Face à un problème, construire un arbre de recherche décrivant des chemins de raisonnement réalisables est déjà une tâche ardue, même sans considérer l'aspect réel de la résolution du problème. Toute décomposition doit prendre en compte non seulement les relations entre les sous-tâches, mais également la facilité de résoudre chaque problème.Prenons par exemple une simple addition à plusieurs chiffres : bien qu'il soit efficace pour les ordinateurs de convertir des valeurs numériques en nombres binaires, les humains trouvent souvent les nombres décimaux plus intuitifs. De plus, même si les sous-problèmes sont les mêmes, les méthodes d’exécution peuvent être différentes. L’intuition peut trouver des raccourcis entre les étapes menant à une solution, et sans intuition, des étapes plus détaillées peuvent être nécessaires.Afin de créer des exemples d'algorithmes corrects (c'est-à-dire contextuels), ces subtilités sont importantes et déterminent le nombre minimum de jetons requis par LLM pour des performances fiables. Cela satisfait non seulement les contraintes de contexte de LLM, mais est également important pour la capacité de LLM, car nous espérons que LLM pourra utiliser une quantité similaire de jetons pour résoudre des problèmes qui correspondent à son contexte.**2. Proposer une solution au sous-problème. ** L'une des méthodes courantes actuelles consiste à échantillonner directement la probabilité de sortie du jeton LLM. Bien que cette méthode soit efficace pour les réponses ponctuelles (avec certaines limites), elle est également incapable de faire face à certains scénarios, comme lorsque la séquence d'échantillons doit être intégrée dans le suivi ou évaluée dans le suivi. Pour minimiser les requêtes de modèle, les chercheurs ont utilisé un processus de création de solutions non-stop. Autrement dit, générer directement et continuellement des solutions aux principaux sous-problèmes sans aucune pause de génération.Cette approche présente de nombreux avantages. Premièrement, toutes les solutions générées se trouvent dans le même contexte partagé, ce qui élimine le besoin de générer des requêtes de modèle distinctes pour évaluer chaque solution. Deuxièmement, même si cela peut sembler contre-intuitif au premier abord, les jetons isolés ou les probabilités de regroupement de jetons ne conduisent pas toujours à des choix significatifs. La figure 4 donne un diagramme schématique simple.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e87682e4df-dd1a6f-6d2ef1) **3. Mesurez les perspectives de sous-problèmes. **Comme mentionné ci-dessus, les techniques existantes s'appuient sur des indices supplémentaires pour identifier le potentiel des nœuds d'arbre afin d'aider à prendre des décisions concernant les directions d'exploration. Nos observations indiquent que le LLM a intrinsèquement tendance à donner la priorité aux candidats prometteurs s'ils peuvent être résumés dans des exemples contextuels. Cela réduit le besoin d’ingénierie complexe et permet l’intégration d’heuristiques sophistiquées, qu’elles soient intuitives ou basées sur les connaissances. De même, il n'y a aucune déconnexion dans la nouvelle approche, qui permet une évaluation immédiate de la faisabilité des candidats au sein des mêmes résultats générés.**4. Revenez à un meilleur nœud. **Le choix du nœud à explorer ensuite (y compris le retour aux nœuds précédents) dépend essentiellement de l'algorithme de recherche arborescente choisi. Bien que des recherches antérieures aient utilisé des méthodes externes telles que des mécanismes de codage pour le processus de recherche, cela limiterait son attrait plus large et nécessiterait une personnalisation supplémentaire. Le nouveau design proposé dans cet article adopte principalement la méthode DFS complétée par l'élagage. L'objectif est de maintenir la proximité entre les nœuds enfants avec le même nœud parent, encourageant ainsi LLM à donner la priorité aux fonctionnalités locales par rapport aux fonctionnalités distantes. En outre, les chercheurs ont également proposé des indicateurs de performance de la méthode AoT basée sur BFS. Les chercheurs affirment que le besoin de mécanismes de personnalisation supplémentaires peut être éliminé en tirant parti de la capacité inhérente du modèle à tirer des enseignements d'exemples contextuels.**expérience**Les chercheurs ont mené des expériences sur des mini-jeux de mots croisés de 24 points et 5x5, et les résultats ont montré la supériorité de la méthode AoT - ses performances étaient dues à une seule méthode (telle que la méthode standard, CoT, CoT-SC), et elle était également comparable à l’utilisation de méthodes de mécanismes externes (telles que ToT).Il ressort clairement du tableau 1 que la méthode de conception standard incorporant CoT/CoT-SC est clairement en retard par rapport à la méthode de recherche arborescente utilisée via LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2f46ee4604-dd1a6f-6d2ef1) Le tableau 3 met en évidence l'efficacité de l'AoT sur la mini tâche de remplissage de mots, avec son taux de réussite de remplissage de mots dépassant les méthodes précédentes utilisant diverses techniques.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c490f77b42-dd1a6f-6d2ef1) Cependant, c'est pire que ToT. Une observation importante est que le volume de requêtes utilisé par ToT est énorme, dépassant l’AoT de plus de cent fois. Un autre facteur qui rend l’AoT inférieur au ToT est que les capacités de retour en arrière inhérentes aux exemples d’algorithmes ne sont pas entièrement activées. Si cette capacité pouvait être entièrement débloquée, cela entraînerait une phase de génération beaucoup plus longue. En revanche, ToT présente l’avantage d’utiliser une mémoire externe pour le retour en arrière.**discuter**AoT peut-il surpasser le DFS qu’il émule ?Comme le montre la figure 5, AoT utilise globalement moins de nœuds que la version DFS. DFS adopte une stratégie unifiée lors de la sélection des sous-arbres à explorer ultérieurement, tandis que le LLM d'AoT intègre ses heuristiques inhérentes. Cette amplification de l'algorithme de base reflète l'avantage des capacités de raisonnement récursif de LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-302cd9f9ad-dd1a6f-6d2ef1) Comment le choix de l’algorithme affecte-t-il les performances de l’AoT ?Le tableau 5 donne les résultats expérimentaux et on peut voir que les trois variantes d'AoT surpassent le CoT à requête unique.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e30f8a1d4e-dd1a6f-6d2ef1) Ce résultat est attendu, puisque quel que soit l'algorithme, il recherche et revisite les erreurs potentielles - soit par des tentatives aléatoires dans la variante de recherche aléatoire, soit par un retour en arrière dans les configurations DFS ou BFS. Il convient de noter que les deux versions de recherche structurée, AoT (DFS) et AoT (BFS), sont plus efficaces que AoT (Random), ce qui met en évidence les avantages des informations algorithmiques dans la découverte de solutions. Cependant, l’AoT (BFS) est en retard sur l’AoT (DFS). En analysant plus en détail les erreurs de l'AoT (BFS), les chercheurs ont découvert que par rapport à l'AoT (DFS), l'AoT (BFS) est plus difficile à identifier les opérations optimales.Alors, comment le nombre d’étapes de recherche dans l’exemple d’algorithme ajuste-t-il le comportement de l’AoT ?La figure 6 montre l'impact du nombre total d'étapes de recherche. Parmi eux, AoT (Long) et AoT (Short) sont respectivement des versions plus longues et plus courtes des résultats générés par rapport à l'AoT d'origine.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-31f2582910-dd1a6f-6d2ef1) Les résultats montrent que le nombre d’étapes de recherche introduit un biais implicite dans la vitesse de recherche du LLM. Il est important de noter que même lorsque l’on prend des mesures erronées, il est important de mettre l’accent sur l’exploration des directions à potentiel.