¿Por qué el modelo grande es tan lento? Resulta que pienso demasiado: la nueva dirección es el mismo algoritmo de pensamiento que los seres humanos.

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c2cea925b5-dd1a6f-6d2ef1) Fuente de la imagen: Generada por IA ilimitadaLa intuición humana es una capacidad que los investigadores de IA suelen pasar por alto, pero es tan sutil que ni siquiera nosotros mismos la comprendemos del todo. Un equipo de investigación de Virginia Tech y Microsoft propuso el Algoritmo de Pensamiento (AoT) en un artículo reciente, que combina la intuición y el orden de los métodos algorítmicos para ahorrar costos en gran medida y al mismo tiempo garantizar el rendimiento del LLM.Los modelos de lenguaje a gran escala se han estado desarrollando a un ritmo rápido recientemente, demostrando capacidades notables para resolver problemas generales, generar código y seguir instrucciones.Si bien los primeros modelos se basaban en estrategias de respuesta directa, la investigación actual ha avanzado hacia un camino de razonamiento lineal al descomponer el problema en subtareas para descubrir soluciones o al modificar el contexto para explotar mecanismos externos para alterar la generación de tokens.Al igual que la cognición humana, las primeras estrategias de LLM parecían imitar el inmediato 1 (reacciones rápidas), caracterizado por la toma de decisiones impulsiva. Por el contrario, los métodos más nuevos, como la Cadena de Pensamientos (CoT) y el ing de menor a mayor (L2M), reflejan la naturaleza introspectiva de 2 (pensamiento lento). Vale la pena señalar que la capacidad de razonamiento aritmético de LLM se puede mejorar integrando pasos de razonamiento intermedios.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-569cc3c2cd-dd1a6f-6d2ef1) Sin embargo, si la tarea requiere una planificación más profunda y una exploración mental más amplia, las limitaciones de estos métodos se vuelven evidentes. Aunque el CoT integrado y autoconsistente (CoT-SC) puede utilizar múltiples resultados del LLM para alcanzar resultados consensuados, la falta de una evaluación detallada puede llevar al modelo a ir en la dirección equivocada. El Árbol del Pensamiento (ToT) que surgirá en 2023 es una solución digna de mención. Un LLM se utiliza para generar ideas y otro LLM se utiliza para evaluar los méritos de estas ideas, seguido de un ciclo de "pausa-evaluación-continuación". Este proceso iterativo basado en la búsqueda en árbol es claramente eficaz, especialmente para tareas con una continuación prolongada. Los investigadores creen que este desarrollo es el uso de herramientas externas para mejorar el LLM, similar a como los humanos usan herramientas para eludir las limitaciones de su propia memoria de trabajo.Por otro lado, este método LLM mejorado no está exento de deficiencias. Una desventaja obvia es que el número de consultas y requisitos computacionales puede dispararse. Cada consulta a una API LLM en línea como GPT-4 genera un gasto monetario considerable y aumenta la latencia, una limitación que es particularmente crítica para aplicaciones en tiempo real. La latencia acumulada de estas consultas puede perjudicar la eficiencia general del escenario. En cuanto a la infraestructura, las interacciones constantes pueden ejercer presión sobre el sistema, lo que puede limitar el ancho de banda y reducir la disponibilidad del modelo. Además, no se puede ignorar el impacto sobre el medio ambiente: las consultas continuas aumentarán el consumo de energía del centro de datos, que ya consume mucha energía, aumentando aún más la huella de carbono.Con base en estas consideraciones, el objetivo de optimización de los investigadores es reducir significativamente la cantidad de consultas utilizadas por los métodos actuales de inferencia de consultas múltiples, manteniendo al mismo tiempo un rendimiento suficiente para permitir que el modelo haga frente a tareas que requieren un uso experto del conocimiento mundial, guiando así a las personas. Ser más responsable y competente Utilizar los recursos de IA de manera eficiente.Al pensar en la evolución de LLM de 1 a 2, se puede ver surgir un factor clave: los algoritmos. Los algoritmos están estructurados y proporcionan una manera de ayudar a las personas a explorar espacios problemáticos, desarrollar estrategias y construir soluciones. Aunque gran parte de la literatura convencional trata los algoritmos como herramientas externas al LLM, considerando la reproducibilidad generativa inherente del LLM, ¿podemos guiar esta lógica iterativa para internalizar un algoritmo en el LLM?Un equipo de investigación de Virginia Tech y Microsoft ha reunido la sofisticación del razonamiento humano y la precisión metódica de los métodos algorítmicos en un intento de mejorar el razonamiento dentro del LLM fusionando los dos aspectos.Las investigaciones existentes enfatizan que los humanos recurren instintivamente a experiencias pasadas al resolver problemas complejos para asegurarse de pensar de manera integral en lugar de centrarse estrictamente en un solo detalle. El alcance de la generación de LLM está limitado únicamente por su límite simbólico y parece destinado a superar los obstáculos de la memoria de trabajo humana.Inspirados por esta observación, los investigadores exploraron si el LLM podría permitir una exploración jerárquica similar de ideas, filtrando opciones inviables haciendo referencia a pasos intermedios previos, todo dentro del ciclo de generación del LLM. Si bien los humanos son buenos en intuición y agudeza, los algoritmos son buenos en la exploración organizada y sistemática. Las tecnologías actuales como CoT tienden a evitar este potencial sinérgico y centrarse demasiado en la precisión de campo del LLM. Al explotar las capacidades recursivas de LLM, los investigadores construyeron un enfoque híbrido algorítmico humano. Esto se hace mediante el uso de ejemplos algorítmicos que capturan la esencia de la exploración, desde los candidatos iniciales hasta las soluciones probadas.Basándose en estas observaciones, los investigadores propusieron el Algoritmo de Pensamientos (AoT).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5a6502b539-dd1a6f-6d2ef1) papel:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6c579d7634-dd1a6f-6d2ef1)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ff36193be5-dd1a6f-6d2ef1) A una escala más amplia, se espera que este nuevo enfoque marque el comienzo de un nuevo paradigma de aprendizaje contextual. En lugar de utilizar el modelo tradicional de aprendizaje supervisado de [pregunta, respuesta] o [pregunta, pasos posteriores para obtener la respuesta], este nuevo enfoque adopta un nuevo modelo [pregunta, proceso de búsqueda, respuesta]. Naturalmente, cuando le decimos a LLM que use un algoritmo a través de instrucciones, generalmente esperamos que LLM simplemente imite el pensamiento iterativo del algoritmo. Sin embargo, lo interesante es que LLM tiene la capacidad de inyectar su propia "intuición", haciendo incluso que su búsqueda sea más eficiente que el propio algoritmo.**Algoritmo de pensamiento**Los investigadores dicen que el núcleo de su estrategia de investigación es reconocer las principales deficiencias del actual paradigma de aprendizaje contextual. Aunque CoT puede mejorar la consistencia de las conexiones mentales, en ocasiones puede salir mal y dar pasos intermedios equivocados.Para ilustrar este fenómeno, los investigadores diseñaron un experimento. Al consultar text-davinci-003 con una tarea aritmética (como 11 − 2 =), el investigador agregará múltiples ecuaciones de contexto al frente que obtendrán el mismo resultado de salida (como 15 − 5 = 10, 8 + 2 = 10 ).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0a05333aae-dd1a6f-6d2ef1) Se descubrió que la precisión caía precipitadamente, lo que sugiere que simplemente dar un razonamiento correcto en contexto puede perjudicar inadvertidamente las habilidades aritméticas subyacentes de LLM.Para reducir este sesgo, hacer que los ejemplos sean más diversos podría ser una solución viable, pero esto podría cambiar ligeramente la distribución del resultado. Simplemente agregar algunos intentos fallidos (como una búsqueda aleatoria) puede alentar al modelo a intentarlo nuevamente sin resolver el problema. Al comprender la verdadera naturaleza del comportamiento algorítmico (donde las búsquedas fallidas y las recuperaciones posteriores son importantes, así como aprender de estos intentos), la forma en que los investigadores incorporan ejemplos contextuales es siguiendo el patrón de los algoritmos de búsqueda, especialmente la búsqueda en profundidad (DFS) y Primera búsqueda en amplitud (BFS). La figura 1 da un ejemplo.Este artículo se centra en una gran clase de tareas similares a los problemas de búsqueda de árboles.Este tipo de tareas requiere desglosar el problema principal, construir una solución factible para cada parte y decidir adoptar o abandonar ciertos caminos, con la opción de reevaluar las partes con mayor potencial.En lugar de realizar consultas separadas para cada subconjunto, los investigadores aprovecharon las capacidades iterativas de LLM para resolverlas en un escaneo generativo unificado. Al limitarse a solo una o dos interacciones LLM, el enfoque puede integrar de forma natural conocimientos de candidatos contextuales anteriores y resolver problemas complejos que requieren una exploración profunda del dominio de la solución. Los investigadores también han brindado sus propios conocimientos sobre qué tan grandes deberían ser estos pensamientos y qué tipo de ejemplos contextuales deberían proporcionarse para que LLM mejore la eficiencia de los tokens. A continuación se detallan los componentes clave del algoritmo de búsqueda de árbol y su representación en el nuevo marco.**1. Descomponerlo en subproblemas. **Dado un problema, construir un árbol de búsqueda que describa rutas de razonamiento factibles ya es una tarea desalentadora, incluso sin mirar el aspecto real de la resolución del problema. Cualquier descomposición debe considerar no sólo las interrelaciones entre subtareas, sino también la facilidad para resolver cada problema.Tomemos como ejemplo la suma simple de varios dígitos: aunque para las computadoras es eficiente convertir valores numéricos en números binarios, los humanos a menudo encuentran los números decimales más intuitivos. Además, incluso si los subproblemas son los mismos, los métodos de ejecución pueden ser diferentes. La intuición puede encontrar atajos entre los pasos hacia una solución y, sin intuición, pueden ser necesarios pasos más detallados.Para crear ejemplos de algoritmos correctos (es decir, contextuales), estas sutilezas son importantes y determinan la cantidad mínima de tokens requeridos por LLM para un rendimiento confiable. Esto no solo satisface las limitaciones de contexto de LLM, sino que también es importante para la capacidad de LLM, porque esperamos que LLM pueda usar una cantidad similar de tokens para resolver problemas que resuenan con su contexto.**2.Proponer una solución al subproblema. **Uno de los métodos principales actuales implica muestrear directamente la probabilidad de salida del token LLM. Aunque este método es eficaz para respuestas únicas (con ciertas limitaciones), tampoco puede hacer frente a algunos escenarios, como cuando la secuencia de muestra debe integrarse en el seguimiento o evaluarse en el seguimiento. Para minimizar las consultas del modelo, los investigadores utilizaron un proceso continuo de creación de soluciones. Es decir, generar directa y continuamente soluciones a los principales subproblemas sin pausas generacionales.Este enfoque tiene muchos beneficios. En primer lugar, todas las soluciones generadas están en el mismo contexto compartido, lo que elimina la necesidad de generar consultas de modelos independientes para evaluar cada solución. En segundo lugar, aunque pueda parecer contradictorio al principio, es posible que los tokens aislados o las probabilidades de agrupación de tokens no siempre conduzcan a elecciones significativas. La Figura 4 ofrece un diagrama esquemático simple.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e87682e4df-dd1a6f-6d2ef1) **3.Mida las perspectivas de subproblemas. **Como se mencionó anteriormente, las técnicas existentes se basan en señales adicionales para identificar el potencial de los nodos del árbol para ayudar a tomar decisiones sobre las direcciones de exploración. Nuestras observaciones sugieren que LLM tiende inherentemente a priorizar candidatos prometedores si pueden resumirse en ejemplos contextuales. Esto reduce la necesidad de una ingeniería compleja y permite la integración de heurísticas sofisticadas, ya sean intuitivas o basadas en el conocimiento. Asimismo, no hay desconexiones en el nuevo enfoque, lo que permite una evaluación inmediata de la viabilidad del candidato dentro de los mismos resultados generados.** 4. Retroceder hasta un nodo mejor. **Decidir qué nodo explorar a continuación (incluido retroceder a los nodos anteriores) depende esencialmente del algoritmo de búsqueda de árbol elegido. Aunque investigaciones anteriores han empleado métodos externos, como mecanismos de codificación para el proceso de búsqueda, esto limitaría su atractivo más amplio y requeriría una personalización adicional. El nuevo diseño propuesto en este artículo adopta principalmente el método DFS complementado con poda. El objetivo es mantener la proximidad entre nodos secundarios con el mismo nodo principal, animando así a LLM a priorizar las funciones locales sobre las remotas. Además, los investigadores también propusieron indicadores de rendimiento del método AoT basado en BFS. Los investigadores dicen que la necesidad de mecanismos de personalización adicionales se puede eliminar aprovechando la capacidad inherente del modelo para obtener información a partir de ejemplos contextuales.**experimento**Los investigadores realizaron experimentos con minijuegos de crucigramas de 24 puntos y 5x5, y los resultados mostraron la superioridad del método AoT: su rendimiento se debió a un solo método (como el método estándar, CoT, CoT-SC), y también fue comparable al uso de métodos de mecanismos externos (como ToT).De la Tabla 1 se desprende claramente que el método de diseño estándar que incorpora CoT/CoT-SC está claramente por detrás del método de búsqueda de árboles utilizado a través de LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2f46ee4604-dd1a6f-6d2ef1) La Tabla 3 destaca la efectividad de AoT en la mini tarea de completar palabras, con una tasa de éxito de llenado de palabras que supera los métodos anteriores que utilizan diversas técnicas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c490f77b42-dd1a6f-6d2ef1) Sin embargo, es peor que ToT. Una observación importante es que el volumen de consultas utilizado por ToT es enorme y supera a AoT en más de cien veces. Otro factor que hace que AoT sea inferior a ToT es que las capacidades de retroceso inherentes a los ejemplos de algoritmos no están completamente activadas. Si esta capacidad pudiera desbloquearse por completo, daría como resultado una fase de generación significativamente más larga. Por el contrario, ToT tiene la ventaja de utilizar memoria externa para retroceder.**conversar**¿Puede AoT superar al DFS que emula?Como se muestra en la Figura 5, AoT utiliza menos nodos en general que la versión DFS. DFS adopta una estrategia unificada al seleccionar subárboles para explorar posteriormente, mientras que LLM de AoT integra su heurística inherente. Esta amplificación del algoritmo básico refleja la ventaja de las capacidades de razonamiento recursivo de LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-302cd9f9ad-dd1a6f-6d2ef1) ¿Cómo afecta la elección del algoritmo al rendimiento de AoT?La Tabla 5 muestra los hallazgos experimentales y se puede ver que las tres variantes de AoT superan a la CoT de consulta única.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e30f8a1d4e-dd1a6f-6d2ef1) Este resultado es esperado, ya que cualquiera que sea el algoritmo, busca y revisa errores potenciales, ya sea mediante intentos aleatorios en la variante de búsqueda aleatoria o mediante retroceso en configuraciones DFS o BFS. Vale la pena señalar que ambas versiones de búsqueda estructurada, AoT (DFS) y AoT (BFS), son más eficientes que AoT (Random), lo que resalta las ventajas de los conocimientos algorítmicos en el descubrimiento de soluciones. Sin embargo, AoT (BFS) va por detrás de AoT (DFS). Al analizar más a fondo los errores de AoT (BFS), los investigadores descubrieron que, en comparación con AoT (DFS), AoT (BFS) es más difícil identificar operaciones óptimas.Entonces, ¿cómo ajusta el número de pasos de búsqueda en el ejemplo del algoritmo el comportamiento de AoT?La Figura 6 muestra el impacto del número total de pasos de búsqueda. Entre ellos, AoT (Largo) y AoT (Corto) son, respectivamente, versiones más largas y más cortas de los resultados generados en relación con el AoT original.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-31f2582910-dd1a6f-6d2ef1) Los resultados muestran que el número de pasos de búsqueda introduce un sesgo implícito en la velocidad de búsqueda de LLM. Es importante señalar que incluso cuando se dan pasos equivocados, es importante hacer hincapié en la exploración de direcciones con potencial.