¡Meta Princeton propone la solución definitiva para el contexto de LLM! Deje que el modelo se convierta en un agente autónomo y lea el árbol de nodos de contexto por sí mismo

Fuente original: Shin Ji Yuan

Fuente de la imagen: Generado por Unbounded AI

¿Cuál es la solución definitiva para los modelos de contexto largo de LLM?

Una solución propuesta recientemente por investigadores de la Universidad de Princeton y Meta AI es pensar en LLM como un agente interactivo que le permite decidir cómo leer el texto a través de indicaciones iterativas.

Dirección del papel:

Diseñaron un sistema llamado MemWalker que puede procesar contextos largos en un árbol de nodos de resumen.

Cuando se recibe una consulta, el modelo puede recuperar este árbol de nodos para encontrar información relevante y responder cuando haya recopilado suficiente información. En las tareas de respuesta a preguntas de texto largo, este método es significativamente mejor que el método de línea de base que utiliza ventanas de contexto largas, recursividad y recuperación.

LeCun también tuiteó su apoyo a su investigación.

MemWalker consta de dos partes principales:

Primero necesitas construir el árbol de memoria:

Divida el texto largo en nodos de resumen. Los nodos consolidados se resumen en nodos de nivel superior y, finalmente, llegan a la raíz.

La segunda parte es Navegación:

Después de aceptar la consulta, LLM navega a través del árbol para encontrar información relevante y responder adecuadamente. LLM logra este proceso a través del razonamiento, tal vez trabajando para encontrar una respuesta, eligiendo ir más allá en un camino o encontrarse equivocado y retrocediendo de la misma manera.

Este proceso de navegación se puede implementar con solicitudes de muestra cero y se adapta fácilmente a cualquiera de los modelos de lenguaje grandes especificados.

El equipo de investigación demostró que mediante la lectura interactiva del árbol de memoria construido por este modelo, MemWalker superó a otras líneas de base de contexto largo y a las variantes de recuperación y bucle, especialmente para ejemplos más largos.

La eficacia de MemWalker depende de dos partes clave:

  1. Tamaño de la memoria de trabajo: LLM tiene mejores capacidades de contexto global cuando permite que LLM obtenga más información a lo largo de la ruta que recupera.

2) La capacidad de razonamiento de LLM - Cuando LLM alcanza el umbral de inferencia, MemWalker es efectivo. Cuando la capacidad de inferencia está por debajo del umbral, la tasa de error durante la navegación es alta.

MEMWALKER: UN LECTOR INTERACTIVO**

El equipo de investigación investiga tareas relacionadas con la respuesta a preguntas de contexto largo: dado el texto largo x y la consulta q, el objetivo del modelo es generar una respuesta r.

MEMWALKER SIGUE DOS PASOS:

  1. Construcción de árbol de memoria, donde los contextos largos se dividen en estructuras de datos en forma de árbol. Esta construcción no se basa en consultas, por lo que si hay datos de secuencia de antemano, se pueden calcular de antemano.

  2. Navegación, donde el modelo navega por esta estructura cuando recibe una consulta, recopilando información para formular una respuesta adecuada.

MEMWALKER asume el acceso al LLM subyacente e implementa la compilación y la navegación mediante la iteración de las solicitudes de LLM.

Navegación

Después de recibir la consulta Q, el modelo de lenguaje se quita del nodo raíz

Comience a navegar por el árbol para generar una respuesta.

El nodo atravesado en LLM

, observa el siguiente nivel de nodos

Resumen de .

LLM decidido en

+ Elija una de las 1 acciones: seleccione un nodo secundario para una inspección más detallada o regrese al nodo principal.

En el nodo hoja

LLM puede decidir una de estas dos acciones: enviar el nodo hoja y responder a la consulta, o si el nodo hoja contiene información

(es decir,

) no es suficiente, vuelva al nodo principal

Para tomar decisiones de navegación, el equipo de investigación también podría pedir a LLM que primero genere una justificación en lenguaje natural solicitando la acción, seguida de la elección de la acción en sí.

Específicamente, en cada nodo, el modelo genera una respuesta r ∼ LLM(r | s, q), donde la respuesta es una de dos tuplas: 1) r = (razonamiento, acción, respuesta) cuando LLM está en un nodo hoja o 2) r = (razonamiento, acción) cuando LLM está en un nodo no hoja.

Diseño de consejos de navegación

El equipo de investigación habilitó la navegación de LLM con indicaciones de muestra cero. Hay dos tipos de consejos que necesitas:

  1. puntas de triaje y 2) puntas de hojas (resaltadas en la tabla a continuación).

El mensaje de evaluación de prioridades contiene la consulta, un resumen de los nodos secundarios e instrucciones que debe seguir LLM. Las puntas de triaje se utilizan para nodos que no son hojas.

El mensaje de hoja contiene contenido de párrafo, consultas (y opciones) e instrucciones que requieren que LLM genere una respuesta o vuelva al nodo principal.

Tanto las puntas de clasificación como las puntas de hoja especifican el formato de salida que debe seguir LLM. Si no se cumple con el formato, las acciones no son válidas y el LLM debe regenerarse. Si LLM no puede producir una salida resoluble tres veces seguidas, la navegación finaliza y devuelve "Sin respuesta".

Memoria de trabajo

Cuando LLM termina de recuperar el árbol, puede contener la información en el rastro de navegación y agregarla al contexto.

Para ser precisos, LLM genera una respuesta r ∼ LLM(r | s, q, m) con memoria de trabajo adicional

Está vacío o contiene contenido de nodos visitados anteriormente.

El equipo de investigación truncó la memoria de trabajo para que pudiera encajar en la ventana de contexto del LLM.

LA TABLA ANTERIOR TAMBIÉN MUESTRA CÓMO AGREGAR MEMORIA DE TRABAJO AL MENSAJE A TRAVÉS DE LA MEMORIA DE TRABAJO.

Configuración experimental

Conjuntos de datos y evaluaciones

El equipo de investigación utilizó tres conjuntos de datos: QuALITY, SummScreenFD y GovReport, que provenían del punto de referencia SCROLLS. El equipo de investigación demostró la precisión de todos los conjuntos de datos.

Calidad

QuALITY es un conjunto de datos de preguntas y respuestas de opción múltiple.

El conjunto de datos contiene historias de formato largo del Proyecto Gutenberg y preguntas anotadas por anotadores humanos. El equipo de investigación experimentó con un subconjunto de 187 ejemplos.

SummScreenFD

SummScreenFD es un conjunto de datos de guiones de televisión y películas diseñado originalmente para el resumen.

Estos guiones se presentan en forma de diálogos entre actores. El equipo de investigación convirtió este conjunto de datos en una tarea de preguntas y respuestas, en la que se utilizó el texto de resumen básico veraz proporcionado en bruto para generar una pregunta de "quién" utilizando Stable Beluga 2, que luego fue verificada por un experto humano.

La pregunta, junto con el texto largo original, se convirtió en 306 ejemplos de tareas de control de calidad reposicionadas.

GovReport

El conjunto de datos de GovReport reúne documentos del Servicio de Investigación del Congreso y la Oficina de Rendición de Cuentas del Gobierno de EE. UU., así como resúmenes proporcionados por expertos.

El equipo de investigación convirtió este conjunto de datos en un conjunto de datos de preguntas y respuestas con 101 ejemplos de la misma manera que SummScreenFD.

Los tres conjuntos de datos se caracterizan por contextos largos de diferentes longitudes, algunos ejemplos más cortos y algunas secuencias más largas.

Por lo tanto, el equipo de investigación presentó resultados tanto en el conjunto de datos original como en un subconjunto de las secuencias más largas contenidas en cada tarea para evaluar mejor el acceso a la memoria en situaciones de contexto más difíciles y más largas.

Los umbrales son los 8,000 tokens de QuALITY, los 6,000 tokens de SummScreenFD y los 12,000 tokens de GovReport.

Modelo

El equipo de investigación utilizó Stable Beluga 2 como LLM base en la mayoría de sus experimentos porque ofrece un rendimiento de vanguardia en comparación con varias otras variantes de LLM, que el equipo de investigación demostrará.

Stable Beluga 2 es un modelo de ajuste de instrucciones basado en LLaMA-2 de 70B en el que el ajuste fino no se superpone con la tarea de evaluación del equipo de investigación.

Tiene una longitud máxima de contexto de 4.096 tokens. El equipo de investigación utilizó el modelo de una manera cero, sin más ajustes ni proporcionar un pequeño número de ejemplos de la tarea del equipo de investigación en contexto.

El equipo de investigación utilizó el muestreo p superior para la construcción del árbol de memoria, así como las acciones y la inferencia para generar la navegación.

El equipo de investigación estableció el número máximo de nodos para QuALITY, SummScreenFD y GovReport, maxt Mt = 8, 5, 8 y tamaño de segmento|c|, respectivamente = 1000, 1000, 1200。

Punto de referencia

El equipo de investigación comparó tres tecnologías de memoria basadas en el mismo LLM subyacente con Stable Beluga 2:

  1. Ventana de contexto completo

  2. Recursividad

  3. Recuperación

La línea base de la ventana de contexto completo usa los 4.096 tokens para procesar el texto de entrada largo y la generación. Debido a que las instancias en el conjunto de datos a menudo exceden los límites de contexto, el equipo de investigación truncó la longitud, tomando la derecha (más cercana) o la izquierda (menos cercana) del texto como entrada, y evaluó ambos métodos.

Para la búsqueda, el equipo de investigación utilizó Contriever (Izacard et al., 2022) para seleccionar párrafos de contextos largos en función de las consultas. Los pasajes con las puntuaciones más altas se concatenan en el contexto de entrada del LLM hasta que llenan el contexto.

Finalmente, el equipo de investigación implementó una línea de base que recorre el resumen hasta el párrafo actual de información de los tokens del párrafo anterior, donde cada párrafo es de 2.500 tokens y el tamaño máximo del resumen es de 500 tokens.

Resultados y análisis

Resultados clave

La Tabla 2 a continuación muestra una comparación entre MEMWALKER y otras líneas de base.

MEMWALKER SUPERÓ SIGNIFICATIVAMENTE LA LÍNEA DE BASE RECURSIVA EN TODAS LAS TAREAS.

Esto muestra la limitación de la recursividad, donde la información relevante para la consulta se pierde después de unos pocos pasos.

MEMWALKER TAMBIÉN VA MÁS ALLÁ DE LA BÚSQUEDA, DONDE LOS PASAJES PROVIENEN DE UNA HISTORIA COHERENTE Y LARGA EN LUGAR DE UN DOCUMENTO SEPARADO.

En estas tareas, la línea base de contexto completo puede funcionar bien en la configuración de tareas "sin procesar", que puede contener secuencias relativamente cortas, aunque la elección del truncamiento izquierdo o derecho para obtener el mejor rendimiento parece depender del conjunto de datos.

Sin embargo, con la excepción de la variable hold-right en QuALITY y la variable hold-left en GovReport, MEMWALKER logra un mayor rendimiento en la configuración original que la línea de base de contexto completo, lo que puede deberse al sesgo posicional en el conjunto de datos, donde los párrafos relevantes suelen aparecer al principio o al final del texto.

SIN EMBARGO, EN LAS VERSIONES LARGAS DE LAS TRES TAREAS, MEMWALKER SUPERÓ TODAS LAS LÍNEAS DE BASE, ES DECIR, MOSTRÓ UN GRAN RENDIMIENTO A MEDIDA QUE EL ACCESO A LA MEMORIA SE VOLVÍA MÁS CRÍTICO.

MEMWALKER también supera a otros modelos disponibles públicamente, incluidos LongChat y MPT.

MEMWALKER mejora el rendimiento en secuencias largas. El equipo de investigación proporcionó un desglose del rendimiento de la longitud de la secuencia de entrada para cada tarea en la Figura 2 anterior.

CUANDO LA LONGITUD DEL TEXTO ES MÁS CORTA, MEMWALKER ES INFERIOR A LA LÍNEA DE BASE DE CONTEXTO COMPLETO (TRUNCAMIENTO IZQUIERDO O DERECHO), PERO SUPERA A AMBOS TIPOS DE TRUNCAMIENTO EN SECUENCIAS MÁS LARGAS PARA TODAS LAS TAREAS.

El beneficio de la lectura interactiva es que el aumento apropiado en la longitud del texto se hace evidente, es decir, se muestra un mejor rendimiento una vez que la longitud de la secuencia es significativamente mayor que la longitud del contexto de 4.096 LLM.

La inferencia es esencial para la navegación del árbol de memoria.

LA EFICACIA DE MEMWALKER DEPENDE EN GRAN MEDIDA DE LAS CAPACIDADES DE RAZONAMIENTO DEL LLM SUBYACENTE. Para cada decisión de navegación, el equipo de investigación utilizó un mensaje de LLM que pedía al LLM que primero generara una justificación en lenguaje natural para justificar la siguiente acción predicha, como se muestra en la Tabla 1 a continuación.

El equipo de investigación muestra en la Tabla 3 a continuación cómo el razonamiento afecta el rendimiento comparando Llama 2 Chat (variantes de parámetros 13B y 70B) con Stable Beluga 2 (70B) y eliminando la línea "Proporcionar razonamiento antes de tomar una decisión..." del mensaje.

En el caso de los modelos más pequeños y menos capaces (13B), el rendimiento está muy por detrás de los modelos 70B debido a la incapacidad de seguir instrucciones. De hecho, requerir justificaciones de inferencia para modelos más débiles puede degradar el rendimiento, tal vez porque no pueden generar y aprovechar esas justificaciones.

Stable Beluga 2 superó a Llama 2 Chat del mismo tamaño de LLM y también mostró capacidades de razonamiento mejoradas.

En el caso de Stable Beluga 2, requerir justificaciones de razonamiento en todas las tareas mejora el rendimiento. ESTO RESALTA LA CARACTERÍSTICA PRINCIPAL DE MEMWALKER: SI EL LLM SUPERA EL UMBRAL DE CAPACIDAD DE RAZONAMIENTO CRÍTICO, PUEDE RAZONAR SOBRE ENTRADAS LARGAS A LO LARGO DE MÚLTIPLES RONDAS SIN GENERAR RÁPIDAMENTE ERRORES ENTRE RONDAS.

En el caso de los LLM débiles que no toman buenas decisiones de navegación, los errores pueden acumularse y el rendimiento general se ve afectado.

A MEDIDA QUE LAS CAPACIDADES DE RAZONAMIENTO DE LLM CONTINÚEN MEJORANDO EN LOS PRÓXIMOS AÑOS, EL EQUIPO DE INVESTIGACIÓN ESPERA QUE MÉTODOS COMO MEMWALKER SEAN MÁS EFECTIVOS.

La memoria de trabajo es necesaria para navegar por el árbol de memoria. CUANDO MEMWALKER TOMA LA DECISIÓN DE RECORRER EL ÁRBOL DE MEMORIA Y LEER PÁRRAFOS RELACIONADOS, PUEDE PERDER EL CONOCIMIENTO DEL CONTEXTO GENERAL.

Por lo tanto, el modelo transporta información desde el nodo a lo largo de la ruta de navegación como memoria de trabajo, donde el contenido de la memoria de trabajo se actualiza cuando el modelo elige la siguiente ruta.

EL EQUIPO DE INVESTIGACIÓN EVALUÓ EL RENDIMIENTO DE MEMWALKER CON O SIN MEMORIA DE TRABAJO, Y LOS RESULTADOS SE MUESTRAN EN LA FIGURA 3 A CONTINUACIÓN.

El equipo de investigación descubrió que el agotamiento de la memoria de trabajo resultó en una disminución significativa en el rendimiento en todas las tareas, con una caída del 5-13% en la precisión, lo que demuestra la importancia de este componente.

MEMWALKER puede recuperarse del camino equivocado.

CUANDO MEMWALKER NAVEGA POR EL ÁRBOL DE MEMORIA, NO SOLO NECESITA ENCONTRAR SU RUTA A LOS PÁRRAFOS MÁS RELEVANTES, SINO QUE TAMBIÉN PUEDE NECESITAR RECUPERARSE DE TODOS LOS ERRORES DE RECUPERACIÓN.

El equipo de investigación presenta las estadísticas de recuperación en la Tabla 4 a continuación. MEMWALKER realiza operaciones de navegación de recuperación (y, por lo tanto, cambia las rutas) en aproximadamente el 15% - 20% de las muestras, pero en estos ejemplos es posible recuperarlas y obtenerlas correctamente en QuALITY, 60% para SummScreenFD y ∼ 80% para GovReport.

MEMWALKER permite una lectura eficiente. DADO QUE MEMWALKER DETERMINA QUÉ PARTES DEL TEXTO LARGO DEBEN LEERSE, LA CARGA ÚTIL QUE DEBE LEERSE PUEDE SER MÁS PEQUEÑA QUE TODA LA SECUENCIA.

El equipo de investigación muestra el promedio de los porcentajes de lecturas de contexto largo para todos los ejemplos, como se muestra en la Figura 4 a continuación para cada una de las tres tareas. El equipo de investigación descubrió que, en promedio, solo el 63-69% del texto necesitaba ser leído para responder preguntas, incluido el contenido de los nodos del árbol.

En el camino hacia el éxito, la lectura requerida se reduce aún más al 59% – 64%.

Compensaciones para la construcción del árbol de memoria

Cuando el equipo de investigación construye el árbol de memoria, surge una compensación fundamental: resumir párrafos más grandes en nodos para reducir la profundidad del árbol, pero potencialmente perder la precisión del contenido.

Del mismo modo, la conexión de muchos nodos de nivel inferior a los nodos anteriores puede ayudar a aplanar el árbol, pero puede dificultar las tareas de navegación de LLM en cada nodo.

La figura 5 a continuación muestra el rendimiento de diferentes configuraciones del árbol de memoria en QuALITY. Resumir párrafos más grandes suele ser más beneficioso que resumir párrafos más pequeños y conectar más nodos secundarios al nodo principal.

Sin embargo, el rendimiento se estancó a medida que aumentaba el número máximo de nodos, lo que muestra la compensación de cuánta información se puede empaquetar en los nodos durante la construcción del árbol de memoria.

Recursos:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)