¡Dos líneas de código para resolver las limitaciones del diálogo de modelos de lenguaje grandes! El equipo chino de Jia Jiaya y el MIT lanzaron una tecnología de extensión de texto ultralarga

2023-10-11 07:27:27

Fuente de la imagen: Generado por Unbounded AI

Perdido a mitad de camino, el modelo es perezoso, cuanto más largo es el contexto, más tonto se vuelve el modelo... Si ha experimentado productos de modelos de lenguaje grandes, los usuarios sentirán la limitación de la longitud de entrada de texto hasta cierto punto, como cuando desee discutir contenido un poco más largo con el modelo grande, debe dividir la entrada y el modelo grande pronto olvidará los puntos principales de la entrada anterior.

¡Este es un defecto típico de diálogo del modelo de lenguaje grande! Al igual que los niños que nacen con déficit de atención, es difícil concentrarse en terminar un nuevo libro. La clave del defecto es que el modelo carece de capacidades de procesamiento de texto largo. Eso ya se ha roto.

Recientemente, las nuevas tecnologías y los nuevos modelos lanzados por el equipo de Jia Jiaya y el MIT aparecieron silenciosamente en las listas calientes de los principales sitios web de código abierto: la lista caliente de la cara abrazada primero, paperwithcode la lista caliente primero, Github todo el proyecto python caliente quinto, las estrellas de GitHub superaron las 1.000 en una semana, y las publicaciones técnicas relacionadas en Twitter fueron vistas casi 180.000 ...

GitHub Stars ha alcanzado los 1.3K

Las publicaciones relacionadas con la tecnología en Twitter recibieron casi 180.000 visitas

La tecnología, llamada LongLoRA, es práctica pero sorprendentemente simple: con solo dos líneas de código y una máquina A100 de 8 tarjetas, la longitud del texto del modelo 7B se puede extender a 100k tokens, y la longitud del texto del modelo 70B se puede extender a 32k tokens; Al mismo tiempo, el equipo de investigación también lanzó LongAlpaca, el primer modelo de lenguaje grande de diálogo de texto largo con parámetros 70B.

Lanzamiento del primer modelo de lenguaje grande de texto largo de 70B del mundo

La propuesta de LongLoRA ha resuelto por primera vez los defectos de diálogo del modelo global de lenguaje grande y, desde entonces, docenas de páginas de artículos, cientos de páginas de informes y libros enormes ya no se han convertido en el punto ciego de los grandes modelos.

En este sentido, algunos profesionales dijeron con entusiasmo que LongLoRA es una lámpara de esperanza en el laberinto de grandes modelos lingüísticos. Representa el replanteamiento y la atención de la industria a los modelos de lenguaje grandes de texto largo, expande de manera efectiva la ventana de contexto de los modelos de lenguaje grandes, permite que el modelo considere y procese secuencias de texto largo y es una invención innovadora de modelos de lenguaje grandes.

Además de las innovaciones tecnológicas, una de las dificultades de los grandes modelos lingüísticos a la hora de abordar los problemas de texto largo es la falta de datos de diálogo de texto largo disponibles públicamente.

Con este fin, el equipo de investigación recopiló especialmente 9K pares de corpus de preguntas y respuestas de texto largo, incluidas varias preguntas y respuestas sobre libros famosos, artículos, informes detallados e incluso estados financieros.

No fue suficiente responder preguntas largas, el equipo seleccionó un corpus de preguntas y respuestas cortas de 3K mezclado con un corpus de preguntas y respuestas de 9K para el entrenamiento, de modo que el modelo grande de texto largo tenga capacidades de diálogo de texto corto al mismo tiempo. Este conjunto de datos completo, llamado LongAlpaca-12k, es actualmente de código abierto.

Basándose en el conjunto de datos LongAlpaca-12k, el equipo de investigación entrenó y evaluó diferentes tamaños de parámetros 7B, 13B, 70B y modelos de código abierto, incluidos LongAlpaca-7B, LongAlpaca-13B y LongAlpaca-70B.

Leer novelas, cambiar papeles y señalar que la economía es el rey en todos los sentidos

Sin más preámbulos, seleccione a ciegas algunas demostraciones para ver el efecto LongAlpaca de un modelo grande que aplica la tecnología LongLoRA superpuesta a un corpus de preguntas y respuestas de 12K.

让系统新读一篇论文，并根据ICLR的审查指南，对其提出修改意见，从而提升该论文的接收率。LongAlpaca的意见是：通过更精确地阐明新颖性，提供更严格和更有对比性的实验结果(包括具体的数据集和指标) , una aplicación más amplia y una dirección futura, centrándose en las contribuciones e impactos clave, y se mejorarán las posibilidades de que el trabajo sea aceptado.

Ahora, dejemos que el sistema lea dos nuevos artículos diferentes, y dejemos que LongAlpaca resuma las diferencias estilísticas entre las conferencias ICLR y CVPR. LongAlpaca concluye que los artículos de CVPR tienden a ser más estructurados y experimentales, centrándose en la practicidad y el tecnicismo. El estilo de ensayo de ICLR, por otro lado, es más flexible, centrándose en análisis teóricos clave y derivaciones matemáticas en lugar de formatos estándar.

Se puede ver que el modelo entrenado LongAlpaca puede aceptar fácilmente nuevos artículos académicos de formato largo, y es bastante preciso para responder preguntas académicamente relevantes.

A continuación, veamos la interpretación del modelo LongAlpaca en el ámbito económico con un alto umbral de lectura y comprensión.

Sobre la base de la recopilación de perspectivas económicas mundiales del FMI para el período 2012-2023, se resume la situación económica año tras año y se pronostican las tendencias económicas futuras. LongAlpaca nos dijo que la situación económica mundial en 2023 es incierta y se espera que el crecimiento se desacelere en comparación con 2022; En los próximos años, la expansión económica mundial será moderada e inferior a la prevista, aunque persisten importantes desafíos, como las tensiones geopolíticas y la volatilidad de los mercados financieros, que deben abordarse cuidadosamente mediante la cooperación multilateral y las reformas estructurales.

LongAlpaca también puede leer nuevas novelas y analizar el contenido después de leerlas. Los modelos de comparación seleccionados a continuación son LongAlpaca y Llama2 con parámetros 13B, y observan sus respectivos rendimientos.

En el famoso libro "Viaje al Oeste", ¿por qué Sun Wukong es muy poderoso cuando causa problemas en el Palacio Celestial, pero se ha frustrado repetidamente en el camino para obtener las escrituras? LongAlpaca dio 5 razones, que se pueden resumir aproximadamente como "La inmadurez del Rey Mono, los fuertes oponentes, la fuerza limitada, el engaño del enemigo, la falta inicial de compañeros y otros factores lo llevaron al fracaso en el viaje". Pero con el tiempo, ganó sabiduría, experiencia y camaradas, lo que le permitió derrotar a sus enemigos más formidables. "

La respuesta de Llama2 es más sencilla. "Si bien hace un escándalo por el Palacio Celestial, no es necesariamente exacto decir que representa una fuerza invicta. De hecho, finalmente fue derrotado por el poderoso Tang Sanzang en Viaje al Oeste. Llama2 no dio la respuesta correcta y también planteó la necesidad de más información sobre el contenido.

Esta vez, deje que el sistema lea "El problema de los tres cuerpos" nuevamente y luego pregunte por qué Ye Wenjie contactó a los alienígenas en la primera parte y por qué se arrepintió en la etapa posterior. Long Alpaca cree que el contacto inicial de Ye Wenjie con los extraterrestres fue motivado por el idealismo y la venganza, pero con el tiempo, su visión de la humanidad ha cambiado, dándose cuenta del peligro que puede traer a toda la humanidad, y su remordimiento crece día a día. La respuesta fue muy clara.

La respuesta de Llama2 fue: "A través de la interacción con los extraterrestres, espera obtener una comprensión más profunda de la naturaleza del universo y su lugar en él". Ye Wenjie gradualmente se dio cuenta de que los extraterrestres y su tecnología no podían resolver su problema. La respuesta fue general, y luego comenzó a comentar la novela en su conjunto, respondiendo a las no preguntas.

A partir de las respuestas dadas por los modelos, se puede ver que algunos modelos como Llama2 [2] Es posible que hayas visto la novela durante el proceso de pre-entrenamiento, pero si haces una breve pregunta de texto basada solo en el tema de la novela, la respuesta no es ideal.

Las respuestas de los dos modelos están contrastadas, y lo alto y lo bajo son altos. LongAlpaca es una buena mano para cambiar artículos académicos, comentar sobre tendencias económicas globales y leer novelas, superando a Llama2.

Dos líneas de código y tres conclusiones clave

Podría decirse que Llama2 es uno de los modelos de código abierto más poderosos de la comunidad de IA, líder en la industria, y LongAlpaca puede ganar. La tecnología LongLoRA detrás de ella ha atraído con éxito la atención de los internautas, ¿cómo lo hizo?

Resulta que en el proceso de procesamiento de texto largo en grandes modelos de lenguaje, el principal costo de la computación se concentra en el mecanismo de autoatención, y su sobrecarga aumenta al cuadrado con la longitud del texto.

En respuesta a este problema, el equipo de investigación propuso la tecnología LongLoRA y simuló el mecanismo de autoatención global mediante agrupamiento y desplazamiento.

En pocas palabras, se trata de dividir las fichas correspondientes al texto largo en diferentes grupos, hacer cálculos de autoatención dentro de cada grupo, y la forma de agrupar se compensa con diferentes cabezas de atención. Este método no solo puede ahorrar en gran medida la cantidad de cálculo, sino también mantener la transmisión del campo receptivo global.

Y este método de implementación también es muy conciso, ¡solo se pueden completar dos líneas de código!

[5]LongLoRA también explora formas de entrenar en rangos bajos. Métodos originales de entrenamiento de bajo rango, como LoRA , no logra buenos resultados en la migración de la longitud del texto. Sobre la base de un entrenamiento de bajo rango, LongLoRA introduce capas de incrustación (capa de incrustación y capas de normalización) para un ajuste fino, a fin de lograr el efecto de ajuste fino completo.

Al realizar la expansión y el entrenamiento de texto de diferentes longitudes, los efectos específicos de LongLoRA, LoRA y las técnicas de ajuste fino de todos los parámetros se pueden consultar en tres dimensiones:

En términos de perplejidad-perplejidad, el rendimiento del método LoRA original se está deteriorando, mientras que LongLoRA y el ajuste fino de todos los parámetros pueden mantener buenos resultados en varias longitudes de texto.

En términos de consumo de memoria, LongLoRA y el LoRA original tienen ahorros significativos en comparación con el ajuste fino de parámetros completos. Por ejemplo, para el entrenamiento de modelos con una duración de 8k, LongLoRA reduce el consumo de memoria de 46,3 GB a 25,6 GB en comparación con el ajuste fino de parámetros completos.

En términos de tiempo de entrenamiento, para el entrenamiento del modelo de longitud de 64k, en comparación con LoRA convencional, LongLoRA reduce el tiempo de entrenamiento de aproximadamente 90 ~ 100 horas a 52.4 horas, mientras que el ajuste fino completo de los parámetros supera las 1000 horas.

El método de entrenamiento minimalista, los recursos informáticos y el consumo de tiempo mínimos, y la excelente precisión hacen que LongLoRA sea posible a gran escala. En la actualidad, todas las tecnologías y modelos relevantes han sido de código abierto, y los usuarios interesados pueden implementar su propia experiencia.

Cabe mencionar que esta es otra obra maestra del equipo de Jajaya siguiendo el modelo multimodal de gran tamaño LISA que "puede dividirlo todo" lanzado el 9 de agosto. Con solo dos meses de diferencia, hay que decir que la velocidad y la capacidad de esta investigación es tan asombrosa como LongLoRA.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
2k Popularidad
2Alpha Points System Opens
6k Popularidad
3Ethereum 10th Anniversary
11k Popularidad
4ETF In-Kind Mechanism
4k Popularidad
5ate ETH 10th Anniversary Investment Zone
19k Popularidad

Anclado