Si desea que el modelo grande aprenda más ejemplos en _, este método le permite ingresar más caracteres

2023-09-13 02:11:01

Sabemos que cuando se utilizan modelos de lenguaje grandes como GPT y LLaMA, hay un límite de caracteres en la entrada. Por ejemplo, el límite de caracteres de entrada actual para ChatGPT es 4096 caracteres. Esto limita el alcance de tecnologías como el aprendizaje contextual y el encadenamiento de pensamientos, ya que los usuarios sólo pueden proporcionar un número limitado de ejemplos. Recientemente, un equipo de investigación de Nous Research, EleutherAI y la Universidad de Ginebra propusieron YaRN, una solución para expandir la ventana contextual, y lograron mejores resultados que todos los demás métodos en experimentos, y también lanzaron LLaMA 2 optimizado usando YaRN 7B/ Modelo 13B con ventanas de contexto de 64k y 128k.

Fuente de la imagen: Generada por IA ilimitada

Los modelos de lenguaje grande (LLM) basados en transformadores han demostrado la poderosa capacidad de realizar aprendizaje contextual (ICL) y casi se han convertido en la única opción para muchas tareas de procesamiento del lenguaje natural (NLP). El mecanismo de autoatención de Transformer permite que el entrenamiento sea altamente paralelizado, lo que permite procesar secuencias largas de manera distribuida. La duración de la secuencia utilizada para la formación LLM se denomina ventana de contexto.

La ventana de contexto de un Transformer determina directamente la cantidad de espacio que puede proporcionar ejemplos, lo que limita sus capacidades ICL.

Si la ventana de contexto del modelo es limitada, hay menos espacio para proporcionar al modelo ejemplos sólidos sobre los cuales realizar ICL. Además, otras tareas como el resumen también se ven seriamente obstaculizadas cuando la ventana de contexto del modelo es particularmente corta.

Debido a la naturaleza del lenguaje mismo, la ubicación de los tokens es crucial para un modelado efectivo y la autoatención no codifica directamente la información de ubicación debido a su paralelismo. La arquitectura Transformer introduce codificación posicional para resolver este problema.

La arquitectura Transformer original utilizaba una codificación de posición sinusoidal absoluta, que luego se mejoró hasta convertirse en una codificación de posición absoluta que se puede aprender. Desde entonces, los esquemas de codificación de posición relativa han mejorado aún más el rendimiento del transformador. Actualmente, las codificaciones de posición relativa más populares son T5 Relative Bias, RoPE, XPos y ALiBi.

La codificación posicional tiene una limitación recurrente: la incapacidad de generalizar a la ventana de contexto vista durante el entrenamiento. Aunque algunos métodos como ALiBi tienen la capacidad de realizar algunas generalizaciones limitadas, ningún método se ha generalizado aún a secuencias significativamente más largas que su longitud previamente entrenada.

Han surgido varios esfuerzos de investigación que intentan superar estas limitaciones. Por ejemplo, algunas investigaciones proponen modificar ligeramente RoPE mediante interpolación posicional (PI) y ajustar una pequeña cantidad de datos para ampliar la longitud del contexto.

Hace dos meses, Bowen Peng de Nous Research compartió una solución en Reddit, que consiste en implementar una "interpolación compatible con NTK" incorporando pérdidas de alta frecuencia. NTK aquí se refiere al kernel tangente neuronal.

Afirma que el RoPE extendido compatible con NTK puede ampliar significativamente la ventana de contexto del modelo LLaMA (más de 8k) sin ningún ajuste fino y con un impacto mínimo en la perplejidad.

¡Recientemente, se publicó un artículo relacionado escrito por él y otros tres colaboradores!

* papel:

Modelo:

En este artículo, realizaron dos mejoras a la interpolación compatible con NTK, que se centran en diferentes aspectos:

El método de interpolación dinámica NTK se puede utilizar para modelos previamente entrenados sin necesidad de realizar ajustes.
Método de interpolación NTK parcial, el modelo puede lograr el mejor rendimiento cuando se ajusta con una pequeña cantidad de datos de contexto más largos.

El investigador dijo que antes del nacimiento de este artículo, los investigadores ya habían utilizado la interpolación compatible con NTK y la interpolación NTK dinámica en algunos modelos de código abierto. Los ejemplos incluyen Code Llama (que usa interpolación compatible con NTK) y Qwen 7B (que usa interpolación NTK dinámica).

En este artículo, basándose en resultados de investigaciones anteriores sobre interpolación compatible con NTK, interpolación NTK dinámica e interpolación NTK parcial, los investigadores propusieron YaRN (otro método de extensión RoPE), un método que puede extender eficientemente el uso de la incrustación de posición de rotación (Rotary Position). Embeddings / RoPE) método de ventana de contexto del modelo, se puede utilizar para los modelos de las series LLaMA, GPT-NeoX y PaLM. El estudio encontró que YaRN puede lograr el mejor rendimiento de expansión de la ventana de contexto actualmente utilizando solo muestras representativas de aproximadamente el 0,1% del tamaño de datos previo al entrenamiento del modelo original para realizar ajustes.

método

La incrustación de posición rotativa (RoPE) se introdujo por primera vez en el artículo "RoFormer: transformador mejorado con incrustación de posición rotativa" y también es la base de YaRN.

En pocas palabras, RoPE se puede escribir de la siguiente manera:

Para un LLM previamente entrenado con una longitud de contexto fija, si se utiliza la interpolación posicional (PI) para extender la longitud del contexto, se puede expresar como:

Se puede ver que PI extenderá igualmente todas las dimensiones de RoPE. Los investigadores descubrieron que los límites de interpolación teóricos descritos en el artículo de PI eran insuficientes para predecir la dinámica compleja entre la incrustación interna de RoPE y LLM. A continuación se describirán los principales problemas de PI descubiertos y resueltos por los investigadores, para que los lectores puedan comprender los antecedentes, las causas y las razones de la solución de varios métodos nuevos en YaRN.

Pérdida de información de alta frecuencia: interpolación compatible con NTK

Si solo miramos RoPE desde la perspectiva de la codificación de información, de acuerdo con la teoría del núcleo tangente neuronal (NTK), si la dimensión de entrada es baja y la incrustación correspondiente carece de componentes de alta frecuencia, entonces es difícil para una red neuronal profunda aprender información de alta frecuencia.

Para resolver el problema de la pérdida de información de alta frecuencia al incorporar la interpolación para RoPE, Bowen Peng propuso la interpolación compatible con NTK en la publicación de Reddit anterior. Este enfoque no expande cada dimensión de RoPE por igual, sino que distribuye la presión de interpolación en múltiples dimensiones expandiendo menos las frecuencias altas y más las frecuencias bajas.

En las pruebas, los investigadores encontraron que este enfoque superó a PI en la escala del tamaño del contexto del modelo no sintonizado. Sin embargo, este método tiene un inconveniente importante: dado que no es solo un esquema de interpolación, algunas dimensiones se extrapolarán a algunos valores "externos", por lo que el ajuste fino utilizando la interpolación compatible con NTK no es tan efectivo como PI.

Además, debido a la existencia de valores "externos", el factor de expansión teórico no puede describir con precisión el verdadero grado de expansión del contexto. En la práctica, para una extensión de longitud de contexto determinada, el valor de extensión s debe establecerse ligeramente por encima del valor de extensión esperado.

Pérdida de distancia local relativa - interpolación NTK parcial

Para la incrustación de RoPE, hay una observación interesante: dado un tamaño de contexto L, hay algunas dimensiones d donde la longitud de onda λ es más larga que la longitud de contexto máxima vista en la etapa de pre-entrenamiento (λ > L), lo que ilustra la incrustación de algunas dimensiones Posiblemente distribución desigual en el dominio giratorio.

La interpolación compatible con PI y NTK trata todas las dimensiones ocultas de RoPE por igual (como si tuvieran el mismo efecto en la red). Pero los investigadores han descubierto a través de experimentos que Internet trata algunas dimensiones de manera diferente que otras. Como se mencionó anteriormente, dada la longitud del contexto L, la longitud de onda λ de algunas dimensiones es mayor o igual a L. Dado que cuando la longitud de onda de una dimensión oculta es mayor o igual a L, todos los pares de posiciones codificarán una distancia específica, los investigadores plantean la hipótesis de que se retiene la información de posición absoluta; cuando la longitud de onda es más corta, la red sólo puede obtener la relativa posición información.

Al estirar todas las dimensiones de RoPE utilizando la relación de expansión s o el valor de cambio de base b', todos los tokens se acercan entre sí porque el producto escalar de dos vectores girados una cantidad menor será mayor. Esta extensión puede afectar seriamente la capacidad de LLM para comprender pequeñas relaciones locales entre sus incorporaciones internas. Los investigadores especulan que esta compresión hará que el modelo se confunda acerca del orden de posición de las fichas cercanas, perjudicando así la capacidad del modelo.

Para resolver este problema, basándose en lo que observaron los investigadores, optaron por no interpolar dimensiones de frecuencia más altas en absoluto.

También propusieron que para todas las dimensiones d, las dimensiones con r < α se interpolan linealmente de acuerdo con el grado de extensión s (como PI, se evita la extrapolación); las dimensiones con r > β no se interpolan en absoluto (siempre se extrapolan).

Utilizando la técnica descrita en esta sección, nació un método llamado interpolación NTK parcial. Este método mejorado supera a los métodos de interpolación anteriores compatibles con PI y NTK y funciona tanto en modelos ajustados como sin ajustar. Debido a que este método evita extrapolar dimensiones donde el dominio de rotación está distribuido de manera desigual, se evitan todos los problemas de ajuste de los métodos anteriores.

Escalado dinámico: interpolación NTK dinámica

Al escalar el tamaño del contexto sin realizar ajustes finos utilizando el método de interpolación RoPE, esperamos que el modelo se degrade lentamente en tamaños de contexto más largos, en lugar de degradarse por completo en todo el tamaño del contexto cuando el grado de escala excede el valor deseado.

En el método NTK dinámico, el grado de expansión s se calcula dinámicamente.

Durante la inferencia, cuando se excede el tamaño del contexto, el grado de expansión s cambia dinámicamente, lo que permite que todos los modelos se degraden lentamente en lugar de fallar repentinamente al alcanzar el límite del contexto de entrenamiento L.

Se agregó similitud de coseno mínimo promedio para largas distancias - YaRN

Incluso si se resuelve el problema de la distancia local descrito anteriormente, se debe interpolar una distancia mayor en el umbral α para evitar la extrapolación. Intuitivamente, esto no parece ser un problema, porque la distancia global no requiere una alta precisión para distinguir las posiciones de los tokens (es decir, la red sólo necesita saber aproximadamente si el token está al principio, en el medio o al final de la secuencia).

Sin embargo, los investigadores descubrieron que dado que la distancia mínima promedio se acerca a medida que aumenta el número de tokens, la distribución de atención softmax será más nítida (es decir, reducirá la entropía promedio de atención softmax). En otras palabras, a medida que la interpolación reduce el impacto de la atenuación de larga distancia, la red "prestará más atención" a más tokens. Este cambio en la distribución puede conducir a una degradación en la calidad del resultado del LLM, que es otro problema no relacionado con el anterior.

Dado que la entropía en la distribución softmax de atención disminuye cuando las incrustaciones de RoPE se interpolan a tamaños de contexto más largos, nuestro objetivo es revertir esta disminución de entropía (es decir, aumentar la "temperatura" del logit de atención). Esto se puede hacer multiplicando la matriz de atención intermedia por la temperatura t > 1 antes de aplicar softmax, pero dado que la incrustación de RoPE está codificada como una matriz de rotación, es posible simplemente extender la longitud de la incrustación de RoPE en un factor constante √t . Esta técnica de "extensión de longitud" permite la investigación sin modificar el código de atención, lo que puede simplificar enormemente la integración con los procesos de inferencia y entrenamiento existentes, y la complejidad temporal es solo O (1).

Dado que este esquema de interpolación de RoPE interpola de manera no uniforme las dimensiones de RoPE, es difícil calcular una solución analítica para la relación de temperatura requerida t con respecto al grado de expansión s. Afortunadamente, los investigadores descubrieron mediante experimentos que, al minimizar la perplejidad, todos los modelos LLaMA siguen aproximadamente la misma curva de ajuste:

Los investigadores descubrieron esta fórmula en LLaMA 7B, 13B, 33B y 65B. Descubrieron que esta fórmula también funcionaba bien para los modelos LLaMA 2 (7B, 13B y 70B), con diferencias sutiles. Esto sugiere que esta propiedad de aumento de entropía es común y se generaliza a diferentes modelos y datos de entrenamiento.

Esta modificación final dio como resultado el método YaRN. El nuevo método supera a todos los métodos anteriores en escenarios tanto ajustados como no ajustados sin requerir ninguna modificación en el código de inferencia. Solo es necesario modificar el algoritmo utilizado para generar incrustaciones de RoPE en primer lugar. YaRN es tan simple que se puede implementar fácilmente en todas las bibliotecas de inferencia y capacitación, incluida la compatibilidad con Flash Attention 2.

experimento

Los experimentos muestran que YaRN puede expandir con éxito la ventana contextual de LLM. Además, lograron este resultado después de entrenar solo 400 pasos, lo que representa aproximadamente el 0,1 % del corpus de preentrenamiento original del modelo, lo que supone una disminución significativa en comparación con los resultados de investigaciones anteriores. Esto muestra que el nuevo método es altamente eficiente desde el punto de vista computacional y no tiene costos de inferencia adicionales.

Para evaluar el modelo resultante, los investigadores calcularon la perplejidad de documentos largos y los calificaron según los puntos de referencia existentes, y descubrieron que el nuevo método superó a todos los demás métodos de expansión de ventanas de contexto.

Primero, los investigadores evaluaron el desempeño del modelo cuando se aumentó la ventana de contexto. La Tabla 1 resume los resultados experimentales.

La Tabla 2 muestra la perplejidad final en 50 documentos GovReport sin censura (al menos 16 mil tokens de longitud).

Para probar la degradación del rendimiento del modelo cuando se usan extensiones de contexto, evaluamos el modelo utilizando la suite Hugging Face Open LLM Leaderboard y lo comparamos con las puntuaciones existentes del modelo de referencia LLaMA 2 y los modelos compatibles con PI y NTK disponibles públicamente. La Tabla 3 resume los resultados experimentales.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Altcoin Season Coming?
45k Popularidad
2Stablecoin Regulation Crackdown
26k Popularidad
3Spark Program KOLs Surpass 1,000+
7k Popularidad
4ETH Breaks Through $3,800
24k Popularidad
5Institutions Buying Bitcoin
18k Popularidad

Anclado