¿Cómo se puede comparar el modelo pequeño con el modelo grande?, el Instituto de Tecnología de Beijing lanzó el modelo grande MindLLM de Mingde, y el modelo pequeño tiene un gran potencial

Fuente original: Heart of the Machine

Fuente de la imagen: Generado por Unbounded AI

Los modelos de lenguaje grandes (LLM) han demostrado un excelente rendimiento en una variedad de tareas de lenguaje natural, pero todavía hay muchos problemas prácticos en la aplicación de modelos de lenguaje grandes en el campo profesional debido al alto costo de entrenar e inferir modelos de parámetros grandes. Por lo tanto, el equipo comenzó con modelos ligeros para maximizar las ventajas de los datos y los modelos, basándose en un mejor servicio a dominios específicos y reduciendo los costos de entrenamiento e inferencia de las tareas posteriores.

El 24 de octubre, el equipo de procesamiento del lenguaje natural del Instituto de Tecnología de Beijing lanzó una serie de modelos bilingües ligeros de lenguaje grande (Ming De LLM) - MindLLM, que presenta de manera integral la experiencia acumulada en el proceso de desarrollo de modelos a gran escala, cubriendo cada paso detallado de la construcción de datos, la arquitectura del modelo, la evaluación y el proceso de aplicación. MindLLM se entrena desde cero y viene en las versiones 1.3B y 3B, igualando o superando constantemente el rendimiento de otros modelos grandes de código abierto en algunos puntos de referencia públicos. MindLLM también mejora sus capacidades mediante la introducción de un innovador marco de ajuste de instrucciones diseñado específicamente para modelos más pequeños. Además, para aplicaciones en verticales específicas como el derecho y las finanzas, MindLLM también tiene una excelente adaptabilidad de dominio.

*Dirección:

Lo más destacado de MindLLM

  1. Compartimos nuestra experiencia en el procesamiento de datos, incluido el mantenimiento de texto web de alta calidad y alto porcentaje, la preservación de datos a largo plazo como libros y conversaciones, la reducción de la resolución de los datos matemáticos y la mejora de los datos del código. Se recomienda codificar los datos de manera uniforme para el aprendizaje por competencias y fragmentar algunos ejemplos para escenarios de aprendizaje de versiones pequeñas.
  2. Los resultados de nuestra evaluación superaron a algunos modelos grandes, y el modelo MindLLM superó a modelos grandes como MPT-7B y GPT-J-6B en las evaluaciones MMLU y AGI sin ajuste y alineación de instrucciones. En chino, MindLLM muestra un rendimiento comparable al de los modelos paramétricos más grandes en C y CMMLU. Específicamente, MindLLM-3B supera a modelos más grandes como MOSS-Base-16B y MPT-7B en capacidad matemática, y supera a Baichuan2-7B y MOSS-Base-16B en bilingüismo. Además, MindLLM-1.3B es matemáticamente mejor que GPT-Neo-1.3B del mismo tamaño.
  3. Comparamos dos estrategias de entrenamiento diferentes en el aprendizaje bilingüe y observamos el efecto de si los datos se distribuyeron uniformemente o no durante el período previo al entrenamiento. Concluimos que para modelos ligeros (≤7B) con escala de capacidad limitada, no es óptimo lograr capacidades complejas como la alineación matemática, de razonamiento o bilingüe a través de estrategias preentrenadas y luego entrenadas por transferencia porque es difícil integrar el conocimiento nuevo y el existente. Por el contrario, una estrategia más eficaz es comenzar desde cero e integrar múltiples tipos de datos en combinación con las necesidades de las tareas posteriores para garantizar que las capacidades requeridas se adquieran de manera consistente y eficiente.
  4. Hemos descubierto que la utilización de datos personalizados para capacidades específicas durante el ajuste de instrucciones puede mejorar significativamente las capacidades específicas de los modelos ligeros, como el razonamiento integral o el conocimiento de la materia.
  5. Introducimos un enfoque para construir un conjunto de instrucciones utilizando una estrategia de filtrado masivo basada en la entropía y demostramos su eficacia en el filtrado de datos de ajuste de instrucciones de alta calidad para modelos ligeros. Demostramos que en el contexto de los modelos ligeros, el rendimiento del modelo se puede optimizar de manera más efectiva mejorando la calidad de los datos de ajuste de instrucciones, en lugar de simplemente aumentar la cantidad de datos.
  6. Nuestros modelos han demostrado un excelente desempeño en áreas específicas, particularmente en áreas como el derecho y las finanzas. Descubrimos que las diferencias en el tamaño de los parámetros del modelo no producen diferencias significativas dentro de un dominio en particular, y que los modelos más pequeños pueden superar a los modelos más grandes. Nuestro modelo supera a todos los modelos con tamaños de parámetros de 1,3 B a 3 B en un dominio determinado, mientras que sigue siendo competitivo con modelos con tamaños de parámetros que van de 6B a 13B, y la capacidad del modelo para clasificar dentro de un dominio específico se mejora significativamente bajo el enfoque COT.

RELACIONADO CON LOS DATOS

Procesamiento de datos

Utilizamos datos de entrenamiento tanto en inglés como en chino. Los datos en inglés se derivaron del conjunto de datos de Pile y se procesaron posteriormente. Los datos chinos incluyen datos de entrenamiento de fuentes abiertas como Wudao y CBooks, así como datos que rastreamos de Internet. Para garantizar la calidad de los datos, empleamos métodos estrictos de manejo de datos, especialmente para los datos rastreados desde la web.

Nuestro enfoque para el procesamiento de datos incluye lo siguiente:

  1. Limpieza de formato: Utilizamos un analizador de páginas web para extraer y limpiar el contenido de texto de la página web de origen. Esta fase incluye la eliminación de logotipos HTML, CSS, JS y emojis inútiles para garantizar el flujo del texto. Además, nos ocupamos del problema del formato incoherente. También hemos conservado los caracteres chinos tradicionales chinos para que nuestros modelos puedan aprender literatura o poesía antigua.
  2. Filtrado de datos de baja calidad: Evaluamos la calidad de los datos en función de la relación entre texto y contenido en una página web. En concreto, excluimos las páginas con una densidad de texto inferior al 75 % o inferior a 100 caracteres chinos. Este umbral se determinó a través de pruebas iniciales de una muestra de páginas web.
  3. Deduplicación de datos: Dado que los datos de WuDao también se derivan de páginas web, algunos sitios web pueden publicar la misma información repetidamente. Por lo tanto, utilizamos un algoritmo hash sensible localmente para eliminar el contenido duplicado y, al mismo tiempo, preservar la diversidad de nuestros datos de entrenamiento.
  4. Filtrado de información sensible: Dado que las páginas web suelen contener contenido sensible, utilizamos heurísticas y léxicos sensibles para detectar y filtrar este contenido con el fin de construir un modelo de lenguaje positivo. Para proteger la privacidad, utilizamos expresiones regulares para identificar información privada, como números de identificación, números de teléfono y direcciones de correo electrónico, y las reemplazamos con etiquetas especiales.
  5. Filtrado de datos con poca información: Los datos con poca información, como los anuncios, suelen aparecer como contenido duplicado. Por lo tanto, identificamos este tipo de contenido analizando la frecuencia de frases en el contenido de texto de la página web. Creemos que la repetición frecuente de frases del mismo sitio web puede ser perjudicial para el aprendizaje de modelos. Como resultado, nuestros filtros se centran principalmente en frases repetitivas continuas en anuncios o sitios web no autenticados.

Al final, obtuvimos los siguientes datos:

Ley de Escalamiento

Para garantizar un rendimiento óptimo ante el aumento de los costes de entrenamiento para el aprendizaje profundo y los grandes modelos de lenguaje, realizamos un estudio de la relación entre el volumen de datos y la capacidad del modelo, conocido como Scaling Law. Antes de comenzar a entrenar un modelo de lenguaje grande con miles de millones de parámetros, primero entrenamos un modelo más pequeño para establecer un patrón de escalado para entrenar un modelo más grande. Los tamaños de nuestros modelos oscilan entre 10 millones y 500 millones de parámetros, y cada modelo se entrena en un conjunto de datos que contiene hasta 10 mil millones de tokens. Estos entrenamientos usan una configuración de hiperparámetros coherente, así como el mismo conjunto de datos que se mencionó anteriormente. Al analizar la pérdida final de varios modelos, pudimos establecer un mapeo desde el entrenamiento FLOP (operación de coma flotante) hasta la pérdida. Como se muestra en la figura siguiente, la cantidad de datos de entrenamiento saturados por modelos de diferentes tamaños es diferente y, a medida que aumenta el tamaño del modelo, también aumentan los datos de entrenamiento necesarios. Con el fin de cumplir con los requisitos de datos precisos del modelo objetivo, utilizamos la fórmula de la ley de potencia para ajustarnos a la ley de expansión del modelo, y predijimos la cantidad de datos de entrenamiento y el valor de pérdida del modelo de parámetros 3B, y los comparamos con los resultados reales (estrellas en la figura).

Curso de Promiscuidad de Datos y Datos

El impacto de los datos en el modelo abarca principalmente dos aspectos: (1) la proporción de mezcla, que implica cómo se combinan los datos de diferentes fuentes para construir un conjunto de datos de un tamaño específico con un presupuesto de capacitación limitado; y (2) cursos de datos, que se ocupan de la disposición de datos de diferentes fuentes para entrenar habilidades específicas del modelo.

Redujimos la escala de cada fuente de datos para entrenar un modelo con 15 millones de parámetros. Como se muestra en la siguiente figura, los diferentes tipos de datos tienen diferentes efectos en la eficiencia del aprendizaje y en el resultado final del modelo. Por ejemplo, un problema matemático tiene una menor pérdida final de datos y es más rápido de aprender, lo que indica que tiene un patrón más pronunciado y es fácil de aprender. Por el contrario, los datos de libros informativos o diversos textos web tardan más en adaptarse. Algunas áreas de datos similares pueden estar más cerca en términos de pérdidas, como los datos relacionados con la tecnología y las enciclopedias.

Con el fin de explorar más a fondo el rendimiento del modelo que generaliza de un solo dato a otros datos, usamos estos modelos entrenados con un solo dato para probar otros datos, y los resultados se muestran en la siguiente figura:

Diferentes conjuntos de datos muestran diferentes grados de capacidad de generalización, por ejemplo, el modelo entrenado con texto web, enciclopedia y datos de preguntas y respuestas muestra una fuerte capacidad de generalización en múltiples fuentes de datos, lo que indica que su contenido contiene información diversa en varios campos. Por el contrario, los modelos entrenados con datos de artículos académicos y datos de código sobresalen en capacidad matemática, pero son débiles en generalización, probablemente debido a la especificidad del dominio y a la información de formato único.

Además, realizamos varios ajustes de escala de datos para equilibrar el rendimiento del modelo en varias aptitudes y tipos de datos. Basándonos en nuestros experimentos, finalizamos algunos principios para las proporciones de mezcla de datos:

  • Mantener una proporción de texto web y datos de enciclopedia de alta calidad debido a su diversidad.
  • Reducir la proporción de datos matemáticos para evitar el sobreajuste.
  • Mejore las matemáticas con código y datos académicos al tiempo que mitiga el formato a través de diversos muestreos y procesamiento relacionado.
  • Mantenga algunos datos de conversación y libros para ayudarlo a aprender las dependencias a largo plazo.

Además de la proporción de combinación, el curso de datos (el orden en el que se entrenan los datos) también afecta a la capacidad de aprendizaje del modelo. Los experimentos han demostrado que los datos de diferentes fuentes harán que el modelo aprenda diferentes habilidades, y que la adopción de un orden de aprendizaje específico puede ayudar al modelo a aprender nuevas habilidades debido a la correlación entre las habilidades. Nuestros experimentos se centran en el impacto de los datos mixtos no uniformes y el aprendizaje por transferencia de lenguaje en las capacidades del modelo. Nuestros experimentos muestran que los datos mixtos no homogéneos conducen a un entrenamiento continuo del modelo en el mismo tipo de datos, que está más cerca del contexto del aprendizaje en contexto y, por lo tanto, funciona mejor en el aprendizaje de pocos disparos. Sin embargo, debido a la desigualdad del aprendizaje, puede haber un fenómeno notable de olvido en las etapas posteriores. Además, el aprendizaje por transferencia lingüística ayuda al modelo a adquirir la capacidad bilingüe, y el rendimiento general puede mejorarse a través de la alineación lingüística, pero creemos que el entrenamiento con datos lingüísticos mixtos es más propicio para la asignación y adquisición de la capacidad del modelo.

Arquitectura del modelo de MindLLM

MindLLM-1.3B utiliza la misma arquitectura de modelo que GPTNeo-1.3B, mientras que MindLLM-3B añade algunas mejoras. En función de la estabilidad del entrenamiento y las capacidades del modelo, utilizamos Rotated Position Coding (RoPE) DeepNorm, RMS Norm, FlashAttention-2, GeGLU y otros operadores de optimización.

Añadimos un vocabulario chino sobre la base de GPTNeo-1.3B y utilizamos estrategias de aprendizaje por transferencia para entrenar la capacidad bilingüe de MindLLM-1.3B. Para MindLLM-3B, usamos BPE de SentencePiece para tokenizar los datos, y nuestro Tokenizer tiene un tamaño de vocabulario final de 125,700. A través de dos formas diferentes de formación bilingüe, hemos resumido algunos métodos comunes y prácticos de pre-formación.

Pre-Entrenamiento

Detalles previos al entrenamiento

Utilizamos dos estrategias diferentes para entrenar el modelo bilingüe MindLLM de novo. Para el MindLLM-3B, preentrenamos 800,000 pasos directamente con datos bilingües mixtos en chino e inglés mientras aprendíamos el dominio del chino y el inglés; Para MindLLM-1.3B, primero entrenamos previamente 101.100 pasos en el conjunto de datos en inglés y luego entrenamos 105.900 pasos utilizando datos mixtos de chino e inglés. Los detalles previos a la capacitación son los siguientes:

### Evaluación de la fase previa al entrenamiento

Un modelo más pequeño puede vencer a un modelo más grande

Para evaluar la habilidad del modelo en chino e inglés, utilizamos MMLU (5 disparos) y AGI (4 disparos) para evaluar el dominio del modelo, y C-(5 disparos) y CMMLU (4 disparos) para evaluar el dominio chino del modelo. El AGI utiliza una parte de opción múltiple de la parte en inglés. Los resultados de la evaluación son los siguientes:

En términos de rendimiento en inglés, los MindLLM superan a GPT-J-6B, MPT-7B, MOSS-Base-16B y otros modelos más grandes en promedio, y se acercan a Falcon-7B, que tienen tamaños de modelo más grandes y más datos preentrenados. En términos de capacidad china, los MindLLM funcionan a la par con los LLM de código abierto. Vale la pena señalar que los MindLLM todavía se están capacitando para la mejora.

Además, descubrimos que MindLLM-1.3B, que se entrenó con datos chinos e ingleses, superó a GPT-Neo-1.3B en MMLU, lo que sugiere que esto puede ser una ganancia del aprendizaje bilingüe, ya que existen similitudes entre los diferentes idiomas en términos de habilidades. Los experimentos y análisis detallados se pueden encontrar en la Sección 4.4 del documento.

Los modelos más pequeños tienen un gran potencial en términos de capacidades específicas

En el caso de los modelos ligeros, cuando se aplican a tareas posteriores, solo es suficiente la presencia de capacidades relevantes. Por lo tanto, en esta sección, queremos explorar el rendimiento y los factores que influyen en los MindLLM y otros LLM ligeros en capacidades específicas (≤7B).

Evaluamos el desempeño de diferentes modelos principalmente desde tres perspectivas: habilidad matemática, capacidad de razonamiento y capacidad de alineación bilingüe, debido a que estas tres habilidades son complejas y relativamente importantes para la aplicación de modelos bilingües.

(1) Matemáticas**

Utilizamos el conjunto de datos Arithmetic (5-shot) para evaluar la capacidad aritmética del modelo, y GSM8K (4-shot) y MATH (4-shot) para evaluar la capacidad matemática general del modelo. Los resultados de la evaluación son los siguientes:

我们发现,MindLLM-3B在数学能力上的平均分数达到了16.01,超过了MOSS-Base-16B(15.71)和MPT-7B(13.42),GPT-J-6B(13.15)。此外MindLLM-1.3B的数学平均水平也超过了相同大小的GPT-Neo-1.3B。以上结果表明,轻量级模型在数学上有着巨大的潜力,较小的模型也可以在具体领域表现出超越或者与更大模型相当的水平。进一步,我们可以看到数学能力较为出色的(均分≥15) , a excepción de MindLLM-3B, todos los modelos son de aproximadamente 7B. Esto sugiere que la adquisición completa de habilidades complejas, como las habilidades matemáticas, puede estar limitada por el tamaño del modelo, y esta especulación puede reflejarse aún más en la evaluación del bilingüismo y la capacidad de razonamiento del modelo.

(2) Razonamiento

Utilizamos HellaSwag y WinoGrande para evaluar la capacidad de razonamiento lingüístico del modelo (5 disparos), LogiQA para evaluar la capacidad de razonamiento lógico del modelo (5 disparos), PubMedQA, PIQA y MathQA para evaluar la capacidad de razonamiento del conocimiento del modelo (5 disparos) y BBH para evaluar la capacidad de razonamiento integral del modelo (3 disparos). Los resultados específicos de la evaluación son los siguientes:

En primer lugar, bajo la condición de que la capacidad del modelo sea limitada, la ganancia de capacidad que aporta el bilingüismo puede tener que equilibrarse con el consumo de capacidad del modelo por el aprendizaje de idiomas. El aprendizaje de idiomas puede ocupar parte de la capacidad del modelo, lo que permite adquirir habilidades complejas como la capacidad de razonamiento. Por ejemplo, MindLLM-1.3B es mejor que GPT-Neo-1.3B en términos de indicadores de evaluación MMLU en inglés, pero es más débil que este último en términos de capacidad de razonamiento promedio (35.61 vs 38.95). Las habilidades de razonamiento de Blooms no eran particularmente buenas, pero el bilingüismo en la evaluación de seguimiento fue excelente, lo que también confirmó el punto anterior hasta cierto punto. Por ejemplo, el rendimiento de inferencia de Open-LLaMA-3B es comparable al de un modelo más grande y sus datos previamente entrenados son de 1 TBB, lo que supera los datos previamente entrenados utilizados por otros modelos del mismo tamaño. Como resultado, los modelos más pequeños todavía tienen el potencial de lograr un rendimiento comparable en términos de poder de inferencia que los modelos más grandes. Además, encontramos que el nivel de inferencia de MOSS no parece funcionar mejor que la ganancia del aprendizaje de los datos de código anteriores (MOSS continuó entrenándose en CodeGen), pero el trabajo relacionado muestra que el código es realmente beneficioso para la mejora de la capacidad de inferencia del modelo, por lo que vale la pena seguir discutiendo cómo y cuándo se agregan los datos de código al entrenamiento para mejorar la capacidad de inferencia del modelo.

(3) Bilingüismo

Utilizamos la sección zh-en de Flores-101 (8 disparos) para evaluar la alineación de modelos bilingües o multilingües en chino e inglés. Incluimos Chinese-LLaMA-2-7B, un modelo de adaptación al dominio chino basado en LLaMA-2-7B. Los resultados son los siguientes:

Descubrimos que el modelo funcionó mal tanto en las traducciones del inglés al chino tradicional, principalmente porque los datos previamente entrenados representaban una pequeña proporción del chino tradicional. Además, solo Blooms y MindLLM-3B sobresalieron en la alineación de idiomas bidireccionales de chino a inglés e inglés a chino, seguidos por LLaMA-2-7B y MOSS-Base-16B. LLaMA-7B y Open-LLaMA-7B solo se pueden alinear en chino a inglés. Combinado con los datos previos al entrenamiento del modelo, se puede ver que los datos previos al entrenamiento de Blooms y MindLLM-3B tienen una proporción equilibrada de chino e inglés, mientras que la proporción de datos chinos en LLaMA-2-7B es mucho menor que la del inglés, y la proporción de chino en los datos previos al entrenamiento de LLaMA-7B y Open-LLaMA-7B es aún menor.

Por lo tanto, tenemos dos conclusiones, una es que el modelo puede aprender la representación del lenguaje a través de una gran cantidad de entrenamiento en un idioma, y al mismo tiempo puede ser entendido y alineado unidireccionalmente mezclando en un pequeño número de otros lenguajes, como el rendimiento de LLaMA-7B y Open-LLaMA-7B. La segunda es que si se requiere una mejor alineación bilingüe o multilingüe, se necesita una proporción equilibrada de datos bilingües o multilingües, como Blooms y MindLLM-3B, al comienzo de la capacitación previa. Además, encontramos que MOSS-Base-16B y Chinese-LLaMA-2-7B tienen una proporción razonable de datos en chino e inglés, y el único todavía no muestra alineación bidireccional, y nuestra hipótesis es que es difícil agregar la capacidad de alineación bilingüe durante el entrenamiento de migración, porque el modelo en este momento ya tiene mucho conocimiento, lo que producirá contradicciones en el caso de capacidad pequeña. Esto también explica el hecho de que MindLLM-1.3B, que tiene una capacidad más pequeña y una pequeña cantidad de datos en la etapa inicial del entrenamiento monolingüe, no ha adquirido capacidades de alineación bilingüe. El Baichuan 2-7B, por otro lado, es muy bueno en otros aspectos, y puede ocupar una gran capacidad y no puede aprender una buena alineación bidireccional.

(4) Resumen

Al evaluar los resultados de la fase de pre-entrenamiento, tenemos las siguientes dos conclusiones:

  • Los modelos ligeros tienen un gran potencial para superar o alcanzar el nivel de los modelos más grandes en un dominio o capacidad particular.
  • Para el modelo con capacidad limitada (≤7B), podemos asignar razonablemente la proporción de datos en los datos previos al entrenamiento de acuerdo con los requisitos de capacidad específicos de la tarea posterior, lo que es propicio para que el modelo aprenda y obtenga la habilidad objetivo desde cero, y para integrar y promover diferentes conocimientos y capacidades.

Además, el artículo también compara el efecto de mantener una distribución uniforme de los datos en el rendimiento previo al entrenamiento del modelo, y los resultados experimentales muestran que el método de construcción de datos de aprendizaje de cursos similares puede funcionar igual que el del modelo entrenado en la etapa inicial y el método de construcción de datos uniformemente mixtos, pero eventualmente puede conducir a un olvido catastrófico y una disminución repentina en el rendimiento, mientras que el rendimiento de este último es más consistente y estable, y el conocimiento de los datos previos al entrenamiento obtenidos es más completo, lo que también apoya la segunda conclusión anterior. Además, encontramos que la forma en que se construyen los datos en un curso similar puede producir más distribuciones de datos que son propicias para mejorar la capacidad de aprendizaje contextual del modelo. Los detalles se pueden encontrar en la sección 4.5 del documento.

Instrucción Puesta a punto

Queremos explorar cómo puede funcionar el ajuste fino de instrucciones en modelos ligeros con diferentes tipos de conjuntos de datos. La siguiente tabla es el conjunto de datos de ajuste fino de instrucciones que utilizamos, incluido nuestro conjunto de datos chino reconstruido MingLi, el conjunto de datos público Tulu (inglés) y el conjunto de datos bilingüe chino-inglés MOSS.

**Para MindLLM, la calidad de los datos para el ajuste fino de las instrucciones es más importante que la cantidad de datos. **

El rendimiento de los modelos MindLLM-1.3B y MindLLM-3B en C- después de las instrucciones de ajuste fino con diferentes datos es el siguiente. De acuerdo con los resultados experimentales, el rendimiento del modelo entrenado con un conjunto de datos de ajuste fino de 50.000 instrucciones cuidadosamente seleccionado es mayor que el del conjunto de datos de ajuste fino de instrucciones con alta diversidad y gran volumen de datos. Del mismo modo, el modelo mostró el mismo rendimiento en el indicador inglés MMLU (véase la Tabla 14 para más detalles). Por lo tanto, para los modelos ligeros, es muy importante definir y filtrar conjuntos de datos de ajuste fino de instrucciones de alta calidad.

Ajuste fino de la estrategia de filtrado de datos basada en la entropía de datos

¿Cómo se definen los datos de ajuste fino de instrucciones de alta calidad? Algunos estudiosos han propuesto que la diversidad de los datos de ajuste fino de la instrucción puede representar la calidad de los datos de los conjuntos de datos de ajuste fino de la instrucción. Sin embargo, según nuestros experimentos, la entropía de los datos y la longitud de los datos del ajuste fino de las instrucciones afectarán más al rendimiento de los modelos ligeros. Definimos la pérdida de entropía cruzada de cada dato en el modelo preentrenado como la entropía de los datos, y agrupamos los datos de acuerdo con la entropía de los datos mediante el algoritmo K-Means para obtener diferentes grupos de datos. Los resultados de MindLLM después de ajustar las instrucciones de cada grupo de datos y luego C- se muestran en la siguiente tabla (consulte la Tabla 19 para obtener detalles de los resultados de MMLU):

De acuerdo con los resultados de la tabla, el rendimiento de MindLLM-1.3B y MindLLM-3B en diferentes grupos de datos es significativamente diferente. Además, analizamos la relación entre la entropía de los datos y la precisión del modelo en C- y MMLU y el ajuste de funciones, como se muestra en la figura:

El punto del pentagrama rojo en la imagen es la entropía del modelo previamente entrenado. Según el análisis, cuando la entropía de los datos es de 1 a 1,5 veces mayor que la entropía del modelo previamente entrenado, el modelo tiene el mejor rendimiento después de ajustar las instrucciones de los datos en este intervalo. Por lo tanto, definimos los datos de alta calidad por la entropía de los datos y proponemos un método para el cribado de datos de alta calidad.

MindLLM puede ajustar el conjunto de datos a través de instrucciones específicas para obtener capacidades específicas

Con el fin de explorar si MindLLM puede mejorar efectivamente sus capacidades específicas a través del ajuste fino de la instrucción, utilizamos la parte de datos del examen del conjunto de datos de 10,000 volúmenes para ajustar el modelo, con el fin de mejorar la capacidad de conocimiento de la materia del modelo. Realizamos una evaluación sobre C-, y los resultados son los siguientes:

Se puede ver que después del ajuste fino de la instrucción, el modelo ha mejorado en gran medida su capacidad de conocimiento del tema, y el rendimiento de 1.3B MindLLM incluso supera al de modelos más grandes como ChatGLM-6B y Chinese-Alpaca-33B. Por lo tanto, creemos que MindLLM puede mejorar sus capacidades específicas después de ajustar las instrucciones y, debido a sus características de ligereza, es más adecuado para su implementación en tareas verticales posteriores.

Aplicación de campo

Con el fin de demostrar el efecto de la aplicación de pequeños modelos en campos específicos, utilizamos dos conjuntos de datos públicos en finanzas y derecho para verificarlos. A partir de los resultados, se puede observar que el tamaño del parámetro del modelo tiene un cierto impacto en el rendimiento del dominio, pero el rendimiento no es obvio. El rendimiento de MindLLM supera a otros modelos de tamaño comparable en la aplicación de campo y es comparable a modelos más grandes. Además, demuestra que el modelo pequeño tiene un gran potencial en el campo de aplicación.

Sector Financiero

En este campo, la tarea de clasificación de la percepción emocional se lleva a cabo sobre datos financieros. En primer lugar, rastreamos los datos desde el 13 de mayo de 2011 hasta el 31 de agosto de 2023 de Oriental Fortune y etiquetamos los datos en función de las siguientes fluctuaciones del precio de las acciones. Posteriormente, los datos se dividen en conjuntos de entrenamiento y prueba por fecha. Teniendo en cuenta el desequilibrio de las categorías, tomamos muestras de los datos y terminamos usando 320.000 datos como conjunto de entrenamiento y 20.000 datos como conjunto de prueba.

Utilizamos dos métodos de entrenamiento diferentes para comparar el rendimiento de diferentes modelos. En primer lugar, solo se utiliza el ajuste fino supervisado simple (SFT) para clasificar el texto. En segundo lugar, los datos del proceso de inferencia se destilaron de ChatGPT y se añadieron al entrenamiento como datos auxiliares, utilizando el método de entrenamiento COT (Chain-Of-Thought).

Los resultados experimentales muestran que el efecto de todos los modelos de referencia y de los modelos MindLLM puede mejorarse en diversos grados complementando la información auxiliar. Se puede observar además que el rendimiento de MindLLM-1.3B y 3B mejora en un 27,81% y 26,28% respectivamente en comparación con el rendimiento del entrenamiento SFT por el entrenamiento COT, y MindLLM mejora más significativamente que otros modelos, excepto Baichuan-7B. Además, MindLLM-1.3B y 3B logran el mejor rendimiento a la misma escala y superan a ChatGLM2-6B y Open-LLaMA-7B.

ÁMBITO JURÍDICO

Recopilamos algunos datos legales disponibles públicamente y los combinamos con algunos datos de directivas generales para el ajuste fino de directivas (SFT) de MindLLM. Con el fin de explorar cómo la longitud del token de los datos afecta el rendimiento del modelo en dominios específicos, utilizamos datos de diferentes longitudes de datos para entrenar MindLLM por separado. Primero examinamos todos los datos con una longitud inferior a 450 y, a continuación, utilizamos los tokenizadores MindLLM-1.3B y MindLLM-3B para filtrar los datos entre 200-300 y 300-450, respectivamente. En la tabla siguiente se enumeran las estadísticas y los modelos de entrenamiento correspondientes:

Para evitar errores causados por el sesgo y la falta de experiencia en la evaluación humana, utilizamos ChatGPT como evaluador de las siguientes maneras. Un conjunto de datos de múltiples rondas de conversaciones de consulta legal generadas por ChatGPT, 100 de las cuales se extrajeron como datos de evaluación. Usamos ChatGPT para evaluar las respuestas del modelo al asesoramiento legal, dejamos que ChatGPT clasifique las respuestas del modelo y luego calculamos la puntuación Elo en función de los resultados de la clasificación. Finalmente, se seleccionó uno de los mejores modelos para comparar MindLLM-Law con otros modelos de código abierto.

En el caso de Bloom, los modelos GPT-Neo y Open-LLaMA se ajustaron utilizando el mismo conjunto de datos que MindLLM-Law, y los resultados de la comparación son los siguientes:

Los resultados muestran que MindLLM-Law no ha superado el modelo con parámetros 13B y ChatGLM2-6B, debido principalmente a la falta de datos en la fase de pre-entrenamiento de la ley para aportar mayor ganancia. Sin embargo, MindLLM tiene ventajas generales obvias sobre Baichuan2-7B-Chat, Open-LLaMA-7B ajustado y otros modelos del mismo tamaño.

Resumen

En este artículo se presenta la familia de modelos MindLLM, que actualmente incluye dos modelos de lenguaje grandes ligeros. Discutimos su proceso de capacitación en detalle, incluido el procesamiento de datos, la capacitación previa, el ajuste fino y las aplicaciones de dominio, y compartimos valiosas experiencias y aplicaciones técnicas acumuladas en estos campos. A pesar de su tamaño de parámetro relativamente pequeño, los MindLLM han tenido un buen rendimiento en múltiples pruebas de rendimiento, incluso superando a algunos de los modelos más grandes en algunos aspectos. MindLLM exhibe un rendimiento superior a otros modelos ligeros en términos de adaptación al dominio. Al mismo tiempo, son capaces de lograr resultados comparables con una velocidad de entrenamiento más rápida y menos recursos de entrenamiento que los modelos más grandes. Basándonos en el análisis anterior, creemos que los modelos pequeños todavía tienen un gran potencial. Mejoraremos aún más la calidad de los datos, optimizaremos el proceso de entrenamiento del modelo y escalaremos el modelo para mejorar el rendimiento de MindLLM de forma multidimensional. En el futuro, planeamos experimentar en tareas más posteriores y dominios específicos para lograr aplicaciones específicas más profundas de modelos grandes ligeros.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)