Capacitación de medio día con un presupuesto de 1.000 yuanes, el efecto es comparable al de los modelos grandes convencionales, de código abierto y LLaMA-2 chino disponible comercialmente.

2023-09-25 05:56:51

Fuente de la imagen: Generada por IA ilimitada

En comparación con LLaMA-1, LLaMA-2 introduce más corpus de alta calidad, logra importantes mejoras de rendimiento y está totalmente permitido para uso comercial, estimulando aún más la prosperidad de la comunidad de código abierto y ampliando la imaginación de aplicaciones de modelos a gran escala. Sin embargo, el costo de entrenar previamente modelos grandes desde cero es bastante alto y, en broma, se llama "50 millones de dólares para ingresar al juego", lo que desanima a muchas empresas y desarrolladores. Entonces, ¿cómo se construyen tus propios modelos grandes a un costo menor?

Como líder en la reducción de costos y el aumento de la eficiencia para modelos grandes, el equipo de Colossal-AI aprovecha al máximo las capacidades básicas de LLaMA-2 y adopta métodos de entrenamiento eficientes, utilizando solo alrededor de 8,5 mil millones de datos de tokens, 15 horas y miles de yuanes. en costos de capacitación ** Construí con éxito el LLaMA-2 chino con excelente rendimiento, que tiene un rendimiento excelente en múltiples listas de evaluación.

En comparación con el LLaMA-2 original, sobre la base de mejorar con éxito la habilidad en chino, ha mejorado aún más su habilidad en inglés y su rendimiento es comparable al modelo SOTA previamente entrenado a la misma escala en la comunidad de código abierto. Siguiendo el principio consistente de código abierto del equipo de Colossal-AI, ** todo el proceso de capacitación, el código y los pesos son completamente de código abierto, sin restricciones comerciales, ** y se proporciona un marco de sistema de evaluación completo Colossal para lograr un bajo costo. reproducibilidad. Las soluciones relacionadas también se pueden transferir a cualquier campo vertical y se pueden utilizar para crear modelos previamente entrenados de bajo costo desde cero.

Código fuente abierto y peso:

Actuación

*Nota: Según la puntuación Colossal, las puntuaciones entre paréntesis provienen de la lista oficial de puntuaciones de los modelos correspondientes, y la puntuación C proviene de la tabla de clasificación del sitio web oficial. *

En las listas de evaluación comunes en chino e inglés, podemos ver que en la lista MMLU en inglés, Colossal-LLaMA-2-7B-base ha superado el problema del olvido catastrófico con el apoyo de una capacitación previa incremental de bajo costo. 44.47 -> 53.06), el rendimiento es excelente entre todos los modelos a escala 7B.

En la lista china, se comparan principalmente CMMLU, AGI, GAOKAO y C-, y el efecto supera con creces a otros modelos de localización chinos basados en LLaMA-2. Incluso en comparación con otros modelos conocidos que utilizan corpus chino y cuyo entrenamiento previo desde cero puede costar decenas de millones de dólares, Colossal-LLaMA-2 todavía funciona bien a la misma escala. Especialmente en comparación con el LLaMA-2 original, ha habido un salto cualitativo en la capacidad china (CMMLU: 32,97 -> 49,89).

Sin embargo, mediante el ajuste mediante SFT, LoRA y otros métodos, el conocimiento y la capacidad que se pueden inyectar de manera efectiva en el modelo base son muy limitados y no pueden satisfacer mejor las necesidades de crear conocimiento de dominio de alta calidad o aplicaciones de modelo vertical.

Para evaluar mejor el rendimiento del modelo, el equipo de Colossal-AI no solo se basa en indicadores cuantitativos, sino que también evalúa manualmente diferentes aspectos del modelo. A continuación se muestran algunos ejemplos:

A juzgar por el registro de pérdidas de toda la capacitación, si bien se aprovecha la capacidad del sistema Colossal-AI para reducir costos y aumentar la eficiencia, la convergencia del modelo también está totalmente garantizada, con solo alrededor de 8,5 mil millones de tokens (8,5 mil millones de tokens) y una potencia informática. Costo de varios miles de yuanes. Deje que el modelo logre efectos tan impresionantes. Sin embargo, los grandes modelos del mercado suelen utilizar billones de tokens para la formación y garantizar resultados eficaces, lo que resulta muy costoso.

Entonces, ¿cómo logró el equipo de Colossal-AI reducir los costos de capacitación y lograr tales resultados?

Ampliación de vocabulario e inicialización del modelo

La lista de vocabulario original de LLaMA-2 no está optimizada específicamente para el chino y contiene palabras chinas limitadas, lo que resulta en una comprensión insuficiente del corpus chino. Por lo tanto, primero se amplió el vocabulario de LLaMA-2.

El equipo de Colossal-AI encontró:

La expansión del vocabulario no solo puede mejorar efectivamente la eficiencia de la codificación de secuencias de cadenas, sino también hacer que la secuencia de codificación contenga información más efectiva, lo que será más útil en la codificación y comprensión a nivel de capítulo.
Sin embargo, debido a la pequeña cantidad de datos incrementales previos al entrenamiento, expandir más palabras hará que algunas palabras o combinaciones no tengan significado práctico, lo que dificultará el aprendizaje completo en el conjunto de datos incrementales previos al entrenamiento, lo que afectará el efecto final.
Un vocabulario demasiado grande conducirá a un aumento en los parámetros relacionados con la incrustación, lo que afectará la eficiencia del entrenamiento.

Por lo tanto, después de repetidos experimentos y teniendo en cuenta la calidad y eficiencia del entrenamiento, el equipo de Colossal-AI finalmente decidió ampliar el vocabulario de los 32.000 originales de LLaMA-2 a 69.104.

Con el vocabulario ampliado, el siguiente paso es inicializar la incorporación del nuevo vocabulario basado en el LLaMA-2 original. Para migrar mejor las capacidades originales de LLaMA-2 y lograr una rápida migración del LLaMA-2 original a las capacidades del LLaMA-2 chino, el equipo de Colossal-AI utilizó los pesos del LLaMA-2 original para promediar la nueva incorporación. inicialización. Esto no solo garantiza que la capacidad de inglés del modelo recién inicializado no se vea afectada en el estado inicial, sino que también permite que la capacidad de inglés se transfiera al chino de la manera más fluida posible.

Construcción de datos

Para reducir en mayor medida el costo de la capacitación, los datos de alta calidad desempeñan un papel clave, especialmente para la capacitación previa incremental, que tiene requisitos extremadamente altos en cuanto a la calidad y distribución de los datos. Para filtrar mejor los datos de alta calidad, el equipo de Colossal-AI ha creado un sistema completo de limpieza de datos y un conjunto de herramientas para filtrar datos de mayor calidad para una capacitación previa incremental.

Las siguientes imágenes muestran el proceso completo de gobernanza de datos del equipo de Colossal-AI:

Además del filtrado heurístico común y la deduplicación de datos, también realiza puntuación, clasificación y filtrado de datos clave. Los datos apropiados desempeñan un papel crucial a la hora de estimular la capacidad china de LLaMA-2 y al mismo tiempo superar el catastrófico problema del olvido en inglés.

Finalmente, para mejorar la eficiencia del entrenamiento, para los datos del mismo sujeto, el equipo de Colossal-AI clasificó la longitud de los datos y los empalmó según la longitud máxima de 4096.

Estrategia de entrenamiento

Entrenamiento en varias etapas

En cuanto a la formación, dadas las características del preentrenamiento incremental, el equipo de Colossal-AI diseñó un plan de preentrenamiento incremental jerárquico y multietapa, dividiendo el proceso de formación en tres etapas:

* Etapa de preentrenamiento a gran escala: el objetivo es entrenar el modelo a través de una gran cantidad de corpus para que el modelo pueda producir un texto relativamente fluido. LLaMA-2 completa esta etapa. Después de esta etapa, el modelo domina una gran cantidad de conocimientos de inglés y puede generar resultados fluidos según la predicción del siguiente token.

Etapa de inyección de conocimientos chinos: esta etapa se basa en conocimientos chinos de alta calidad y, por un lado, mejora el dominio del conocimiento chino del modelo y, por otro lado, mejora la comprensión de las palabras del modelo en el vocabulario chino recién agregado.
Etapa de reproducción del conocimiento relevante: esta etapa está dedicada a mejorar la capacidad de comprensión y generalización del conocimiento del modelo y aliviar el problema del olvido catastrófico.

Las múltiples etapas se complementan entre sí y, en última instancia, garantizan que las capacidades del modelo en chino e inglés vayan de la mano.

Entrenamiento con cubo

El preentrenamiento incremental es extremadamente sensible a la distribución de datos y el equilibrio es particularmente importante. Por lo tanto, para garantizar una distribución equilibrada de los datos, el equipo de Colossal-AI diseñó una estrategia de agrupación de datos para dividir el mismo tipo de datos en 10 contenedores diferentes. Durante el proceso de entrenamiento, cada depósito de datos contiene de manera uniforme un contenedor de cada tipo de datos, lo que garantiza que el modelo pueda utilizar cada tipo de datos de manera uniforme.

Sistema de evaluación

Para evaluar mejor el rendimiento del modelo, el equipo de Colossal-AI ha creado un sistema de evaluación completo: Colossal, con la esperanza de evaluar modelos de lenguaje grandes a través de múltiples dimensiones. El código del marco del proceso es completamente de código abierto, lo que no solo admite la reproducción de resultados, sino que también permite a los usuarios personalizar conjuntos de datos y métodos de evaluación de acuerdo con sus diferentes escenarios de aplicación. Las características del marco de evaluación se resumen a continuación:

Cubre conjuntos de datos comunes como MMLU, CMMLU, etc. para evaluar las capacidades de reserva de conocimiento de modelos de lenguaje grandes. Para la forma de preguntas de opción única, además del método de cálculo común de comparar probabilidades ABCD, se agregan métodos de cálculo más completos, como coincidencia absoluta, perplejidad de opción única, etc., para medir de manera más completa el dominio del modelo. del conocimiento. .
Admite evaluaciones de opción múltiple y evaluaciones de texto largo.
Admite métodos de evaluación para diferentes escenarios de aplicación, como diálogo de múltiples rondas, juegos de roles, extracción de información, generación de contenido, etc. Los usuarios pueden evaluar selectivamente las capacidades de diferentes aspectos del modelo según sus propias necesidades y respaldar la expansión de los métodos de personalización y evaluación.

Construya un puente para la migración de modelos grandes generales a modelos grandes verticales

A juzgar por la experiencia del equipo de Colossal-AI, la construcción de la versión china del modelo basada en LLaMA-2 se puede dividir básicamente en los siguientes procesos:

Entonces, ¿se puede reutilizar esta solución?

La respuesta es sí y es muy significativa en el escenario de implementación empresarial.

Con la ola de inteligencia artificial desencadenada por ChatGPT, los principales gigantes de Internet, empresas de inteligencia artificial, nuevas empresas, universidades e instituciones de investigación de todo el mundo están compitiendo por la pista de los grandes modelos generales. Sin embargo, detrás de las capacidades generales de los modelos grandes generales a menudo hay una falta de conocimiento en campos específicos, por lo que en la implementación real, el problema de la ilusión de los modelos grandes se vuelve particularmente grave. Aunque el ajuste empresarial puede lograr ciertos beneficios, la falta de grandes modelos verticales genera cuellos de botella en el rendimiento en la implementación de aplicaciones. Si se puede construir un gran modelo vertical rápidamente y a bajo costo, y luego el negocio se puede ajustar en base al gran modelo vertical, definitivamente podremos dar un paso más en la implementación comercial y aprovechar oportunidades y ventajas.

Al aplicar el proceso anterior para transferir conocimientos en cualquier campo, puede crear un proceso liviano para construir modelos de base verticales grandes en cualquier campo a bajo costo: **

Para la capacitación previa y la construcción de un modelo grande básico desde cero, también podemos aprovechar la experiencia anterior y las capacidades de reducción de costos y mejora de la eficiencia de Colossal-AI para completarlo de manera eficiente y al menor costo.

Optimización del sistema

Las ventajas de costo y rendimiento excepcionales mencionadas anteriormente de Colossal-LLaMA-2 se basan en el sistema de desarrollo de modelos grandes de IA de bajo costo Colossal-AI.

Colossal-AI se basa en PyTorch, que puede reducir los costos de desarrollo y aplicación del entrenamiento/ajuste/inferencia de modelos grandes de IA, mejorar el rendimiento de las tareas del modelo y reducir los requisitos de GPU a través de un paralelismo multidimensional eficiente, memoria heterogénea, etc. En poco más de un año, ha recibido más de 30.000 GitHub Stars en la comunidad de código abierto de GitHub, ocupando el primer lugar en el mundo en herramientas de desarrollo de modelos grandes y segmentación de comunidades, y ha sido desarrollado conjuntamente con muchos fabricantes conocidos, incluidos los principales del mundo. 500 empresas/Optimice 100 mil millones/10 mil millones de parámetros para entrenar previamente modelos grandes o crear modelos verticales.

Plataforma en la nube con IA colosal

Para mejorar aún más la eficiencia del desarrollo y la implementación de modelos grandes de IA, Colossal-AI se ha actualizado aún más a la plataforma en la nube Colossal-AI, que permite a los usuarios realizar capacitación, ajuste e implementación de modelos grandes en la nube en un bajo costo. -Código/sin código a bajo costo, integrando rápidamente varios modelos en aplicaciones personalizadas.

En la actualidad, los principales modelos y soluciones, como Stable Difusion y LLaMA-2, se han preestablecido en la plataforma en la nube Colossal-AI. Los usuarios solo necesitan cargar sus propios datos para realizar ajustes y, al mismo tiempo, también pueden implementar sus propios modelos. Los modelos ajustados como API a precios asequibles le permiten utilizar A10, A800, H800 y otros recursos de GPU sin tener que mantener sus propios clústeres informáticos y diversas infraestructuras. Constantemente se repiten más escenarios de aplicación, diferentes campos, diferentes versiones de modelos, implementación de plataformas de privatización empresarial, etc.

Plataforma en la nube Colossal-AI: platform.luchentech.com
Documentación de la plataforma en la nube Colossal-AI:
Dirección de código abierto Colossal-AI:

Link de referencia:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Simple Earn Annual Rate 24.4%
37k Popularidad
2Gate Launchpad List IKA
39k Popularidad
3ETH Trading Volume Surges
40k Popularidad
4Gate ETH 10th Anniversary Celebration
22k Popularidad
5Trump’s AI Strategy
18k Popularidad

Anclado