¡Punto de referencia de código abierto! El modelo grande bilingüe chino-inglés más fuerte está aquí, con 34 mil millones de parámetros, superando a todos los modelos de código abierto como Llama2-70B

2023-10-13 13:51:44

Autor:Jin Lei

Fuente: Qubits

¡El modelo bilingüe chino-inglés más fuerte en el mundo del código abierto, Wudao Skyhawk 34B, ya está aquí!

¿Qué tan fuerte es? En una palabra:

La capacidad comprensiva del chino y el inglés, la capacidad de razonamiento lógico, etc., superan ampliamente a Llama2-70B y a todos los modelos de código abierto anteriores.

En términos de capacidad de razonamiento, el modelo de referencia de evaluación IRD del diálogo solo es superado por GPT4.

El modelo no solo es lo suficientemente grande como para luchar, sino que también envía un conjunto completo de periféricos de lujo de nivel "barril familiar" de una sola vez.

Lo que puede tener tanto éxito es el pionero de la escuela de código abierto de gran modelo de China, el Instituto de Investigación KLCII.

Si nos fijamos en el enfoque de código abierto de gran modelo de KLCII a lo largo de los años, no es difícil encontrar que está liderando una nueva tendencia:

Ya en 2021, se hizo público el corpus más grande del mundo, y en 2022, fue el primero en enviar el sistema de código abierto de tecnología de modelo grande FlagOpen, y lanzó sucesivamente el sistema de evaluación Flag, el conjunto de datos COIG, el modelo vectorial BGE y otros proyectos estrella de pila de tecnología completa.

Esta audacia proviene del posicionamiento de KLCII como una institución de investigación neutral, sin fines de lucro y sin fines de lucro, y su enfoque principal es una "co-creación sincera de código abierto".

Se entiende que el modelo de pedestal Aquila2-34B lidera la clasificación completa de 22 puntos de referencia de evaluación, incluidos el lenguaje, la comprensión, el razonamiento, el código, el examen y otras dimensiones de evaluación.

Aquí hay una imagen para sentir este sentimiento:

△Figura: Resultados de la evaluación del modelo base (consulte el repositorio oficial de código abierto para obtener resultados detallados de la evaluación del conjunto de datos)

Como se acaba de mencionar, el Instituto de Investigación de Inteligencia Artificial KLCII de Beijing también implementa muy concienzudamente el código abierto hasta el final, llevando el código abierto a toda la familia de una sola vez:

Actualización completa de la serie de modelos Aquila2: modelo básico Aquila2-34B/7B, modelo de diálogo AquilaChat2-34B/7B, modelo de "lenguaje texto-SQL" AquilaSQL;

Se actualiza la nueva versión del modelo vectorial semántico BGE: se cubren los cuatro requisitos principales de búsqueda.

Marco de entrenamiento paralelo eficiente de FlagScale: rendimiento de entrenamiento líder en la industria y utilización de GPU;

Subconjunto de atención de alto rendimiento FlagAttention: soporte innovador para el entrenamiento de texto largo y el lenguaje Triton.

A continuación, echemos un vistazo más de cerca al "código abierto más fuerte" esta vez.

Capacidades de "código abierto más fuertes" de un vistazo

Como acabamos de mencionar, el Aquila2-34B, uno de los modelos de pedestal que se abrió en la pose de "código abierto más fuerte", también incluye un Aquila2-7B más pequeño.

Y la llegada de estos dos también hace que el modelo downstream sea muy rentable.

El modelo de diálogo de código abierto más fuerte

Después de afinar las instrucciones, se ha obtenido la excelente serie de modelos de diálogo AquilaChat2:

AquilaChat2-34B: Es el modelo de diálogo bilingüe chino-inglés de código abierto más fuerte, líder en evaluación integral subjetiva + objetiva;

AquilaChat2-7B: también logró el mejor rendimiento general en el modelo de diálogo chino-inglés de la misma magnitud.

△ Resultados de la evaluación del modelo SFT (consulte el repositorio oficial de código abierto para obtener resultados detallados de la evaluación del conjunto de datos)

Descripción de la reseña:

Para el modelo de diálogo generativo, el equipo de KLCII cree que es necesario juzgar estrictamente de acuerdo con las "respuestas generadas libremente del modelo bajo la entrada de preguntas", que está cerca del caso de uso real del usuario, así que consulte HELM de la Universidad de Stanford[1] Se evalúa el trabajo, que tiene requisitos más estrictos para el aprendizaje contextual del modelo y la capacidad de seguimiento de la instrucción. Durante el proceso de evaluación real, algunas respuestas del modelo de diálogo no cumplen con los requisitos del comando y puede aparecer una puntuación de "0".

Por ejemplo, si la respuesta correcta es "A" según la instrucción, si el modelo se genera como "B" o "La respuesta es A", se le otorgará una puntuación de "0".

Al mismo tiempo, existen otros métodos de evaluación en la industria, como dejar que el modelo de diálogo primero cose "pregunta + respuesta", el modelo calcula la probabilidad de cada texto empalmado, verifica si la respuesta con la mayor probabilidad es consistente con la respuesta correcta y el modelo de diálogo no generará ningún contenido durante el proceso de evaluación, sino que calculará la probabilidad de la opción. Este método de evaluación se desvía mucho del escenario de diálogo real, por lo que no se adopta en la evaluación del modelo de diálogo generativo.

[1]

No solo eso, en términos de capacidad de razonamiento, que es muy crítica para modelos de lenguaje grandes, el rendimiento de AquilaChat2-34B también es muy sorprendente...

Ocupa el primer lugar en el protocolo de evaluación del IRD, superando a modelos como Llama2-70B y GPT3.5, y solo superado por GPT4.

△Figura: Resultados de la evaluación del modelo SFT en el conjunto de datos IRD

Desde la perspectiva de varios logros, ya sea un modelo de pedestal o un modelo de diálogo, la serie Aquila2 puede llamarse la más fuerte en la industria del código abierto.

Longitud de la ventana de contexto de hasta 16K

En el caso de los modelos de lenguaje grandes, la capacidad de controlar la entrada de texto largo y mantener la fluidez contextual durante varias rondas de diálogo es la clave para determinar si la experiencia es buena o mala.

Con el fin de resolver este problema de "sufrir grandes modelos durante mucho tiempo", el Instituto de Investigación de Inteligencia Artificial KLCII de Beijing realizó SFT en 200,000 conjuntos de datos de diálogo de texto largo de alta calidad, extendiendo la longitud efectiva de la ventana de contexto del modelo a 16K de una sola vez.

Y no es solo la mejora de la longitud, el efecto se ha optimizado.

Por ejemplo, en el efecto de evaluación de las cuatro preguntas y respuestas de texto largo en chino e inglés de LongBench, tareas de resumen de texto largo, es muy obvio:

AquilaChat2-34B-16K se encuentra en el nivel líder de los modelos de texto largo de código abierto, cerca del modelo de texto largo GPT-3.5.

△Figura: Evaluación de tareas de comprensión de textos largos

Además, el equipo de KLCII realizó un análisis visual de la distribución de la atención de múltiples modelos de lenguaje que procesan texto ultralargo, y descubrió que todos los modelos de lenguaje tenían un cuello de botella de posición relativa fija, que era significativamente menor que la longitud de la ventana de contexto.

Con este fin, el equipo de KLCII propuso de forma innovadora el método NLPE (Non-Linearized Position Embedding), que mejora la capacidad de epitaxia del modelo ajustando la codificación de la posición relativa y restringiendo la longitud relativa máxima sobre la base del método RoPE.

Los experimentos de continuación de texto en código, chino e inglés Few-Shot Leaning, libros electrónicos y otros campos muestran que NLPE puede extender el modelo 4K Aquila2-34B a una longitud de 32K, y la coherencia del texto continuo es mucho mejor que la de Dynamic-NTK, interpolación de posición y otros métodos.

△Figura: Comparación de los métodos de epitaxia NLPE y Dynamic-NTK convencionales en el modelo base (cuanto menor sea el valor de ppl, mejor)

No solo eso, la instrucción que sigue la prueba de habilidad en HotpotQA, 2WikiMultihopQA y otros conjuntos de datos con una longitud de 5K ~ 15K muestra que la precisión de AquilaChat2-7B (2K) después de la epitaxia NLPE es del 17,2%, mientras que la precisión de AquilaChat2-7B de la extensión Dynamic-NTK es solo del 0,4%.

△Figura: Comparación de los métodos epitaxiales NLPE y Dynamic-NTK convencionales en modelos SFT

Se pueden llevar a cabo todo tipo de escenarios de aplicación reales

Los buenos "resultados" son solo uno de los criterios para probar modelos grandes y, lo que es más importante, "el buen uso es la última palabra".

Esta es también la capacidad de generalización de los modelos grandes, incluso si encuentra problemas que no ha visto, puede tratar fácilmente.

Con este fin, el equipo de Wudao Skyhawk verificó la capacidad de generalización del modelo Aquila2 a través de tres escenarios de aplicación del mundo real.

Construye poderosos agentes en Minecraft

Minecraft es un juego que es un buen campo de pruebas para la tecnología de pruebas de IA.

Ha generado infinitamente mundos complejos y una gran cantidad de tareas abiertas, proporcionando ricas interfaces de interacción para los agentes.

Basándose en esto, KLCII y el equipo de la Universidad de Pekín idearon Plan4MC, un método para resolver de manera eficiente la multitarea de Minecraft sin datos de expertos.

Plan4MC puede entrenar las habilidades básicas del agente mediante el aprendizaje por refuerzo con recompensas intrínsecas, de modo que el agente pueda utilizar la capacidad de razonamiento del gran modelo de lenguaje AquilaChat2 para la planificación de tareas.

Por ejemplo, en el siguiente video, se muestra el efecto del agente que usa AquilaChat2 para completar automáticamente varias rondas de interacción de diálogo.

Ingrese el "estado actual del entorno" del juego y las "tareas a completar" en el modelo de AquilaChat2, y AquilaChat2 retroalimenta al personaje "qué habilidades usar a continuación" y otra información para la toma de decisiones, y finalmente completa el conjunto de tareas en Minecraft "Cortar madera y hacer un banco de trabajo para poner cerca".

Base de datos vectorial de enlace a través de Aquila2+BGE2

Las bases de datos vectoriales se han convertido en un favor en el gran círculo de modelos en los últimos años, pero todavía están ligeramente estiradas en términos de capacidad frente a problemas complejos que requieren una comprensión profunda.

Con este fin, KLCII ha combinado Aqiula2 con su modelo vectorial semántico de código abierto BGE2 de desarrollo propio para desbloquear por completo algunas tareas de recuperación complejas que no se pueden resolver con métodos de recuperación basados únicamente en bibliotecas vectoriales tradicionales.

Por ejemplo, en el siguiente ejemplo, podemos ver claramente que tareas como "recuperar artículos de un autor sobre un tema determinado" y "generar un texto de resumen para varios artículos sobre un tema" pueden llegar a ser muy sedosas.

Modelo óptimo de generación de "lenguaje texto-SQL"

Muchos usuarios tienen un dolor de cabeza por SQL cuando se trata de tareas como consultas a bases de datos.

¿No sería hermoso si pudiera operarse en la lengua vernácula que usamos a menudo?

Ahora, esta forma conveniente es posible: AquilaSQL.

En escenarios de aplicación práctica, los usuarios también pueden realizar un desarrollo secundario basado en AquilaSQL, injertándolo en la base de conocimiento local, generando SQL de consulta local o mejorando aún más el rendimiento del análisis de datos del modelo, de modo que el modelo no solo pueda devolver los resultados de la consulta, sino también generar conclusiones y gráficos de análisis.

Por ejemplo, cuando se trata de la siguiente tarea de consulta compleja, ahora solo necesita hablar lenguaje natural:

Filtre los coches con ventas superiores a 100 y color rojo de dos tablas de datos que contienen las ventas de coches (coche_sales) y el color del coche (coche_color).

Y los "logros" de AquilaSQL también son muy impresionantes.

Después de un pre-entrenamiento continuo y un entrenamiento de SFT en dos etapas con corpus SQL, el modelo SOTA en Cspider finalmente superó la clasificación del "modelo de generación de lenguaje texto-SQL" con una precisión del 67,3%.

La precisión del modelo GPT4 sin el ajuste fino del corpus SQL es solo del 30,8%.

También hay código abierto a nivel de bucket familiar

Como mencionamos anteriormente, KLCII siempre se ha centrado en el código abierto.

Esta vez, con motivo de la gran actualización del modelo, KLCII también abrió sin reservas una serie de proyectos estrella que incluyen algoritmos, datos, herramientas y evaluaciones.

Se entiende que el modelo de la serie Aquila2 no solo adopta plenamente los acuerdos de licencia comercial, sino que también permite al público utilizarlos ampliamente en la investigación académica y las aplicaciones comerciales.

A continuación, echemos un vistazo rápido a estos buckets de la familia de código abierto.

FlagScale, un marco de entrenamiento paralelo eficiente

FlagScale es un marco de entrenamiento paralelo eficiente utilizado por Aquila2-34B, que puede proporcionar funciones de entrenamiento integrales para modelos de lenguaje grandes.

El equipo de KLCII compartió la configuración de entrenamiento, el esquema de optimización y los hiperparámetros del modelo Aquila2 con grandes desarrolladores de modelos a través del proyecto FlagScale, y fue el primero en China en abrir completamente el código de entrenamiento y los hiperparámetros.

Basado en la extensión Megatron-LM, FlagScale ofrece una serie de mejoras en las funciones, como la segmentación del estado del optimizador distribuido, el posicionamiento preciso de los datos de los problemas de entrenamiento y la conversión de parámetros a Huggingface.

Aquila2 se ha medido para lograr un rendimiento de capacitación y una utilización de GPU líderes en la industria.

△Figura: Rendimiento de entrenamiento de FlagScale y utilización de GPU (consulte el final del artículo para conocer la fuente de datos y la fórmula de estimación)

Se entiende que en el futuro, FlagScale continuará sincronizándose con el último código del proyecto original Megatron-LM, introducirá funciones más personalizadas, integrará la última tecnología de entrenamiento e inferencia distribuida y generalizará modelos grandes, admitirá hardware de IA heterogéneo y se esforzará por construir un marco de inferencia de entrenamiento de modelos grandes distribuidos general, conveniente y eficiente para cumplir con las tareas de entrenamiento de modelos de diferentes escalas y necesidades.

Subconjunto de código abierto FlagAttentionHigh Performance Attention

FlagAttention es el primer subconjunto informático de código abierto de alto rendimiento de Attention desarrollado con el lenguaje Triton para admitir el entrenamiento de modelos grandes de texto largo, y amplía el operador Memory Efficient Attention de la serie Flash Attention para satisfacer las necesidades del entrenamiento de modelos grandes.

En la actualidad, se ha implementado el operador de atención segmentada: PiecewiseAttention.

PiecewiseAttention resuelve principalmente el problema de extrapolación del modelo Transformer con codificación de posición de rotación (Roformer), y sus características se pueden resumir en:

Versatilidad: Los elementos comunes a los modelos que utilizan la atención informática segmentada se pueden migrar fácilmente a modelos de lenguaje grandes fuera de Aquila.

Facilidad de uso: FlagAttention se basa en la implementación del lenguaje Triton y proporciona la interfaz PyTorch, lo que facilita el proceso de compilación e instalación que Flash Attention desarrollado por CUDA C.

Extensibilidad: También gracias al lenguaje Triton, el algoritmo FlagAttention en sí mismo tiene un umbral bajo para la modificación y extensión, y los desarrolladores pueden extender fácilmente más funciones nuevas además de esto.

En el futuro, el proyecto FlagAttention continuará apoyando a los operadores de atención con otras extensiones de funciones para las necesidades de investigación de modelos grandes, optimizará aún más el rendimiento de los operadores y se adaptará a hardware de IA más heterogéneo.

Modelo vectorial semántico de próxima generación BGE2**

La nueva generación del modelo vectorial semántico de BGE también será de código abierto con Aquila2.

El modelo BGE-LLM Embedder en BGE2 integra las cuatro capacidades de "recuperación de conocimiento", "recuperación de memoria", "búsqueda de muestras" y "recuperación de herramientas".

Por primera vez, realiza la cobertura completa de los principales requisitos de recuperación de un modelo de lenguaje grande mediante un único modelo vectorial semántico.

En combinación con casos de uso específicos, BGE-LLM Embedder mejorará significativamente el rendimiento de los modelos de lenguaje grandes en áreas importantes, como el manejo de tareas intensivas en conocimiento, la memoria a largo plazo, el seguimiento de instrucciones y el uso de herramientas.

......

Entonces, ¿estás entusiasmado con un "código abierto más fuerte" tan completo?

Una cosa más

Los días 28 y 29 de octubre, el KLCII celebrará un nuevo taller sobre tecnologías de vanguardia para modelos de gran tamaño, en el que nueve investigadores clave presentarán los recientes avances e implementación de FlagOpen.

Los socios interesados también pueden vivir en el código.

Dirección de código abierto completa del modelo Aquila2:

Dirección del repositorio de código abierto de AquilaSQL:

Repositorio de código abierto FlagAttention:

Dirección de código abierto BGE2

papel:

Modelo: /llm-embedder

Repo:

Fórmula de estimación de rendimiento de LLAMA2: total de tokens / (total de horas de GPU * 3600), de acuerdo con el documento Llama 2: Open Foundation y Fine-Tuned Chat Models: 1) 7B tiene un token total de 2.0 T, el total de horas de GPU es 184320 y sustituido en la fórmula da 3014 tokens/seg/GPU; 2) El total de tokens de 34B es 2.0 T, el total de horas de GPU es 1038336 y la fórmula se sustituye para obtener 535 tokens/seg/GPU.

— Fin —

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta

Recompensa
2
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1CandyDrop Airdrop Event 6.0
16k Popularidad
2White House Crypto Report
33k Popularidad
3Join Alpha RION Airdrop to Earn $40
8k Popularidad
4Fed Holds Rates Decision
8k Popularidad
5July Spark Program TOP 10 Creators Announced
2k Popularidad

Anclado