El modelo de texto largo más potente del mundo, que puede leer 350.000 caracteres chinos a la vez: Baichuan2-192K está en línea

2023-11-01 06:04:35

Leer libros con modelos grandes nunca ha sido tan rápido.

Fuente de la imagen: Generado por Unbounded AI

Las start-ups nacionales de modelos a gran escala están creando nuevos récords a la vanguardia de la tecnología.

El 30 de octubre, Baichuan Intelligence lanzó oficialmente el modelo grande de ventana larga Baichuan2-192K, que aumentó la longitud de la ventana de contexto del modelo de lenguaje grande (LLM) a 192K token.

Esto equivale a hacer que el modelo grande procese unos 350.000 caracteres chinos a la vez, lo que es 14 veces más largo que GPT-4 (32K token, unos 25.000 caracteres) y 4,4 veces más largo que Claude 2.0 (100K token, unos 80.000 caracteres).

En otras palabras, Baichuan2-192K puede leer una copia del Problema de Tres Cuerpos 2 de una sola vez, lo que lo convierte en el modelo más grande con la ventana de contexto de procesamiento más larga del mundo. Además, también supera significativamente a sus competidores en múltiples dimensiones, como la calidad de la generación de texto, la comprensión contextual y la capacidad de preguntas y respuestas.

¿Qué puede hacer un modelo grande que puede entender textos muy largos a la vez? Baichuan Intelligent hizo una demostración simple.

Cargue un archivo PDF de todo el "Problema de tres cuerpos 2: Bosque oscuro", y el modelo de Baichuan tiene 300,000 palabras. A continuación, si haces alguna pregunta sobre la novela, la modelo puede dar una respuesta concisa y precisa.

A veces recurrimos a la IA en busca de ayuda, no para usar su imaginación, sino para extraer información precisa. Con Baichuan2-192K, podemos descifrar rápidamente docenas o incluso cientos de páginas de documentos contractuales, y dejar que la IA dé rápidamente un resumen conciso, redondeando la lectura de velocidad cuántica:

Entonces, ¿qué pasa si de repente recibo una nueva tarea y tengo un montón de archivos para leer?

Puede empaquetarlo y cargarlo directamente juntos, y el modelo de Baichuan puede integrar fácilmente cinco artículos de noticias en uno.

A medida que el contenido que el modelo grande puede comprender se hace más largo, más y más direcciones se aplicará. Como todos sabemos, la capacidad de modelar texto largo es un requisito previo para la aplicación de muchos escenarios. Esta vez, Baichuan ha tomado la delantera en la industria.

Desde decenas de miles de palabras hasta cientos de miles de palabras, las principales startups se apresuran a aprovechar la "ventana larga"

Si presta atención a la aplicación de modelos grandes en la dirección de la comprensión del texto, puede notar un fenómeno: al principio, los textos utilizados para evaluar la capacidad del modelo pueden ser algunos informes financieros e informes técnicos, que generalmente oscilan entre una docena y docenas de páginas, y el número de palabras suele ser de decenas de miles de palabras. Pero luego, el texto de prueba se convirtió gradualmente en varias horas de actas de reunión, o cientos de miles de palabras de novelas, y la competencia se volvió cada vez más intensa y difícil.

Al mismo tiempo, las grandes empresas modelo que afirman ser capaces de entender contextos más largos están ganando terreno. Por ejemplo, hace algún tiempo, Anthropic, la compañía detrás de Claude, que afirmó ser capaz de realizar una ventana de contexto de 100K tokens, ha recibido miles de millones de dólares en financiamiento de Microsoft y Google, empujando la carrera armamentista de grandes modelos a un nuevo nivel.

¿Por qué estas empresas desafían los textos largos?

En primer lugar, desde el punto de vista de la aplicación, muchos trabajadores que utilizan modelos grandes para mejorar la productividad inevitablemente tienen que lidiar con textos largos, como abogados, analistas, consultores, etc., y cuanto mayor sea la ventana de contexto, más amplia será la gama de cosas que estas personas pueden hacer con modelos grandes; En segundo lugar, desde un punto de vista técnico, cuanta más información pueda contener la ventana, cuanta más información pueda consultar el modelo al generar la siguiente palabra, menos probable será que se produzcan "alucinaciones" y más precisa será la información, lo cual es una condición necesaria para la implementación de la tecnología de modelos grandes. Por lo tanto, mientras intentan mejorar el rendimiento del modelo, las empresas también compiten para ver quién puede ampliar la ventana de contexto y, por lo tanto, ponerla en más escenarios de aplicación.

Como puede ver en algunos de los ejemplos mostrados anteriormente, Baichuan2-192K sobresale tanto en la calidad de la generación de texto como en la comprensión contextual. Y, además de estos resultados cualitativos, también podemos verlo en algunos datos de evaluación cuantitativa.

Baichuan2-192K: Cuanto más largo sea el archivo, más obvia será la ventaja

En la evaluación de la calidad de la generación de texto, una métrica muy importante se denomina "confusión": cuando tomamos documentos de alta calidad que se ajustan a los hábitos del lenguaje natural humano como conjunto de prueba, mayor es la probabilidad de que el modelo genere la versión china del conjunto de prueba, menor es la confusión del modelo y mejor es el modelo.

El equipo de prueba utilizado para probar la perplejidad del modelo grande de Baichuan se llama PG-19. Este conjunto de datos fue producido por investigadores de DeepMind y se realizó utilizando materiales de los libros del Proyecto Gutenberg, por lo que PG-19 tiene calidad de libro.

Los resultados de la prueba se muestran en la siguiente figura. Como puede ver, en la fase inicial (a la izquierda del eje horizontal, cuando la longitud del contexto es más corta), el nivel de confusión de Baichuan2-192K está en un nivel bajo. A medida que aumenta la duración del contexto, sus ventajas se hacen más evidentes, e incluso la confusión continúa disminuyendo. Esto sugiere que Baichuan2-192K es más capaz de mantener la calidad de generación de texto a nivel de libro en contextos largos.

En términos de comprensión contextual, el rendimiento de Baichuan2-192K también es muy impresionante.

Esta competencia se evalúa utilizando Long, el punto de referencia autorizado de comprensión de textos de ventana larga. Long es una lista publicada por la Universidad de California, Berkeley y otras universidades para la evaluación de modelos de ventanas largas, que mide principalmente la capacidad del modelo para recordar y comprender el contenido de las ventanas largas, y cuanto mayor sea la puntuación del modelo, mejor.

Como puede ver en los resultados de la evaluación en el gráfico siguiente, Baichuan2-192K ha sido capaz de mantener un alto rendimiento constante a medida que aumenta la longitud del contexto, incluso después de que la longitud de la ventana supere los 100K. Por el contrario, el rendimiento general de Claude 2 cae drásticamente después de una duración de ventana de más de 80K.

Además, el modelo ha sido probado en Dureader, NarrativeQA, TriviaQA, LSHT y otros conjuntos de evaluación de preguntas y respuestas de textos largos y resúmenes en chino e inglés. Los resultados muestran que el Baichuan 2-192K también funciona bien, superando a otros modelos en la mayoría de las tareas de evaluación de textos largos.

En resumen, cuanto más tiempo se procese el contenido, mejor será el rendimiento relativo del modelo grande de Baichuan.

** Contexto súper largo de 192K, ¿cómo lo hizo Baichuan? **

Existe un consenso en la industria de la IA de que la expansión de la ventana de contexto puede mejorar efectivamente el rendimiento de los modelos grandes, pero la ventana de contexto ultralarga significa mayores requisitos de potencia de cálculo y una mayor presión de memoria.

Para aliviar esta presión, han surgido algunos métodos de compromiso en la industria, como hacer que el modelo sea más pequeño; Deje que el modelo abandone activamente el texto anterior deslizando la ventana, etc., y solo conserve el mecanismo de atención para la última entrada; Mediante la reducción de la resolución del contexto o RAG (Retrieval Enhanced Generation), el mecanismo de atención que solo retiene parte de la entrada, etc.

Aunque estos métodos pueden aumentar la longitud de la ventana de contexto, todos ellos dañan el rendimiento del modelo en diversos grados. En otras palabras, sacrifican el rendimiento de otros aspectos del modelo a cambio de la longitud de la ventana de contexto, como la incapacidad del modelo para responder preguntas complejas basadas en información de texto completo y la dificultad de considerar respuestas en varios textos.

El Baichaun2-192K** lanzado por Baichuan esta vez logra un equilibrio entre la longitud de la ventana y el rendimiento del modelo a través de la optimización definitiva de los algoritmos y la ingeniería, y logra la mejora simultánea de la longitud de la ventana y el rendimiento del modelo**.

En términos de algoritmos, Baichuan Intelligent propone un esquema de extrapolación para la codificación dinámica de posición de RoPE y ALiBi, que puede llevar a cabo diferentes grados de interpolación dinámica de máscara de atención de ALiBi_mask de diferentes resoluciones, lo que puede mejorar la capacidad de modelado del modelo para confiar en secuencias largas mientras se garantiza la resolución.

En términos de ingeniería, sobre la base del marco de entrenamiento distribuido de desarrollo propio, Baichuan Intelligent integra todas las tecnologías de optimización avanzadas del mercado, incluido el paralelismo tensorial, el paralelismo de flujo, el paralelismo de secuencia, las funciones de recálculo y descarga, etc., para crear un conjunto completo de soluciones distribuidas en paralelo 4D. Esta solución puede encontrar automáticamente la estrategia distribuida más adecuada de acuerdo con la situación de carga específica, lo que reduce en gran medida la ocupación de memoria en el proceso de inferencia de ventana larga.

Lucha en la batalla de los modelos grandes, sé rápido

Fundada en abril de este año, casi se puede decir que Baichuan Intelligence es una startup modelo a gran escala con la iteración tecnológica más rápida de la industria. En solo medio año desde su creación, la compañía ha lanzado cuatro modelos comerciales gratuitos y de código abierto, Baichuan-7B/13B y Baichuan2-7B/13B, así como dos modelos de código cerrado, Baichuan-53B y Baichuan2-53B.

En promedio, cada mes se lanza un nuevo modelo grande.

La serie de modelos grandes de Baichuan integra la comprensión de la intención, la recuperación de información y las tecnologías de aprendizaje por refuerzo, combinadas con el ajuste fino supervisado y la alineación de la intención humana, y se desempeña bien en los campos de la respuesta a preguntas de conocimiento y la creación de textos. Estos grandes modelos también son favorecidos en la industria debido a sus capacidades: el número acumulado de descargas de la serie Baichuan de modelos de código abierto en las principales comunidades de código abierto ha superado los 6 millones; Baichuan 2 está por delante de Llama 2 en todas las dimensiones, liderando el desarrollo del ecosistema de código abierto de China.

El 31 de agosto, Baichuan Intelligent tomó la iniciativa en la aprobación de las "Medidas provisionales para la gestión de servicios de inteligencia artificial generativa", y fue la única empresa modelo a gran escala fundada este año entre el primer lote de 8 empresas. El 25 de septiembre, Baichuan Intelligent abrió la interfaz API de Baichuan, ingresó oficialmente al campo To B y comenzó el proceso de comercialización.

Se puede decir que desde la investigación y el desarrollo de tecnología hasta el aterrizaje, la velocidad de Baichuan es lo suficientemente rápida.

El recién lanzado Baichuan2-192K ha comenzado oficialmente la prueba beta cerrada y estará abierto a los socios principales en forma de llamadas a la API. Baichuan dijo que ha llegado a la cooperación con los medios financieros y los bufetes de abogados, y ha aplicado las capacidades líderes de contexto largo de Baichuan2-192K a escenarios específicos como los medios de comunicación, las finanzas y el derecho, y pronto se proporcionará a los usuarios empresariales en forma de llamadas a la API y despliegue privatizado.

Después de abrirse por completo en forma de API, Baichuan2-192K puede integrarse profundamente con una gran cantidad de escenarios verticales, desempeñar un papel en el trabajo, la vida y el aprendizaje de las personas, y ayudar a los usuarios de la industria a mejorar en gran medida la eficiencia. Baichuan2-192K puede procesar y analizar cientos de páginas de materiales a la vez, lo que es de gran ayuda para escenarios del mundo real, como el resumen de documentos de formato largo, la revisión de documentos de formato largo, la redacción de artículos o informes de formato largo y la asistencia de programación compleja.

Anteriormente, Wang Xiaochuan, fundador y director ejecutivo de Baichuan Intelligence, había revelado que en la segunda mitad de este año, Baichuan lanzará un modelo grande de nivel 100 mil millones, y se espera que haya una implementación de súper aplicación C-end el próximo año.

Frente a la brecha con OpenAI, Wang Xiaochuan admitió que, de hecho, existe una brecha entre nosotros y OpenAI en términos de ideales, el objetivo de OpenAI es explorar el techo de la inteligencia, e incluso esperan diseñar una tecnología que conecte 10 millones de GPU. Sin embargo, en términos de aplicación, vamos más rápido que los Estados Unidos, y la aplicación y la experiencia ecológica acumulada en la era de Internet pueden hacernos ir más rápido y más lejos, por lo que el concepto de Baichuan para hacer un modelo grande se llama "Un paso más lento en el ideal, tres pasos más rápidos en el suelo".

Desde este punto de vista, Baichuan2-192K es una extensión de este concepto, y la ventana de contexto más larga del mundo sin duda acelerará el proceso de la tecnología de modelos grandes inteligentes de Baichuan.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#Show My Alpha Points
19k Popularidad
#SOL Futures Reach New High
2k Popularidad
#ETH ETF Sees 12 Weeks of Inflows
2k Popularidad
#Crypto Market Rebound
170k Popularidad
#CandyDrop Airdrop Event 6.0
96k Popularidad

Anclado