Justo ahora, se lanzó Baichuan Intelligent Baichuan2-192K, ¡con la ventana de contexto más larga del mundo! Después de leer "El problema de los tres cuerpos" de una vez, gané 7 SOTAs
¡Ya está aquí la ventana de contexto más larga del mundo! Hoy, Baichuan Intelligent ha lanzado el modelo grande Baichuan2-192K, con una longitud de ventana de contexto de hasta 192K (350.000 caracteres chinos), que es 4,4 veces mayor que la de Claude 2 y 14 veces mayor que la de GPT-4.
Un nuevo punto de referencia en el campo de las ventanas de contexto largas, ¡aquí!
Hoy, Baichuan Intelligent lanzó oficialmente el modelo grande con la ventana de contexto más larga del mundo: Baichuan2-192K.
A diferencia del modelo anterior, la longitud de la ventana de contexto de este modelo es de hasta 192K, lo que equivale a unos 350.000 caracteres chinos.
Para ser más específicos, Baichuan2-192K puede procesar 14 veces más caracteres chinos que GPT-4 (contexto de 32K, alrededor de 25,000 palabras) y Claude 2 (contexto de 100K, alrededor de 80,000 palabras), y puede leer una copia de "El problema de los tres cuerpos" de una sola vez.
El registro de la ventana de contexto que Claude había estado guardando durante mucho tiempo se ha actualizado hoy
Al arrojarle la primera parte del problema de los tres cuerpos "Érase una vez en la Tierra", Baichuan2-192K masticó un poco e inmediatamente supo bien toda la historia.
¿Cuál es el número en la foto número 36 en la cuenta regresiva que vio Wang Miao? Respuesta: 1194:16:37. ¿Qué modelo de cámara está usando? R: Leica M2. ¿Cuántas veces bebieron él y Dashi en total? Respuesta: Dos veces.
Mirando el segundo "Bosque Oscuro", Baichuan2-192K no solo respondió de inmediato que la Organización de los Tres Cuerpos de la Tierra había establecido dos bases del Banco Rojo, y que las "Gotas de Agua" estaban hechas de materiales con fuertes interacciones.
Además, incluso las preguntas impopulares que el "Problema de los tres cuerpos y los eruditos de diez niveles" pueden no ser capaces de responder, Baichuan2-192K también tiene fluidez en las respuestas y es fácil de responder.
¿Quién tiene más apariciones de su nombre? Respuesta: Luo Ji.
Se puede decir que cuando la ventana de contexto se amplía a 350.000 palabras, la experiencia de usar el modelo grande parece haber abierto repentinamente un nuevo mundo.
El contexto más largo del mundo, liderando a Claude 2 en todos los ámbitos
Modelo grande, ¿qué se atascará en el cuello?
Tomando ChatGPT como ejemplo, aunque sus capacidades son asombrosas, este modelo "omnipotente" tiene una limitación inevitable: solo admite un máximo de 32K tokens (25.000 caracteres chinos) en el contexto. Profesiones como abogados, analistas, etc., necesitan lidiar con textos que toman mucho más tiempo que eso la mayor parte del tiempo.
Una ventana de contexto más grande permite que el modelo obtenga información semántica más rica de la entrada, e incluso realice directamente preguntas y respuestas y procesamiento de información basado en la comprensión del texto completo.
Como resultado, el modelo no solo puede capturar mejor la relevancia del contexto, eliminar la ambigüedad, sino también generar contenido con mayor precisión, aliviar el problema de la "ilusión" y mejorar el rendimiento. Además, con la bendición de un contexto largo, también se puede combinar profundamente con escenas más verticales y realmente desempeñar un papel en el trabajo, la vida y el aprendizaje de las personas.
Recientemente, el unicornio de Silicon Valley, Anthropic, ha recibido una inversión de 4.000 millones de Amazon y 2.000 millones de Google. El favor de los dos gigantes está, por supuesto, relacionado con la posición de liderazgo de Claude en la tecnología de capacidad de contexto largo.
Esta vez, el modelo de ventana larga Baichuan-192K lanzado por Baichuan Intelligence supera con creces al Claude 2-100K en la longitud de la ventana de contexto, y también ha logrado una ventaja integral en la evaluación de múltiples dimensiones, como la calidad de la generación de texto, la comprensión del contexto y la capacidad de preguntas y respuestas.
10 reseñas autorizadas, 7 SOTA
Long es una lista publicada por la Universidad de California, Berkeley y otras universidades para la evaluación de modelos de ventanas largas, que mide principalmente la capacidad del modelo para recordar y comprender el contenido de ventanas largas.
En términos de comprensión contextual, Baichuan2-192K está significativamente por delante de otros modelos en la lista de evaluación de comprensión de texto de ventana larga autorizada Long, y aún puede mantener un rendimiento muy sólido después de una longitud de ventana de más de 100K.
Por el contrario, el efecto general cae muy mal después de que la longitud de la ventana Claude 2 supere los 80K.
Además, Baichuan2-192K también tuvo un buen desempeño en 10 conjuntos de evaluación de preguntas y respuestas y resúmenes de textos largos en chino e inglés, como Dureader, NarrativeQA, LSHT y TriviaQA.
Entre ellos, 7 lograron SOTA, que superó significativamente a otros modelos de ventana larga.
La confusión es un criterio muy importante cuando se trata de la calidad de la generación de textos.
Se puede entender simplemente que cuando se utiliza un documento de alta calidad que se ajusta a los hábitos del lenguaje natural humano como conjunto de prueba, mayor es la probabilidad de que el modelo genere la versión china del conjunto de prueba, menor es la confusión del modelo y mejor es el modelo.
De acuerdo con los resultados de las pruebas del "Language Modeling Benchmark Dataset PG-19" publicado por DeepMind, el nivel de confusión de Baichuan2-192K fue excelente en la etapa inicial, y la capacidad de modelado de secuencias de Baichuan2-192K continuó mejorando a medida que se expandía la longitud de la ventana.
### Optimización conjunta de algoritmos de ingeniería, mejora sincrónica del rendimiento de la longitud
Si bien los contextos largos pueden mejorar el rendimiento del modelo, las ventanas largas también significan más potencia de cálculo y más memoria de vídeo.
En la actualidad, la práctica común en la industria es deslizar la ventana, reducir el muestreo, reducir el modelo, etc.
Sin embargo, todos estos enfoques sacrifican otros aspectos del modelo en diversos grados.
Para resolver este problema, Baichuan2-192K logra un equilibrio entre la longitud de la ventana y el rendimiento del modelo a través de una optimización extrema de los algoritmos y la ingeniería, y logra la mejora simultánea de la longitud de la ventana y el rendimiento del modelo.
En primer lugar, en términos de algoritmos, Baichuan Intelligent propone un esquema de extrapolación para la codificación de posición dinámica RoPE y ALiBi, que puede llevar a cabo diferentes grados de interpolación dinámica de máscara de atención para la codificación de posición ALiBi de diferentes longitudes, lo que puede mejorar la capacidad de modelado del modelo para confiar en secuencias largas al tiempo que garantiza la resolución.
En segundo lugar, en términos de ingeniería, sobre la base del marco de entrenamiento distribuido de desarrollo propio, Baichuan Intelligence integra casi todas las tecnologías de optimización avanzadas del mercado, incluido el paralelismo tensorial, el paralelismo de flujo, el paralelismo de secuencia, el recálculo y la descarga, y ha creado un conjunto completo de esquemas distribuidos paralelos 4D, que pueden encontrar automáticamente la estrategia distribuida más adecuada de acuerdo con la situación de carga específica del modelo, lo que reduce en gran medida la ocupación de memoria en el proceso de entrenamiento e inferencia de ventana larga.
Se abre oficialmente la prueba interna y se lanza la experiencia de primera mano
¡Ahora, Baichuan2-192K ha comenzado oficialmente la beta cerrada!
Baichuan2-192K se ha conectado a sus propias aplicaciones y negocios a través de llamadas API, y ahora los medios financieros, los bufetes de abogados y otras instituciones han llegado a la cooperación con Baichuan Intelligence.
Es concebible que con la aplicación de las capacidades de contexto largo líderes en el mundo de Baichuan2-192K a escenarios específicos como los medios de comunicación, las finanzas y el derecho, sin duda ampliará un espacio más amplio para la implementación de grandes modelos.
A través de las API, Baichuan2-192K puede integrarse de manera efectiva en escenas más verticales e integrarse profundamente con ellas.
En el pasado, los documentos con grandes cantidades de contenido a menudo se convertían en una montaña que no podíamos cruzar en nuestro trabajo y estudio.
Con Baichuan2-192K, se pueden procesar y analizar cientos de páginas de material a la vez, y se puede extraer y analizar información crítica.
Ya sea que se trate de un resumen / revisión de un documento largo, un artículo o informe largo, o una ayuda de programación compleja, Baichuan2-192K proporcionará un gran impulso.
Para los gestores de fondos, puede ayudar a resumir e interpretar los estados financieros, analizar los riesgos y oportunidades de la empresa.
Para los abogados, puede ayudar a identificar riesgos en múltiples documentos legales, revisar contratos y documentos legales.
Para los desarrolladores, puede ayudar a leer cientos de páginas de documentación de desarrollo y responder preguntas técnicas.
Desde entonces, la mayoría de los investigadores científicos también han tenido una herramienta de investigación científica, y pueden navegar rápidamente por una gran cantidad de artículos y resumir los últimos avances de vanguardia.
Además de eso, un contexto más largo tiene un potencial aún mayor.
Las aplicaciones de agentes y multimodales son los puntos críticos de investigación de frontera en la industria actual. Con capacidades contextuales más largas, los modelos grandes pueden procesar y comprender mejor las entradas multimodales complejas, lo que permite un mejor aprendizaje por transferencia.
Longitud del contexto, un campo de batalla para soldados
Se puede decir que la longitud de la ventana de contexto es una de las tecnologías centrales de los modelos grandes.
Ahora, muchos equipos están comenzando con la "entrada de texto largo" para construir la competitividad diferenciada del modelo base. Si el número de parámetros determina la complejidad que puede hacer el modelo grande, la longitud de la ventana de contexto determina cuánta "memoria" tiene el modelo grande.
Sam Altman dijo una vez que pensábamos que queríamos un coche volador, no 140/280 caracteres, pero en realidad queríamos 32.000 fichas.
En el país y en el extranjero, la investigación y los productos para ampliar la ventana de contexto pueden describirse como interminables.
En mayo de este año, GPT-4, que tiene un contexto de 32K, provocó una acalorada discusión.
En ese momento, los internautas que habían desbloqueado esta versión elogiaron a GPT-4 32K como el mejor gestor de producto del mundo.
Pronto, la startup Anthropic anunció que Claude había sido capaz de soportar una longitud de token de contexto de 100K, que es de unas 75.000 palabras.
En otras palabras, después de que la persona promedio haya leído la misma cantidad de contenido en aproximadamente 5 horas, tiene que pasar más tiempo digiriendo, memorizando y analizando. Para Claude, se tarda menos de 1 minuto.
En la comunidad de código abierto, Meta también ha propuesto un método que puede ampliar eficazmente las capacidades de contexto, lo que puede hacer que la ventana de contexto del modelo básico alcance los 32.768 tokens, y ha logrado mejoras significativas en el rendimiento en varias tareas de detección de contexto sintético y modelado de lenguaje.
Los resultados muestran que el modelo con parámetros 70B ha logrado un rendimiento superior a gpt-3.5-turbo-16K en varias tareas de contexto largo.
Dirección:
El método LongLoRA propuesto por investigadores de los equipos de Hong Kong, China y MIT puede extender la longitud del texto del modelo 7B a 100k tokens y la longitud del texto del modelo 70B a 32k tokens con solo dos líneas de código y una máquina A100 de 8 tarjetas.
Dirección:
Los investigadores de DeepPavlov, AIRI y el Instituto de Ciencias Matemáticas de Londres utilizaron el método Recurrent Memory Transformer (RMT) para aumentar la longitud efectiva del contexto de BERT a un "número sin precedentes de 2 millones de tokens" y mantener una alta precisión de recuperación de memoria.
Sin embargo, aunque RMT puede escalar a longitudes de secuencia casi infinitas sin aumentar el consumo de memoria, todavía existe un problema de decaimiento de memoria en las RNN y tiempos de inferencia más largos.
Dirección:
Actualmente, la longitud de la ventana de contexto de los LLM se encuentra principalmente en el rango de 4,000-100,000 tokens, y continúa creciendo.
A través de la investigación multifacética sobre la ventana de contexto en la industria de la IA y el mundo académico, muestra su importancia para los LLM.
Y esta vez, el modelo doméstico de gran tamaño marcó el comienzo del momento histórico más destacado de la ventana de contexto más larga.
La ventana de contexto de 192K, que actualizó el récord de la industria, no solo representa otro avance en la tecnología de modelos a gran escala de Baichuan Intelligence, sino también otro hito en el desarrollo del modelo a gran escala. Esto inevitablemente traerá una nueva ronda de choque a la reforma de la forma del lado del producto.
Fundada en abril de 2023, Baichuan Intelligent ha lanzado sucesivamente cuatro modelos grandes comerciales gratuitos y de código abierto de Baichuan-7B/13B y Baichuan2-7B/13B en solo 6 meses, así como dos modelos grandes de código cerrado de Baichuan-53B y Baichuan2-53B.
De esta manera, se trata básicamente de un LLM el primer día de enero.
Ahora, con el lanzamiento de Baichuan2-192K, la tecnología de ventana de contexto largo de modelo grande también entrará de lleno en la era china.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Justo ahora, se lanzó Baichuan Intelligent Baichuan2-192K, ¡con la ventana de contexto más larga del mundo! Después de leer "El problema de los tres cuerpos" de una vez, gané 7 SOTAs
Fuente del artículo: New Zhiyuan
Un nuevo punto de referencia en el campo de las ventanas de contexto largas, ¡aquí!
Hoy, Baichuan Intelligent lanzó oficialmente el modelo grande con la ventana de contexto más larga del mundo: Baichuan2-192K.
A diferencia del modelo anterior, la longitud de la ventana de contexto de este modelo es de hasta 192K, lo que equivale a unos 350.000 caracteres chinos.
Para ser más específicos, Baichuan2-192K puede procesar 14 veces más caracteres chinos que GPT-4 (contexto de 32K, alrededor de 25,000 palabras) y Claude 2 (contexto de 100K, alrededor de 80,000 palabras), y puede leer una copia de "El problema de los tres cuerpos" de una sola vez.
Al arrojarle la primera parte del problema de los tres cuerpos "Érase una vez en la Tierra", Baichuan2-192K masticó un poco e inmediatamente supo bien toda la historia.
Además, incluso las preguntas impopulares que el "Problema de los tres cuerpos y los eruditos de diez niveles" pueden no ser capaces de responder, Baichuan2-192K también tiene fluidez en las respuestas y es fácil de responder.
El contexto más largo del mundo, liderando a Claude 2 en todos los ámbitos
Modelo grande, ¿qué se atascará en el cuello?
Tomando ChatGPT como ejemplo, aunque sus capacidades son asombrosas, este modelo "omnipotente" tiene una limitación inevitable: solo admite un máximo de 32K tokens (25.000 caracteres chinos) en el contexto. Profesiones como abogados, analistas, etc., necesitan lidiar con textos que toman mucho más tiempo que eso la mayor parte del tiempo.
Como resultado, el modelo no solo puede capturar mejor la relevancia del contexto, eliminar la ambigüedad, sino también generar contenido con mayor precisión, aliviar el problema de la "ilusión" y mejorar el rendimiento. Además, con la bendición de un contexto largo, también se puede combinar profundamente con escenas más verticales y realmente desempeñar un papel en el trabajo, la vida y el aprendizaje de las personas.
Recientemente, el unicornio de Silicon Valley, Anthropic, ha recibido una inversión de 4.000 millones de Amazon y 2.000 millones de Google. El favor de los dos gigantes está, por supuesto, relacionado con la posición de liderazgo de Claude en la tecnología de capacidad de contexto largo.
Esta vez, el modelo de ventana larga Baichuan-192K lanzado por Baichuan Intelligence supera con creces al Claude 2-100K en la longitud de la ventana de contexto, y también ha logrado una ventaja integral en la evaluación de múltiples dimensiones, como la calidad de la generación de texto, la comprensión del contexto y la capacidad de preguntas y respuestas.
10 reseñas autorizadas, 7 SOTA
Long es una lista publicada por la Universidad de California, Berkeley y otras universidades para la evaluación de modelos de ventanas largas, que mide principalmente la capacidad del modelo para recordar y comprender el contenido de ventanas largas.
En términos de comprensión contextual, Baichuan2-192K está significativamente por delante de otros modelos en la lista de evaluación de comprensión de texto de ventana larga autorizada Long, y aún puede mantener un rendimiento muy sólido después de una longitud de ventana de más de 100K.
Por el contrario, el efecto general cae muy mal después de que la longitud de la ventana Claude 2 supere los 80K.
Entre ellos, 7 lograron SOTA, que superó significativamente a otros modelos de ventana larga.
Se puede entender simplemente que cuando se utiliza un documento de alta calidad que se ajusta a los hábitos del lenguaje natural humano como conjunto de prueba, mayor es la probabilidad de que el modelo genere la versión china del conjunto de prueba, menor es la confusión del modelo y mejor es el modelo.
Si bien los contextos largos pueden mejorar el rendimiento del modelo, las ventanas largas también significan más potencia de cálculo y más memoria de vídeo.
En la actualidad, la práctica común en la industria es deslizar la ventana, reducir el muestreo, reducir el modelo, etc.
Sin embargo, todos estos enfoques sacrifican otros aspectos del modelo en diversos grados.
En primer lugar, en términos de algoritmos, Baichuan Intelligent propone un esquema de extrapolación para la codificación de posición dinámica RoPE y ALiBi, que puede llevar a cabo diferentes grados de interpolación dinámica de máscara de atención para la codificación de posición ALiBi de diferentes longitudes, lo que puede mejorar la capacidad de modelado del modelo para confiar en secuencias largas al tiempo que garantiza la resolución.
En segundo lugar, en términos de ingeniería, sobre la base del marco de entrenamiento distribuido de desarrollo propio, Baichuan Intelligence integra casi todas las tecnologías de optimización avanzadas del mercado, incluido el paralelismo tensorial, el paralelismo de flujo, el paralelismo de secuencia, el recálculo y la descarga, y ha creado un conjunto completo de esquemas distribuidos paralelos 4D, que pueden encontrar automáticamente la estrategia distribuida más adecuada de acuerdo con la situación de carga específica del modelo, lo que reduce en gran medida la ocupación de memoria en el proceso de entrenamiento e inferencia de ventana larga.
Se abre oficialmente la prueba interna y se lanza la experiencia de primera mano
¡Ahora, Baichuan2-192K ha comenzado oficialmente la beta cerrada!
Baichuan2-192K se ha conectado a sus propias aplicaciones y negocios a través de llamadas API, y ahora los medios financieros, los bufetes de abogados y otras instituciones han llegado a la cooperación con Baichuan Intelligence.
Es concebible que con la aplicación de las capacidades de contexto largo líderes en el mundo de Baichuan2-192K a escenarios específicos como los medios de comunicación, las finanzas y el derecho, sin duda ampliará un espacio más amplio para la implementación de grandes modelos.
A través de las API, Baichuan2-192K puede integrarse de manera efectiva en escenas más verticales e integrarse profundamente con ellas.
En el pasado, los documentos con grandes cantidades de contenido a menudo se convertían en una montaña que no podíamos cruzar en nuestro trabajo y estudio.
Ya sea que se trate de un resumen / revisión de un documento largo, un artículo o informe largo, o una ayuda de programación compleja, Baichuan2-192K proporcionará un gran impulso.
Para los gestores de fondos, puede ayudar a resumir e interpretar los estados financieros, analizar los riesgos y oportunidades de la empresa.
Para los abogados, puede ayudar a identificar riesgos en múltiples documentos legales, revisar contratos y documentos legales.
Desde entonces, la mayoría de los investigadores científicos también han tenido una herramienta de investigación científica, y pueden navegar rápidamente por una gran cantidad de artículos y resumir los últimos avances de vanguardia.
Las aplicaciones de agentes y multimodales son los puntos críticos de investigación de frontera en la industria actual. Con capacidades contextuales más largas, los modelos grandes pueden procesar y comprender mejor las entradas multimodales complejas, lo que permite un mejor aprendizaje por transferencia.
Longitud del contexto, un campo de batalla para soldados
Se puede decir que la longitud de la ventana de contexto es una de las tecnologías centrales de los modelos grandes.
Ahora, muchos equipos están comenzando con la "entrada de texto largo" para construir la competitividad diferenciada del modelo base. Si el número de parámetros determina la complejidad que puede hacer el modelo grande, la longitud de la ventana de contexto determina cuánta "memoria" tiene el modelo grande.
Sam Altman dijo una vez que pensábamos que queríamos un coche volador, no 140/280 caracteres, pero en realidad queríamos 32.000 fichas.
En mayo de este año, GPT-4, que tiene un contexto de 32K, provocó una acalorada discusión.
En ese momento, los internautas que habían desbloqueado esta versión elogiaron a GPT-4 32K como el mejor gestor de producto del mundo.
En otras palabras, después de que la persona promedio haya leído la misma cantidad de contenido en aproximadamente 5 horas, tiene que pasar más tiempo digiriendo, memorizando y analizando. Para Claude, se tarda menos de 1 minuto.
Los resultados muestran que el modelo con parámetros 70B ha logrado un rendimiento superior a gpt-3.5-turbo-16K en varias tareas de contexto largo.
El método LongLoRA propuesto por investigadores de los equipos de Hong Kong, China y MIT puede extender la longitud del texto del modelo 7B a 100k tokens y la longitud del texto del modelo 70B a 32k tokens con solo dos líneas de código y una máquina A100 de 8 tarjetas.
Los investigadores de DeepPavlov, AIRI y el Instituto de Ciencias Matemáticas de Londres utilizaron el método Recurrent Memory Transformer (RMT) para aumentar la longitud efectiva del contexto de BERT a un "número sin precedentes de 2 millones de tokens" y mantener una alta precisión de recuperación de memoria.
Sin embargo, aunque RMT puede escalar a longitudes de secuencia casi infinitas sin aumentar el consumo de memoria, todavía existe un problema de decaimiento de memoria en las RNN y tiempos de inferencia más largos.
Actualmente, la longitud de la ventana de contexto de los LLM se encuentra principalmente en el rango de 4,000-100,000 tokens, y continúa creciendo.
Y esta vez, el modelo doméstico de gran tamaño marcó el comienzo del momento histórico más destacado de la ventana de contexto más larga.
La ventana de contexto de 192K, que actualizó el récord de la industria, no solo representa otro avance en la tecnología de modelos a gran escala de Baichuan Intelligence, sino también otro hito en el desarrollo del modelo a gran escala. Esto inevitablemente traerá una nueva ronda de choque a la reforma de la forma del lado del producto.
De esta manera, se trata básicamente de un LLM el primer día de enero.
Ahora, con el lanzamiento de Baichuan2-192K, la tecnología de ventana de contexto largo de modelo grande también entrará de lleno en la era china.