Wang Xiaochuan anunció el último modelo grande, que se afirma que es el más largo del mundo, 14 veces más que GPT-4

Fuente original: Titanium Media

Autor: Lin Zhijia

Fuente de la imagen: Generado por Unbounded AI

La competencia de la tecnología nacional de modelos a gran escala se ha acelerado, y después del lanzamiento de los últimos productos de iFLYTEK Xinghuo y Zhipu, Baichuan también ha marcado el comienzo de nuevos logros de modelos a gran escala.

En la mañana del 30 de octubre, la empresa de modelos grandes de IA "Baichuan Intelligence", fundada por Wang Xiaochuan, anunció el lanzamiento del modelo grande Baichuan2-192K, que tiene una longitud de ventana de contexto de hasta 192K y puede procesar alrededor de 350,000 caracteres chinos.

** Baichuan Intelligence dijo que Baichuan2-192K es actualmente la ventana de contexto más larga del mundo, y también es 4,4 veces mayor que Claude2, el mejor modelo grande que actualmente admite ventanas de contexto largas (admite ventanas de contexto de 100K, medidas alrededor de 80,000 palabras), y es 14 veces (1400%) de GPT-4 (admite ventanas de contexto de 32K, medidas alrededor de 25,000 palabras). ** Esto no solo supera a Claude2 en la longitud de la ventana de contexto, sino que también supera a Claude2 en la calidad de la generación de texto de ventana larga, la comprensión del contexto largo y las preguntas y respuestas de texto largo, el resumen, etc.

Se informa que Baichuan2-192K se proporcionará a los usuarios empresariales en forma de llamadas a la API y despliegue privatizado. En la actualidad, Baichuan Intelligent ha lanzado las pruebas internas de API del modelo grande y las ha abierto a socios principales en las industrias legal, de medios, financiera y otras.

Se informa que Baichuan Intelligence fue establecida el 10 de abril de 2023 por Wang Xiaochuan, fundador y ex director ejecutivo de Sogou. Su equipo central está compuesto por los mejores talentos de IA de conocidas empresas tecnológicas como Sogou, Google, Tencent, Baidu, Huawei, Microsoft y Byte. En la actualidad, el tamaño del equipo de Baichuan Intelligent es de más de 170 personas, de las cuales casi el 70% son empleados con maestría o superior, y más del 80% son personal de investigación y desarrollo.

En los últimos 200 días, Baichuan Intelligent ha lanzado un modelo grande cada 28 días en promedio, y ha Baichuan-7B / 13B, Baichuan2-7B / 13B cuatro modelos grandes comerciales gratuitos de código abierto y Baichuan-53B, Baichuan2-53B dos modelos grandes de código cerrado, en el campo de la escritura, la creación de textos y otros campos de habilidad ha alcanzado un buen nivel en la industria. En la actualidad, los dos modelos de código abierto de Baichuan-7B y 13B se encuentran entre los mejores en muchas listas de evaluación autorizadas, con una descarga acumulada de más de 6 millones de veces.

En cuanto a la empresa que construye grandes modelos de IA, Wang Xiaochuan ha dicho que las herramientas técnicas existentes de su equipo se pueden utilizar para construir grandes modelos, y que los competidores de la empresa son las soluciones de código abierto de las grandes empresas. Wang Xiaochuan también cree que no es necesario que todo el equipo sea demasiado grande y que 100 personas son suficientes.

El 31 de agosto, Baichuan Intelligent tomó la iniciativa en la aprobación de las "Medidas provisionales para la gestión de servicios de inteligencia artificial generativa" nacionales para el registro, y fue la única empresa emergente de modelos a gran escala establecida este año entre las primeras ocho empresas, y abrió la interfaz API Baichuan2-53B el 25 de septiembre, ingresando oficialmente al campo empresarial To B e iniciando el proceso de comercialización.

El 17 de octubre, Baichuan Intelligent anunció que había completado la ronda A1 de financiación estratégica de 300 millones de dólares estadounidenses, y Alibaba, Tencent, Xiaomi y otros gigantes tecnológicos y varias de las principales instituciones de inversión participaron en esta ronda. Con la adición de la ronda ángel de 50 millones de dólares estadounidenses, el monto de financiamiento acumulado de Baichuan Intelligent ha alcanzado los 350 millones de dólares estadounidenses (alrededor de 2.543 millones de yuanes).

Baichuan Intelligent no reveló la valoración específica actual, solo dijo que después de esta ronda de financiación, la compañía se ha convertido en un unicornio tecnológico. Según la definición general, la valoración de los unicornios es de más de 1.000 millones de dólares estadounidenses (unos 7.266 millones de yuanes).

** En el lanzamiento de Baichuan2-192K, Baichuan Intelligent dijo que se desempeñó bien en 10 conjuntos de evaluación de resúmenes y preguntas de texto largo en chino e inglés, como Dureader, NarrativeQA, LSHT y TriviaQA, y 7 de ellos lograron SOTA, superando significativamente a otros modelos de ventana larga y liderando a Claude2 de manera integral. **

Baichuan señaló que es el consenso de la industria de la inteligencia artificial que la expansión de la ventana de contexto puede mejorar efectivamente el rendimiento de los modelos grandes, pero la ventana de contexto ultra larga significa mayores requisitos de potencia de cómputo y una mayor presión de memoria. En la actualidad, hay muchas formas de aumentar la longitud de la ventana de contexto en la industria, incluidas las ventanas correderas, la reducción de muestreo, los modelos pequeños, etc. Aunque estos métodos pueden aumentar la longitud de la ventana de contexto, todos tienen diversos grados de deterioro del rendimiento del modelo, en otras palabras, todos sacrifican el rendimiento de otros aspectos del modelo a cambio de una ventana de contexto más larga. El Baichuan2-192K lanzado esta vez logra un equilibrio entre la longitud de la ventana y el rendimiento del modelo a través de la optimización del algoritmo y la ingeniería, y logra la mejora simultánea de la longitud de la ventana y el rendimiento del modelo.

En términos de algoritmos, Baichuan Intelligent propone un esquema de extrapolación para la codificación de posición dinámica RoPE y ALiBi, que mejora la capacidad de modelado del modelo para depender de secuencias largas mientras garantiza la resolución, y cuando la longitud de la ventana se expande, la capacidad de modelado de secuencias de Baichuan2-192K continúa aumentando. En términos de ingeniería, sobre la base del marco de entrenamiento distribuido de desarrollo propio, Baichuan Intelligent integra y optimiza múltiples tecnologías y crea un conjunto completo de soluciones distribuidas paralelas 4D, que pueden encontrar automáticamente la estrategia distribuida más adecuada de acuerdo con la carga específica del modelo, lo que reduce en gran medida la ocupación de memoria en el proceso de entrenamiento e inferencia de ventana larga.

Baichuan2-192K puede integrarse profundamente con escenarios más verticales, desempeñar realmente un papel en el trabajo, la vida y el aprendizaje de las personas, y ayudar a los usuarios de la industria a reducir mejor los costos y aumentar la eficiencia. Por ejemplo, puede ayudar a los gestores de fondos a resumir e interpretar los estados financieros, analizar los riesgos y oportunidades de la empresa; Ayudar a los abogados a identificar riesgos en múltiples documentos legales, revisando contratos y documentos legales; Ayude a los técnicos a leer cientos de páginas de documentación de desarrollo y responder preguntas técnicas; También puede ayudar al personal a hojear rápidamente una gran cantidad de documentos y resumir los últimos avances de vanguardia.

En la actualidad, Baichuan2-192K está abierto a los socios principales de Baichuan Intelligence en forma de llamadas API, y ha llegado a la cooperación con medios financieros y bufetes de abogados, diciendo que pronto se abrirá por completo.

El equipo de Wang Xiaochuan dijo que Baichuan Intelligent Baichuan2-192K innovó para ventanas de contexto largas en algoritmos e ingeniería, verificó la viabilidad de ventanas de contexto largas y abrió un nuevo camino de investigación científica para la mejora del rendimiento de modelos grandes. Al mismo tiempo, su contexto más largo también sentará una buena base técnica para que la industria explore campos de vanguardia como los agentes y las aplicaciones multimodales.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)