¡El mejor tratamiento de alucinaciones del país! Con 53 mil millones de parámetros, la capacidad de razonamiento de Baichuan2 se disparó en un 100% y la API se abrió para uso comercial por primera vez.

2023-09-26 04:13:21

Fuente original: Xinzhiyuan

Fuente de la imagen: Generada por IA ilimitada

¡El modelo grande de Baichuan fue completamente actualizado ayer!

Recién el 25 de septiembre, Baichuan Intelligent lanzó oficialmente un modelo grande de 53 mil millones de parámetros recientemente actualizado: Baichuan2-53B.

Dirección de la experiencia:

Esta vez, sus habilidades de razonamiento matemático y lógico han mejorado significativamente.

Más importante aún, gracias a un sistema de datos de alta calidad y mejoras de búsqueda, las alucinaciones de Baichuan2-53B se han reducido considerablemente, lo que lo convierte en el modelo nacional más grande con el menor problema de alucinaciones.

No solo eso, como una de las primeras grandes empresas modelo en pasar el proceso de registro, Baichuan Intelligence también abrió la interfaz API Baichuan2-53B.

Esto significa que Baichuan Intelligence ha ingresado oficialmente al campo To B y comenzará el proceso de comercialización a partir de ahora.

El procesamiento de ilusiones, muy por delante en China

Lo más notable es que el Baichuan2-53B recientemente actualizado ya está muy por delante en la industria nacional en términos de procesamiento de "ilusiones".

En pocas palabras, "ilusión" significa que LLM a menudo habla en serio y sin sentido sin ningún hecho conocido que lo respalde.

Aunque GPT-4 se desempeña bien en una variedad de tareas, no puede escapar de esta maldición.

Entonces, ¿por qué los modelos grandes tienen "alucinaciones"?

En abril, el cofundador e investigador de OpenAI, John Schulman, explicó en un discurso en la Universidad de California en Berkeley las dificultades que son difíciles de superar con modelos grandes.

En opinión de Schulman, hay un “gráfico de conocimiento” escondido dentro de la caja negra del LLM. Si no hay conocimiento en esta arquitectura, y solo enseñar el conocimiento del modelo grande (es decir, clonación de comportamiento) a través de SFT en realidad es enseñarle a generar ilusiones.

En respuesta a este problema, ¿cómo logra Baichuan Intelligence un rendimiento líder en la industria en el "procesamiento de ilusiones" de modelos grandes?

En términos de construcción de datos de alta calidad, Baichuan2-53B ha creado un sistema de calidad de datos único.

Clasifique los datos según estándares de alta y baja calidad para garantizar que Baichuan2-53B siempre utilice datos de alta calidad para el entrenamiento previo.

Además, en términos de adquisición de información, Baichuan2-53B ha actualizado varios módulos, incluidos componentes clave como la comprensión de la intención del comando, la búsqueda inteligente y la mejora de resultados.

Este sistema integral impulsa con precisión la búsqueda de términos de consulta mediante una comprensión profunda de las instrucciones del usuario y, finalmente, combina tecnología de modelos de lenguaje grande para optimizar la confiabilidad de la generación de resultados del modelo, lograr resultados de respuesta del modelo más precisos e inteligentes y reducir las ilusiones del modelo.

Por ejemplo, cuando se trata de explicar el problema de "enganchar tres hilos, cuatro hilos y cinco", GPT-4 obviamente dice tonterías.

Por el contrario, Baichuan2-53B dio la respuesta correcta la primera vez.

Para poner otro ejemplo, la respuesta de Baichuan2-53B a la clásica pregunta "¿Son Zhou Shuren y Lu Xun la misma persona?" es completa y precisa.

Se puede ver que mediante la construcción de un sistema de datos de alta calidad y la optimización de la tecnología de mejora de búsqueda, Baichuan2-53B reduce efectivamente la ilusión del modelo.

Los resultados después de la evaluación de FacTool muestran que Baichuan2-53B tiene una puntuación integral de 140,5, ubicándose solo detrás de GPT-4 entre los principales modelos básicos grandes, y se encuentra en el nivel líder a nivel nacional.

FacTool es un marco general propuesto conjuntamente por académicos de la Universidad Jiao Tong de Shanghai, la Universidad Carnegie Mellon, la Universidad de la Ciudad de Hong Kong, Meta y otras instituciones. Puede verificar la precisión fáctica del contenido generado por modelos grandes (también puede verificar la precisión fáctica de contenido general).sexo).

dirección del proyecto:

Mejora de habilidad, razonamiento 100% arriba

De hecho, Baichuan2-53B ya es el sexto modelo grande lanzado por Baichuan Intelligence.

Desde que se estableció Baichuan Intelligence el 10 de abril, ha estado innovando a una velocidad asombrosa: ¡la velocidad de iteración ha alcanzado un promedio de lanzamiento de un modelo grande cada 28 días!

Ya el 8 de agosto, cuando se lanzó por primera vez Baichuan2-53B, mostró un excelente conocimiento de preguntas y respuestas y habilidades de creación literaria.

Si desea preguntar cuáles son los indicadores importantes para evaluar si un modelo grande es líder, creo que la "capacidad de razonamiento matemático y lógico" será la respuesta que darán muchas personas en la industria.

Esta vez, basado en Baichuan-53B, Baichuan2-53B se centra en fortalecer sus capacidades de razonamiento matemático y lógico, y también mejora integralmente sus capacidades generales.

Específicamente, su capacidad de razonamiento lógico aumenta en un 100%, su capacidad matemática aumenta en un 31%, su capacidad de comprensión del lenguaje aumenta en un 29%, su capacidad de creación de textos aumenta en un 18% y su capacidad de preguntas y respuestas de conocimientos aumenta. en un 9%.

### Razonamiento matemático

Baichuan2-53B, que ha mejorado enormemente su capacidad matemática, puede resolver fácilmente problemas matemáticos.

Por ejemplo, la suma de dos números es 572 y el dígito de las unidades de uno de los sumandos es 0. Después de eliminar el 0, es lo mismo que el segundo sumando. Entonces, ¿cuáles son estos dos números?

Baichuan2-53B enumera la ecuación, suponiendo que un sumando es 10A y el otro es B, y luego, según las condiciones conocidas, se obtiene la solución correcta.

Para otro ejemplo, en la pregunta siguiente, Baichuan2-53B primero calculó los ingresos totales por transporte y luego los dividió por la pérdida por caja de vidrio para obtener la cantidad de cajas de vidrio dañadas.

Tomemos otra pregunta clásica: "¿Cuántos kilómetros hay entre dos lugares?" Baichuan2-53B obtuvo la respuesta correcta mediante cálculos paso a paso.

En términos de razonamiento, comencemos con una pregunta simple: el pronóstico del tiempo decía que llovería este miércoles y ayer llovió, ¿qué día de la semana es hoy?

¡A Baichuan2-53B se le ocurrió "jueves" sin esfuerzo!

A continuación, el razonamiento es un poco más difícil: supongamos que hay un estanque con agua infinita.

Hay dos marmitas vacías con capacidades de 5 litros y 6 litros respectivamente. ¿Cómo puedo sacar 3 litros de agua del estanque con sólo estas 2 teteras?

Baichuan2-53B comenzó a responder sin problemas y dio la respuesta correcta en 6 pasos.

Después de muchas rondas de pruebas, se puede descubrir que las capacidades de razonamiento matemático y lógico del Baichuan2-53B actualizado son de hecho diferentes de las del mismo modelo. Ha mejorado mucho en temas en los que antes no era muy bueno.

Problema de puntualidad

En términos de puntualidad, el desempeño de Baichuan2-53B es excelente.

Los Juegos Asiáticos de Hangzhou acaban de inaugurarse y el jugador más joven tiene solo 9 años. Baichuan2-53B también respondió correctamente a la última pregunta.

Baichuan2-53B incluso explicó con precisión el principio de la red neuronal detrás de Optimus, el robot humanoide que acaba de anunciar Tesla.

Otro ejemplo, a principios de septiembre de este año, concluyó en Italia el 80º Festival de Cine de Venecia.

¿Hay películas y actores chinos ganando premios en este festival de cine?

Baichuan2-53B respondió de inmediato que "Love is a Gun" de Li Hongqi ganó el premio a la mejor ópera prima y Tony Leung ganó el premio León de Oro a la trayectoria.

El contrato de Boss Mei con París expira a finales de junio de este año y se unió oficialmente al Inter Miami en julio.

Baichuan2-53B también lo sabe muy bien.

Del mismo modo, también puede indicarle con precisión que Druid ha ganado un total de 24 Grand Slams, incluido este de 2023.

Abra API e ingrese oficialmente al uso comercial

No solo eso, esta vez Baichuan2-53B también abrió oficialmente la interfaz API, lo que permite a las empresas y desarrolladores integrar el modelo en sus propias aplicaciones y servicios.

Dirección API:

¿Existe algún umbral para este servicio?

Se puede decir que casi ninguno. La interfaz API de Baichuan2-53B es muy conveniente y fácil de usar y solo requiere una configuración e integración simples para acceder a ella.

Además, es altamente compatible con la interfaz de OpenAI, lo que permite a los clientes migrar rápidamente, lo que reduce en gran medida tanto los costos de implementación del modelo como los costos de conversión.

En resumen, ya sea un servicio al cliente inteligente, una redacción inteligente o una recomendación inteligente, todo puede ser respaldado por las capacidades de los modelos grandes.

Lo que más preocupa a los usuarios empresariales son los problemas de cumplimiento de la seguridad.

No hay necesidad de preocuparse por esto.

Como una de las primeras empresas modelo a gran escala en aprobar las "Medidas provisionales para la gestión de servicios de inteligencia artificial generativa", Baichuan Intelligent ha creado mejoras de seguridad para Baichuan2-53B que cubren el ciclo completo de preentrenamiento de modelos a gran escala, fino- ajuste e inferencia. Se puede decir que todo el proceso está bajo seguridad.

Con las ricas y poderosas capacidades del modelo Baichuan2-53B, los usuarios empresariales no solo pueden actualizar los servicios existentes y reducir costos, sino también explorar más escenarios de aplicaciones.

Se cree que en este momento ya se está gestando una gran ola de innovaciones impresionantes en el suelo.

Referencias:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Simple Earn Annual Rate 24.4%
39k Popularidad
2Gate Launchpad List IKA
41k Popularidad
3ETH Trading Volume Surges
42k Popularidad
4Gate ETH 10th Anniversary Celebration
22k Popularidad
5Trump’s AI Strategy
18k Popularidad

Anclado