Ha pasado más de medio año y la clasificación de ChatGPT está casi al final.

2023-09-08 06:02:49

Fuente: Medios de titanio

Autor: Tecnología Sanyan

Ayer, el autor robó accidentalmente una imagen.

Según la imagen, el GPT-4 de OpenAI ocupa el último lugar entre los 11 modelos grandes (el primero tiene el número 0). Algunos internautas agregaron las palabras "GPT4: ¿Cómo puedo quejarme de mis quejas?"

Esto no puede evitar despertar la curiosidad de la gente. A principios de este año, después de que ChatGPT se hizo popular, otras empresas comenzaron a proponer el concepto de modelos grandes.

¿Solo ha pasado más de medio año y GPT ya está “en el fondo”?

Por eso, el autor quería ver cómo era el ranking GPT.

El tiempo de prueba es diferente, el equipo de prueba es diferente, GPT-4 ocupa el undécimo lugar

A juzgar por la información mostrada en la imagen del artículo anterior, esta clasificación pertenece a la lista C.

C-List, el nombre completo de C-Global Large Model Comprehensive Examination Test List, es un kit de evaluación de exámenes integrales modelo de idioma chino construido conjuntamente por la Universidad de Tsinghua, la Universidad Jiaotong de Shanghai y la Universidad de Edimburgo.

Se informa que el conjunto cubre cuatro direcciones principales: humanidades, ciencias sociales, ciencias e ingeniería, y otras especialidades, incluidas 52 materias, que cubren múltiples campos de conocimiento como cálculo y álgebra lineal. Hay un total de 13.948 preguntas de conocimiento y razonamiento chino, con dificultad dividida en cuatro niveles de prueba: escuela secundaria, pregrado, posgrado y vocacional.

Entonces revisé la última lista C.

La última clasificación de la Lista C es consistente con la clasificación que se muestra en la imagen anterior: entre los 11 modelos grandes principales, el GPT-4 ocupa el último lugar.

Según la lista C, estos resultados representan pruebas de tiro cero (aprendizaje de tiro cero) o pruebas de tiro bajo (aprendizaje de tiro bajo), pero tiro corto no es necesariamente mejor que tiro cero.

C- dijo que en sus pruebas se encontró que muchos modelos después del ajuste fino de las instrucciones eran mejores con disparo cero. Muchos de los modelos probados tienen resultados tanto de disparo cero como de pocos disparos, y la clasificación muestra la configuración con la mejor puntuación promedio general.

La lista C también indica que los nombres de modelos grandes con "*" indican que los resultados del modelo fueron probados por el equipo C, mientras que otros resultados se obtuvieron a través de envíos de usuarios.

Además, el autor también notó que el tiempo para enviar los resultados de las pruebas para estos modelos grandes varía mucho.

El tiempo de envío de los resultados de la prueba para GPT-4 es el 15 de mayo, mientras que Yuntianshu, que ocupa el primer lugar, lo envía el 31 de agosto; Galaxy, que ocupa el segundo lugar, lo envía el 23 de agosto; y YaYi, que ocupa el tercer lugar, envía sus resultados el 31 de agosto. para el 4 de septiembre.

Además, entre los 16 modelos grandes principales, solo GPT-4 tiene "*" agregado a su nombre y fue probado por el equipo C.

Entonces el autor volvió a comprobar la lista C completa.

La última lista C incluye clasificaciones de 66 modelos grandes.

Entre ellos, solo hay 11 con "*" en sus nombres, que son probados por el equipo C, y la fecha de presentación para la prueba fue el 15 de mayo.

Para estos grandes modelos probados por el equipo C, GPT-4 de OpenAI ocupó el puesto 11, ChatGPT ocupó el puesto 36, ChatGLM-6B de Tsinghua Zhipu AI ocupó el puesto 60 y MOSS de Fudan ocupó el puesto 6. catorce.

Aunque estas clasificaciones pueden mostrar el rápido impulso de desarrollo de los grandes modelos nacionales, el autor cree que, después de todo, no son probados por el mismo equipo al mismo tiempo, lo que no es suficiente para demostrar plenamente quién es más fuerte y quién más débil entre ellos. Estos modelos grandes.

Esto es como, estudiantes en una clase, todos tienen diferentes horarios de examen y diferentes exámenes, ¿cómo podemos comparar el puntaje de cada estudiante en función del puntaje de cada estudiante?

¿Qué dice el gran desarrollador de modelos? Varias personas dijeron que superaron a ChatGPT en términos de chino y otras habilidades

Recientemente, el círculo de modelos grandes ha estado bastante animado.

Además, los productos de modelos grandes de ocho empresas, incluidas Baidu y Byte, han pasado el registro de las "Medidas provisionales para la gestión de servicios de inteligencia artificial generativa" y pueden lanzarse oficialmente en línea para brindar servicios al público. Otras empresas han lanzado sucesivamente sus propios productos de modelos grandes.

Entonces, ¿cómo presentan sus productos los desarrolladores de estos grandes modelos?

El 7 de julio, en el foro de la Conferencia Mundial de Inteligencia Artificial de 2023 "Oportunidades y riesgos para el desarrollo de la industria general de la inteligencia artificial en la era de los grandes modelos", Qiu Xipeng, profesor de la Facultad de Ciencias y Tecnología de la Computación de la Universidad de Fudan y director de El sistema MOSS dijo que el modelo de lenguaje conversacional a gran escala de Fudan, MOSS, se lanzó en febrero de este año y todavía se itera continuamente: "** El último MOSS ha podido superar a ChatGPT ** en capacidad china".

A finales de julio, NetEase Youdao lanzó un gran modelo de traducción. El director ejecutivo de NetEase Youdao, Zhou Feng, declaró públicamente que en las pruebas internas, en la dirección de traducción chino-inglés, superó las capacidades de traducción de ChatGPT y superó el nivel de Google Translate. **

A finales de agosto, en la Cumbre de Verano del Foro Yabuli de 2023, Liu Qingfeng, fundador y presidente de iFlytek, pronunció un discurso y dijo: “** Las capacidades de generación y finalización de código del modelo iFlytek Spark han superado a ChatGPT, y otras capacidades. poniéndose al día rápidamente. **La lógica, los algoritmos, los sistemas de métodos y los preparativos de datos para la capacidad del código actual están listos, y todo lo que se necesita es tiempo y potencia de cálculo”.

SenseTime afirmó en un comunicado de prensa reciente que en agosto de este año, el nuevo modelo internlm-123b completó su entrenamiento y el número de parámetros aumentó a 123 mil millones. **En los 51 conjuntos de evaluación más conocidos del mundo con un total de 300.000 preguntas, la puntuación general de la prueba ocupa el segundo lugar en el mundo, superando a gpt-3.5-turbo y al recientemente lanzado llama2-70b de meta y otros modelos. **

Según SenseTime, **internlm-123 ocupó el primer lugar en 12 de las evaluaciones principales. Entre ellos, la puntuación agi en la prueba integral del conjunto de evaluación fue 57,8, superando a gpt-4 para ocupar el primer lugar; la puntuación de evaluación de **knowledge quiz commonsenseqa fue 88,5, ocupando el primer lugar; internlm-123b obtuvo una puntuación en las cinco evaluaciones de lectura. comprensión Todos encabezan la lista.

Además, ocupó el primer lugar en las cinco evaluaciones de razonamiento.

A principios de este mes, Zuoyebang lanzó oficialmente el modelo Galaxy de desarrollo propio.

Homework Gang afirmó que el modelo grande Galaxy ha logrado los resultados de los dos puntos de referencia autorizados de evaluación de modelos de lenguaje grande, C- y CMMLU. Según los datos, el modelo grande del Jobbang Galaxy ocupa el primer lugar en la lista C con una puntuación media de 73,7 puntos; al mismo tiempo, ocupa el primer lugar en las evaluaciones de cinco y cero disparos de la lista CMMLU con una puntuación media de 73,7 puntos. puntuación media de 74,03 puntos y 73,85 puntos respectivamente En primer lugar, se convierte en el primer modelo educativo que ocupa el primer lugar en la puntuación media de las dos listas autorizadas anteriores al mismo tiempo.

Ayer, Baichuan Intelligent anunció el Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat oficial de código abierto optimizado y sus versiones cuantificadas de 4 bits.

Wang Xiaochuan, fundador y director ejecutivo de Baichuan Intelligent, dijo que el modelo de chat perfeccionado, en el campo chino, en el entorno de preguntas y respuestas o en el entorno de resumen, su rendimiento real ha superado el modelo de código cerrado como ChatGPT. 3.5. **

Hoy, en la Conferencia Global de Ecología Digital Tencent 2023, Tencent lanzó oficialmente el modelo grande Hunyuan. Jiang Jie, vicepresidente del Grupo Tencent, dijo que la capacidad del idioma chino del modelo grande **Tencent Hunyuan ha superado el GPT-3.5. **

Además de la autopresentación de estos desarrolladores, también hay algunos medios y equipos evaluando un modelo grande.

A principios de agosto, el equipo de Shen Yang, profesor y supervisor de doctorado en la Escuela de Periodismo y Comunicación de la Universidad de Tsinghua, publicó el "Informe de evaluación integral del desempeño de grandes modelos lingüísticos". El informe muestra que **Baidu Wenxinyiyan tiene una puntuación integral en 20 indicadores en tres dimensiones principales que lidera el país y es mejor que ChatGPT. Entre ellos, la comprensión semántica china ocupa un lugar destacado y algunas habilidades chinas son mejores que GPT-4. **

A mediados de agosto, algunos medios informaron que el 11 de agosto, el modelo grande MiLM-6B de Xiaomi apareció en las listas de evaluación de modelos grandes C- y CMMLU. A partir de ahora, MiLM-6B ocupa el décimo lugar en la lista general C, el primero en la misma magnitud de parámetro y el primero en los modelos grandes chinos CMMLU.

El 12 de agosto, la Universidad de Tianjin publicó el "Informe de evaluación del modelo grande". El informe muestra que el rendimiento integral de **GPT-4 y Baidu Wenxinyiyan está significativamente por delante de otros modelos, y sus puntuaciones no son muy diferentes y están al mismo nivel. Wen Xinyiyan superó a ChatGPT en la mayoría de las tareas chinas y gradualmente redujo la brecha con GPT-4. **

A finales de agosto, algunos medios informaron que el modelo de lenguaje grande desarrollado por Kuaishou, “KwaiYii”, había comenzado a realizar pruebas internas. En la última clasificación china de CMMLU, la versión 13B del KwaiYii-13B de Ruyi ocupó el primer lugar tanto en cinco disparos como en cero disparos. Es fuerte en humanidades y temas específicos de China, con una puntuación promedio de más de 61 puntos.

Del contenido anterior se puede ver que, aunque estos modelos grandes afirman estar en la cima en un determinado ranking o superar a ChatGPT en un determinado aspecto, la mayoría de ellos se desempeñan bien en algunos campos específicos.

Además, algunas puntuaciones integrales superan GPT-3,5 o GPT-4, pero la prueba GPT se suspendió en mayo ¿Quién puede garantizar que GPT no haya mejorado en los últimos tres meses?

Situación de OpenAI

Según un informe de UBS de febrero, apenas dos meses después del lanzamiento de ChatGPT, sus usuarios activos mensuales a finales de enero de 2023 habían superado los 100 millones, lo que la convierte en la aplicación de consumo de más rápido crecimiento de la historia.

Pero el desarrollo de ChatGPT no es tan sencillo.

En julio de este año, muchos usuarios de GPT-4 se quejaron de que, en comparación con las capacidades de razonamiento anteriores, el rendimiento de GPT-4 había disminuido.

Algunos usuarios señalaron problemas en Twitter y el foro de desarrolladores en línea OpenAI, centrándose en una lógica más débil, más respuestas incorrectas, la incapacidad de realizar un seguimiento de la información proporcionada, dificultad para seguir instrucciones, olvidarse de agregar paréntesis en el código de software básico y solo recordar el consejos más recientes, etc.

En agosto, otro informe decía que OpenAi podría estar en peligro financiero y podría declararse en quiebra a finales de 2024.

Según el informe, OpenAI cuesta alrededor de 700.000 dólares al día sólo para ejecutar su servicio de inteligencia artificial ChatGPT. Actualmente, la empresa está intentando ser rentable con GPT-3.5 y GPT-4, pero aún no ha generado suficientes ingresos para alcanzar el punto de equilibrio.

Sin embargo, OpenAI también puede tener nuevas oportunidades.

Recientemente, OpenAI anunció que celebrará su primera conferencia de desarrolladores en noviembre.

Aunque OpenAI dijo que no lanzará GPT-5, OpenAI dijo que cientos de desarrolladores de todo el mundo se unirán al equipo de OpenAI para obtener una vista previa de "nuevas herramientas" e intercambiar ideas.

Esto puede significar que ChatGPT ha logrado nuevos avances.

Según The Paper, el 30 de agosto, una persona familiarizada con el asunto reveló que al vender software de inteligencia artificial y la potencia informática para impulsar su operación, se espera que OpenAI logre más de mil millones de dólares en ingresos en los próximos 12 meses.

Hoy, otro informe de los medios afirmó que Morgan Stanley lanzará un chatbot de inteligencia artificial generativa desarrollado conjuntamente con OpenAI a finales de este mes.

Las personas que tratan con los banqueros de Morgan Stanley son ricas o caras. Si este próximo chatbot de inteligencia artificial generativa puede brindar una experiencia diferente a los clientes de Morgan Stanley, puede ser una gran ganancia para OpenAI.

La llegada de la era de la inteligencia artificial se ha vuelto imparable. En cuanto a quién es mejor, no puedes decirlo tú mismo, debes dejar que los usuarios lo califiquen. También creemos que los modelos nacionales grandes definitivamente alcanzarán a ChatGPT en términos de capacidades específicas y capacidades integrales.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Altcoin Season Coming?
24k Popularidad
2Stablecoin Regulation Crackdown
9k Popularidad
3Gate June Transparency Report
22k Popularidad
4ETH Breaks Through $3,800
28k Popularidad
5Institutions Buying Bitcoin
17k Popularidad

Anclado

Ha pasado más de medio año y la clasificación de ChatGPT está casi al final.

** El tiempo de prueba es diferente, el equipo de prueba es diferente, GPT-4 ocupa el undécimo lugar **

** ¿Qué dice el gran desarrollador de modelos? Varias personas dijeron que superaron a ChatGPT en términos de chino y otras habilidades**

Situación de OpenAI

El tiempo de prueba es diferente, el equipo de prueba es diferente, GPT-4 ocupa el undécimo lugar

¿Qué dice el gran desarrollador de modelos? Varias personas dijeron que superaron a ChatGPT en términos de chino y otras habilidades