Desde la llegada de ChatGPT, ha habido una "carrera armamentística" para los grandes modelos en todo el mundo. Según los informes, de enero a julio de este año, se lanzaron un total de 64 modelos grandes en China. A partir de julio de 2023, se han lanzado un total de 130 modelos grandes en China.
"Cien modelos de guerra" no es suficiente para describir la abrasadora "situación de guerra" de hoy, entonces, ¿qué gran modelo es mejor? Esto es inseparable de la evaluación de modelos grandes.
Sin embargo, en esta etapa, no existe un método de evaluación reconocido y eficaz, lo que ha llevado a una "guerra de listas" en el campo de la evaluación de grandes modelos en el país y en el extranjero. Estadísticas incompletas, actualmente hay no menos de 50 herramientas (sistemas) de evaluación en el mercado, y los resultados de listas similares pueden variar ampliamente. Las dudas del público sobre los "puntos de cepillado" son infinitas.
** En general, la industria cree que hay dos criterios de manifestación para evaluar un modelo grande: uno es el número de parámetros y el otro es el conjunto de evaluación. **
La llamada cantidad de parámetros se refiere a la cantidad de parámetros que se pueden aprender en el modelo, incluido el peso y el sesgo del modelo. El tamaño del número de parámetros determina la complejidad del modelo, y más parámetros y el número de capas son las características distintivas que distinguen a los modelos grandes de los pequeños. En 2022, se dará a conocer un lote de modelos grandes en los Estados Unidos, desde Stability AI lanzó Diffusion, un modelo generativo de texto a imágenes, hasta ChatGPT lanzado por OpenAI, la escala de los parámetros del modelo comenzó a entrar en la era de decenas de miles de millones y cientos de miles de millones.
** A partir de los indicadores de superficie, los modelos con cientos de miles de millones de parámetros generalmente funcionan mejor que decenas de miles de millones de parámetros. Sin embargo, esto no es absoluto y los parámetros del montón no necesariamente mejoran las capacidades. Entonces, ¿cómo debe un modelo con el mismo nivel de parámetros distinguir entre bueno y malo? Esto requiere la introducción de la segunda dimensión de evaluación del modelo grande: el conjunto de evaluación.
El conjunto de evaluación es un conjunto de datos de referencia unificado de una o varias tareas construido para evaluar de manera efectiva el efecto integral del modelo básico y su algoritmo de ajuste fino en diferentes escenarios y diferentes tareas, y hay dos formas: abierto y cerrado.
** Estos conjuntos de evaluación son como exámenes para diferentes campos, y al probar las puntuaciones de los modelos grandes en estos "exámenes de exámenes", las personas pueden comparar de manera más intuitiva el rendimiento de los modelos grandes. **
En la era de los modelos pequeños, la mayoría de las instituciones modelo utilizarán el efecto de los conjuntos de evaluación académica como base para juzgar la calidad de los modelos. Ahora, los grandes fabricantes de modelos también han comenzado a participar más activamente en el marco de evaluación comparativa académica, viéndolo como una base autorizada de respaldo y marketing.
Hay muchos conjuntos de evaluación de modelos grandes en el mercado, como MMLU, modelo de evaluación chino C-, SuperCLUE, etc.
-1- Herramienta de evaluación
MMLU
Massive Multitask Language Understanding, una evaluación de comprensión del lenguaje para modelos grandes, es una de las evaluaciones de comprensión semántica más famosas para modelos grandes, lanzada por investigadores de la Universidad de UC Berkeley en septiembre de 2020. ** El examen cubre 57 tareas, incluidas matemáticas elementales, historia de EE. UU., ciencias de la computación, derecho y más. ** La tarea cubre una amplia gama de conocimientos y es en inglés para evaluar la cobertura de conocimientos básicos y la comprensión del modelo grande.
Dirección del papel:
Sitio web oficial:
Tabla de clasificación de modelos grandes:
C-
C- es un completo kit de evaluación del modelo base chino. Lanzado conjuntamente por investigadores de la Universidad Jiao Tong de Shanghái, la Universidad de Tsinghua y la Universidad de Edimburgo en mayo de 2023, contiene 13.948 preguntas de opción múltiple** que cubren 52 disciplinas diferentes y cuatro niveles de dificultad** para medir la comprensión de los grandes modelos chinos.
Dirección del papel:
Dirección del proyecto:
Sitio web oficial:
Superpista
Punto de referencia de evaluación integral chino de modelos grandes generales, las capacidades de los modelos se evalúan desde tres dimensiones diferentes: habilidad básica, capacidad profesional y capacidad característica china.
Entre ellas, las capacidades básicas de habilidad incluyen: ** Comprensión semántica, diálogo, razonamiento lógico, simulación de roles, codificación, generación y creación y otras 10 habilidades. **
Las competencias profesionales incluyen: Incluye exámenes secundarios, universitarios y profesionales, que cubren más de 50 competencias desde matemáticas, física, geografía hasta ciencias sociales.
Habilidad característica china: Para tareas con características chinas, incluye más de 10 habilidades como modismos chinos, poesía, literatura y glifos.
Dirección del proyecto:
Sitio web oficial:
Lista de SuperCLUE Langya
Punto de referencia de evaluación de batalla anónima de modelo grande universal chino, al igual que ChatbotArena, crowdsourcing de diferentes productos de modelos grandes para la evaluación de confrontación anónima y aleatoria, los resultados se basan en el sistema de calificación Elo.
Dirección del proyecto:
lyb
Chatbot Arena
ChatbotArena es una plataforma de referencia para Grandes Modelos de Lenguaje (LLM) de LMSYS Org, una organización de investigación fundada por UC Berkeley, UC San Diego y la Universidad Carnegie Mellon.
** Plataforma de referencia LLM para coincidencias aleatorias anónimas de forma colaborativa. **Entra en la plataforma de batalla a través de la dirección de la experiencia de demostración. Ingrese la pregunta que le interesa, después de enviar la pregunta, el modelo anónimo jugará en parejas para generar respuestas relevantes respectivamente, lo que requerirá que los usuarios juzguen las respuestas y elijan una de las 4 opciones de evaluación: el modelo A es mejor, el modelo B es mejor, empate y todos son pobres. Soporte para múltiples rondas de conversación. Por último, el sistema de puntuación Elo se utiliza para evaluar exhaustivamente las capacidades de los modelos grandes. (Puede especificar el modelo usted mismo para ver el efecto, pero no se contará en la clasificación final).
Dirección del proyecto:
Sitio web oficial:
Bandera
Flag es una plataforma de evaluación de modelos a gran escala que utiliza el marco de evaluación tridimensional "capability-task-index"** para proporcionar resultados de evaluación completos y detallados. La plataforma ha proporcionado más de 30 habilidades, 5 tareas y 4 categorías de indicadores, un total de más de 600 dimensiones de evaluación integral, incluyendo 22 conjuntos de datos de evaluación subjetiva y objetiva y 84433 preguntas.
La primera fase de Flag ha puesto en marcha un sistema de evaluación de modelos de lenguaje grande, una herramienta de evaluación de modelos de gran tamaño de texto y gráficos multilingües de código abierto mCLIP- y una herramienta de evaluación de generación de texto e imágenes de código abierto Image. Libra también continuará explorando la investigación cruzada de la evaluación del modelo lingüístico y la psicología, la educación, la ética y otras disciplinas sociales, con el fin de evaluar el modelo lingüístico de manera más científica y exhaustiva. Dirigido a grandes desarrolladores y usuarios de modelos, Flag está diseñado para ayudar a los equipos de desarrollo a comprender las debilidades de sus modelos e impulsar la innovación tecnológica.
Dirección del proyecto:
Sitio web oficial:
Brújula Abierta
En agosto de 2023, el Laboratorio de Inteligencia Artificial de Shanghái (Laboratorio de IA de Shanghái) lanzó oficialmente el sistema de evaluación abierta de modelos grandes OpenCompass, que admite la evaluación integral de varios modelos de modelos de lenguaje grandes y modelos multimodales a través de un marco de evaluación reproducible de código abierto completo**, y publica regularmente la lista de resultados de la evaluación.
Sitio web oficial:
Dirección del proyecto:
JioNLP
Para examinar el efecto de ayuda y la capacidad auxiliar del modelo LLM para usuarios humanos, si puede alcanzar el nivel de un "asistente inteligente", las preguntas de opción múltiple se derivan de varios exámenes profesionales en China continental, centrándose en la cobertura del conocimiento objetivo del modelo, que representa el 32%; Las preguntas subjetivas provienen de resúmenes diarios y examinan principalmente el efecto de los usuarios en las funciones comunes de LLM.
Dirección del proyecto:
Medir conjuntos de datos
Evaluación del modelo grande de Tsinghua Security
Una colección de reseñas recopiladas por Tsinghua cubre ocho categorías, que incluyen discurso de odio, discurso sesgado y discriminatorio, crimen y ley, privacidad, ética y moralidad, incluidas más de 40 categorías de seguridad de segundo nivel divididas en categorías detalladas**.
Dirección:
LLM-3
Lanzado por el Laboratorio de PNL de la Universidad de Fudan, se centra en la evaluación del conocimiento y la capacidad profesional, cubriendo 13 disciplinas y más de 50 disciplinas de segundo nivel designadas por el Ministerio de Educación, como filosofía, economía, derecho, educación, literatura, historia, ciencia, ingeniería, agricultura, medicina, ciencia militar, gestión, arte, etc., con un total de preguntas y respuestas generativas estándar de aproximadamente 20W. Con el fin de evitar la ocurrencia del fenómeno de cepillado de las clasificaciones, la evaluación LLM-3 adopta un modo de evaluación novedoso, a saber, el modo de "examen de banco de preguntas".
Dirección:
GAOKAO-Banco
GAOKAO-bench es un marco de evaluación que utiliza las preguntas del examen de ingreso a la universidad china como un conjunto de datos para evaluar la capacidad de comprensión del lenguaje y la capacidad de razonamiento lógico de grandes modelos.
Dirección del proyecto:
PandaLM
Entrena directamente un modelo de puntuación automatizado y puntúa dos modelos candidatos en un sistema de tres puntos de 0,1,2.
Dirección del proyecto:
BANCO GRANDE
BIG-bench, una colección de reseñas publicadas por Google, consta de 204 tareas sobre temas como lingüística, desarrollo infantil, matemáticas, razonamiento de sentido común, física biológica, sesgo social, desarrollo de software y más.
Dirección del proyecto:
MMCU
El Instituto de Investigación de IA Oracle Yi propone una prueba para medir la precisión de los grandes modelos chinos en el manejo de la multitarea, y el contenido de la prueba del conjunto de datos cubre cuatro campos principales: tratamiento médico, derecho, psicología y educación. ** El número de preguntas alcanzó las 10,000+, incluidas 2819 preguntas en el campo de la medicina, 3695 preguntas en el campo de la ley, 2001 preguntas en el campo de la psicología y 3331 preguntas en el campo de la educación.
Dirección del proyecto:
ACTUADO
El Big Model Basic Competency Assessment Benchmark de Microsoft, lanzado en abril de 2023, mide principalmente la capacidad general de los grandes modelos en cognición humana y resolución de problemas, cubriendo 20 exámenes de admisión y calificación oficiales, públicos y de alto nivel para candidatos humanos comunes en todo el mundo, incluidos datos en chino e inglés. Por lo tanto, la prueba se inclina más hacia los resultados de las pruebas en humanos, cubriendo tanto el chino como el inglés.
Dirección del papel:
GSM8K
El gran modelo de OpenAI, el Mathematical Reasoning Proficiency Assessment Benchmark, cubre 8.500 conjuntos de datos de problemas matemáticos de alta calidad a nivel de escuela secundaria. El conjunto de datos es más grande que el conjunto de datos de problemas de texto matemático anterior, el lenguaje es más diverso y las preguntas son más desafiantes. La prueba se lanzó en octubre de 2021 y sigue siendo un punto de referencia de prueba muy difícil.
Dirección del papel:
TIMÓN
El método de evaluación HELM incluye principalmente tres módulos: escena, adaptación e indicadores**, y cada ejecución de evaluación debe especificar una escena, una indicación para el modelo de adaptación y uno o más indicadores. Cubre principalmente el inglés, con 7 indicadores, que incluyen precisión, incertidumbre/calibración, robustez, equidad, sesgo, toxicidad y eficiencia de inferencia; Las tareas incluyen preguntas y respuestas, recuperación de información, resúmenes, clasificación de texto y más.
Dirección del papel:
Dirección del proyecto:
Chino-LLalA-Alpaca
Se puntúa como un valor relativo, con GPT4 preferido y ChatGPT3 en parte.
Dirección del proyecto:
Banco MT
Evalúe el diálogo de varios turnos y las capacidades de seguimiento de instrucciones de los modelos grandes. El conjunto de datos incluye 80 preguntas de diálogo de alta calidad (8 categorías \ * 10 preguntas) de diálogo de varias rondas, cada una respondida por 6 modelos grandes conocidos (GPT-4, GPT-3.5, Claud-v1, Vicuña-13B, Alpaca-13B y LLaMA-13B), ordenados manualmente para obtener 3.3K pares de pares.
Dirección del papel:
Juzgar a LLM como juez con MT-Bench y Chatbot Arena
GitHub
Dirección del proyecto:
/tree/main/fastchat/llm_judge
Dirección de descarga de datos:
-2- Modo de evaluación
A través de las herramientas de evaluación anteriores, se encuentra que los modos de evaluación de modelos grandes comunes actuales se pueden resumir aproximadamente en cuatro tipos:
**1. Puntúa las preguntas. ** Recopile principalmente una variedad de conjuntos de datos de evaluación y luego divida los conjuntos de datos en diferentes capacidades dimensionales. Al diseñar algunas tareas que permiten a los modelos grandes realizar estos conjuntos de datos, las puntuaciones se calculan con respecto a las respuestas estándar. Ejemplos típicos son OpenCompass, la tabla de clasificación openLLM de huggingface, etc.
**2. Que GPT-4 sea el juez. Recopile los conjuntos de datos para su evaluación (también se incluirán algunos conjuntos de datos que no son de código abierto y no tienen respuestas estándar) y, a continuación, deje que GPT-4 juzgue los resultados de la generación de modelos grandes. Hay dos formas de calificar este proceso de evaluación, una es calificar directamente y la otra es diseñar algunas dimensiones, como hechos, precisión, cumplimiento de seguridad, etc., y luego evaluarlas a un nivel más granular.
**3. Modo Arena. **Similar a una arena en un juego competitivo. Cada vez que dos modelos grandes juegan PK, el usuario (a veces GPT-4) para evaluar qué modelo es mejor, el modelo grande ganador tiene puntos extra y el modelo grande perdedor tiene un menos. Cuando se ejecutan suficientes rondas de PK, habrá una clasificación de puntuación de los modelos grandes, que es relativamente justa y puede reflejar objetivamente la fuerza del modelo. Un ejemplo típico es la tabla de clasificación de Chatbot Arena de UC Berkeley.
**4. Evaluación de competencias individuales. Por ejemplo, para la capacidad matemática, la capacidad de código, la capacidad de razonamiento, etc., la evaluación de estas habilidades no solo puede determinar si un modelo grande realmente tiene una capacidad de pensamiento similar a la humana, sino que también ayuda directamente a seleccionar modelos grandes (como asistentes de código) en campos específicos.
-3- Resultados de la evaluación "muy diferentes"
Hay muchas herramientas de evaluación diferentes, y los resultados de la evaluación de las diferentes herramientas de evaluación también son "muy diferentes".
El 15 de agosto, se publicó el informe de experiencia de modelos grandes de inteligencia artificial de una institución, que realizó una evaluación horizontal de la experiencia de uso de modelos grandes convencionales nacionales. La lista evaluó 8 modelos de IA convencionales en China con 500 preguntas y, finalmente, Xunfei Xinghuo ocupó el primer lugar, Baidu Wenxin ocupó el segundo lugar y Ali Tongyi Qianwen ocupó el segundo lugar desde abajo.
En septiembre, en el último número de la popular lista de evaluación de código abierto C, el último número de la lista, el modelo grande de Yuntian Lifei "Yuntianshu" ocupó el primer lugar, mientras que GPT-4 solo ocupó el décimo lugar.
Ese mismo mes, SuperCLUE publicó su lista de septiembre de modelos grandes. GPT-4 ocupó el primer lugar en la lista general, mientras que SenseChat 3.0 de SenseTime encabezó la lista china.
El 19 de octubre, la Universidad de Stanford publicó el Índice de Transparencia de Modelos Básicos de 2023, que calificó 10 modelos básicos convencionales en cuanto a transparencia, con Llama 2 en primer lugar y GPT-4 en tercero.
¿Por qué los resultados de las distintas herramientas de revisión son tan diferentes? Las principales razones son las siguientes:
**1.Cada conjunto de reseñas académicas populares tiene su propio enfoque. ** Por ejemplo, GSM8K y MMLU, que son los más utilizados por Meta, son conjuntos de pruebas para diferentes niveles: el primero es matemática elemental, el segundo es una pregunta y respuesta multidisciplinaria más avanzada. Al igual que los estudiantes de una clase se examinan en diferentes materias, los grandes modelos se clasifican naturalmente de manera diferente en diferentes listas.
**2.Aumenta la proporción de preguntas subjetivas en la evaluación de modelos grandes. ** En la lista de evaluación actual de grandes modelos en el país y en el extranjero, la idea de combinar preguntas subjetivas y preguntas objetivas es generalmente reconocida por la industria. Pero el desafío de las preguntas subjetivas es si los criterios de evaluación en la mente de todos son consistentes. Y la "calificación del equipo humano" inevitablemente toca el techo del número de preguntas, y para las evaluaciones de modelos grandes, cuanto mayor sea el número de preguntas, más efectivas serán las conclusiones.
**3. La competencia vertical entre los modelos dedicados y los modelos grandes de uso general conduce a clasificaciones distorsionadas. ** En el escenario de aterrizaje real, los clientes empresariales de fabricación, atención médica, finanzas y otras industrias deben realizar ajustes secundarios de acuerdo con sus propias bases de datos al acceder a las capacidades de modelos grandes. Esto también significa que los resultados obtenidos por la participación directa del modelo general grande original en las preguntas y respuestas del campo vertical no pueden representar el rendimiento real del producto del modelo grande en el campo vertical.
**4. El fenómeno de "cepillado de la lista" causado por el conjunto de pruebas de código abierto. **Muchos nuevos modelos grandes pueden superar a GPT-4 en la lista de conjuntos de pruebas de código abierto, en parte debido a la sospecha de "problemas de cepillado". Por ejemplo, C- actualmente solo se divulga la pregunta, pero la respuesta no se divulga, y los grandes fabricantes de modelos que participan en la prueba encuentran un anotador de datos para hacer la pregunta nuevamente, o usan GPT-4 para hacer la pregunta nuevamente, y luego deducen la respuesta para entrenar el modelo grande, de modo que puedan obtener la máxima puntuación en la prueba de la asignatura correspondiente.
¿Pueden los conjuntos de revisión de código cerrado evitar "cepillar la lista"? De lo contrario, si el conjunto de evaluación de código cerrado no se actualiza, los modelos participantes pueden extraer el historial histórico del fondo para "hacer trampa" y rehacer las preguntas probadas. Esto equivale a "falso código cerrado".
**En respuesta a los problemas anteriores, la industria también está explorando las soluciones correspondientes. **
Por ejemplo, debido a la dificultad de los criterios de evaluación coherentes para las preguntas subjetivas en la evaluación de modelos grandes, y al problema de que la "puntuación del equipo humano" toca el techo del número de preguntas, la industria ha comenzado a adoptar el modelo de "puntuación humana + GPT4". En China, SuperCLUE optará por considerar a GPT4 como un "profesor de calificación" y dejar que se una al equipo humano para ayudar en la puntuación.
Otro ejemplo es el problema de "cepillar la lista", los conocedores de la industria creen que "el conjunto de evaluación debe cerrarse para evitar ser engañado, pero una buena evaluación de modelo grande debe ser una evaluación abierta del proceso, que sea conveniente para que todos supervisen la evaluación". "
Algunas personas también creen que es una buena visión hacer público el proceso de evaluación de modelos grandes, pero teniendo en cuenta la equidad e imparcialidad de la evaluación, aún debería haber una gran cantidad de conjuntos de evaluación cerrados, y el "examen a libro cerrado" puede evaluar realmente la capacidad del modelo.
Además, existen grandes modelos de evaluación de puntuaciones a prueba de pinceles, como el LLM-3 lanzado por el Laboratorio de PNL de la Universidad de Fudan, que adopta un modo de evaluación novedoso, es decir, el modo de "examen de banco de preguntas". En LLM-3, cada sistema participante debe completar una muestra aleatoria de 1.000 preguntas del banco de preguntas total, en comparación con el modelo de la misma institución, para garantizar que cada pregunta de evaluación no se duplique. El proceso de evaluación se llevará a cabo en línea, y el envío de preguntas en una ronda de evaluación se realizará de forma serial, es decir, el envío de la siguiente pregunta dependerá de la respuesta a la pregunta anterior para evitar el rastreo malicioso.
Dado que los modelos grandes implican una amplia gama de campos y aplicaciones, los indicadores y métodos de evaluación a los que los modelos grandes en diferentes campos y aplicaciones deben prestar atención son diferentes. Por lo tanto, diferentes instituciones y organizaciones pueden proponer diferentes criterios y métodos de evaluación para áreas de aplicación y necesidades específicas. "Aunque no existe un estándar uniforme, la importancia de la evaluación es proporcionar una forma de evaluar y comparar el rendimiento y la eficacia de diferentes modelos grandes, y ayudar a los usuarios a elegir el modelo grande que se adapte a sus necesidades".
Cómo hacer una evaluación verdaderamente exhaustiva y exhaustiva de grandes modelos también es "confuso" en la vanguardia de la academia y la industria. Aun así, las instituciones autorizadas deben fortalecer la investigación, formar consensos lo antes posible y promover el progreso tecnológico y el desarrollo de la industria.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Los nuevos modelos grandes pretenden superar a GPT-4 en todo momento, y hemos reunido estas herramientas de revisión
Fuente: AI Pioneer Officer
Desde la llegada de ChatGPT, ha habido una "carrera armamentística" para los grandes modelos en todo el mundo. Según los informes, de enero a julio de este año, se lanzaron un total de 64 modelos grandes en China. A partir de julio de 2023, se han lanzado un total de 130 modelos grandes en China.
"Cien modelos de guerra" no es suficiente para describir la abrasadora "situación de guerra" de hoy, entonces, ¿qué gran modelo es mejor? Esto es inseparable de la evaluación de modelos grandes.
Sin embargo, en esta etapa, no existe un método de evaluación reconocido y eficaz, lo que ha llevado a una "guerra de listas" en el campo de la evaluación de grandes modelos en el país y en el extranjero. Estadísticas incompletas, actualmente hay no menos de 50 herramientas (sistemas) de evaluación en el mercado, y los resultados de listas similares pueden variar ampliamente. Las dudas del público sobre los "puntos de cepillado" son infinitas.
** En general, la industria cree que hay dos criterios de manifestación para evaluar un modelo grande: uno es el número de parámetros y el otro es el conjunto de evaluación. **
La llamada cantidad de parámetros se refiere a la cantidad de parámetros que se pueden aprender en el modelo, incluido el peso y el sesgo del modelo. El tamaño del número de parámetros determina la complejidad del modelo, y más parámetros y el número de capas son las características distintivas que distinguen a los modelos grandes de los pequeños. En 2022, se dará a conocer un lote de modelos grandes en los Estados Unidos, desde Stability AI lanzó Diffusion, un modelo generativo de texto a imágenes, hasta ChatGPT lanzado por OpenAI, la escala de los parámetros del modelo comenzó a entrar en la era de decenas de miles de millones y cientos de miles de millones.
** A partir de los indicadores de superficie, los modelos con cientos de miles de millones de parámetros generalmente funcionan mejor que decenas de miles de millones de parámetros. Sin embargo, esto no es absoluto y los parámetros del montón no necesariamente mejoran las capacidades. Entonces, ¿cómo debe un modelo con el mismo nivel de parámetros distinguir entre bueno y malo? Esto requiere la introducción de la segunda dimensión de evaluación del modelo grande: el conjunto de evaluación.
El conjunto de evaluación es un conjunto de datos de referencia unificado de una o varias tareas construido para evaluar de manera efectiva el efecto integral del modelo básico y su algoritmo de ajuste fino en diferentes escenarios y diferentes tareas, y hay dos formas: abierto y cerrado.
** Estos conjuntos de evaluación son como exámenes para diferentes campos, y al probar las puntuaciones de los modelos grandes en estos "exámenes de exámenes", las personas pueden comparar de manera más intuitiva el rendimiento de los modelos grandes. **
En la era de los modelos pequeños, la mayoría de las instituciones modelo utilizarán el efecto de los conjuntos de evaluación académica como base para juzgar la calidad de los modelos. Ahora, los grandes fabricantes de modelos también han comenzado a participar más activamente en el marco de evaluación comparativa académica, viéndolo como una base autorizada de respaldo y marketing.
Hay muchos conjuntos de evaluación de modelos grandes en el mercado, como MMLU, modelo de evaluación chino C-, SuperCLUE, etc.
-1- Herramienta de evaluación
MMLU
Massive Multitask Language Understanding, una evaluación de comprensión del lenguaje para modelos grandes, es una de las evaluaciones de comprensión semántica más famosas para modelos grandes, lanzada por investigadores de la Universidad de UC Berkeley en septiembre de 2020. ** El examen cubre 57 tareas, incluidas matemáticas elementales, historia de EE. UU., ciencias de la computación, derecho y más. ** La tarea cubre una amplia gama de conocimientos y es en inglés para evaluar la cobertura de conocimientos básicos y la comprensión del modelo grande.
Dirección del papel:
Sitio web oficial:
Tabla de clasificación de modelos grandes:
C-
C- es un completo kit de evaluación del modelo base chino. Lanzado conjuntamente por investigadores de la Universidad Jiao Tong de Shanghái, la Universidad de Tsinghua y la Universidad de Edimburgo en mayo de 2023, contiene 13.948 preguntas de opción múltiple** que cubren 52 disciplinas diferentes y cuatro niveles de dificultad** para medir la comprensión de los grandes modelos chinos.
Dirección del papel:
Dirección del proyecto:
Sitio web oficial:
Superpista
Punto de referencia de evaluación integral chino de modelos grandes generales, las capacidades de los modelos se evalúan desde tres dimensiones diferentes: habilidad básica, capacidad profesional y capacidad característica china.
Entre ellas, las capacidades básicas de habilidad incluyen: ** Comprensión semántica, diálogo, razonamiento lógico, simulación de roles, codificación, generación y creación y otras 10 habilidades. **
Las competencias profesionales incluyen: Incluye exámenes secundarios, universitarios y profesionales, que cubren más de 50 competencias desde matemáticas, física, geografía hasta ciencias sociales.
Habilidad característica china: Para tareas con características chinas, incluye más de 10 habilidades como modismos chinos, poesía, literatura y glifos.
Dirección del proyecto:
Sitio web oficial:
Lista de SuperCLUE Langya
Punto de referencia de evaluación de batalla anónima de modelo grande universal chino, al igual que ChatbotArena, crowdsourcing de diferentes productos de modelos grandes para la evaluación de confrontación anónima y aleatoria, los resultados se basan en el sistema de calificación Elo.
Dirección del proyecto:
lyb
Chatbot Arena
ChatbotArena es una plataforma de referencia para Grandes Modelos de Lenguaje (LLM) de LMSYS Org, una organización de investigación fundada por UC Berkeley, UC San Diego y la Universidad Carnegie Mellon.
** Plataforma de referencia LLM para coincidencias aleatorias anónimas de forma colaborativa. **Entra en la plataforma de batalla a través de la dirección de la experiencia de demostración. Ingrese la pregunta que le interesa, después de enviar la pregunta, el modelo anónimo jugará en parejas para generar respuestas relevantes respectivamente, lo que requerirá que los usuarios juzguen las respuestas y elijan una de las 4 opciones de evaluación: el modelo A es mejor, el modelo B es mejor, empate y todos son pobres. Soporte para múltiples rondas de conversación. Por último, el sistema de puntuación Elo se utiliza para evaluar exhaustivamente las capacidades de los modelos grandes. (Puede especificar el modelo usted mismo para ver el efecto, pero no se contará en la clasificación final).
Dirección del proyecto:
Sitio web oficial:
Bandera
Flag es una plataforma de evaluación de modelos a gran escala que utiliza el marco de evaluación tridimensional "capability-task-index"** para proporcionar resultados de evaluación completos y detallados. La plataforma ha proporcionado más de 30 habilidades, 5 tareas y 4 categorías de indicadores, un total de más de 600 dimensiones de evaluación integral, incluyendo 22 conjuntos de datos de evaluación subjetiva y objetiva y 84433 preguntas.
La primera fase de Flag ha puesto en marcha un sistema de evaluación de modelos de lenguaje grande, una herramienta de evaluación de modelos de gran tamaño de texto y gráficos multilingües de código abierto mCLIP- y una herramienta de evaluación de generación de texto e imágenes de código abierto Image. Libra también continuará explorando la investigación cruzada de la evaluación del modelo lingüístico y la psicología, la educación, la ética y otras disciplinas sociales, con el fin de evaluar el modelo lingüístico de manera más científica y exhaustiva. Dirigido a grandes desarrolladores y usuarios de modelos, Flag está diseñado para ayudar a los equipos de desarrollo a comprender las debilidades de sus modelos e impulsar la innovación tecnológica.
Dirección del proyecto:
Sitio web oficial:
Brújula Abierta
En agosto de 2023, el Laboratorio de Inteligencia Artificial de Shanghái (Laboratorio de IA de Shanghái) lanzó oficialmente el sistema de evaluación abierta de modelos grandes OpenCompass, que admite la evaluación integral de varios modelos de modelos de lenguaje grandes y modelos multimodales a través de un marco de evaluación reproducible de código abierto completo**, y publica regularmente la lista de resultados de la evaluación.
Sitio web oficial:
Dirección del proyecto:
JioNLP
Para examinar el efecto de ayuda y la capacidad auxiliar del modelo LLM para usuarios humanos, si puede alcanzar el nivel de un "asistente inteligente", las preguntas de opción múltiple se derivan de varios exámenes profesionales en China continental, centrándose en la cobertura del conocimiento objetivo del modelo, que representa el 32%; Las preguntas subjetivas provienen de resúmenes diarios y examinan principalmente el efecto de los usuarios en las funciones comunes de LLM.
Dirección del proyecto:
Medir conjuntos de datos
Evaluación del modelo grande de Tsinghua Security
Una colección de reseñas recopiladas por Tsinghua cubre ocho categorías, que incluyen discurso de odio, discurso sesgado y discriminatorio, crimen y ley, privacidad, ética y moralidad, incluidas más de 40 categorías de seguridad de segundo nivel divididas en categorías detalladas**.
Dirección:
LLM-3
Lanzado por el Laboratorio de PNL de la Universidad de Fudan, se centra en la evaluación del conocimiento y la capacidad profesional, cubriendo 13 disciplinas y más de 50 disciplinas de segundo nivel designadas por el Ministerio de Educación, como filosofía, economía, derecho, educación, literatura, historia, ciencia, ingeniería, agricultura, medicina, ciencia militar, gestión, arte, etc., con un total de preguntas y respuestas generativas estándar de aproximadamente 20W. Con el fin de evitar la ocurrencia del fenómeno de cepillado de las clasificaciones, la evaluación LLM-3 adopta un modo de evaluación novedoso, a saber, el modo de "examen de banco de preguntas".
Dirección:
GAOKAO-Banco
GAOKAO-bench es un marco de evaluación que utiliza las preguntas del examen de ingreso a la universidad china como un conjunto de datos para evaluar la capacidad de comprensión del lenguaje y la capacidad de razonamiento lógico de grandes modelos.
Dirección del proyecto:
PandaLM
Entrena directamente un modelo de puntuación automatizado y puntúa dos modelos candidatos en un sistema de tres puntos de 0,1,2.
Dirección del proyecto:
BANCO GRANDE
BIG-bench, una colección de reseñas publicadas por Google, consta de 204 tareas sobre temas como lingüística, desarrollo infantil, matemáticas, razonamiento de sentido común, física biológica, sesgo social, desarrollo de software y más.
Dirección del proyecto:
MMCU
El Instituto de Investigación de IA Oracle Yi propone una prueba para medir la precisión de los grandes modelos chinos en el manejo de la multitarea, y el contenido de la prueba del conjunto de datos cubre cuatro campos principales: tratamiento médico, derecho, psicología y educación. ** El número de preguntas alcanzó las 10,000+, incluidas 2819 preguntas en el campo de la medicina, 3695 preguntas en el campo de la ley, 2001 preguntas en el campo de la psicología y 3331 preguntas en el campo de la educación.
Dirección del proyecto:
ACTUADO
El Big Model Basic Competency Assessment Benchmark de Microsoft, lanzado en abril de 2023, mide principalmente la capacidad general de los grandes modelos en cognición humana y resolución de problemas, cubriendo 20 exámenes de admisión y calificación oficiales, públicos y de alto nivel para candidatos humanos comunes en todo el mundo, incluidos datos en chino e inglés. Por lo tanto, la prueba se inclina más hacia los resultados de las pruebas en humanos, cubriendo tanto el chino como el inglés.
Dirección del papel:
GSM8K
El gran modelo de OpenAI, el Mathematical Reasoning Proficiency Assessment Benchmark, cubre 8.500 conjuntos de datos de problemas matemáticos de alta calidad a nivel de escuela secundaria. El conjunto de datos es más grande que el conjunto de datos de problemas de texto matemático anterior, el lenguaje es más diverso y las preguntas son más desafiantes. La prueba se lanzó en octubre de 2021 y sigue siendo un punto de referencia de prueba muy difícil.
Dirección del papel:
TIMÓN
El método de evaluación HELM incluye principalmente tres módulos: escena, adaptación e indicadores**, y cada ejecución de evaluación debe especificar una escena, una indicación para el modelo de adaptación y uno o más indicadores. Cubre principalmente el inglés, con 7 indicadores, que incluyen precisión, incertidumbre/calibración, robustez, equidad, sesgo, toxicidad y eficiencia de inferencia; Las tareas incluyen preguntas y respuestas, recuperación de información, resúmenes, clasificación de texto y más.
Dirección del papel:
Dirección del proyecto:
Chino-LLalA-Alpaca
Se puntúa como un valor relativo, con GPT4 preferido y ChatGPT3 en parte.
Dirección del proyecto:
Banco MT
Evalúe el diálogo de varios turnos y las capacidades de seguimiento de instrucciones de los modelos grandes. El conjunto de datos incluye 80 preguntas de diálogo de alta calidad (8 categorías \ * 10 preguntas) de diálogo de varias rondas, cada una respondida por 6 modelos grandes conocidos (GPT-4, GPT-3.5, Claud-v1, Vicuña-13B, Alpaca-13B y LLaMA-13B), ordenados manualmente para obtener 3.3K pares de pares.
Dirección del papel:
Juzgar a LLM como juez con MT-Bench y Chatbot Arena
GitHub
Dirección del proyecto:
/tree/main/fastchat/llm_judge
Dirección de descarga de datos:
-2- Modo de evaluación
A través de las herramientas de evaluación anteriores, se encuentra que los modos de evaluación de modelos grandes comunes actuales se pueden resumir aproximadamente en cuatro tipos:
**1. Puntúa las preguntas. ** Recopile principalmente una variedad de conjuntos de datos de evaluación y luego divida los conjuntos de datos en diferentes capacidades dimensionales. Al diseñar algunas tareas que permiten a los modelos grandes realizar estos conjuntos de datos, las puntuaciones se calculan con respecto a las respuestas estándar. Ejemplos típicos son OpenCompass, la tabla de clasificación openLLM de huggingface, etc.
**2. Que GPT-4 sea el juez. Recopile los conjuntos de datos para su evaluación (también se incluirán algunos conjuntos de datos que no son de código abierto y no tienen respuestas estándar) y, a continuación, deje que GPT-4 juzgue los resultados de la generación de modelos grandes. Hay dos formas de calificar este proceso de evaluación, una es calificar directamente y la otra es diseñar algunas dimensiones, como hechos, precisión, cumplimiento de seguridad, etc., y luego evaluarlas a un nivel más granular.
**3. Modo Arena. **Similar a una arena en un juego competitivo. Cada vez que dos modelos grandes juegan PK, el usuario (a veces GPT-4) para evaluar qué modelo es mejor, el modelo grande ganador tiene puntos extra y el modelo grande perdedor tiene un menos. Cuando se ejecutan suficientes rondas de PK, habrá una clasificación de puntuación de los modelos grandes, que es relativamente justa y puede reflejar objetivamente la fuerza del modelo. Un ejemplo típico es la tabla de clasificación de Chatbot Arena de UC Berkeley.
**4. Evaluación de competencias individuales. Por ejemplo, para la capacidad matemática, la capacidad de código, la capacidad de razonamiento, etc., la evaluación de estas habilidades no solo puede determinar si un modelo grande realmente tiene una capacidad de pensamiento similar a la humana, sino que también ayuda directamente a seleccionar modelos grandes (como asistentes de código) en campos específicos.
-3- Resultados de la evaluación "muy diferentes"
Hay muchas herramientas de evaluación diferentes, y los resultados de la evaluación de las diferentes herramientas de evaluación también son "muy diferentes".
El 15 de agosto, se publicó el informe de experiencia de modelos grandes de inteligencia artificial de una institución, que realizó una evaluación horizontal de la experiencia de uso de modelos grandes convencionales nacionales. La lista evaluó 8 modelos de IA convencionales en China con 500 preguntas y, finalmente, Xunfei Xinghuo ocupó el primer lugar, Baidu Wenxin ocupó el segundo lugar y Ali Tongyi Qianwen ocupó el segundo lugar desde abajo.
En septiembre, en el último número de la popular lista de evaluación de código abierto C, el último número de la lista, el modelo grande de Yuntian Lifei "Yuntianshu" ocupó el primer lugar, mientras que GPT-4 solo ocupó el décimo lugar.
Ese mismo mes, SuperCLUE publicó su lista de septiembre de modelos grandes. GPT-4 ocupó el primer lugar en la lista general, mientras que SenseChat 3.0 de SenseTime encabezó la lista china.
El 19 de octubre, la Universidad de Stanford publicó el Índice de Transparencia de Modelos Básicos de 2023, que calificó 10 modelos básicos convencionales en cuanto a transparencia, con Llama 2 en primer lugar y GPT-4 en tercero.
¿Por qué los resultados de las distintas herramientas de revisión son tan diferentes? Las principales razones son las siguientes:
**1.Cada conjunto de reseñas académicas populares tiene su propio enfoque. ** Por ejemplo, GSM8K y MMLU, que son los más utilizados por Meta, son conjuntos de pruebas para diferentes niveles: el primero es matemática elemental, el segundo es una pregunta y respuesta multidisciplinaria más avanzada. Al igual que los estudiantes de una clase se examinan en diferentes materias, los grandes modelos se clasifican naturalmente de manera diferente en diferentes listas.
**2.Aumenta la proporción de preguntas subjetivas en la evaluación de modelos grandes. ** En la lista de evaluación actual de grandes modelos en el país y en el extranjero, la idea de combinar preguntas subjetivas y preguntas objetivas es generalmente reconocida por la industria. Pero el desafío de las preguntas subjetivas es si los criterios de evaluación en la mente de todos son consistentes. Y la "calificación del equipo humano" inevitablemente toca el techo del número de preguntas, y para las evaluaciones de modelos grandes, cuanto mayor sea el número de preguntas, más efectivas serán las conclusiones.
**3. La competencia vertical entre los modelos dedicados y los modelos grandes de uso general conduce a clasificaciones distorsionadas. ** En el escenario de aterrizaje real, los clientes empresariales de fabricación, atención médica, finanzas y otras industrias deben realizar ajustes secundarios de acuerdo con sus propias bases de datos al acceder a las capacidades de modelos grandes. Esto también significa que los resultados obtenidos por la participación directa del modelo general grande original en las preguntas y respuestas del campo vertical no pueden representar el rendimiento real del producto del modelo grande en el campo vertical.
**4. El fenómeno de "cepillado de la lista" causado por el conjunto de pruebas de código abierto. **Muchos nuevos modelos grandes pueden superar a GPT-4 en la lista de conjuntos de pruebas de código abierto, en parte debido a la sospecha de "problemas de cepillado". Por ejemplo, C- actualmente solo se divulga la pregunta, pero la respuesta no se divulga, y los grandes fabricantes de modelos que participan en la prueba encuentran un anotador de datos para hacer la pregunta nuevamente, o usan GPT-4 para hacer la pregunta nuevamente, y luego deducen la respuesta para entrenar el modelo grande, de modo que puedan obtener la máxima puntuación en la prueba de la asignatura correspondiente.
¿Pueden los conjuntos de revisión de código cerrado evitar "cepillar la lista"? De lo contrario, si el conjunto de evaluación de código cerrado no se actualiza, los modelos participantes pueden extraer el historial histórico del fondo para "hacer trampa" y rehacer las preguntas probadas. Esto equivale a "falso código cerrado".
**En respuesta a los problemas anteriores, la industria también está explorando las soluciones correspondientes. **
Por ejemplo, debido a la dificultad de los criterios de evaluación coherentes para las preguntas subjetivas en la evaluación de modelos grandes, y al problema de que la "puntuación del equipo humano" toca el techo del número de preguntas, la industria ha comenzado a adoptar el modelo de "puntuación humana + GPT4". En China, SuperCLUE optará por considerar a GPT4 como un "profesor de calificación" y dejar que se una al equipo humano para ayudar en la puntuación.
Otro ejemplo es el problema de "cepillar la lista", los conocedores de la industria creen que "el conjunto de evaluación debe cerrarse para evitar ser engañado, pero una buena evaluación de modelo grande debe ser una evaluación abierta del proceso, que sea conveniente para que todos supervisen la evaluación". "
Algunas personas también creen que es una buena visión hacer público el proceso de evaluación de modelos grandes, pero teniendo en cuenta la equidad e imparcialidad de la evaluación, aún debería haber una gran cantidad de conjuntos de evaluación cerrados, y el "examen a libro cerrado" puede evaluar realmente la capacidad del modelo.
Además, existen grandes modelos de evaluación de puntuaciones a prueba de pinceles, como el LLM-3 lanzado por el Laboratorio de PNL de la Universidad de Fudan, que adopta un modo de evaluación novedoso, es decir, el modo de "examen de banco de preguntas". En LLM-3, cada sistema participante debe completar una muestra aleatoria de 1.000 preguntas del banco de preguntas total, en comparación con el modelo de la misma institución, para garantizar que cada pregunta de evaluación no se duplique. El proceso de evaluación se llevará a cabo en línea, y el envío de preguntas en una ronda de evaluación se realizará de forma serial, es decir, el envío de la siguiente pregunta dependerá de la respuesta a la pregunta anterior para evitar el rastreo malicioso.
Dado que los modelos grandes implican una amplia gama de campos y aplicaciones, los indicadores y métodos de evaluación a los que los modelos grandes en diferentes campos y aplicaciones deben prestar atención son diferentes. Por lo tanto, diferentes instituciones y organizaciones pueden proponer diferentes criterios y métodos de evaluación para áreas de aplicación y necesidades específicas. "Aunque no existe un estándar uniforme, la importancia de la evaluación es proporcionar una forma de evaluar y comparar el rendimiento y la eficacia de diferentes modelos grandes, y ayudar a los usuarios a elegir el modelo grande que se adapte a sus necesidades".
Cómo hacer una evaluación verdaderamente exhaustiva y exhaustiva de grandes modelos también es "confuso" en la vanguardia de la academia y la industria. Aun así, las instituciones autorizadas deben fortalecer la investigación, formar consensos lo antes posible y promover el progreso tecnológico y el desarrollo de la industria.