Introducción: El primer puesto de GPT-4 en Stanford Alpaca en realidad se lo arrebató un caballo oscuro.
¡Aparece el primer modelo que supera al GPT-4 en Alpaca!
En junio de este año, tan pronto como se anunció la lista de Alpaca, GPT-4 ocupó el primer lugar con una ventaja absoluta, con una tasa de victorias superior al 95%.
Tres meses después, un caballo oscuro llamado Xwin-LM realmente sacó al GPT-4, que estaba firmemente en la parte superior de la lista, del TOP 1.
dirección del proyecto:
Además, Xwin-LM también obtuvo tres primeros premios sin excepción en la competición con modelos con los mismos parámetros:
Xwin-LM-70B-V0.1: La tasa de victorias contra Davinci-003 en el benchmark Alpaca alcanzó el 95,57%, ocupando el primer lugar en Alpaca. También es el primer modelo que supera al GPT-4 en Alpaca. Además, su tasa de victorias contra GPT-4 es 60,61.
Xwin-LM-13B-V0.1: logró una tasa de victorias del 91,76 % en Alpaca, ocupando el primer lugar entre todos los modelos 13B.
Xwin-LM-7B-V0.1: logró una tasa de ganancia del 87,82 % en Alpaca, ocupando el primer lugar entre todos los modelos 7B.
Xwin-LM: 70 mil millones de parámetros superan a GPT-4
Xwin-LM está ajustado en base a Llama 2. Este modelo está diseñado para desarrollar y abrir tecnologías de alineación de modelos de lenguaje de gran tamaño, incluido el ajuste fino supervisado (SFT), el modelo de recompensa (RM), el muestreo de rechazo y el aprendizaje reforzado por retroalimentación humana. (RLHF) espera.
1. Evaluación de desempeño
Los investigadores evaluaron la tasa de victorias de Xwin-LM frente a Text-Davinci-003, ChatGPT y GPT-4 en 805 problemas.
Se puede ver que el modelo 70B de Xwin-LM dominó completamente la lista, convirtiéndose en el primero en la evaluación de desempeño de los indicadores Alpaca, y derrotó a GPT-4 por primera vez, con una tasa de victorias del 60,61% contra GPT-4.
Los modelos de otros tamaños de Xwin-LM, como Xwin-LM-13B-V0.1 y Xwin-LM-7B-V0.1, también superan con creces a otros modelos del mismo tamaño en rendimiento.
El Xwin-LM-7B-V0.1 incluso supera al Llama 2-13B-Chat más grande.
2. Comparación de casos
En el primer caso, los investigadores preguntaron a GPT-4 y Xwin-LM:
"Puse un plato encima de las manzanas y llevé el plato de la cocina al comedor. ¿Dónde están las manzanas ahora?"
La respuesta de GPT-4 es:
"La manzana está ahora en el restaurante, y cuando llevas el plato de la cocina al restaurante, está debajo del plato".
Aquí GPT-4 dio una respuesta que carecía de sentido común. En la vida real, hay gravedad. La manzana debajo del plato permanece en su estado original y no irá al restaurante con el plato.
Por el contrario, la respuesta de Xwin-LM se ajusta más a la realidad y también ofrece una forma de llevar Apple a la cocina:
"La manzana todavía está en la cocina porque acabas de mover el plato.
Las manzanas están debajo del plato, por lo que si quieres llevar las manzanas al restaurante, debes mover las manzanas directamente o poner las manzanas en el plato y luego mover el plato al restaurante. "
En el segundo caso, los investigadores preguntaron a GPT-4 y Xwin-LM:
"¿Cómo se dice 'buenas noches' en francés?"
La respuesta de GPT-4 es:
"En francés, 'buenas noches' se expresa como 'bonsoir'."
Y la respuesta de Xwin-LM es:
"En francés, 'buenas noches' se traduce como 'bonsoir'. Este saludo se utiliza por la tarde y por la noche, generalmente después de las 6 p.m.
Es una combinación de "bon" (que significa bueno) y "soir" (que significa noche). Para pronunciarlo, diga 'bone-swahr'".
Aunque la respuesta de GPT-4 fue correcta, Xwin-LM no solo respondió correctamente la pregunta, sino que también explicó el origen y la pronunciación de "buenas noches" en la expresión francesa, brindando información más rica al usuario.
3. Tareas de PNL
La siguiente tabla compara Xwin-LM con otros LLM en tareas básicas de PNL.
Se puede ver que el rendimiento del modelo Xwin-LM-70B-V0.1 es relativamente alto en todas las tareas y se desempeña particularmente bien en las tareas MMLU de 5 disparos y HellaSwag de 10 disparos.
Y, a nivel general, Xwin-LM-70B-V0.1 es el que tiene mejor desempeño.
4. Capacidad de razonamiento
Los investigadores propusieron que para obtener los resultados deseados al utilizar Xwin-LM para la inferencia, se debe seguir estrictamente la plantilla de diálogo para la inferencia.
Xwin-LM adopta el formato de aviso establecido por Vicuña y admite el diálogo de múltiples turnos.
Una charla entre un usuario curioso y un asistente de inteligencia artificial. El asistente brinda respuestas útiles, detalladas y educadas a las preguntas del usuario. USUARIO: ¡Hola! ASISTENTE: Hola.s>USUARIO: ¿Quién eres? ASISTENTE: Soy Xwin-LM.s>......
Ejemplo de cara de abrazo
desde transformadores importe AutoTokenizer, AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "Un chat entre un usuario curioso y un asistente de inteligencia artificial". "El asistente brinda respuestas útiles, detalladas y educadas a las preguntas del usuario. " "USUARIO: Hola, ¿puedes ayudarme? " "ASISTENTE:")inputs = tokenizer(, return_tensors ="pt")muestras = model.generate(**inputs, max_new_tokens=4096, temperatura=0.7)salida = tokenizer.decode(muestras [0] [entradas["input_ids"].forma [1] :], skip_special_tokens=True)print(salida) # ¡Por supuesto! Estoy aqui para ayudar. No dude en hacer su pregunta o describir el problema que tiene y haré todo lo posible para ayudarlo.Ejemplo de VLLM
Debido a que Xwin-LM está optimizado en base a Llama 2, también admite el uso de VLLM para una inferencia rápida.
from vllm import LLM, SamplingParams( := "Un chat entre un usuario curioso y un asistente de inteligencia artificial. " "El asistente brinda respuestas útiles, detalladas y educadas a las preguntas del usuario. " "USUARIO: Hola, ¿puedes ayudarme? " "ASISTENTE:")sampling_params = SamplingParams(temperatura=0.7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")salidas = llm.generate([,], parámetros_muestreo)
para salida en salidas: = salida. texto_generado = salida.salidas [0] .impresión de texto (texto_generado)
Alpaca: fácil de usar, rápido, de bajo costo, verificado mediante anotación humana
Como herramienta de evaluación automática de LLM, Alpaca combina AlpacaFarm y Aviary.
Por un lado, utiliza el mismo código que AlpacaFarm (almacenamiento en caché/permutaciones aleatorias/hiperparámetros), por otro lado utiliza una sugerencia de clasificación similar a Aviary.
Al mismo tiempo, las indicaciones de Aviary también se han modificado para reducir el sesgo hacia una producción a más largo plazo.
El equipo dijo que la alpaca tiene efectos sobresalientes:
Coherencia con el voto de la mayoría humana, superior a la de un solo anotador humano
La tasa de ganancias está altamente correlacionada con la anotación humana (0,94)
- Tasa ganadora
El resultado del modelo supera a text-davinci-003 (es decir, el texto de referencia) por instrucción.
Específicamente, primero recopilamos los pares de salidas del modelo deseado en cada instrucción del conjunto de datos de Alpaca y emparejamos cada salida con la salida del modelo de referencia (text-davinci-003) en la misma instrucción.
Luego, estos resultados se envían al evaluador automático al mismo tiempo, permitiéndole juzgar cuál es mejor (es decir, la preferencia del evaluador).
Finalmente, se promedian las preferencias de todas las instrucciones en el conjunto de datos para obtener la tasa de ganancia del modelo en relación con text-davinci-003. Si los dos modelos empatan, entonces cuenta como media preferencia.
Dirección del papel:
- LIMITACIONES
Si bien Alpaca proporciona una manera eficiente de comparar la capacidad de un modelo para seguir instrucciones, no es el estándar de oro para una evaluación integral de la capacidad de un modelo.
Como se detalla en el artículo de AlpacaFarm, la tasa de ganancia de los anotadores automáticos depende de la longitud. Si bien la anotación humana también sufre este sesgo, no está claro si respuestas más largas aumentarían la utilidad en tareas posteriores.
Además, el conjunto de evaluación de AlpacaFarm, aunque diverso, se compone principalmente de instrucciones sencillas.
Finalmente, Alpaca no evalúa la seguridad de ningún modelo.
Referencias:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¿Derrota a GPT-4 por primera vez? 70 mil millones de parámetros Xwin-LM alcanza la cima de Stanford Alpaca_, el modelo 13B supera a ChatGPT
Fuente: Xinzhiyuan
Introducción: El primer puesto de GPT-4 en Stanford Alpaca en realidad se lo arrebató un caballo oscuro.
¡Aparece el primer modelo que supera al GPT-4 en Alpaca!
En junio de este año, tan pronto como se anunció la lista de Alpaca, GPT-4 ocupó el primer lugar con una ventaja absoluta, con una tasa de victorias superior al 95%.
Tres meses después, un caballo oscuro llamado Xwin-LM realmente sacó al GPT-4, que estaba firmemente en la parte superior de la lista, del TOP 1.
Además, Xwin-LM también obtuvo tres primeros premios sin excepción en la competición con modelos con los mismos parámetros:
Xwin-LM: 70 mil millones de parámetros superan a GPT-4
Xwin-LM está ajustado en base a Llama 2. Este modelo está diseñado para desarrollar y abrir tecnologías de alineación de modelos de lenguaje de gran tamaño, incluido el ajuste fino supervisado (SFT), el modelo de recompensa (RM), el muestreo de rechazo y el aprendizaje reforzado por retroalimentación humana. (RLHF) espera.
Los investigadores evaluaron la tasa de victorias de Xwin-LM frente a Text-Davinci-003, ChatGPT y GPT-4 en 805 problemas.
Se puede ver que el modelo 70B de Xwin-LM dominó completamente la lista, convirtiéndose en el primero en la evaluación de desempeño de los indicadores Alpaca, y derrotó a GPT-4 por primera vez, con una tasa de victorias del 60,61% contra GPT-4.
Los modelos de otros tamaños de Xwin-LM, como Xwin-LM-13B-V0.1 y Xwin-LM-7B-V0.1, también superan con creces a otros modelos del mismo tamaño en rendimiento.
El Xwin-LM-7B-V0.1 incluso supera al Llama 2-13B-Chat más grande.
"Puse un plato encima de las manzanas y llevé el plato de la cocina al comedor. ¿Dónde están las manzanas ahora?"
La respuesta de GPT-4 es:
"La manzana está ahora en el restaurante, y cuando llevas el plato de la cocina al restaurante, está debajo del plato".
Aquí GPT-4 dio una respuesta que carecía de sentido común. En la vida real, hay gravedad. La manzana debajo del plato permanece en su estado original y no irá al restaurante con el plato.
Por el contrario, la respuesta de Xwin-LM se ajusta más a la realidad y también ofrece una forma de llevar Apple a la cocina:
"La manzana todavía está en la cocina porque acabas de mover el plato.
Las manzanas están debajo del plato, por lo que si quieres llevar las manzanas al restaurante, debes mover las manzanas directamente o poner las manzanas en el plato y luego mover el plato al restaurante. "
En el segundo caso, los investigadores preguntaron a GPT-4 y Xwin-LM:
"¿Cómo se dice 'buenas noches' en francés?"
La respuesta de GPT-4 es:
"En francés, 'buenas noches' se expresa como 'bonsoir'."
Y la respuesta de Xwin-LM es:
"En francés, 'buenas noches' se traduce como 'bonsoir'. Este saludo se utiliza por la tarde y por la noche, generalmente después de las 6 p.m.
Es una combinación de "bon" (que significa bueno) y "soir" (que significa noche). Para pronunciarlo, diga 'bone-swahr'".
Aunque la respuesta de GPT-4 fue correcta, Xwin-LM no solo respondió correctamente la pregunta, sino que también explicó el origen y la pronunciación de "buenas noches" en la expresión francesa, brindando información más rica al usuario.
3. Tareas de PNL
La siguiente tabla compara Xwin-LM con otros LLM en tareas básicas de PNL.
Se puede ver que el rendimiento del modelo Xwin-LM-70B-V0.1 es relativamente alto en todas las tareas y se desempeña particularmente bien en las tareas MMLU de 5 disparos y HellaSwag de 10 disparos.
Y, a nivel general, Xwin-LM-70B-V0.1 es el que tiene mejor desempeño.
Los investigadores propusieron que para obtener los resultados deseados al utilizar Xwin-LM para la inferencia, se debe seguir estrictamente la plantilla de diálogo para la inferencia.
Xwin-LM adopta el formato de aviso establecido por Vicuña y admite el diálogo de múltiples turnos.
Una charla entre un usuario curioso y un asistente de inteligencia artificial. El asistente brinda respuestas útiles, detalladas y educadas a las preguntas del usuario. USUARIO: ¡Hola! ASISTENTE: Hola.s>USUARIO: ¿Quién eres? ASISTENTE: Soy Xwin-LM.s>......
Ejemplo de cara de abrazo
desde transformadores importe AutoTokenizer, AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "Un chat entre un usuario curioso y un asistente de inteligencia artificial". "El asistente brinda respuestas útiles, detalladas y educadas a las preguntas del usuario. " "USUARIO: Hola, ¿puedes ayudarme? " "ASISTENTE:")inputs = tokenizer(, return_tensors ="pt")muestras = model.generate(**inputs, max_new_tokens=4096, temperatura=0.7)salida = tokenizer.decode(muestras [0] [entradas["input_ids"].forma [1] :], skip_special_tokens=True)print(salida) # ¡Por supuesto! Estoy aqui para ayudar. No dude en hacer su pregunta o describir el problema que tiene y haré todo lo posible para ayudarlo. Ejemplo de VLLM
Debido a que Xwin-LM está optimizado en base a Llama 2, también admite el uso de VLLM para una inferencia rápida.
from vllm import LLM, SamplingParams( := "Un chat entre un usuario curioso y un asistente de inteligencia artificial. " "El asistente brinda respuestas útiles, detalladas y educadas a las preguntas del usuario. " "USUARIO: Hola, ¿puedes ayudarme? " "ASISTENTE:")sampling_params = SamplingParams(temperatura=0.7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")salidas = llm.generate([,], parámetros_muestreo) para salida en salidas: = salida. texto_generado = salida.salidas [0] .impresión de texto (texto_generado)
Alpaca: fácil de usar, rápido, de bajo costo, verificado mediante anotación humana
Como herramienta de evaluación automática de LLM, Alpaca combina AlpacaFarm y Aviary.
Por un lado, utiliza el mismo código que AlpacaFarm (almacenamiento en caché/permutaciones aleatorias/hiperparámetros), por otro lado utiliza una sugerencia de clasificación similar a Aviary.
Al mismo tiempo, las indicaciones de Aviary también se han modificado para reducir el sesgo hacia una producción a más largo plazo.
El equipo dijo que la alpaca tiene efectos sobresalientes:
Coherencia con el voto de la mayoría humana, superior a la de un solo anotador humano
La tasa de ganancias está altamente correlacionada con la anotación humana (0,94)
El resultado del modelo supera a text-davinci-003 (es decir, el texto de referencia) por instrucción.
Específicamente, primero recopilamos los pares de salidas del modelo deseado en cada instrucción del conjunto de datos de Alpaca y emparejamos cada salida con la salida del modelo de referencia (text-davinci-003) en la misma instrucción.
Luego, estos resultados se envían al evaluador automático al mismo tiempo, permitiéndole juzgar cuál es mejor (es decir, la preferencia del evaluador).
Finalmente, se promedian las preferencias de todas las instrucciones en el conjunto de datos para obtener la tasa de ganancia del modelo en relación con text-davinci-003. Si los dos modelos empatan, entonces cuenta como media preferencia.
- LIMITACIONES
Si bien Alpaca proporciona una manera eficiente de comparar la capacidad de un modelo para seguir instrucciones, no es el estándar de oro para una evaluación integral de la capacidad de un modelo.
Como se detalla en el artículo de AlpacaFarm, la tasa de ganancia de los anotadores automáticos depende de la longitud. Si bien la anotación humana también sufre este sesgo, no está claro si respuestas más largas aumentarían la utilidad en tareas posteriores.
Además, el conjunto de evaluación de AlpacaFarm, aunque diverso, se compone principalmente de instrucciones sencillas.
Finalmente, Alpaca no evalúa la seguridad de ningún modelo.
Referencias: