Le pedí a GPT-3 y Llama que aprendieran un conocimiento simple: A es B, y luego pregunté qué es B. Resultó que la precisión de la respuesta de la IA era cero.
¿Cuál es el punto de?
Recientemente, un nuevo concepto llamado "Maldición inversa" se ha convertido en un tema candente en el círculo de la IA, y todos los principales modelos de lenguaje que ahora son populares se han visto afectados por él. Ante problemas extremadamente simples, su precisión no sólo es cercana a cero, sino que no hay posibilidad de aumentarla.
Además, los investigadores descubrieron que este gran error no tiene nada que ver con el tamaño del modelo ni con las preguntas formuladas.
Dijimos que la IA se ha desarrollado hasta la etapa de preentrenamiento de modelos grandes y finalmente parece haber dominado algo de pensamiento lógico, pero esta vez parece haber sido devuelto a su forma original.
Figura 1: Inconsistencia del conocimiento en GPT-4. GPT-4 dio correctamente el nombre de la madre de Tom Cruise (izquierda). Sin embargo, cuando se ingresó el nombre de la madre para preguntarle al hijo, no se pudo recuperar "Tom Cruise" (derecha). Una nueva investigación plantea la hipótesis de que este efecto de clasificación se debe a una reversión de la maldición. Un modelo entrenado en "A es B" no infiere automáticamente "B es A".
Si una persona sabe que "Olav Scholz fue el noveno Canciller de la República Federal de Alemania", podrá responder correctamente a la pregunta "¿Quién es el noveno Canciller de Alemania?" Ésta es una forma básica de generalización que parece corriente y corriente.
Sin embargo, las investigaciones muestran que el modelo de lenguaje autorregresivo que es actualmente popular en el campo de la IA no se puede generalizar de esta manera. En particular, supongamos que el conjunto de entrenamiento del modelo contiene frases como "Olaf Scholz fue el noveno canciller de Alemania", donde el nombre "Olaf Scholz" precede a la descripción de "el noveno canciller de Alemania". El modelo grande podría entonces aprender a responder correctamente "¿Quién es Olaf Scholz?" (La respuesta es: el noveno canciller de Alemania). Pero no puede responder "¿Quién fue el noveno canciller de Alemania?" ni ninguna otra pregunta que describa lo que precede al nombre.
Este es un ejemplo del efecto de clasificación que llamamos "maldición de reversión". Si el Modelo 1 se entrena con oraciones de la forma "is" (con una descripción después del nombre), entonces el modelo no predecirá automáticamente "is" en la dirección opuesta. En particular, si se condiciona un modelo de lenguaje grande (LLM), entonces la probabilidad del modelo no será mayor que la línea de base aleatoria.
Entonces, ¿el razonamiento del **modelo grande no existe realmente? **Una opinión es que la maldición inversa demuestra una falla básica de la deducción lógica en el proceso de formación de LLM. Si "A es B" (o equivalentemente "A=B") es verdadero, entonces lógicamente "B es A" sigue la simetría de la relación de identidad. Los gráficos de conocimiento tradicional respetan esta simetría (Speer et al., 2017). Revertir la Maldición muestra poca generalización más allá de los datos de entrenamiento. Además, esto no es algo que LLM pueda explicar sin comprender las inferencias lógicas. Un LLM como GPT-4 puede muy bien inferir "B es A" si se le proporciona "A es B" en su ventana de contexto.
Si bien es útil relacionar la reversión de la maldición con la deducción lógica, es sólo una simplificación de la situación general. Actualmente no podemos probar directamente si un modelo grande puede deducir "B es A" después de haber sido entrenado en "A es B". Los modelos grandes están entrenados para predecir la siguiente palabra que escribiría un humano, en lugar de lo que realmente "debería" ser. Por lo tanto, incluso si LLM infiere que "B es A", es posible que no "nos lo diga" cuando se le solicite.
Sin embargo, revertir la maldición demuestra un fracaso del metaaprendizaje. Las oraciones de la forma "is" y "is" suelen aparecer juntas en el conjunto de datos previo al entrenamiento. Si lo primero aparece en el conjunto de datos, es más probable que aparezca lo segundo porque los humanos a menudo cambian el orden de los elementos en una oración o párrafo. Por lo tanto, un buen metaaprendiz aumentará la probabilidad de que se produzcan casos de "es" cuando esté entrenado para "es". En este sentido, el LLM autorregresivo no es un buen metaaprendizaje.
La reversión de la maldición ha atraído la atención de muchos investigadores de la IA. Algunas personas dicen que parece que la destrucción de la humanidad por parte de la IA es sólo una fantasía.
Otros dicen que esto significa que los datos de capacitación y el contenido contextual juegan un papel crucial en el proceso de generalización del conocimiento.
Andrej Karpathy, un famoso científico de OpenAI, dijo que parece que el conocimiento aprendido en LLM está mucho más "disperso" de lo que usted y yo imaginábamos. Todavía no tengo una buena intuición sobre esto. Aprenden cosas en una "dirección" específica de la ventana contextual de ese evento que pueden no generalizarse cuando preguntamos en otras direcciones. Ésta es una extraña generalización parcial y me parece que "Revertir la maldición" es un caso especial.
La investigación que desató la controversia provino de la Universidad de Vanderbilt, la Universidad de Nueva York, la Universidad de Oxford y otras instituciones. El artículo "La maldición de la reversión: los LLM capacitados en "A es B" no logran aprender "B es A" ":
Enlace del artículo:
Enlace de GitHub:
Si el nombre y la descripción se invierten, el modelo grande se confundirá
Este artículo demuestra que LLM sufre la maldición de la inversión a través de una serie de experimentos de ajuste con datos sintéticos. Como se muestra en la Figura 2, el investigador primero ajustó el modelo basándose en el patrón de oración es (por ejemplo, Daphne Barrington es la directora de "Through Time"). Los resultados muestran que cuando la forma de indicación sigue siendo la El patrón de oración es , el modelo Puede dar respuestas precisas, pero cuando se le solicita otra pregunta, como "¿Quién dirigió" Viaje en el tiempo ", el modelo responde incorrectamente.
De hecho, como se muestra en la Figura 4 (parte experimental), la probabilidad logarítmica de que el modelo dé el nombre correcto es similar a la probabilidad logarítmica de dar un nombre aleatorio. Además, cuando el orden de la prueba cambia de a es , la tasa de error aumenta.
Para evitar revertir la maldición, los investigadores probaron los siguientes métodos:
Pruebe diferentes series y diferentes tamaños de modelos;
El conjunto de datos de ajuste fino contiene tanto el patrón de oración is como el patrón de oración is ;
Múltiples interpretaciones de cada , lo que ayuda a la generalización;
*¿Cambiar datos de es a ?.
Después de una serie de experimentos, proporcionan evidencia preliminar de que revertir la maldición afecta la generalización en modelos de última generación (Figura 1 y Parte B). Lo probaron en GPT-4 con 1.000 preguntas como "¿Quién es la madre de Tom Cruise?" y "¿Quién es el hijo de Mary Lee Pfeiffer?". Resulta que en la mayoría de los casos, el modelo respondió correctamente a la primera pregunta (¿Quién es el padre de), pero no a la segunda pregunta? Este artículo plantea la hipótesis de que esto se debe a que los datos previos al entrenamiento contienen menos ejemplos de padres clasificados antes que las celebridades (por ejemplo, el hijo de Mary Lee Pfeiffer es Tom Cruise).
Experimentos y resultados
Este artículo tiene como objetivo probar si un modelo de lenguaje autorregresivo (LLM) que aprende "A es B" durante el entrenamiento puede generalizarse a la forma opuesta "B es A".
En un primer experimento, creamos un conjunto de datos que consta de documentos de la forma es (o viceversa), donde el nombre y la descripción son ficticios. Además, el estudio utilizó GPT-4 para generar pares de nombres y descripciones. Luego, estos pares de datos se asignan aleatoriamente a tres subconjuntos: NameToDeion, DeionToName y ambos. Los dos primeros subconjuntos se muestran en la Figura 3.
resultado. En la evaluación de coincidencia exacta, cuando el orden de las preguntas de la prueba coincide con los datos de entrenamiento, GPT-3-175B logra una mayor precisión de coincidencia exacta. Los resultados se muestran en la Tabla 1.
Específicamente, para DeionToName (por ejemplo, el compositor de Abyssal Melodies es Uriah Hawthorne), el modelo logra una precisión del 96,7% al recuperar el nombre cuando se le da un mensaje que contiene una descripción (por ejemplo, quién es el compositor de Abyssal Melodies). Para los hechos en NameToDeion, la precisión es inferior al 50,0%. Por el contrario, cuando el orden no coincide con los datos de entrenamiento, el modelo no logra generalizar en absoluto y la precisión es cercana al 0%. **
Este artículo también realizó una serie de experimentos, incluidos GPT-3-350M (Apéndice A.2) y Llama-7B (Apéndice A.4). Los resultados muestran que los modelos han sufrido la maldición de reversión.
En la evaluación de mayor probabilidad, no hubo diferencias detectables entre las probabilidades logarítmicas asignadas al nombre correcto versus el nombre aleatorio. La probabilidad logarítmica promedio del modelo GPT-3 se muestra en la Figura 4. Tanto las pruebas t como las de Kolmogorov-Smirnov no lograron detectar diferencias estadísticamente significativas.
Figura 4: Experimento 1, el modelo no logra aumentar la probabilidad del nombre correcto cuando se invierte el orden. Este gráfico muestra la probabilidad logarítmica promedio de un nombre correcto (en relación con un nombre aleatorio) cuando se consulta el modelo con una descripción relevante.
A continuación, el estudio realizó un segundo experimento.
En este experimento, los investigadores probaron modelos basados en hechos sobre celebridades reales y sus padres, en la forma "el padre de A es B" y "el hijo de B es A". El estudio recopiló la lista de las 1000 celebridades más populares de IMDB (2023) y utilizó GPT-4 (OpenAI API) para encontrar a los padres de las celebridades por sus nombres. GPT-4 pudo identificar a los padres de celebridades el 79% de las veces.
Posteriormente, para cada pareja de padres e hijos, el estudio consulta al niño por padre. Aquí, la tasa de éxito de GPT-4 es sólo del 33%. La figura 1 ilustra este fenómeno. Muestra que GPT-4 puede identificar a Mary Lee Pfeiffer como la madre de Tom Cruise, pero no puede identificar a Tom Cruise como el hijo de Mary Lee Pfeiffer.
Además, el estudio evaluó el modelo de la serie Llama-1, que aún no ha sido afinado. Se descubrió que todos los modelos eran mucho mejores para identificar a los padres que a los niños, consulte la Figura 5.
Figura 5: Efectos de inversión en el orden de las preguntas de padres e hijos en el Experimento 2. La barra azul (izquierda) muestra la probabilidad de que el modelo devuelva el padre correcto al consultar a los hijos de la celebridad; la barra roja (derecha) muestra la probabilidad de acertar al preguntar a los hijos de los padres. La precisión del modelo Llama-1 es la probabilidad de que el modelo se complete correctamente. La precisión de GPT-3.5-turbo es el promedio de 10 muestras por pareja de padres e hijos, muestreadas a una temperatura = 1. Nota: GPT-4 se omite en la figura, ya que se utiliza para generar una lista de pares de padres e hijos y, por lo tanto, tiene una precisión del 100 % al construir el par "padre". GPT-4 obtiene una puntuación del 28% en "sub".
Perspectiva del futuro
¿Cómo explicar la maldición inversa en LLM? Es posible que esto deba esperar a que se realicen más investigaciones en el futuro. Por ahora, los investigadores sólo pueden ofrecer un breve esbozo de una explicación. Cuando el modelo se actualiza en "A es B", esta actualización de gradiente puede cambiar ligeramente la representación de A para incluir información sobre B (por ejemplo, en una capa MLP intermedia). Para esta actualización de gradiente, también es razonable cambiar la representación de B para incluir información sobre A. Sin embargo, la actualización del gradiente es miope y depende del logaritmo de B dado A, en lugar de predecir necesariamente A en el futuro basándose en B.
Después de "revertir la maldición", los investigadores planean explorar si el modelo grande puede revertir otros tipos de relaciones, como el significado lógico, las relaciones espaciales y las relaciones de n lugares.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El mayor error en los modelos grandes es que la tasa de respuestas correctas es casi nula.
Le pedí a GPT-3 y Llama que aprendieran un conocimiento simple: A es B, y luego pregunté qué es B. Resultó que la precisión de la respuesta de la IA era cero.
¿Cuál es el punto de?
Recientemente, un nuevo concepto llamado "Maldición inversa" se ha convertido en un tema candente en el círculo de la IA, y todos los principales modelos de lenguaje que ahora son populares se han visto afectados por él. Ante problemas extremadamente simples, su precisión no sólo es cercana a cero, sino que no hay posibilidad de aumentarla.
Además, los investigadores descubrieron que este gran error no tiene nada que ver con el tamaño del modelo ni con las preguntas formuladas.
Dijimos que la IA se ha desarrollado hasta la etapa de preentrenamiento de modelos grandes y finalmente parece haber dominado algo de pensamiento lógico, pero esta vez parece haber sido devuelto a su forma original.
Figura 1: Inconsistencia del conocimiento en GPT-4. GPT-4 dio correctamente el nombre de la madre de Tom Cruise (izquierda). Sin embargo, cuando se ingresó el nombre de la madre para preguntarle al hijo, no se pudo recuperar "Tom Cruise" (derecha). Una nueva investigación plantea la hipótesis de que este efecto de clasificación se debe a una reversión de la maldición. Un modelo entrenado en "A es B" no infiere automáticamente "B es A".
Si una persona sabe que "Olav Scholz fue el noveno Canciller de la República Federal de Alemania", podrá responder correctamente a la pregunta "¿Quién es el noveno Canciller de Alemania?" Ésta es una forma básica de generalización que parece corriente y corriente.
Sin embargo, las investigaciones muestran que el modelo de lenguaje autorregresivo que es actualmente popular en el campo de la IA no se puede generalizar de esta manera. En particular, supongamos que el conjunto de entrenamiento del modelo contiene frases como "Olaf Scholz fue el noveno canciller de Alemania", donde el nombre "Olaf Scholz" precede a la descripción de "el noveno canciller de Alemania". El modelo grande podría entonces aprender a responder correctamente "¿Quién es Olaf Scholz?" (La respuesta es: el noveno canciller de Alemania). Pero no puede responder "¿Quién fue el noveno canciller de Alemania?" ni ninguna otra pregunta que describa lo que precede al nombre.
Este es un ejemplo del efecto de clasificación que llamamos "maldición de reversión". Si el Modelo 1 se entrena con oraciones de la forma "is" (con una descripción después del nombre), entonces el modelo no predecirá automáticamente "is" en la dirección opuesta. En particular, si se condiciona un modelo de lenguaje grande (LLM), entonces la probabilidad del modelo no será mayor que la línea de base aleatoria.
Entonces, ¿el razonamiento del **modelo grande no existe realmente? **Una opinión es que la maldición inversa demuestra una falla básica de la deducción lógica en el proceso de formación de LLM. Si "A es B" (o equivalentemente "A=B") es verdadero, entonces lógicamente "B es A" sigue la simetría de la relación de identidad. Los gráficos de conocimiento tradicional respetan esta simetría (Speer et al., 2017). Revertir la Maldición muestra poca generalización más allá de los datos de entrenamiento. Además, esto no es algo que LLM pueda explicar sin comprender las inferencias lógicas. Un LLM como GPT-4 puede muy bien inferir "B es A" si se le proporciona "A es B" en su ventana de contexto.
Si bien es útil relacionar la reversión de la maldición con la deducción lógica, es sólo una simplificación de la situación general. Actualmente no podemos probar directamente si un modelo grande puede deducir "B es A" después de haber sido entrenado en "A es B". Los modelos grandes están entrenados para predecir la siguiente palabra que escribiría un humano, en lugar de lo que realmente "debería" ser. Por lo tanto, incluso si LLM infiere que "B es A", es posible que no "nos lo diga" cuando se le solicite.
Sin embargo, revertir la maldición demuestra un fracaso del metaaprendizaje. Las oraciones de la forma "is" y "is" suelen aparecer juntas en el conjunto de datos previo al entrenamiento. Si lo primero aparece en el conjunto de datos, es más probable que aparezca lo segundo porque los humanos a menudo cambian el orden de los elementos en una oración o párrafo. Por lo tanto, un buen metaaprendiz aumentará la probabilidad de que se produzcan casos de "es" cuando esté entrenado para "es". En este sentido, el LLM autorregresivo no es un buen metaaprendizaje.
La reversión de la maldición ha atraído la atención de muchos investigadores de la IA. Algunas personas dicen que parece que la destrucción de la humanidad por parte de la IA es sólo una fantasía.
Otros dicen que esto significa que los datos de capacitación y el contenido contextual juegan un papel crucial en el proceso de generalización del conocimiento.
Andrej Karpathy, un famoso científico de OpenAI, dijo que parece que el conocimiento aprendido en LLM está mucho más "disperso" de lo que usted y yo imaginábamos. Todavía no tengo una buena intuición sobre esto. Aprenden cosas en una "dirección" específica de la ventana contextual de ese evento que pueden no generalizarse cuando preguntamos en otras direcciones. Ésta es una extraña generalización parcial y me parece que "Revertir la maldición" es un caso especial.
La investigación que desató la controversia provino de la Universidad de Vanderbilt, la Universidad de Nueva York, la Universidad de Oxford y otras instituciones. El artículo "La maldición de la reversión: los LLM capacitados en "A es B" no logran aprender "B es A" ":
Enlace del artículo:
Enlace de GitHub:
Si el nombre y la descripción se invierten, el modelo grande se confundirá
Este artículo demuestra que LLM sufre la maldición de la inversión a través de una serie de experimentos de ajuste con datos sintéticos. Como se muestra en la Figura 2, el investigador primero ajustó el modelo basándose en el patrón de oración es (por ejemplo, Daphne Barrington es la directora de "Through Time"). Los resultados muestran que cuando la forma de indicación sigue siendo la El patrón de oración es , el modelo Puede dar respuestas precisas, pero cuando se le solicita otra pregunta, como "¿Quién dirigió" Viaje en el tiempo ", el modelo responde incorrectamente.
De hecho, como se muestra en la Figura 4 (parte experimental), la probabilidad logarítmica de que el modelo dé el nombre correcto es similar a la probabilidad logarítmica de dar un nombre aleatorio. Además, cuando el orden de la prueba cambia de a es , la tasa de error aumenta.
Para evitar revertir la maldición, los investigadores probaron los siguientes métodos:
Después de una serie de experimentos, proporcionan evidencia preliminar de que revertir la maldición afecta la generalización en modelos de última generación (Figura 1 y Parte B). Lo probaron en GPT-4 con 1.000 preguntas como "¿Quién es la madre de Tom Cruise?" y "¿Quién es el hijo de Mary Lee Pfeiffer?". Resulta que en la mayoría de los casos, el modelo respondió correctamente a la primera pregunta (¿Quién es el padre de), pero no a la segunda pregunta? Este artículo plantea la hipótesis de que esto se debe a que los datos previos al entrenamiento contienen menos ejemplos de padres clasificados antes que las celebridades (por ejemplo, el hijo de Mary Lee Pfeiffer es Tom Cruise).
Experimentos y resultados
Este artículo tiene como objetivo probar si un modelo de lenguaje autorregresivo (LLM) que aprende "A es B" durante el entrenamiento puede generalizarse a la forma opuesta "B es A".
En un primer experimento, creamos un conjunto de datos que consta de documentos de la forma es (o viceversa), donde el nombre y la descripción son ficticios. Además, el estudio utilizó GPT-4 para generar pares de nombres y descripciones. Luego, estos pares de datos se asignan aleatoriamente a tres subconjuntos: NameToDeion, DeionToName y ambos. Los dos primeros subconjuntos se muestran en la Figura 3.
resultado. En la evaluación de coincidencia exacta, cuando el orden de las preguntas de la prueba coincide con los datos de entrenamiento, GPT-3-175B logra una mayor precisión de coincidencia exacta. Los resultados se muestran en la Tabla 1.
Específicamente, para DeionToName (por ejemplo, el compositor de Abyssal Melodies es Uriah Hawthorne), el modelo logra una precisión del 96,7% al recuperar el nombre cuando se le da un mensaje que contiene una descripción (por ejemplo, quién es el compositor de Abyssal Melodies). Para los hechos en NameToDeion, la precisión es inferior al 50,0%. Por el contrario, cuando el orden no coincide con los datos de entrenamiento, el modelo no logra generalizar en absoluto y la precisión es cercana al 0%. **
Este artículo también realizó una serie de experimentos, incluidos GPT-3-350M (Apéndice A.2) y Llama-7B (Apéndice A.4). Los resultados muestran que los modelos han sufrido la maldición de reversión.
En la evaluación de mayor probabilidad, no hubo diferencias detectables entre las probabilidades logarítmicas asignadas al nombre correcto versus el nombre aleatorio. La probabilidad logarítmica promedio del modelo GPT-3 se muestra en la Figura 4. Tanto las pruebas t como las de Kolmogorov-Smirnov no lograron detectar diferencias estadísticamente significativas.
Figura 4: Experimento 1, el modelo no logra aumentar la probabilidad del nombre correcto cuando se invierte el orden. Este gráfico muestra la probabilidad logarítmica promedio de un nombre correcto (en relación con un nombre aleatorio) cuando se consulta el modelo con una descripción relevante.
A continuación, el estudio realizó un segundo experimento.
En este experimento, los investigadores probaron modelos basados en hechos sobre celebridades reales y sus padres, en la forma "el padre de A es B" y "el hijo de B es A". El estudio recopiló la lista de las 1000 celebridades más populares de IMDB (2023) y utilizó GPT-4 (OpenAI API) para encontrar a los padres de las celebridades por sus nombres. GPT-4 pudo identificar a los padres de celebridades el 79% de las veces.
Posteriormente, para cada pareja de padres e hijos, el estudio consulta al niño por padre. Aquí, la tasa de éxito de GPT-4 es sólo del 33%. La figura 1 ilustra este fenómeno. Muestra que GPT-4 puede identificar a Mary Lee Pfeiffer como la madre de Tom Cruise, pero no puede identificar a Tom Cruise como el hijo de Mary Lee Pfeiffer.
Además, el estudio evaluó el modelo de la serie Llama-1, que aún no ha sido afinado. Se descubrió que todos los modelos eran mucho mejores para identificar a los padres que a los niños, consulte la Figura 5.
Figura 5: Efectos de inversión en el orden de las preguntas de padres e hijos en el Experimento 2. La barra azul (izquierda) muestra la probabilidad de que el modelo devuelva el padre correcto al consultar a los hijos de la celebridad; la barra roja (derecha) muestra la probabilidad de acertar al preguntar a los hijos de los padres. La precisión del modelo Llama-1 es la probabilidad de que el modelo se complete correctamente. La precisión de GPT-3.5-turbo es el promedio de 10 muestras por pareja de padres e hijos, muestreadas a una temperatura = 1. Nota: GPT-4 se omite en la figura, ya que se utiliza para generar una lista de pares de padres e hijos y, por lo tanto, tiene una precisión del 100 % al construir el par "padre". GPT-4 obtiene una puntuación del 28% en "sub".
Perspectiva del futuro
¿Cómo explicar la maldición inversa en LLM? Es posible que esto deba esperar a que se realicen más investigaciones en el futuro. Por ahora, los investigadores sólo pueden ofrecer un breve esbozo de una explicación. Cuando el modelo se actualiza en "A es B", esta actualización de gradiente puede cambiar ligeramente la representación de A para incluir información sobre B (por ejemplo, en una capa MLP intermedia). Para esta actualización de gradiente, también es razonable cambiar la representación de B para incluir información sobre A. Sin embargo, la actualización del gradiente es miope y depende del logaritmo de B dado A, en lugar de predecir necesariamente A en el futuro basándose en B.
Después de "revertir la maldición", los investigadores planean explorar si el modelo grande puede revertir otros tipos de relaciones, como el significado lógico, las relaciones espaciales y las relaciones de n lugares.