Descubrimiento sorprendente: los modelos grandes tienen graves defectos en la deducción de conocimientos.
La aplicación flexible del conocimiento es la clave de la sabiduría. El cerebro humano puede procesar conocimientos rápidamente, como responder rápidamente "¿Cuántas palabras hay en" Pensamientos de una noche de paz "". Entonces, ¿se pueden realizar operaciones similares en modelos grandes? Se sabe que los modelos grandes pueden escribir primero "Pensamientos de una noche de paz" en silencio a través de la Cadena de Pensamiento (CoT) y luego responder preguntas basadas en el contenido escrito, pero esto hará que el texto generado sea largo. Por el contrario, los humanos pueden completar deducciones de conocimientos simples en sus cerebros sin tener que escribir los pasos intermedios. Entonces, ¿puede un modelo de lenguaje muy grande generar respuestas directamente en su cerebro artificial sin tener que escribir primero los puntos de conocimiento?
**¡La respuesta resultó ser no! La Figura 1/2/3 muestra muchos contraejemplos en GPT4. Incluso la clasificación más básica (como determinar la paridad de los cumpleaños de una celebridad) y la comparación (como comparar los cumpleaños de dos presidentes) deben pasar por la Cadena de Pensamiento. Peor aún, los modelos grandes son casi completamente incapaces de extraer conocimiento del conjunto de entrenamiento de manera inversa. **
Figura 1: GPT4 comete errores en la clasificación/comparación de conocimientos, pero la respuesta correcta se puede obtener a través de la cadena de pensamiento
Figura 2: Ejemplo de error de búsqueda inversa de conocimiento de GPT4
*Figura 3: Aunque GPT4 puede responder correctamente "¿Cuándo es el cumpleaños de alguien" y "¿Un cierto número es par?", al combinar los dos, la tasa correcta es solo del 50% sin cadena de pensamiento (CoT). Al comparar los cumpleaños de las celebridades de 1900 a 1910, el resultado también se acerca a una conjetura a ciegas. *
La última investigación "Física del modelo del lenguaje Parte 3.2: Manipulación del conocimiento" realizada por Zhu Zeyuan (MetaAI) y Li Yuanzhi (MBZUAI) se centra en los temas anteriores.
Dirección del papel:
Permítanme hacer una pregunta primero: para problemas como las Figuras 1/2/3, ¿se debe a que GPT4 no recuerda los cumpleaños de las personas con suficiente precisión (la relación de compresión no es suficiente y la pérdida de entrenamiento no es lo suficientemente baja), o no? ¿No logra profundizar su comprensión de la paridad mediante ajustes? ¿Es posible ajustar GPT4 para que pueda combinar el conocimiento existente dentro del modelo para generar nuevo conocimiento como "paridad de cumpleaños", respondiendo así directamente preguntas relacionadas sin depender de CoT? Como no conocemos el conjunto de datos de entrenamiento de GPT4, no podemos ajustarlo. Por lo tanto, el autor propone utilizar conjuntos de entrenamiento controlables para estudiar más a fondo la capacidad de "deducción de conocimiento" de los modelos lingüísticos.
Figura 4: Para modelos previamente entrenados como GPT4, debido a la naturaleza incontrolable de los datos de Internet, es difícil determinar si ocurren situaciones B/C/D
En "Física del modelo de lenguaje, parte 3.1: almacenamiento y recuperación de conocimientos", el autor creó un conjunto de datos que contiene 100.000 biografías. Cada biografía incluye el nombre de la persona y seis atributos: fecha de nacimiento, lugar de nacimiento, carrera universitaria, nombre de la universidad, lugar de trabajo y unidad de trabajo. Por ejemplo:
「Anya Briar Forger es originaria de Princeton, Nueva Jersey. Dedicó sus estudios a las Comunicaciones. Obtuvo experiencia laboral en Menlo Park, CA. Desarrolló su carrera en Meta Platforms. Ella vino a este mundo el 2 de octubre de 1996. Realizó cursos avanzados en el MIT”.
Los autores aseguraron la diversidad de entradas biográficas para ayudar al modelo a acceder mejor al conocimiento. Después del entrenamiento previo, el modelo puede responder con precisión preguntas de extracción de conocimientos como "¿Cuándo es el cumpleaños de Anya" mediante ajustes (la tasa de precisión es cercana al 100%)
A continuación, el autor continuó afinando, tratando de hacer que el modelo aprenda problemas de deducción de conocimiento, como clasificación / comparación / suma y resta de conocimiento. El artículo encontró que los modelos de lenguaje natural tienen capacidades muy limitadas en la deducción de conocimiento, y es difícil generar nuevo conocimiento mediante ajustes, incluso si son simples transformaciones/combinaciones del conocimiento que ya domina el modelo. **
Figura 5: Si no se utiliza CoT durante el ajuste fino, permitir que el modelo clasifique/compare/reste conocimiento requerirá una gran cantidad de muestras o la precisión será extremadamente baja: se usaron 100 especialidades en el experimento
Como se muestra en la Figura 5, el autor descubrió que, aunque el modelo puede responder con precisión el cumpleaños de todos después del entrenamiento previo (la tasa de precisión es cercana al 100%), es necesario ajustarlo para responder "¿Es el mes de nacimiento de xxx un número par?" y lograr una tasa de precisión del 75% (no olvide que la adivinación a ciegas tiene una tasa de precisión del 50%) requiere al menos 10,000 muestras de ajuste fino. En comparación, si el modelo puede completar correctamente la combinación de conocimientos de "cumpleaños" y "paridad", entonces, según la teoría tradicional del aprendizaje automático, el modelo solo necesita aprender a clasificar 12 meses y, por lo general, unas 100 muestras son suficientes.
De manera similar, después del entrenamiento previo, el modelo puede responder con precisión la especialidad de cada persona (un total de 100 especialidades diferentes), pero incluso si se usan 50,000 muestras de ajuste fino para comparar "Cuál es mejor, la especialidad de Anya o la especialidad de Sabrina", la precisión La tasa es sólo del 53,9%, casi una suposición a ciegas.
Sin embargo, cuando utilizamos el ajuste fino de CoT para permitir que el modelo aprenda oraciones como "El mes de nacimiento de Anya es octubre, por lo que es un número par", la precisión del modelo al juzgar la paridad del mes de nacimiento en el conjunto de prueba mejora considerablemente. (ver "uso de prueba" en la columna "CoT" de la Figura 5).
El autor también intentó mezclar respuestas CoT y no CoT en los datos de entrenamiento de ajuste fino y descubrió que la precisión del modelo cuando no se usaba CoT en el conjunto de prueba era todavía muy baja (consulte la columna "prueba sin CoT" en Figura 5). Esto muestra que incluso si se agregan suficientes datos de ajuste de CoT, el modelo aún no puede aprender a "pensar dentro de la cabeza" e informar directamente la respuesta.
¡Estos resultados muestran que es extremadamente difícil para los modelos de lenguaje realizar operaciones de conocimiento simples! El modelo primero debe escribir los puntos de conocimiento y luego realizar cálculos. No puede operarse directamente en el cerebro como un ser humano. Incluso después de un ajuste suficiente, no ayudará. **
Desafíos de la búsqueda inversa de conocimiento
El artículo también encontró que los modelos de lenguaje natural no pueden buscar de manera inversa el conocimiento aprendido. Aunque puede responder toda la información sobre una persona, no puede determinar el nombre de la persona basándose en esta información.
Al igual que con la clasificación/comparación de conocimientos, el autor realizó experimentos en GPT3.5/4 y descubrió que funcionaban mal en la extracción inversa de conocimientos (consulte la Figura 6). Sin embargo, dado que no podemos determinar el conjunto de entrenamiento de GPT3.5/4, esto no prueba que todos los modelos de lenguaje tengan este problema.
*Figura 6: Comparación de la búsqueda de conocimiento directa/inversa de GPT3.5/4. El trabajo de "reversión de maldición" (arxiv 2309.12288) que informamos hace unos días también observó esto en modelos grandes existentes. *
El autor utilizó el conjunto de datos biográficos antes mencionado para realizar un experimento controlado más profundo sobre las capacidades de búsqueda de conocimiento inverso del modelo. Dado que los nombres de todas las biografías están al principio del párrafo, el autor diseñó 10 problemas de extracción de información inversa, tales como:
"Por favor, dígame el nombre de una persona nacida el 2 de octubre de 1996 en Princeton, Nueva Jersey".
"Por favor, dígame el nombre de una persona que estudió Comunicaciones en el MIT, nació el 2 de octubre de 1996 en Princeton, Nueva Jersey, y trabaja en Meta Platforms en Menlo Park, CA".
Figura 7: Experimento controlado con un conjunto de datos de biografías de celebridades
El autor verificó que aunque el modelo logra una compresión del conocimiento sin pérdidas y una mejora suficiente del conocimiento, y puede extraer este conocimiento casi al 100% correctamente, después del ajuste fino, el modelo aún no puede realizar una búsqueda inversa de conocimiento y la precisión es casi nula ( ver Figura 7). Sin embargo, una vez que el conocimiento inverso aparece directamente en el conjunto previo al entrenamiento, la precisión de la búsqueda inversa se dispara inmediatamente.
En resumen, solo cuando el conocimiento inverso se incluye directamente en los datos previos al entrenamiento, el modelo puede responder la pregunta inversa mediante un ajuste fino, pero esto en realidad es una trampa, porque si el conocimiento se ha invertido, ya no es "Conocimiento inverso". Buscar". Si el conjunto de preentrenamiento solo contiene conocimiento directo, el modelo no puede dominar la capacidad de responder preguntas a la inversa mediante un ajuste fino. Por lo tanto, utilizar modelos lingüísticos para la indexación de conocimientos (bases de datos de conocimientos) parece actualmente imposible. **
Además, algunas personas pueden pensar que el fracaso de la "búsqueda de conocimiento inversa" mencionada anteriormente puede deberse a la naturaleza unidireccional de los modelos de lenguaje autorregresivos como GPT. Pero, de hecho, los modelos de lenguaje bidireccional como BERT funcionan peor en la extracción de conocimiento e incluso fallan en la extracción directa. Los lectores interesados pueden consultar el artículo para obtener más detalles.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El modelo lingüístico tiene grandes defectos y la deducción de conocimientos resulta ser un problema de larga data.
La aplicación flexible del conocimiento es la clave de la sabiduría. El cerebro humano puede procesar conocimientos rápidamente, como responder rápidamente "¿Cuántas palabras hay en" Pensamientos de una noche de paz "". Entonces, ¿se pueden realizar operaciones similares en modelos grandes? Se sabe que los modelos grandes pueden escribir primero "Pensamientos de una noche de paz" en silencio a través de la Cadena de Pensamiento (CoT) y luego responder preguntas basadas en el contenido escrito, pero esto hará que el texto generado sea largo. Por el contrario, los humanos pueden completar deducciones de conocimientos simples en sus cerebros sin tener que escribir los pasos intermedios. Entonces, ¿puede un modelo de lenguaje muy grande generar respuestas directamente en su cerebro artificial sin tener que escribir primero los puntos de conocimiento?
**¡La respuesta resultó ser no! La Figura 1/2/3 muestra muchos contraejemplos en GPT4. Incluso la clasificación más básica (como determinar la paridad de los cumpleaños de una celebridad) y la comparación (como comparar los cumpleaños de dos presidentes) deben pasar por la Cadena de Pensamiento. Peor aún, los modelos grandes son casi completamente incapaces de extraer conocimiento del conjunto de entrenamiento de manera inversa. **
La última investigación "Física del modelo del lenguaje Parte 3.2: Manipulación del conocimiento" realizada por Zhu Zeyuan (MetaAI) y Li Yuanzhi (MBZUAI) se centra en los temas anteriores.
Permítanme hacer una pregunta primero: para problemas como las Figuras 1/2/3, ¿se debe a que GPT4 no recuerda los cumpleaños de las personas con suficiente precisión (la relación de compresión no es suficiente y la pérdida de entrenamiento no es lo suficientemente baja), o no? ¿No logra profundizar su comprensión de la paridad mediante ajustes? ¿Es posible ajustar GPT4 para que pueda combinar el conocimiento existente dentro del modelo para generar nuevo conocimiento como "paridad de cumpleaños", respondiendo así directamente preguntas relacionadas sin depender de CoT? Como no conocemos el conjunto de datos de entrenamiento de GPT4, no podemos ajustarlo. Por lo tanto, el autor propone utilizar conjuntos de entrenamiento controlables para estudiar más a fondo la capacidad de "deducción de conocimiento" de los modelos lingüísticos.
En "Física del modelo de lenguaje, parte 3.1: almacenamiento y recuperación de conocimientos", el autor creó un conjunto de datos que contiene 100.000 biografías. Cada biografía incluye el nombre de la persona y seis atributos: fecha de nacimiento, lugar de nacimiento, carrera universitaria, nombre de la universidad, lugar de trabajo y unidad de trabajo. Por ejemplo:
「Anya Briar Forger es originaria de Princeton, Nueva Jersey. Dedicó sus estudios a las Comunicaciones. Obtuvo experiencia laboral en Menlo Park, CA. Desarrolló su carrera en Meta Platforms. Ella vino a este mundo el 2 de octubre de 1996. Realizó cursos avanzados en el MIT”.
Los autores aseguraron la diversidad de entradas biográficas para ayudar al modelo a acceder mejor al conocimiento. Después del entrenamiento previo, el modelo puede responder con precisión preguntas de extracción de conocimientos como "¿Cuándo es el cumpleaños de Anya" mediante ajustes (la tasa de precisión es cercana al 100%)
A continuación, el autor continuó afinando, tratando de hacer que el modelo aprenda problemas de deducción de conocimiento, como clasificación / comparación / suma y resta de conocimiento. El artículo encontró que los modelos de lenguaje natural tienen capacidades muy limitadas en la deducción de conocimiento, y es difícil generar nuevo conocimiento mediante ajustes, incluso si son simples transformaciones/combinaciones del conocimiento que ya domina el modelo. **
Como se muestra en la Figura 5, el autor descubrió que, aunque el modelo puede responder con precisión el cumpleaños de todos después del entrenamiento previo (la tasa de precisión es cercana al 100%), es necesario ajustarlo para responder "¿Es el mes de nacimiento de xxx un número par?" y lograr una tasa de precisión del 75% (no olvide que la adivinación a ciegas tiene una tasa de precisión del 50%) requiere al menos 10,000 muestras de ajuste fino. En comparación, si el modelo puede completar correctamente la combinación de conocimientos de "cumpleaños" y "paridad", entonces, según la teoría tradicional del aprendizaje automático, el modelo solo necesita aprender a clasificar 12 meses y, por lo general, unas 100 muestras son suficientes.
De manera similar, después del entrenamiento previo, el modelo puede responder con precisión la especialidad de cada persona (un total de 100 especialidades diferentes), pero incluso si se usan 50,000 muestras de ajuste fino para comparar "Cuál es mejor, la especialidad de Anya o la especialidad de Sabrina", la precisión La tasa es sólo del 53,9%, casi una suposición a ciegas.
Sin embargo, cuando utilizamos el ajuste fino de CoT para permitir que el modelo aprenda oraciones como "El mes de nacimiento de Anya es octubre, por lo que es un número par", la precisión del modelo al juzgar la paridad del mes de nacimiento en el conjunto de prueba mejora considerablemente. (ver "uso de prueba" en la columna "CoT" de la Figura 5).
El autor también intentó mezclar respuestas CoT y no CoT en los datos de entrenamiento de ajuste fino y descubrió que la precisión del modelo cuando no se usaba CoT en el conjunto de prueba era todavía muy baja (consulte la columna "prueba sin CoT" en Figura 5). Esto muestra que incluso si se agregan suficientes datos de ajuste de CoT, el modelo aún no puede aprender a "pensar dentro de la cabeza" e informar directamente la respuesta.
¡Estos resultados muestran que es extremadamente difícil para los modelos de lenguaje realizar operaciones de conocimiento simples! El modelo primero debe escribir los puntos de conocimiento y luego realizar cálculos. No puede operarse directamente en el cerebro como un ser humano. Incluso después de un ajuste suficiente, no ayudará. **
Desafíos de la búsqueda inversa de conocimiento
El artículo también encontró que los modelos de lenguaje natural no pueden buscar de manera inversa el conocimiento aprendido. Aunque puede responder toda la información sobre una persona, no puede determinar el nombre de la persona basándose en esta información.
Al igual que con la clasificación/comparación de conocimientos, el autor realizó experimentos en GPT3.5/4 y descubrió que funcionaban mal en la extracción inversa de conocimientos (consulte la Figura 6). Sin embargo, dado que no podemos determinar el conjunto de entrenamiento de GPT3.5/4, esto no prueba que todos los modelos de lenguaje tengan este problema.
El autor utilizó el conjunto de datos biográficos antes mencionado para realizar un experimento controlado más profundo sobre las capacidades de búsqueda de conocimiento inverso del modelo. Dado que los nombres de todas las biografías están al principio del párrafo, el autor diseñó 10 problemas de extracción de información inversa, tales como:
"Por favor, dígame el nombre de una persona nacida el 2 de octubre de 1996 en Princeton, Nueva Jersey".
"Por favor, dígame el nombre de una persona que estudió Comunicaciones en el MIT, nació el 2 de octubre de 1996 en Princeton, Nueva Jersey, y trabaja en Meta Platforms en Menlo Park, CA".
El autor verificó que aunque el modelo logra una compresión del conocimiento sin pérdidas y una mejora suficiente del conocimiento, y puede extraer este conocimiento casi al 100% correctamente, después del ajuste fino, el modelo aún no puede realizar una búsqueda inversa de conocimiento y la precisión es casi nula ( ver Figura 7). Sin embargo, una vez que el conocimiento inverso aparece directamente en el conjunto previo al entrenamiento, la precisión de la búsqueda inversa se dispara inmediatamente.
En resumen, solo cuando el conocimiento inverso se incluye directamente en los datos previos al entrenamiento, el modelo puede responder la pregunta inversa mediante un ajuste fino, pero esto en realidad es una trampa, porque si el conocimiento se ha invertido, ya no es "Conocimiento inverso". Buscar". Si el conjunto de preentrenamiento solo contiene conocimiento directo, el modelo no puede dominar la capacidad de responder preguntas a la inversa mediante un ajuste fino. Por lo tanto, utilizar modelos lingüísticos para la indexación de conocimientos (bases de datos de conocimientos) parece actualmente imposible. **
Además, algunas personas pueden pensar que el fracaso de la "búsqueda de conocimiento inversa" mencionada anteriormente puede deberse a la naturaleza unidireccional de los modelos de lenguaje autorregresivos como GPT. Pero, de hecho, los modelos de lenguaje bidireccional como BERT funcionan peor en la extracción de conocimiento e incluso fallan en la extracción directa. Los lectores interesados pueden consultar el artículo para obtener más detalles.