A medida que aumenta el tamaño del modelo, la gente comienza a explorar cómo los modelos grandes pueden dominar una gran cantidad de conocimiento. Una opinión es que esto se debe a la "compresión sin pérdidas", es decir, el modelo se somete a un entrenamiento exhaustivo y memoriza más contenido para mejorar la precisión de la predicción. Pero, ¿puede realmente la "compresión sin pérdidas" permitir que los modelos grandes comprendan este conocimiento? La última investigación "Language Model Physics Part 3.1: Knowledge Storage and Retrieval" realizada por Zhu Zeyuan (MetaAI) y Li Yuanzhi (MBZUAI) explora este tema en profundidad.
Dirección del papel:
Respecto a los seres humanos, hay un dicho que dice que "lee un libro cien veces y su significado aparecerá por sí solo". Aunque esta oración no se aplica a todos los conocimientos, para el conocimiento simple, siempre que podamos recordar los libros relevantes, podemos responder fácilmente preguntas relacionadas. Por ejemplo, siempre que recordemos el antiguo poema "Pensamientos de una noche de paz", podemos responder fácilmente "¿Con qué se compara la luz de la luna en el poema?"; siempre que recordemos el párrafo sobre "Chu Shi Biao/Trasfondo creativo". en la Enciclopedia Baidu, podemos responder fácilmente "Chu Shi Biao" ¿Cuándo fue la creación? Entonces, ¿pueden los modelos más grandes hacer lo mismo?
Figura 1: Algunos ejemplos de extracción de conocimiento mediante GPT-4 (la imagen de la izquierda es ChatGPT, la imagen de la derecha es API)
Aunque GPT-4 puede comprender y repetir párrafos relacionados con la pregunta, ¿por qué no puede responder preguntas simples como los humanos? ¿Es porque el modelo no es lo suficientemente grande, la memoria es insuficiente o el ajuste fino después del entrenamiento no es suficiente? ¡ni! El artículo señala que incluso si un modelo de lenguaje natural es lo suficientemente grande, se entrena durante el tiempo suficiente y se afina lo suficiente, es posible que aún no pueda responder preguntas que los humanos consideran simples. La razón subyacente de esto tiene que ver con la forma en que se presenta el conocimiento en los datos previos al entrenamiento. El mismo conocimiento debe aparecer varias veces en el conjunto de datos previo al entrenamiento y tiene suficiente "diversidad" para que sea más fácil de extraer después del ajuste.
Para confirmar esto, los dos autores crearon un conjunto de datos que contiene 100.000 biografías. Cada personaje tiene una entrada de biografía que contiene el nombre de la persona y seis atributos fijos: fecha de nacimiento, lugar de nacimiento, especialidad universitaria, nombre de la universidad y lugar de trabajo, empleador. Diseñaron dos conjuntos de datos, BioS y BioR. Cada frase de BioS se seleccionó de 50 plantillas fijas y BioR se reescribió con LLaMA-30B, que es más realista y diverso. Los resultados de los dos conjuntos de datos son consistentes. Tomando BioS como ejemplo, a continuación se muestra una entrada de muestra:
Anya Briar Forger nació el 2 de octubre de 1996. Pasó sus primeros años en Princeton, Nueva Jersey. Recibió tutoría y orientación de miembros del cuerpo docente del MIT. Completó su educación con especialización en Comunicaciones. Tuvo un rol profesional en Meta Platforms. Trabajó en Menlo Park, CA.
Figura 2
Incluso si un modelo de lenguaje natural está perfectamente entrenado previamente (preentrenado) en 100.000 autobiografías personales, no podrá responder con precisión a la pregunta "¿A qué escuela fue Anya para realizar sus estudios universitarios" mediante el ajuste fino de control de calidad (ajuste fino). Como se muestra en la Figura 2, incluso si se utilizan 50.000 personas como datos de entrenamiento de ajuste de calidad y se prueban varios métodos de ajuste, incluido LoRA, la precisión del modelo en las 50.000 personas restantes es solo del 10%. Aunque se utilizó y entrenó 1350 veces un modelo de 682 millones (7000 veces más grande que el número de personas), y el autor incluso agregó datos estándar de preentrenamiento de PNL como WikiBook, la tasa de precisión no mejoró. Se puede ver que "con mucha fuerza, los milagros" no sucedieron.
Por lo tanto, los modelos grandes no necesariamente capturan ni extraen conocimiento de la "compresión sin pérdidas". Entonces, ¿cómo domina GPT-4 el conocimiento? Para estudiar este problema, los dos autores realizaron cambios en el conjunto de preentrenamiento; los autores lo llamaron mejora del conocimiento:
Diversidad - multiM: cree M entradas de biografía para cada persona, utilizando diferentes lenguajes narrativos pero conservando la misma información (hay un total de 100 métodos narrativos para cada oración, y cada oración de cada biografía selecciona uno de ellos)
Disposición aleatoria - permutar: organiza aleatoriamente las frases biográficas
Nombre completo - nombre completo: Reemplace todos los pronombres, apellidos y nombres en la biografía con el nombre completo.
Los autores llamaron al conjunto de datos original bioS single y experimentaron con 15 combinaciones de mejoras de conocimiento. Por ejemplo, bioS multi5+permute significa que cada persona tiene 5 biografías y el orden de las palabras está alterado. Aquí hay un ejemplo de bioS multi5+permute:
Anya Briar Forger es originaria de Princeton, Nueva Jersey. Dedicó sus estudios a las Comunicaciones. Obtuvo experiencia laboral en Menlo Park, CA. Desarrolló su carrera en Meta Platforms. Vino a este mundo el 2 de octubre de 1996. Realizó cursos avanzados en el MIT.
Tanto para humanos como para modelos grandes, recuerde que bioS single y bioS multi5+permute son casi igualmente difíciles (tienen la misma cantidad de información y cada oración se selecciona entre 50 plantillas). Entonces, si se realiza un entrenamiento previo en este nuevo conjunto de datos mejorado en conocimiento y luego se ajusta el control de calidad, ¿habrá algún nuevo rendimiento?
imagen 3
La Figura 3 muestra que la tasa de precisión de control de calidad del modelo preentrenado único bioS es solo del 9,7%, mientras que la tasa de precisión del modelo preentrenado bioS multi5+permute llega al 96,6%. Esta mejora significativa no tiene nada que ver con el ajuste fino del modelo, el tamaño o el tiempo de entrenamiento, sino con cómo se presenta el conocimiento en el preentrenamiento, es decir, cómo el modelo grande "recita" el conocimiento.
El estudio también encontró que al dividir las biografías en celebridades y grupos minoritarios, siempre que la biografía de la celebridad tenga un conocimiento mejorado, incluso si el grupo minoritario no la tiene, la precisión de la extracción de conocimiento del modelo para el grupo minoritario mejorará enormemente; por supuesto. , el mejor efecto aún requiere mejorar el conocimiento de todos los datos.
Figura 4: Simplemente aumentando la diversidad de datos de capacitación para celebridades, la precisión de la extracción de conocimientos para grupos minoritarios se dispara
Entonces, ¿por qué la capacidad del modelo para responder preguntas varía mucho después de recitar diferentes datos? ¿Por qué la recitación repetida de biografías de celebridades puede mejorar la capacidad de extracción de conocimientos de los grupos minoritarios? La razón es que los modelos adoptan diferentes métodos de memoria.
El autor explora en profundidad el principio del conocimiento de la memoria del modelo a través de dos sondeos lineales. Veamos un método llamado sondeo P.
En P-probe, ingresamos entradas biográficas en el modelo previamente entrenado y entrenamos un clasificador lineal para predecir seis atributos objetivo (como universidad, especialización, etc.). Queríamos ver si el modelo podía extraer esta información antes que los atributos. Si el clasificador muestra una alta precisión para "unidad de trabajo" inmediatamente después del nombre de la persona, significa que el modelo aprendió directamente "el empleador de Anya es Meta". Si se logra una alta precisión sólo al final de la biografía, es posible que el modelo utilice un método de memoria defectuoso, como "el cumpleaños de alguien es el 2 de octubre de 1996, la universidad es el MIT, por lo que el empleador es Meta".
El diseño experimental para la sonda P es el siguiente. Encuentre las posiciones en cada biografía donde aparecen por primera vez los 6 atributos y luego entrene un clasificador lineal para predecir cada atributo objetivo en la posición inmediatamente anterior a estas posiciones. Esto resultó en 36 tareas de clasificación.
*Figura 5: Los resultados de la prueba de sonda P muestran que la mejora del conocimiento del conjunto de datos previo al entrenamiento hace que el conocimiento se almacene en ubicaciones anteriores, y algunos incluso se almacenan directamente en los nombres de las personas. Si el modelo puede responder preguntas mediante un ajuste fino está relacionado con si la información se almacena directamente en el nombre de la persona durante el entrenamiento previo (compare la Figura 3 y la Figura 5). *
Los resultados de la prueba P-probe muestran que el modelo de lenguaje natural puede recordar información a través de los nombres de las personas para lograr la compresión durante el entrenamiento previo, y también puede usar otra información (como "La unidad de trabajo de una persona que estudió en el MIT y cuyo cumpleaños es el 2 de octubre de 1996 es...")memoria. Aunque el segundo método de memoria es "antinatural" para los humanos, las relaciones de compresión de los dos métodos son las mismas para el modelo. Si el modelo utiliza el segundo método para recordar información, no podrá responder preguntas mediante ajustes después del entrenamiento. A través de la mejora del conocimiento, el modelo previamente entrenado tenderá gradualmente a aprender a utilizar el primer método de memoria.
Se podría argumentar que el fracaso de la "extracción de conocimiento" mencionado anteriormente puede deberse a la naturaleza unidireccional de los modelos de lenguaje autorregresivos como GPT. De hecho, los modelos de lenguaje bidireccional como BERT son aún peores en la extracción de conocimiento: solo pueden almacenar conocimiento de varias frases como la "MetaPlataforma" pero no pueden extraerlo. Los lectores interesados pueden consultar el Capítulo 6 del artículo.
En general, si el modelo de lenguaje puede responder a la pregunta de "extracción de conocimiento" depende no sólo de la "compresión sin pérdidas", sino también de "cómo comprimir en el modelo". El documento enfatiza que es necesario mejorar el conocimiento de datos clave pero poco comunes durante el proceso de capacitación previa (como el uso de ChatGPT para reescrituras múltiples). Sin este paso, no importa cuánto trabaje en el ajuste, aunque el modelo previamente entrenado haya comprimido los datos de entrenamiento sin pérdidas, es posible que aún no pueda extraer ese conocimiento.
Conclusión
¿Cómo entender cómo funcionan los modelos de lenguaje natural? La mayoría de los investigadores especulan sobre sus capacidades hablando con modelos como el GPT-4. Sin embargo, el autor de la serie de artículos "Language Model Physics" propuso un método más preciso para explorar el mecanismo interno de Transformer y explicar su capacidad para manejar tareas de IA a través de datos de entrenamiento cuidadosamente diseñados y experimentos controlados.
En la "Parte 3.1: Almacenamiento y extracción de conocimientos", el autor probó con precisión la respuesta del modelo a diferentes datos y encontró la relación precisa entre el conocimiento y la capacidad de aprendizaje del modelo y los datos de entrenamiento.
También publicaron la "Parte 3.2: Operación del conocimiento" para estudiar más a fondo cómo el modelo opera el conocimiento en situaciones específicas. Por ejemplo, si el modelo grande recuerda "Pensamientos de una noche de paz", ¿se puede ajustar para inferir que la última oración de "Pensamientos de una noche de paz" es "Inclina la cabeza y extraña tu ciudad natal"? Le traeremos informes de seguimiento pronto.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Recitar no significa comprender ni analizar en profundidad el almacenamiento y la extracción de conocimientos detrás de grandes modelos.
Fuente: Corazón de la máquina
A medida que aumenta el tamaño del modelo, la gente comienza a explorar cómo los modelos grandes pueden dominar una gran cantidad de conocimiento. Una opinión es que esto se debe a la "compresión sin pérdidas", es decir, el modelo se somete a un entrenamiento exhaustivo y memoriza más contenido para mejorar la precisión de la predicción. Pero, ¿puede realmente la "compresión sin pérdidas" permitir que los modelos grandes comprendan este conocimiento? La última investigación "Language Model Physics Part 3.1: Knowledge Storage and Retrieval" realizada por Zhu Zeyuan (MetaAI) y Li Yuanzhi (MBZUAI) explora este tema en profundidad.
Respecto a los seres humanos, hay un dicho que dice que "lee un libro cien veces y su significado aparecerá por sí solo". Aunque esta oración no se aplica a todos los conocimientos, para el conocimiento simple, siempre que podamos recordar los libros relevantes, podemos responder fácilmente preguntas relacionadas. Por ejemplo, siempre que recordemos el antiguo poema "Pensamientos de una noche de paz", podemos responder fácilmente "¿Con qué se compara la luz de la luna en el poema?"; siempre que recordemos el párrafo sobre "Chu Shi Biao/Trasfondo creativo". en la Enciclopedia Baidu, podemos responder fácilmente "Chu Shi Biao" ¿Cuándo fue la creación? Entonces, ¿pueden los modelos más grandes hacer lo mismo?
Aunque GPT-4 puede comprender y repetir párrafos relacionados con la pregunta, ¿por qué no puede responder preguntas simples como los humanos? ¿Es porque el modelo no es lo suficientemente grande, la memoria es insuficiente o el ajuste fino después del entrenamiento no es suficiente? ¡ni! El artículo señala que incluso si un modelo de lenguaje natural es lo suficientemente grande, se entrena durante el tiempo suficiente y se afina lo suficiente, es posible que aún no pueda responder preguntas que los humanos consideran simples. La razón subyacente de esto tiene que ver con la forma en que se presenta el conocimiento en los datos previos al entrenamiento. El mismo conocimiento debe aparecer varias veces en el conjunto de datos previo al entrenamiento y tiene suficiente "diversidad" para que sea más fácil de extraer después del ajuste.
Para confirmar esto, los dos autores crearon un conjunto de datos que contiene 100.000 biografías. Cada personaje tiene una entrada de biografía que contiene el nombre de la persona y seis atributos fijos: fecha de nacimiento, lugar de nacimiento, especialidad universitaria, nombre de la universidad y lugar de trabajo, empleador. Diseñaron dos conjuntos de datos, BioS y BioR. Cada frase de BioS se seleccionó de 50 plantillas fijas y BioR se reescribió con LLaMA-30B, que es más realista y diverso. Los resultados de los dos conjuntos de datos son consistentes. Tomando BioS como ejemplo, a continuación se muestra una entrada de muestra:
Incluso si un modelo de lenguaje natural está perfectamente entrenado previamente (preentrenado) en 100.000 autobiografías personales, no podrá responder con precisión a la pregunta "¿A qué escuela fue Anya para realizar sus estudios universitarios" mediante el ajuste fino de control de calidad (ajuste fino). Como se muestra en la Figura 2, incluso si se utilizan 50.000 personas como datos de entrenamiento de ajuste de calidad y se prueban varios métodos de ajuste, incluido LoRA, la precisión del modelo en las 50.000 personas restantes es solo del 10%. Aunque se utilizó y entrenó 1350 veces un modelo de 682 millones (7000 veces más grande que el número de personas), y el autor incluso agregó datos estándar de preentrenamiento de PNL como WikiBook, la tasa de precisión no mejoró. Se puede ver que "con mucha fuerza, los milagros" no sucedieron.
Por lo tanto, los modelos grandes no necesariamente capturan ni extraen conocimiento de la "compresión sin pérdidas". Entonces, ¿cómo domina GPT-4 el conocimiento? Para estudiar este problema, los dos autores realizaron cambios en el conjunto de preentrenamiento; los autores lo llamaron mejora del conocimiento:
Diversidad - multiM: cree M entradas de biografía para cada persona, utilizando diferentes lenguajes narrativos pero conservando la misma información (hay un total de 100 métodos narrativos para cada oración, y cada oración de cada biografía selecciona uno de ellos)
Disposición aleatoria - permutar: organiza aleatoriamente las frases biográficas
Nombre completo - nombre completo: Reemplace todos los pronombres, apellidos y nombres en la biografía con el nombre completo.
Los autores llamaron al conjunto de datos original bioS single y experimentaron con 15 combinaciones de mejoras de conocimiento. Por ejemplo, bioS multi5+permute significa que cada persona tiene 5 biografías y el orden de las palabras está alterado. Aquí hay un ejemplo de bioS multi5+permute:
Tanto para humanos como para modelos grandes, recuerde que bioS single y bioS multi5+permute son casi igualmente difíciles (tienen la misma cantidad de información y cada oración se selecciona entre 50 plantillas). Entonces, si se realiza un entrenamiento previo en este nuevo conjunto de datos mejorado en conocimiento y luego se ajusta el control de calidad, ¿habrá algún nuevo rendimiento?
La Figura 3 muestra que la tasa de precisión de control de calidad del modelo preentrenado único bioS es solo del 9,7%, mientras que la tasa de precisión del modelo preentrenado bioS multi5+permute llega al 96,6%. Esta mejora significativa no tiene nada que ver con el ajuste fino del modelo, el tamaño o el tiempo de entrenamiento, sino con cómo se presenta el conocimiento en el preentrenamiento, es decir, cómo el modelo grande "recita" el conocimiento.
El estudio también encontró que al dividir las biografías en celebridades y grupos minoritarios, siempre que la biografía de la celebridad tenga un conocimiento mejorado, incluso si el grupo minoritario no la tiene, la precisión de la extracción de conocimiento del modelo para el grupo minoritario mejorará enormemente; por supuesto. , el mejor efecto aún requiere mejorar el conocimiento de todos los datos.
Entonces, ¿por qué la capacidad del modelo para responder preguntas varía mucho después de recitar diferentes datos? ¿Por qué la recitación repetida de biografías de celebridades puede mejorar la capacidad de extracción de conocimientos de los grupos minoritarios? La razón es que los modelos adoptan diferentes métodos de memoria.
El autor explora en profundidad el principio del conocimiento de la memoria del modelo a través de dos sondeos lineales. Veamos un método llamado sondeo P.
En P-probe, ingresamos entradas biográficas en el modelo previamente entrenado y entrenamos un clasificador lineal para predecir seis atributos objetivo (como universidad, especialización, etc.). Queríamos ver si el modelo podía extraer esta información antes que los atributos. Si el clasificador muestra una alta precisión para "unidad de trabajo" inmediatamente después del nombre de la persona, significa que el modelo aprendió directamente "el empleador de Anya es Meta". Si se logra una alta precisión sólo al final de la biografía, es posible que el modelo utilice un método de memoria defectuoso, como "el cumpleaños de alguien es el 2 de octubre de 1996, la universidad es el MIT, por lo que el empleador es Meta".
El diseño experimental para la sonda P es el siguiente. Encuentre las posiciones en cada biografía donde aparecen por primera vez los 6 atributos y luego entrene un clasificador lineal para predecir cada atributo objetivo en la posición inmediatamente anterior a estas posiciones. Esto resultó en 36 tareas de clasificación.
Los resultados de la prueba P-probe muestran que el modelo de lenguaje natural puede recordar información a través de los nombres de las personas para lograr la compresión durante el entrenamiento previo, y también puede usar otra información (como "La unidad de trabajo de una persona que estudió en el MIT y cuyo cumpleaños es el 2 de octubre de 1996 es...")memoria. Aunque el segundo método de memoria es "antinatural" para los humanos, las relaciones de compresión de los dos métodos son las mismas para el modelo. Si el modelo utiliza el segundo método para recordar información, no podrá responder preguntas mediante ajustes después del entrenamiento. A través de la mejora del conocimiento, el modelo previamente entrenado tenderá gradualmente a aprender a utilizar el primer método de memoria.
Se podría argumentar que el fracaso de la "extracción de conocimiento" mencionado anteriormente puede deberse a la naturaleza unidireccional de los modelos de lenguaje autorregresivos como GPT. De hecho, los modelos de lenguaje bidireccional como BERT son aún peores en la extracción de conocimiento: solo pueden almacenar conocimiento de varias frases como la "MetaPlataforma" pero no pueden extraerlo. Los lectores interesados pueden consultar el Capítulo 6 del artículo.
En general, si el modelo de lenguaje puede responder a la pregunta de "extracción de conocimiento" depende no sólo de la "compresión sin pérdidas", sino también de "cómo comprimir en el modelo". El documento enfatiza que es necesario mejorar el conocimiento de datos clave pero poco comunes durante el proceso de capacitación previa (como el uso de ChatGPT para reescrituras múltiples). Sin este paso, no importa cuánto trabaje en el ajuste, aunque el modelo previamente entrenado haya comprimido los datos de entrenamiento sin pérdidas, es posible que aún no pueda extraer ese conocimiento.
Conclusión
¿Cómo entender cómo funcionan los modelos de lenguaje natural? La mayoría de los investigadores especulan sobre sus capacidades hablando con modelos como el GPT-4. Sin embargo, el autor de la serie de artículos "Language Model Physics" propuso un método más preciso para explorar el mecanismo interno de Transformer y explicar su capacidad para manejar tareas de IA a través de datos de entrenamiento cuidadosamente diseñados y experimentos controlados.
En la "Parte 3.1: Almacenamiento y extracción de conocimientos", el autor probó con precisión la respuesta del modelo a diferentes datos y encontró la relación precisa entre el conocimiento y la capacidad de aprendizaje del modelo y los datos de entrenamiento.
También publicaron la "Parte 3.2: Operación del conocimiento" para estudiar más a fondo cómo el modelo opera el conocimiento en situaciones específicas. Por ejemplo, si el modelo grande recuerda "Pensamientos de una noche de paz", ¿se puede ajustar para inferir que la última oración de "Pensamientos de una noche de paz" es "Inclina la cabeza y extraña tu ciudad natal"? Le traeremos informes de seguimiento pronto.