DeepMind permite que los modelos grandes aprendan la inducción y la deducción, y la precisión de GPT-4 mejora en un 13,7%

巴比特_ · 2023-10-14T06:07:02+00:00

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ffd367b189-dd1a6f-69ad2a) Fuente de la imagen: Generado por Unbounded AIEn la actualidad, los modelos de lenguaje grandes (LLM) muestran capacidades impresionantes en tareas de inferencia, especialmente cuando se dan ejemplos y pasos intermedios. Sin embargo, los métodos a menudo se basan en el conocimiento tácito en LLM, y LLM da respuestas incorrectas cuando el conocimiento tácito es incorrecto o inconsistente con la tarea.Ahora, investigadores de Google, el Instituto Mila y otras instituciones de investigación han explorado conjuntamente una nueva forma de permitir que LLM aprenda reglas de inferencia y propongan un nuevo marco llamado Hypotheses-to-Theories (HtT). Este nuevo enfoque no solo mejora el razonamiento de varios pasos, sino que también tiene las ventajas de la interpretabilidad, la transferibilidad, etc.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9d63fa595d-dd1a6f-69ad2a) Dirección del papel:Los experimentos sobre problemas de razonamiento numérico y relacional muestran que HtT mejora los métodos existentes con un 11-27% más de precisión. Las reglas aprendidas también se pueden transferir a diferentes modelos o diferentes formas del mismo problema. ## **Introducción al método** En resumen, el marco HtT consta de dos fases: una fase inductiva y una fase deductiva, similar al entrenamiento y las pruebas en el aprendizaje automático tradicional.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3607e1160d-dd1a6f-69ad2a) En la fase de inducción, primero se le pide a LLM que genere y valide reglas para un conjunto de ejemplos de capacitación. El estudio utiliza CoT para declarar reglas y derivar respuestas, juzgar la frecuencia y precisión de las reglas, y recopilar reglas que a menudo aparecen y conducen a respuestas correctas para formar una base de reglas.Con una buena base de reglas, el siguiente paso es estudiar cómo aplicar estas reglas para resolver el problema. Con este fin, en la fase deductiva, el estudio agrega una base de reglas y le pide a LLM que recupere reglas de la base de reglas para la deducción, transformando la inferencia implícita en inferencia explícita.Sin embargo, el estudio descubrió que incluso los LLM muy potentes, como GPT-4, tienen dificultades para recuperar las reglas correctas en cada paso. Con este fin, el estudio desarrolló un truco de etiquetado XML para mejorar las capacidades de recuperación de contexto de LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a898320f9-dd1a6f-69ad2a) **Resultados experimentales**Para evaluar la HtT, el estudio se comparó con dos problemas de inferencia de varios pasos. Los resultados experimentales muestran que la HtT mejora el método de menos muestras. Los autores también llevaron a cabo extensos estudios de ablación para proporcionar una comprensión más completa de la HTA.Evalúan nuevos enfoques para problemas de razonamiento numérico y relacional. En el razonamiento numérico, observaron una mejora del 21,0% en la precisión con GPT-4. En la inferencia relacional, GPT-4 mejoró la precisión en un 13,7%, mientras que GPT-3.5 se benefició aún más, duplicando el rendimiento. La ganancia de rendimiento proviene principalmente de la reducción de la ilusión de regularidad.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-71e15afe44-dd1a6f-69ad2a) Específicamente, la Tabla 1 a continuación muestra los resultados en los conjuntos de datos aritméticos de base 16, base 11 y base 9. De todos los sistemas básicos, el CoT de 0 disparos es el que peor funciona en ambos LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-19e04741d8-dd1a6f-69ad2a) EN LA TABLA 2 SE PRESENTAN LOS RESULTADOS DE LA COMPARACIÓN DE DIFERENTES MÉTODOS EN CLUTRR. Se puede observar que CoT de 0 disparos tiene el peor rendimiento en GPT3.5 y GPT4. Para el método de pista de pocos disparos, el rendimiento de CoT y LtM es similar. En términos de precisión media, HtT supera sistemáticamente al método de referencia de ambos modelos en un 11,1-27,2%. Vale la pena señalar que GPT3.5 no es malo para recuperar las reglas de CLUTRR y se beneficia más de HtT que de GPT4, probablemente porque hay menos reglas en CLUTRR que en aritmética.Vale la pena mencionar que usando las reglas de GPT4, el rendimiento de CoT en GPT3.5 mejora en un 27.2%, que es más del doble del rendimiento de CoT y cerca del rendimiento de CoT en GPT4. Por lo tanto, los autores creen que el HtT puede servir como una nueva forma de destilación de conocimiento de un LLM fuerte a un LLM débil.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1b148a426b-dd1a6f-69ad2a) La Tabla 3 muestra que HtT mejora significativamente el rendimiento de GPT-4 (versión de texto). En el caso de GPT3.5, esta mejora no es significativa, ya que a menudo produce errores distintos a la ilusión de reglas al procesar la entrada de texto.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-34c583517d-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7cb28b6cd4-dd1a6f-69ad2a)

巴比特_

2023-10-14 06:07:02

Fuente de la imagen: Generado por Unbounded AI

En la actualidad, los modelos de lenguaje grandes (LLM) muestran capacidades impresionantes en tareas de inferencia, especialmente cuando se dan ejemplos y pasos intermedios. Sin embargo, los métodos a menudo se basan en el conocimiento tácito en LLM, y LLM da respuestas incorrectas cuando el conocimiento tácito es incorrecto o inconsistente con la tarea.

Ahora, investigadores de Google, el Instituto Mila y otras instituciones de investigación han explorado conjuntamente una nueva forma de permitir que LLM aprenda reglas de inferencia y propongan un nuevo marco llamado Hypotheses-to-Theories (HtT). Este nuevo enfoque no solo mejora el razonamiento de varios pasos, sino que también tiene las ventajas de la interpretabilidad, la transferibilidad, etc.

Dirección del papel:

Los experimentos sobre problemas de razonamiento numérico y relacional muestran que HtT mejora los métodos existentes con un 11-27% más de precisión. Las reglas aprendidas también se pueden transferir a diferentes modelos o diferentes formas del mismo problema.

Introducción al método

En resumen, el marco HtT consta de dos fases: una fase inductiva y una fase deductiva, similar al entrenamiento y las pruebas en el aprendizaje automático tradicional.

En la fase de inducción, primero se le pide a LLM que genere y valide reglas para un conjunto de ejemplos de capacitación. El estudio utiliza CoT para declarar reglas y derivar respuestas, juzgar la frecuencia y precisión de las reglas, y recopilar reglas que a menudo aparecen y conducen a respuestas correctas para formar una base de reglas.

Con una buena base de reglas, el siguiente paso es estudiar cómo aplicar estas reglas para resolver el problema. Con este fin, en la fase deductiva, el estudio agrega una base de reglas y le pide a LLM que recupere reglas de la base de reglas para la deducción, transformando la inferencia implícita en inferencia explícita.

Sin embargo, el estudio descubrió que incluso los LLM muy potentes, como GPT-4, tienen dificultades para recuperar las reglas correctas en cada paso. Con este fin, el estudio desarrolló un truco de etiquetado XML para mejorar las capacidades de recuperación de contexto de LLM.

Resultados experimentales

Para evaluar la HtT, el estudio se comparó con dos problemas de inferencia de varios pasos. Los resultados experimentales muestran que la HtT mejora el método de menos muestras. Los autores también llevaron a cabo extensos estudios de ablación para proporcionar una comprensión más completa de la HTA.

Evalúan nuevos enfoques para problemas de razonamiento numérico y relacional. En el razonamiento numérico, observaron una mejora del 21,0% en la precisión con GPT-4. En la inferencia relacional, GPT-4 mejoró la precisión en un 13,7%, mientras que GPT-3.5 se benefició aún más, duplicando el rendimiento. La ganancia de rendimiento proviene principalmente de la reducción de la ilusión de regularidad.

Específicamente, la Tabla 1 a continuación muestra los resultados en los conjuntos de datos aritméticos de base 16, base 11 y base 9. De todos los sistemas básicos, el CoT de 0 disparos es el que peor funciona en ambos LLM.

EN LA TABLA 2 SE PRESENTAN LOS RESULTADOS DE LA COMPARACIÓN DE DIFERENTES MÉTODOS EN CLUTRR. Se puede observar que CoT de 0 disparos tiene el peor rendimiento en GPT3.5 y GPT4. Para el método de pista de pocos disparos, el rendimiento de CoT y LtM es similar. En términos de precisión media, HtT supera sistemáticamente al método de referencia de ambos modelos en un 11,1-27,2%. Vale la pena señalar que GPT3.5 no es malo para recuperar las reglas de CLUTRR y se beneficia más de HtT que de GPT4, probablemente porque hay menos reglas en CLUTRR que en aritmética.

Vale la pena mencionar que usando las reglas de GPT4, el rendimiento de CoT en GPT3.5 mejora en un 27.2%, que es más del doble del rendimiento de CoT y cerca del rendimiento de CoT en GPT4. Por lo tanto, los autores creen que el HtT puede servir como una nueva forma de destilación de conocimiento de un LLM fuerte a un LLM débil.

La Tabla 3 muestra que HtT mejora significativamente el rendimiento de GPT-4 (versión de texto). En el caso de GPT3.5, esta mejora no es significativa, ya que a menudo produce errores distintos a la ilusión de reglas al procesar la entrada de texto.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1CandyDrop Airdrop Event 6.0
17k Popularidad
2White House Crypto Report
34k Popularidad
3Join Alpha RION Airdrop to Earn $40
9k Popularidad
4Fed Holds Rates Decision
8k Popularidad
5July Spark Program TOP 10 Creators Announced
2k Popularidad

Anclado