La última tecnología de Google: a través del motor de búsqueda, mejorar en gran medida la precisión de modelos como ChatGPT

巴比特_ · 2023-10-14T08:20:49+00:00

Fuente original: AIGC Open Community![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5df14fcd2e-dd1a6f-69ad2a) Fuente de la imagen: Generado por Unbounded AIDebido a la aparición de Transformer, se ha mejorado considerablemente la capacidad de los grandes modelos de lenguaje como ChatGPT para procesar tareas de lenguaje natural. Sin embargo, el contenido generado contiene mucha información incorrecta u obsoleta, y no existe un sistema de evaluación fáctica para verificar la autenticidad del contenido.Con el fin de evaluar exhaustivamente la adaptabilidad de los grandes modelos lingüísticos a los cambios en el mundo y la autenticidad del contenido, el equipo de investigación de Google AI publicó un artículo llamado "Mejora de la precisión de los grandes modelos lingüísticos a través del conocimiento de los motores de búsqueda". Se propone un método FRESH para mejorar la precisión de grandes modelos de lenguaje como ChatGPT y Bard mediante la obtención de información en tiempo real de los motores de búsqueda.Los investigadores construyeron un nuevo conjunto de referencia de preguntas y respuestas FRESHQA, que contiene 600 preguntas reales de varios tipos, y la frecuencia de las respuestas se divide en cuatro categorías: "nunca cambiar", "cambio lento", "cambio frecuente" y "premisas falsas"**.Al mismo tiempo, también se diseñan dos métodos de evaluación, el modo estricto, que requiere que toda la información de las respuestas sea precisa y actualizada, y el modo relajado, que solo evalúa la corrección de las respuestas principales.Los resultados experimentales muestran que FRESH mejora significativamente la precisión de los grandes modelos de lenguaje en FRESHQA. **Por ejemplo, GPT-4 es un 47% más preciso que el GPT-4 original con la ayuda del modo estricto de FRESH**.Además, este método de fusión de motores de búsqueda es más flexible que la expansión directa de los parámetros del modelo, y puede proporcionar una fuente de conocimiento externa dinámica para los modelos existentes. Los resultados experimentales también muestran que FRESH puede mejorar significativamente la precisión de grandes modelos lingüísticos en problemas que requieren conocimiento en tiempo real.Dirección del papel:Dirección de código abierto: Big Language Model S/FreshQA (en proceso, pronto será de código abierto)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5b9455dd07-dd1a6f-69ad2a) A partir del contenido del artículo de Google, el método de FRESH se compone principalmente de 5 módulos. ## **Construir un conjunto de pruebas de FRESHQA** Con el fin de evaluar de forma exhaustiva la adaptabilidad de los grandes modelos lingüísticos al mundo cambiante, los investigadores construyeron primero el conjunto de referencia FRESHQA, que contiene 600 preguntas reales de dominio abierto, que pueden dividirse en cuatro categorías según la frecuencia de los cambios de respuesta: "nunca cambiar", "cambio lento", "cambio frecuente" y "premisas falsas".1) Nunca cambies: La respuesta a preguntas que básicamente no cambiarán.2) Cambio lento: La respuesta a la pregunta cambia cada pocos años.3) Cambio frecuente: Respuestas a preguntas que pueden cambiar cada año o menos.4) Premisa incorrecta: Un problema que contiene una premisa incorrecta.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b6633aa55-dd1a6f-69ad2a) Las preguntas cubren una variedad de temas y tienen diferentes niveles de dificultad. La característica clave de FRESHQA es que la respuesta puede cambiar con el tiempo, por lo que el modelo debe ser sensible a los cambios en el mundo. ## **Evaluación del modo estricto frente al modo relajado** Los investigadores propusieron dos modos de evaluación: el modo estricto, que requiere que toda la información de las respuestas sea precisa y actualizada, y el modo relajado, que solo evalúa la corrección de las respuestas principales.Esto proporciona una forma más completa y matizada de medir la naturaleza fáctica de los modelos lingüísticos.Evalúe diferentes modelos de lenguaje de gran tamaño basados en FRESHQAEn FRESHQA, los investigadores compararon grandes modelos de lenguaje que cubrían diferentes parámetros, incluidos GPT-3, GPT-4, ChatGPT y otros. Las evaluaciones se llevan a cabo tanto en modo estricto (se requiere ausencia de errores) como en modo permisivo (solo se evalúan las respuestas primarias).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2a291d2cf9-dd1a6f-69ad2a) Se encuentra que todos los modelos tienen un desempeño deficiente en problemas que requieren conocimiento en tiempo real, especialmente problemas con cambios frecuentes y premisas incorrectas. Esto demuestra que el modelo actual de lenguaje grande tiene limitaciones en su adaptabilidad a un mundo cambiante. ## **Recuperación de información relevante de los motores de búsqueda** Para mejorar la naturaleza fáctica del gran modelo de lenguaje, la idea central de FRESH es recuperar información en tiempo real sobre el problema del motor de búsqueda.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-25f047bd37-dd1a6f-69ad2a) Específicamente, dada una pregunta, FRESH consultará el motor de búsqueda de Google como palabra clave para obtener múltiples tipos de resultados de búsqueda, incluidos cuadros de respuesta, resultados de páginas web, "otros usuarios también preguntaron", etc. ## **Recupere información a través de la integración de capacitación dispersa** FRESH utiliza el aprendizaje de pocos disparos para integrar la evidencia recuperada en la solicitud de entrada del modelo de lenguaje grande en un formato unificado, y proporciona varias demostraciones de cómo sintetizar la evidencia para llegar a la respuesta correcta.Esto puede enseñar a los grandes modelos de lenguaje a comprender la tarea e integrar información de diferentes fuentes para obtener respuestas actualizadas y precisas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6d4c929373-dd1a6f-69ad2a) Google dijo que FRESH es de gran importancia para mejorar la adaptabilidad dinámica de los modelos lingüísticos grandes, que también es una dirección importante para la investigación tecnológica futura de los modelos lingüísticos grandes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e6a6640558-dd1a6f-69ad2a)

巴比特_

2023-10-14 08:20:49

Fuente original: AIGC Open Community

Fuente de la imagen: Generado por Unbounded AI

Debido a la aparición de Transformer, se ha mejorado considerablemente la capacidad de los grandes modelos de lenguaje como ChatGPT para procesar tareas de lenguaje natural. Sin embargo, el contenido generado contiene mucha información incorrecta u obsoleta, y no existe un sistema de evaluación fáctica para verificar la autenticidad del contenido.

Con el fin de evaluar exhaustivamente la adaptabilidad de los grandes modelos lingüísticos a los cambios en el mundo y la autenticidad del contenido, el equipo de investigación de Google AI publicó un artículo llamado "Mejora de la precisión de los grandes modelos lingüísticos a través del conocimiento de los motores de búsqueda". Se propone un método FRESH para mejorar la precisión de grandes modelos de lenguaje como ChatGPT y Bard mediante la obtención de información en tiempo real de los motores de búsqueda.

Los investigadores construyeron un nuevo conjunto de referencia de preguntas y respuestas FRESHQA, que contiene 600 preguntas reales de varios tipos, y la frecuencia de las respuestas se divide en cuatro categorías: "nunca cambiar", "cambio lento", "cambio frecuente" y "premisas falsas"**.

Al mismo tiempo, también se diseñan dos métodos de evaluación, el modo estricto, que requiere que toda la información de las respuestas sea precisa y actualizada, y el modo relajado, que solo evalúa la corrección de las respuestas principales.

Los resultados experimentales muestran que FRESH mejora significativamente la precisión de los grandes modelos de lenguaje en FRESHQA. Por ejemplo, GPT-4 es un 47% más preciso que el GPT-4 original con la ayuda del modo estricto de FRESH.

Además, este método de fusión de motores de búsqueda es más flexible que la expansión directa de los parámetros del modelo, y puede proporcionar una fuente de conocimiento externa dinámica para los modelos existentes. Los resultados experimentales también muestran que FRESH puede mejorar significativamente la precisión de grandes modelos lingüísticos en problemas que requieren conocimiento en tiempo real.

Dirección del papel:

Dirección de código abierto: Big Language Model S/FreshQA (en proceso, pronto será de código abierto)

A partir del contenido del artículo de Google, el método de FRESH se compone principalmente de 5 módulos.

Construir un conjunto de pruebas de FRESHQA

Con el fin de evaluar de forma exhaustiva la adaptabilidad de los grandes modelos lingüísticos al mundo cambiante, los investigadores construyeron primero el conjunto de referencia FRESHQA, que contiene 600 preguntas reales de dominio abierto, que pueden dividirse en cuatro categorías según la frecuencia de los cambios de respuesta: "nunca cambiar", "cambio lento", "cambio frecuente" y "premisas falsas".

Nunca cambies: La respuesta a preguntas que básicamente no cambiarán.
Cambio lento: La respuesta a la pregunta cambia cada pocos años.
Cambio frecuente: Respuestas a preguntas que pueden cambiar cada año o menos.
Premisa incorrecta: Un problema que contiene una premisa incorrecta.

Las preguntas cubren una variedad de temas y tienen diferentes niveles de dificultad. La característica clave de FRESHQA es que la respuesta puede cambiar con el tiempo, por lo que el modelo debe ser sensible a los cambios en el mundo.

Evaluación del modo estricto frente al modo relajado

Los investigadores propusieron dos modos de evaluación: el modo estricto, que requiere que toda la información de las respuestas sea precisa y actualizada, y el modo relajado, que solo evalúa la corrección de las respuestas principales.

Esto proporciona una forma más completa y matizada de medir la naturaleza fáctica de los modelos lingüísticos.

Evalúe diferentes modelos de lenguaje de gran tamaño basados en FRESHQA

En FRESHQA, los investigadores compararon grandes modelos de lenguaje que cubrían diferentes parámetros, incluidos GPT-3, GPT-4, ChatGPT y otros. Las evaluaciones se llevan a cabo tanto en modo estricto (se requiere ausencia de errores) como en modo permisivo (solo se evalúan las respuestas primarias).

Se encuentra que todos los modelos tienen un desempeño deficiente en problemas que requieren conocimiento en tiempo real, especialmente problemas con cambios frecuentes y premisas incorrectas. Esto demuestra que el modelo actual de lenguaje grande tiene limitaciones en su adaptabilidad a un mundo cambiante.

Recuperación de información relevante de los motores de búsqueda

Para mejorar la naturaleza fáctica del gran modelo de lenguaje, la idea central de FRESH es recuperar información en tiempo real sobre el problema del motor de búsqueda.

Específicamente, dada una pregunta, FRESH consultará el motor de búsqueda de Google como palabra clave para obtener múltiples tipos de resultados de búsqueda, incluidos cuadros de respuesta, resultados de páginas web, "otros usuarios también preguntaron", etc.

Recupere información a través de la integración de capacitación dispersa

FRESH utiliza el aprendizaje de pocos disparos para integrar la evidencia recuperada en la solicitud de entrada del modelo de lenguaje grande en un formato unificado, y proporciona varias demostraciones de cómo sintetizar la evidencia para llegar a la respuesta correcta.

Esto puede enseñar a los grandes modelos de lenguaje a comprender la tarea e integrar información de diferentes fuentes para obtener respuestas actualizadas y precisas.

Google dijo que FRESH es de gran importancia para mejorar la adaptabilidad dinámica de los modelos lingüísticos grandes, que también es una dirección importante para la investigación tecnológica futura de los modelos lingüísticos grandes.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1CandyDrop Airdrop Event 6.0
16k Popularidad
2White House Crypto Report
33k Popularidad
3Join Alpha RION Airdrop to Earn $40
9k Popularidad
4Fed Holds Rates Decision
8k Popularidad
5July Spark Program TOP 10 Creators Announced
2k Popularidad

Anclado