La dernière technologie de Google : grâce au moteur de recherche, améliorez considérablement la précision des modèles tels que ChatGPT

Source originale : Communauté ouverte de l’AIGC

Source de l’image : Généré par Unbounded AI

En raison de l’émergence de Transformer, la capacité des grands modèles de langage tels que ChatGPT à traiter des tâches en langage naturel a été considérablement améliorée. Cependant, le contenu généré contient beaucoup d’informations incorrectes ou obsolètes, et il n’existe pas de système d’évaluation factuel pour vérifier l’authenticité du contenu.

Afin d’évaluer de manière exhaustive l’adaptabilité des grands modèles de langage aux changements du monde et l’authenticité du contenu, l’équipe de recherche de Google AI a publié un article intitulé « Améliorer la précision des grands modèles de langage grâce à la connaissance des moteurs de recherche ». Une méthode FRESH est proposée pour améliorer la précision des grands modèles de langage tels que ChatGPT et Bard en obtenant des informations en temps réel à partir des moteurs de recherche.

Les chercheurs ont construit un nouvel ensemble de questions-réponses FRESHQA, qui contient 600 questions réelles de différents types, et la fréquence des réponses est divisée en quatre catégories : « ne jamais changer », « changement lent », « changement fréquent » et « fausses prémisses »**.

Dans le même temps, deux méthodes d’évaluation, le mode strict, qui exige que toutes les informations contenues dans les réponses soient exactes et à jour, et le mode détendu, sont également conçues, qui n’évalue que l’exactitude des réponses principales.

Les résultats expérimentaux montrent que FRESH améliore significativement la précision des grands modèles de langage sur FRESHQA. Par exemple, GPT-4 est 47 % plus précis que le GPT-4 original à l’aide du mode strict de FRESH.

De plus, cette méthode de fusion des moteurs de recherche est plus flexible que l’extension directe des paramètres du modèle, et peut fournir une source de connaissances externe dynamique pour les modèles existants. Les résultats expérimentaux montrent également que FRESH peut améliorer considérablement la précision des grands modèles de langage sur des problèmes nécessitant des connaissances en temps réel.

Adresse papier :

Adresse Open Source : Big Language Model S/FreshQA (en préparation, sera bientôt open source)

D’après le contenu de l’article de Google, la méthode de FRESH est principalement composée de 5 modules.

Construire un ensemble de benchmarks FRESHQA

Afin d’évaluer de manière exhaustive l’adaptabilité des grands modèles de langage à un monde en mutation, les chercheurs ont d’abord construit l’ensemble de benchmark FRESHQA, qui contient 600 questions réelles à domaine ouvert, qui peuvent être divisées en quatre catégories en fonction de la fréquence des changements de réponse : « ne change jamais », « changement lent », « changement fréquent » et « fausses prémisses ».

  1. Ne jamais changer : La réponse à des questions qui, fondamentalement, ne changeront pas.

  2. Changement lent : La réponse à la question change toutes les quelques années.

  3. Changements fréquents : Réponses à des questions qui peuvent changer chaque année ou moins.

  4. Prémisse incorrecte : un problème qui contient une prémisse incorrecte.

Les questions couvrent une variété de sujets et ont différents niveaux de difficulté. La principale caractéristique de FRESHQA est que la réponse peut changer au fil du temps, de sorte que le modèle doit être sensible aux changements dans le monde.

Évaluation du mode strict et du mode détendu

Les chercheurs ont proposé deux modes d’évaluation : le mode strict, qui exige que toutes les informations contenues dans les réponses soient exactes et à jour, et le mode relâché, qui n’évalue que l’exactitude des réponses principales.

Il s’agit d’un moyen plus complet et plus nuancé de mesurer la nature factuelle des modèles linguistiques.

Évaluer différents grands modèles de langage basés sur FRESHQA

Sur FRESHQA, les chercheurs ont comparé de grands modèles de langage couvrant différents paramètres, notamment GPT-3, GPT-4, ChatGPT et d’autres. Les évaluations sont effectuées à la fois en mode strict (sans erreur requise) et en mode permissif (seules les réponses primaires sont évaluées).

On constate que tous les modèles fonctionnent mal sur les problèmes qui nécessitent des connaissances en temps réel, en particulier les problèmes avec des changements fréquents et des prémisses incorrectes. Cela montre que le grand modèle de langage actuel a des limites dans son adaptabilité à un monde en mutation.

Récupérer des informations pertinentes dans les moteurs de recherche

Pour améliorer la nature factuelle du grand modèle de langage, l’idée de base de FRESH est de récupérer des informations en temps réel sur le problème à partir du moteur de recherche.

Plus précisément, à partir d’une question, FRESH interrogera le moteur de recherche de Google en tant que mot-clé pour obtenir plusieurs types de résultats de recherche, y compris les boîtes de réponse, les résultats de la page Web, « d’autres utilisateurs ont également demandé », etc.

Récupérez des informations grâce à une intégration d’entraînement parcimonieuse

FRESH utilise l’apprentissage en quelques coups pour intégrer les preuves récupérées dans l’invite d’entrée du modèle à langage étendu dans un format unifié, et fournit plusieurs démonstrations de la façon de synthétiser les preuves pour arriver à la bonne réponse.

Cela peut apprendre à de grands modèles de langage à comprendre la tâche et à intégrer des informations provenant de différentes sources pour trouver des réponses à jour et précises.

Google a déclaré que FRESH est d’une grande importance pour améliorer l’adaptabilité dynamique des grands modèles de langage, ce qui est également une direction importante pour la recherche technologique future sur les grands modèles de langage.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)