A mais recente tecnologia do Google: através do motor de busca, aumentar muito a precisão de modelos como o ChatGPT

Fonte original: AIGC Open Community

Fonte da imagem: Gerado por Unbounded AI

Devido ao surgimento do Transformer, a capacidade de grandes modelos de linguagem, como o ChatGPT, para processar tarefas de linguagem natural foi muito melhorada. No entanto, o conteúdo gerado contém muitas informações incorretas ou desatualizadas, e não há um sistema de avaliação factual para verificar a autenticidade do conteúdo.

A fim de avaliar de forma abrangente a adaptabilidade de grandes modelos de linguagem às mudanças no mundo e a autenticidade do conteúdo, a equipe de pesquisa de IA do Google publicou um artigo chamado "Aprimorando a precisão de grandes modelos de linguagem através do conhecimento do mecanismo de pesquisa". Um método FRESH é proposto para melhorar a precisão de grandes modelos de linguagem, como ChatGPT e Bard, obtendo informações em tempo real dos motores de busca.

Os pesquisadores construíram um novo conjunto de referência de perguntas e respostas FRESHQA, que contém 600 perguntas reais de vários tipos, e a frequência das respostas é dividida em quatro categorias: "nunca mudar", "mudança lenta", "mudança frequente" e "premissas falsas"**.

Ao mesmo tempo, são também concebidos dois métodos de avaliação, o modo estrito, que exige que todas as informações das respostas sejam precisas e atualizadas, e o modo descontraído, que apenas avalia a exatidão das respostas principais.

Os resultados experimentais mostram que o FRESH melhora significativamente a precisão de modelos de linguagem grandes no FRESHQA. Por exemplo, o GPT-4 é 47% mais preciso do que o GPT-4 original com a ajuda do modo estrito do FRESH.

Além disso, este método de fusão de motores de busca é mais flexível do que expandir diretamente os parâmetros do modelo, e pode fornecer uma fonte de conhecimento externa dinâmica para os modelos existentes. Os resultados experimentais também mostram que o FRESH pode melhorar significativamente a precisão de grandes modelos de linguagem em problemas que exigem conhecimento em tempo real.

Endereço em papel:

Endereço Open Source: Big Language Model S/FreshQA (no pipeline, será open source em breve)

A partir do conteúdo do artigo do Google, o método do FRESH é composto principalmente por 5 módulos.

Criar conjunto de benchmark FRESHQA

A fim de avaliar de forma abrangente a adaptabilidade de grandes modelos linguísticos ao mundo em mudança, os investigadores construíram primeiro o conjunto de referência FRESHQA, que contém 600 perguntas reais de domínio aberto, que podem ser divididas em quatro categorias de acordo com a frequência das mudanças de resposta: "nunca mudar", "mudança lenta", "mudança frequente" e "falsas premissas".

  1. Nunca mude: A resposta a perguntas que basicamente não mudarão.

  2. Mudança lenta: A resposta à pergunta muda a cada poucos anos.

  3. Mudança frequente: Respostas a perguntas que podem mudar a cada ano ou menos.

  4. Premissa incorreta: Um problema que contém uma premissa incorreta.

As perguntas abrangem uma variedade de tópicos e têm diferentes níveis de dificuldade. A principal característica do FRESHQA é que a resposta pode mudar ao longo do tempo, por isso o modelo precisa ser sensível às mudanças no mundo.

Modo Estrito vs. Avaliação do Modo Descontraído

Os pesquisadores propuseram dois modos de avaliação: o modo estrito, que exige que todas as informações nas respostas sejam precisas e atualizadas, e o modo descontraído, que apenas avalia a correção das respostas principais.

Isso fornece uma maneira mais abrangente e matizada de medir a natureza factual dos modelos de linguagem.

Avalie diferentes modelos de linguagem grandes com base no FRESHQA

No FRESHQA, os pesquisadores compararam grandes modelos de linguagem cobrindo diferentes parâmetros, incluindo GPT-3, GPT-4, ChatGPT e outros. As avaliações são conduzidas em modo estrito (é necessário livre de erros) e modo permissivo (apenas as respostas primárias são avaliadas).

Verifica-se que todos os modelos têm um desempenho fraco em problemas que exigem conhecimento em tempo real, especialmente problemas com mudanças frequentes e premissas incorretas. Isto mostra que o atual modelo linguístico de grande dimensão tem limitações na sua adaptabilidade a um mundo em mudança.

Recuperar informação relevante dos motores de busca

Para melhorar a natureza factual do modelo de linguagem grande, a ideia central do FRESH é recuperar informações em tempo real sobre o problema do mecanismo de pesquisa.

Especificamente, dada uma pergunta, FRESH irá consultar o motor de busca do Google como uma palavra-chave para obter vários tipos de resultados de pesquisa, incluindo caixas de resposta, resultados de páginas web, "outros usuários também perguntaram", etc.

Recupere informações através de integração de treinamento esparso

O FRESH usa o aprendizado de poucos tiros para integrar as evidências recuperadas no prompt de entrada do modelo de linguagem grande em um formato unificado e fornece várias demonstrações de como sintetizar as evidências para chegar à resposta correta.

Isso pode ensinar grandes modelos de linguagem para entender a tarefa e integrar informações de diferentes fontes para chegar a respostas atualizadas e precisas.

O Google disse que o FRESH é de grande importância para melhorar a adaptabilidade dinâmica de grandes modelos de linguagem, o que também é uma direção importante para a pesquisa de tecnologia futura de modelos de linguagem grande.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)