A mais recente tecnologia do Google: através do motor de busca, aumentar muito a precisão de modelos como o ChatGPT

巴比特_ · 2023-10-14T08:20:49+00:00

Fonte original: AIGC Open Community![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5df14fcd2e-dd1a6f-69ad2a) Fonte da imagem: Gerado por Unbounded AIDevido ao surgimento do Transformer, a capacidade de grandes modelos de linguagem, como o ChatGPT, para processar tarefas de linguagem natural foi muito melhorada. No entanto, o conteúdo gerado contém muitas informações incorretas ou desatualizadas, e não há um sistema de avaliação factual para verificar a autenticidade do conteúdo.A fim de avaliar de forma abrangente a adaptabilidade de grandes modelos de linguagem às mudanças no mundo e a autenticidade do conteúdo, a equipe de pesquisa de IA do Google publicou um artigo chamado "Aprimorando a precisão de grandes modelos de linguagem através do conhecimento do mecanismo de pesquisa". Um método FRESH é proposto para melhorar a precisão de grandes modelos de linguagem, como ChatGPT e Bard, obtendo informações em tempo real dos motores de busca.Os pesquisadores construíram um novo conjunto de referência de perguntas e respostas FRESHQA, que contém 600 perguntas reais de vários tipos, e a frequência das respostas é dividida em quatro categorias: "nunca mudar", "mudança lenta", "mudança frequente" e "premissas falsas"**.Ao mesmo tempo, são também concebidos dois métodos de avaliação, o modo estrito, que exige que todas as informações das respostas sejam precisas e atualizadas, e o modo descontraído, que apenas avalia a exatidão das respostas principais.Os resultados experimentais mostram que o FRESH melhora significativamente a precisão de modelos de linguagem grandes no FRESHQA. **Por exemplo, o GPT-4 é 47% mais preciso do que o GPT-4 original com a ajuda do modo estrito do FRESH**.Além disso, este método de fusão de motores de busca é mais flexível do que expandir diretamente os parâmetros do modelo, e pode fornecer uma fonte de conhecimento externa dinâmica para os modelos existentes. Os resultados experimentais também mostram que o FRESH pode melhorar significativamente a precisão de grandes modelos de linguagem em problemas que exigem conhecimento em tempo real.Endereço em papel:Endereço Open Source: Big Language Model S/FreshQA (no pipeline, será open source em breve)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5b9455dd07-dd1a6f-69ad2a) A partir do conteúdo do artigo do Google, o método do FRESH é composto principalmente por 5 módulos. ## **Criar conjunto de benchmark FRESHQA** A fim de avaliar de forma abrangente a adaptabilidade de grandes modelos linguísticos ao mundo em mudança, os investigadores construíram primeiro o conjunto de referência FRESHQA, que contém 600 perguntas reais de domínio aberto, que podem ser divididas em quatro categorias de acordo com a frequência das mudanças de resposta: "nunca mudar", "mudança lenta", "mudança frequente" e "falsas premissas".1) Nunca mude: A resposta a perguntas que basicamente não mudarão.2) Mudança lenta: A resposta à pergunta muda a cada poucos anos.3) Mudança frequente: Respostas a perguntas que podem mudar a cada ano ou menos.4) Premissa incorreta: Um problema que contém uma premissa incorreta.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b6633aa55-dd1a6f-69ad2a) As perguntas abrangem uma variedade de tópicos e têm diferentes níveis de dificuldade. A principal característica do FRESHQA é que a resposta pode mudar ao longo do tempo, por isso o modelo precisa ser sensível às mudanças no mundo. ## **Modo Estrito vs. Avaliação do Modo Descontraído** Os pesquisadores propuseram dois modos de avaliação: o modo estrito, que exige que todas as informações nas respostas sejam precisas e atualizadas, e o modo descontraído, que apenas avalia a correção das respostas principais.Isso fornece uma maneira mais abrangente e matizada de medir a natureza factual dos modelos de linguagem.Avalie diferentes modelos de linguagem grandes com base no FRESHQANo FRESHQA, os pesquisadores compararam grandes modelos de linguagem cobrindo diferentes parâmetros, incluindo GPT-3, GPT-4, ChatGPT e outros. As avaliações são conduzidas em modo estrito (é necessário livre de erros) e modo permissivo (apenas as respostas primárias são avaliadas).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2a291d2cf9-dd1a6f-69ad2a) Verifica-se que todos os modelos têm um desempenho fraco em problemas que exigem conhecimento em tempo real, especialmente problemas com mudanças frequentes e premissas incorretas. Isto mostra que o atual modelo linguístico de grande dimensão tem limitações na sua adaptabilidade a um mundo em mudança. ## **Recuperar informação relevante dos motores de busca** Para melhorar a natureza factual do modelo de linguagem grande, a ideia central do FRESH é recuperar informações em tempo real sobre o problema do mecanismo de pesquisa.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-25f047bd37-dd1a6f-69ad2a) Especificamente, dada uma pergunta, FRESH irá consultar o motor de busca do Google como uma palavra-chave para obter vários tipos de resultados de pesquisa, incluindo caixas de resposta, resultados de páginas web, "outros usuários também perguntaram", etc. ## **Recupere informações através de integração de treinamento esparso** O FRESH usa o aprendizado de poucos tiros para integrar as evidências recuperadas no prompt de entrada do modelo de linguagem grande em um formato unificado e fornece várias demonstrações de como sintetizar as evidências para chegar à resposta correta.Isso pode ensinar grandes modelos de linguagem para entender a tarefa e integrar informações de diferentes fontes para chegar a respostas atualizadas e precisas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6d4c929373-dd1a6f-69ad2a) O Google disse que o FRESH é de grande importância para melhorar a adaptabilidade dinâmica de grandes modelos de linguagem, o que também é uma direção importante para a pesquisa de tecnologia futura de modelos de linguagem grande.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e6a6640558-dd1a6f-69ad2a)

巴比特_

2023-10-14 08:20:49

Fonte original: AIGC Open Community

Fonte da imagem: Gerado por Unbounded AI

Devido ao surgimento do Transformer, a capacidade de grandes modelos de linguagem, como o ChatGPT, para processar tarefas de linguagem natural foi muito melhorada. No entanto, o conteúdo gerado contém muitas informações incorretas ou desatualizadas, e não há um sistema de avaliação factual para verificar a autenticidade do conteúdo.

A fim de avaliar de forma abrangente a adaptabilidade de grandes modelos de linguagem às mudanças no mundo e a autenticidade do conteúdo, a equipe de pesquisa de IA do Google publicou um artigo chamado "Aprimorando a precisão de grandes modelos de linguagem através do conhecimento do mecanismo de pesquisa". Um método FRESH é proposto para melhorar a precisão de grandes modelos de linguagem, como ChatGPT e Bard, obtendo informações em tempo real dos motores de busca.

Os pesquisadores construíram um novo conjunto de referência de perguntas e respostas FRESHQA, que contém 600 perguntas reais de vários tipos, e a frequência das respostas é dividida em quatro categorias: "nunca mudar", "mudança lenta", "mudança frequente" e "premissas falsas"**.

Ao mesmo tempo, são também concebidos dois métodos de avaliação, o modo estrito, que exige que todas as informações das respostas sejam precisas e atualizadas, e o modo descontraído, que apenas avalia a exatidão das respostas principais.

Os resultados experimentais mostram que o FRESH melhora significativamente a precisão de modelos de linguagem grandes no FRESHQA. Por exemplo, o GPT-4 é 47% mais preciso do que o GPT-4 original com a ajuda do modo estrito do FRESH.

Além disso, este método de fusão de motores de busca é mais flexível do que expandir diretamente os parâmetros do modelo, e pode fornecer uma fonte de conhecimento externa dinâmica para os modelos existentes. Os resultados experimentais também mostram que o FRESH pode melhorar significativamente a precisão de grandes modelos de linguagem em problemas que exigem conhecimento em tempo real.

Endereço em papel:

Endereço Open Source: Big Language Model S/FreshQA (no pipeline, será open source em breve)

A partir do conteúdo do artigo do Google, o método do FRESH é composto principalmente por 5 módulos.

Criar conjunto de benchmark FRESHQA

A fim de avaliar de forma abrangente a adaptabilidade de grandes modelos linguísticos ao mundo em mudança, os investigadores construíram primeiro o conjunto de referência FRESHQA, que contém 600 perguntas reais de domínio aberto, que podem ser divididas em quatro categorias de acordo com a frequência das mudanças de resposta: "nunca mudar", "mudança lenta", "mudança frequente" e "falsas premissas".

Nunca mude: A resposta a perguntas que basicamente não mudarão.
Mudança lenta: A resposta à pergunta muda a cada poucos anos.
Mudança frequente: Respostas a perguntas que podem mudar a cada ano ou menos.
Premissa incorreta: Um problema que contém uma premissa incorreta.

As perguntas abrangem uma variedade de tópicos e têm diferentes níveis de dificuldade. A principal característica do FRESHQA é que a resposta pode mudar ao longo do tempo, por isso o modelo precisa ser sensível às mudanças no mundo.

Modo Estrito vs. Avaliação do Modo Descontraído

Os pesquisadores propuseram dois modos de avaliação: o modo estrito, que exige que todas as informações nas respostas sejam precisas e atualizadas, e o modo descontraído, que apenas avalia a correção das respostas principais.

Isso fornece uma maneira mais abrangente e matizada de medir a natureza factual dos modelos de linguagem.

Avalie diferentes modelos de linguagem grandes com base no FRESHQA

No FRESHQA, os pesquisadores compararam grandes modelos de linguagem cobrindo diferentes parâmetros, incluindo GPT-3, GPT-4, ChatGPT e outros. As avaliações são conduzidas em modo estrito (é necessário livre de erros) e modo permissivo (apenas as respostas primárias são avaliadas).

Verifica-se que todos os modelos têm um desempenho fraco em problemas que exigem conhecimento em tempo real, especialmente problemas com mudanças frequentes e premissas incorretas. Isto mostra que o atual modelo linguístico de grande dimensão tem limitações na sua adaptabilidade a um mundo em mudança.

Recuperar informação relevante dos motores de busca

Para melhorar a natureza factual do modelo de linguagem grande, a ideia central do FRESH é recuperar informações em tempo real sobre o problema do mecanismo de pesquisa.

Especificamente, dada uma pergunta, FRESH irá consultar o motor de busca do Google como uma palavra-chave para obter vários tipos de resultados de pesquisa, incluindo caixas de resposta, resultados de páginas web, "outros usuários também perguntaram", etc.

Recupere informações através de integração de treinamento esparso

O FRESH usa o aprendizado de poucos tiros para integrar as evidências recuperadas no prompt de entrada do modelo de linguagem grande em um formato unificado e fornece várias demonstrações de como sintetizar as evidências para chegar à resposta correta.

Isso pode ensinar grandes modelos de linguagem para entender a tarefa e integrar informações de diferentes fontes para chegar a respostas atualizadas e precisas.

O Google disse que o FRESH é de grande importância para melhorar a adaptabilidade dinâmica de grandes modelos de linguagem, o que também é uma direção importante para a pesquisa de tecnologia futura de modelos de linguagem grande.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos

Recompensa
1
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1CandyDrop Airdrop Event 6.0
16k Popularidade
2White House Crypto Report
33k Popularidade
3Join Alpha RION Airdrop to Earn $40
9k Popularidade
4Fed Holds Rates Decision
8k Popularidade
5July Spark Program TOP 10 Creators Announced
2k Popularidade

Pino