Devido ao surgimento do Transformer, a capacidade de grandes modelos de linguagem, como o ChatGPT, para processar tarefas de linguagem natural foi muito melhorada. No entanto, o conteúdo gerado contém muitas informações incorretas ou desatualizadas, e não há um sistema de avaliação factual para verificar a autenticidade do conteúdo.
A fim de avaliar de forma abrangente a adaptabilidade de grandes modelos de linguagem às mudanças no mundo e a autenticidade do conteúdo, a equipe de pesquisa de IA do Google publicou um artigo chamado "Aprimorando a precisão de grandes modelos de linguagem através do conhecimento do mecanismo de pesquisa". Um método FRESH é proposto para melhorar a precisão de grandes modelos de linguagem, como ChatGPT e Bard, obtendo informações em tempo real dos motores de busca.
Os pesquisadores construíram um novo conjunto de referência de perguntas e respostas FRESHQA, que contém 600 perguntas reais de vários tipos, e a frequência das respostas é dividida em quatro categorias: "nunca mudar", "mudança lenta", "mudança frequente" e "premissas falsas"**.
Ao mesmo tempo, são também concebidos dois métodos de avaliação, o modo estrito, que exige que todas as informações das respostas sejam precisas e atualizadas, e o modo descontraído, que apenas avalia a exatidão das respostas principais.
Os resultados experimentais mostram que o FRESH melhora significativamente a precisão de modelos de linguagem grandes no FRESHQA. Por exemplo, o GPT-4 é 47% mais preciso do que o GPT-4 original com a ajuda do modo estrito do FRESH.
Além disso, este método de fusão de motores de busca é mais flexível do que expandir diretamente os parâmetros do modelo, e pode fornecer uma fonte de conhecimento externa dinâmica para os modelos existentes. Os resultados experimentais também mostram que o FRESH pode melhorar significativamente a precisão de grandes modelos de linguagem em problemas que exigem conhecimento em tempo real.
Endereço em papel:
Endereço Open Source: Big Language Model S/FreshQA (no pipeline, será open source em breve)
A partir do conteúdo do artigo do Google, o método do FRESH é composto principalmente por 5 módulos.
Criar conjunto de benchmark FRESHQA
A fim de avaliar de forma abrangente a adaptabilidade de grandes modelos linguísticos ao mundo em mudança, os investigadores construíram primeiro o conjunto de referência FRESHQA, que contém 600 perguntas reais de domínio aberto, que podem ser divididas em quatro categorias de acordo com a frequência das mudanças de resposta: "nunca mudar", "mudança lenta", "mudança frequente" e "falsas premissas".
Nunca mude: A resposta a perguntas que basicamente não mudarão.
Mudança lenta: A resposta à pergunta muda a cada poucos anos.
Mudança frequente: Respostas a perguntas que podem mudar a cada ano ou menos.
Premissa incorreta: Um problema que contém uma premissa incorreta.
As perguntas abrangem uma variedade de tópicos e têm diferentes níveis de dificuldade. A principal característica do FRESHQA é que a resposta pode mudar ao longo do tempo, por isso o modelo precisa ser sensível às mudanças no mundo.
Modo Estrito vs. Avaliação do Modo Descontraído
Os pesquisadores propuseram dois modos de avaliação: o modo estrito, que exige que todas as informações nas respostas sejam precisas e atualizadas, e o modo descontraído, que apenas avalia a correção das respostas principais.
Isso fornece uma maneira mais abrangente e matizada de medir a natureza factual dos modelos de linguagem.
Avalie diferentes modelos de linguagem grandes com base no FRESHQA
No FRESHQA, os pesquisadores compararam grandes modelos de linguagem cobrindo diferentes parâmetros, incluindo GPT-3, GPT-4, ChatGPT e outros. As avaliações são conduzidas em modo estrito (é necessário livre de erros) e modo permissivo (apenas as respostas primárias são avaliadas).
Verifica-se que todos os modelos têm um desempenho fraco em problemas que exigem conhecimento em tempo real, especialmente problemas com mudanças frequentes e premissas incorretas. Isto mostra que o atual modelo linguístico de grande dimensão tem limitações na sua adaptabilidade a um mundo em mudança.
Recuperar informação relevante dos motores de busca
Para melhorar a natureza factual do modelo de linguagem grande, a ideia central do FRESH é recuperar informações em tempo real sobre o problema do mecanismo de pesquisa.
Especificamente, dada uma pergunta, FRESH irá consultar o motor de busca do Google como uma palavra-chave para obter vários tipos de resultados de pesquisa, incluindo caixas de resposta, resultados de páginas web, "outros usuários também perguntaram", etc.
Recupere informações através de integração de treinamento esparso
O FRESH usa o aprendizado de poucos tiros para integrar as evidências recuperadas no prompt de entrada do modelo de linguagem grande em um formato unificado e fornece várias demonstrações de como sintetizar as evidências para chegar à resposta correta.
Isso pode ensinar grandes modelos de linguagem para entender a tarefa e integrar informações de diferentes fontes para chegar a respostas atualizadas e precisas.
O Google disse que o FRESH é de grande importância para melhorar a adaptabilidade dinâmica de grandes modelos de linguagem, o que também é uma direção importante para a pesquisa de tecnologia futura de modelos de linguagem grande.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
A mais recente tecnologia do Google: através do motor de busca, aumentar muito a precisão de modelos como o ChatGPT
Fonte original: AIGC Open Community
Devido ao surgimento do Transformer, a capacidade de grandes modelos de linguagem, como o ChatGPT, para processar tarefas de linguagem natural foi muito melhorada. No entanto, o conteúdo gerado contém muitas informações incorretas ou desatualizadas, e não há um sistema de avaliação factual para verificar a autenticidade do conteúdo.
A fim de avaliar de forma abrangente a adaptabilidade de grandes modelos de linguagem às mudanças no mundo e a autenticidade do conteúdo, a equipe de pesquisa de IA do Google publicou um artigo chamado "Aprimorando a precisão de grandes modelos de linguagem através do conhecimento do mecanismo de pesquisa". Um método FRESH é proposto para melhorar a precisão de grandes modelos de linguagem, como ChatGPT e Bard, obtendo informações em tempo real dos motores de busca.
Os pesquisadores construíram um novo conjunto de referência de perguntas e respostas FRESHQA, que contém 600 perguntas reais de vários tipos, e a frequência das respostas é dividida em quatro categorias: "nunca mudar", "mudança lenta", "mudança frequente" e "premissas falsas"**.
Ao mesmo tempo, são também concebidos dois métodos de avaliação, o modo estrito, que exige que todas as informações das respostas sejam precisas e atualizadas, e o modo descontraído, que apenas avalia a exatidão das respostas principais.
Os resultados experimentais mostram que o FRESH melhora significativamente a precisão de modelos de linguagem grandes no FRESHQA. Por exemplo, o GPT-4 é 47% mais preciso do que o GPT-4 original com a ajuda do modo estrito do FRESH.
Além disso, este método de fusão de motores de busca é mais flexível do que expandir diretamente os parâmetros do modelo, e pode fornecer uma fonte de conhecimento externa dinâmica para os modelos existentes. Os resultados experimentais também mostram que o FRESH pode melhorar significativamente a precisão de grandes modelos de linguagem em problemas que exigem conhecimento em tempo real.
Endereço em papel:
Endereço Open Source: Big Language Model S/FreshQA (no pipeline, será open source em breve)
Criar conjunto de benchmark FRESHQA
A fim de avaliar de forma abrangente a adaptabilidade de grandes modelos linguísticos ao mundo em mudança, os investigadores construíram primeiro o conjunto de referência FRESHQA, que contém 600 perguntas reais de domínio aberto, que podem ser divididas em quatro categorias de acordo com a frequência das mudanças de resposta: "nunca mudar", "mudança lenta", "mudança frequente" e "falsas premissas".
Nunca mude: A resposta a perguntas que basicamente não mudarão.
Mudança lenta: A resposta à pergunta muda a cada poucos anos.
Mudança frequente: Respostas a perguntas que podem mudar a cada ano ou menos.
Premissa incorreta: Um problema que contém uma premissa incorreta.
Modo Estrito vs. Avaliação do Modo Descontraído
Os pesquisadores propuseram dois modos de avaliação: o modo estrito, que exige que todas as informações nas respostas sejam precisas e atualizadas, e o modo descontraído, que apenas avalia a correção das respostas principais.
Isso fornece uma maneira mais abrangente e matizada de medir a natureza factual dos modelos de linguagem.
Avalie diferentes modelos de linguagem grandes com base no FRESHQA
No FRESHQA, os pesquisadores compararam grandes modelos de linguagem cobrindo diferentes parâmetros, incluindo GPT-3, GPT-4, ChatGPT e outros. As avaliações são conduzidas em modo estrito (é necessário livre de erros) e modo permissivo (apenas as respostas primárias são avaliadas).
Recuperar informação relevante dos motores de busca
Para melhorar a natureza factual do modelo de linguagem grande, a ideia central do FRESH é recuperar informações em tempo real sobre o problema do mecanismo de pesquisa.
Recupere informações através de integração de treinamento esparso
O FRESH usa o aprendizado de poucos tiros para integrar as evidências recuperadas no prompt de entrada do modelo de linguagem grande em um formato unificado e fornece várias demonstrações de como sintetizar as evidências para chegar à resposta correta.
Isso pode ensinar grandes modelos de linguagem para entender a tarefa e integrar informações de diferentes fontes para chegar a respostas atualizadas e precisas.