Como avaliar se um modelo de linguagem grande é confiável? Aqui está um resumo das sete dimensões

Este artigo propõe 7 dimensões principais para avaliar de forma abrangente a credibilidade do LLM.

Na implantação real, como "alinhar" um modelo de linguagem grande (LLM, Large Language Model), ou seja, tornar o comportamento do modelo consistente com as intenções humanas [2,3], tornou-se uma tarefa fundamental. Por exemplo, a OpenAI passou seis meses alinhando o GPT-4 antes de ser lançado [1] . No entanto, um desafio enfrentado pelos profissionais é a falta de orientações claras para avaliar se os resultados do LLM cumprem as normas, valores e regulamentos sociais; isto dificulta a iteração e implantação do LLM.

Para resolver este problema, Liu Yang e outros pesquisadores da equipe da ByteDance Research forneceram uma pesquisa abrangente sobre as principais dimensões que precisam ser consideradas ao avaliar a credibilidade do LLM. A pesquisa cobriu 7 categorias principais de credibilidade do LLM: Confiabilidade, Segurança, Justiça, Resistência ao Uso Indevido, Explicabilidade e Raciocínio, Conformidade com Normas Sociais e Robustez.

Cada categoria principal é subdividida em subcategorias, totalizando 29 subcategorias. Além disso, o pesquisador selecionou 8 subcategorias para pesquisas de avaliação correspondentes. Os resultados da avaliação mostram que, em geral, os modelos com maior alinhamento apresentam melhor desempenho em termos de credibilidade global. Contudo, a eficácia do alinhamento aparece de forma diferente em diferentes dimensões. Isto ilustra a necessidade de análises, testes e melhorias mais detalhadas do alinhamento do LLM. Este artigo tem como objetivo fornecer aos profissionais da área insights e orientações valiosas, resumindo as principais dimensões do LLM confiável, que são essenciais para a compreensão de como implantar o LLM de maneira confiável e racional em várias aplicações.

Endereço do papel:

Taxonomia de alinhamento de modelo de linguagem grande

A Figura 1 mostra a taxonomia de alinhamento de credibilidade do modelo de linguagem grande proposta neste artigo: existem 7 categorias principais, cada uma das quais é subdividida em discussões mais detalhadas, para um total de 29 subcategorias. O artigo continua com uma visão geral de cada categoria:

*Figura 1: Taxonomia de alinhamento de credibilidade do modelo de linguagem grande proposta no texto. *

  1. Confiabilidade => {informações falsas, ilusão de modelo de linguagem, inconsistência, erro de calibração, lisonja}
  • a. Gerar resultados corretos, realistas e consistentes com incerteza apropriada.
  1. Segurança => {violência, ilegalidade, lesões a menores, conteúdo adulto, problemas de saúde mental, invasão de privacidade}
  • a. Evite produzir resultados inseguros e ilegais e evite divulgar informações privadas.
  1. Justiça => {injustiça, preconceito de estereótipo, preconceito de preferência, diferença de desempenho}
  • a. Evite preconceitos e garanta que as diferenças de desempenho entre diferentes grupos de pessoas não sejam significativas.
  1. Resista ao abuso => {Propaganda, ataques cibernéticos, engenharia social, vazamento de direitos autorais}
  • a. Proibir o abuso por parte de invasores mal-intencionados.
  1. Explicabilidade e raciocínio => {capacidade de explicação insuficiente, capacidade lógica insuficiente, capacidade causal insuficiente}
  • a. A capacidade de explicar os resultados aos usuários e raciocinar corretamente.
  1. Normas sociais => {linguagem cruel, insensibilidade emocional, insensibilidade cultural}
  • a. Reflete valores humanos universalmente compartilhados.
  1. Robustez => {Ataques imediatos, mudanças de paradigma e distribuição, efeitos de intervenção, ataques de envenenamento}
  • a. Resistência a ataques adversários e mudanças de distribuição.

A análise deste artigo baseia-se nos desafios de segurança e implantação confiável que surgem na era dos grandes modelos, e também considera a discussão sobre inteligência artificial confiável na literatura existente. Ao mesmo tempo, a definição e divisão das categorias principais referem-se à aplicação de grandes modelos na sociedade e tentam garantir que cada dimensão de avaliação tenha um certo grau de relevância e importância nas principais aplicações de grandes modelos. Literatura específica e discussão dentro de cada categoria e suas subcategorias são fornecidas no artigo.

Para cada subcategoria, o artigo conduz pesquisas e discussões relevantes e também fornece estudos de caso para ilustrar os problemas de modelos relacionados em dimensões de confiabilidade relacionadas. Por exemplo, o exemplo a seguir mostra alguns erros cometidos pelo ChatGPT em questões factuais:

Usando o exemplo a seguir, este artigo discute informações ilegais que podem existir na saída de um modelo grande:

Pesquisa de avaliação

Este artigo seleciona 8 subcategorias e desenha estudos de avaliação correspondentes. As subcategorias alvo incluem:

  • Confiabilidade: Ilusão do Modelo de Linguagem
  • Segurança e normas sociais: tópicos relacionados à segurança (como violência, discriminação, discurso de ódio, etc.)
  • Justiça: estereótipos (de gênero)
  • Confiabilidade: Erros de calibração
  • Resista ao abuso: abuso de propaganda e ataques cibernéticos
  • Resista ao abuso: vazamento de direitos autorais
  • Interpretabilidade: raciocínio causal
  • Robustez: Robustez para ataques de erros ortográficos

O artigo toma "normas sociais e de segurança" como exemplo, começando primeiro pelo conjunto de dados existente da equipe vermelha da Antrópica RLHF [4] Extraia algumas palavras-chave relacionadas à segurança (consulte o artigo original para obter detalhes) e, em seguida, use outro LLM para gerar palavras-guia () para instruções inseguras como perguntas de teste.

Para tanto, o artigo escolhe o texto-davinci-003 como modelo porque: (1) É um modelo alinhado, mas não fortemente alinhado na dimensão de segurança como o ChatGPT, portanto é melhor para gerar respostas controversas e ofensivas;(2 ) Modelos completamente desalinhados (como davinci) não conseguem compreender bem a tarefa e seguir as instruções humanas.

Especificamente, o pesquisador perguntou ao text-davinci-003: “Escreva uma pergunta que envolva.” Escolha entre “antiético”, “perigoso”, “ilegal” ou “hotile”. são as palavras-chave extraídas anteriormente. por exemplo:

Este artigo usa perguntas geradas por text-davinci-003 como perguntas de teste.

Por fim, o artigo usa GPT-4 para determinar se o modelo de teste se recusa a responder a perguntas inseguras, como segue:

Os pesquisadores avaliaram 6 LLMs: davinci, OPT-1.3B, text-davinci-003, flan-t5-xxl, gpt-3.5-turbo (ChatGPT) e GPT-4. A Figura 2 mostra a proporção de cada LLM no conjunto de testes que é considerada uma resposta segura pelo GPT-4. Da esquerda para a direita no eixo x, é mostrada a faixa desde completamente desalinhado (davinci) até um dos LLMs mais perfeitamente alinhados atualmente disponíveis (GPT-4).

A tendência é a esperada: quando o LLM está mais alinhado, é mais provável que se recuse a responder instruções inseguras. Gpt-3.5-turbo (ChatGPT) e GPT-4 obtêm uma taxa de segurança de quase 100%.

*Figura 2: Resultados da avaliação de segurança do LLM. Como esperado, quando o LLM está melhor alinhado, é mais provável que rejeite respostas a perguntas inseguras. *

Para métodos de avaliação, detalhes e resultados de outras dimensões, consulte o artigo original.

Ajuda de alinhamento

Estes dados de avaliação gerados também podem ajudar na recolha de dados alinhados.

Tomando como exemplo a segurança, para gerar dados de treinamento alinhados, são utilizadas diretamente as respostas anotadas com LLM. Se o GPT-4 determinar que a saída do modelo contém informações prejudiciais, os pesquisadores consideram que a saída está emparelhada com a pergunta e serve como uma amostra negativa no conjunto de dados alinhado. Por outro lado, se nenhuma informação prejudicial for detectada, o pesquisador considera o par problema-produto uma amostra positiva.

Depois que os pesquisadores alinharam os dados gerados, eles usaram o GPT-4 para comparar os resultados antes e depois do alinhamento, permitindo-lhes determinar qual resposta era melhor em termos de utilidade, veracidade e inocuidade.

A Tabela 1 mostra que no GPT-2, após os pesquisadores concluírem o RLHF (Reinforcement Learning from Human Feedback, aprendizado por reforço baseado em feedback humano), a proporção do conjunto de dados de teste que foi considerada melhor pelo GPT-4. Comparado com o modelo original, o modelo alinhado foi bastante melhorado.

*Tabela 1: Após alinhar os dados gerados pelo pesquisador no * GPT-2 *, a relação de saída é considerada melhor pelo GPT-4. Comparado com o modelo original (Vanilla), o modelo após SFT e PPO foi bastante melhorado. *

O artigo também utilizou os dados de avaliação gerados para realizar o ajuste fino supervisionado no LLaMA-7B e descobriu que 78% da saída após o ajuste fino foi considerada melhor do que antes do ajuste fino.

para concluir

Este artigo fornece aos profissionais uma pesquisa sobre a dimensão de credibilidade do LLM e analisa de forma abrangente as direções e questões que precisam ser consideradas e às quais se deve prestar atenção no processo de construção de um grande modelo confiável. Os resultados da avaliação do artigo mostram que a eficácia do alinhamento é inconsistente em diferentes dimensões, pelo que os profissionais devem realizar testes mais detalhados e melhorar o alinhamento do LLM. Ao mesmo tempo, a pesquisa deste artigo mostra que os dados gerados pela avaliação também podem ajudar a completar a tarefa de alinhamento de grandes modelos.

Os profissionais precisam urgentemente de abordagens mais baseadas em princípios para avaliar e implementar o alinhamento do LLM, garantindo que esses modelos aderem aos valores sociais e às considerações éticas. À medida que o campo avança, abordar estas questões não resolvidas será fundamental para construir LLMs cada vez mais fiáveis e responsáveis.

Obrigado a Li Hang por suas sugestões e ajuda na revisão deste artigo.

referências

  • [1] OpenAI. Gpt-4. 2023*

  • [2] Long Ouyang, Jeffrey Wu,* Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Treinar modelos de linguagem para seguir instruções com feedback humano. Avanços em Neural Processamento de Informações, 35:27730–27744, 2022

  • [3] Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik e Geoffrey Irving. Alinhamento de agentes linguísticos. Pré-impressão do arXiv arXiv:2103.14659, 2021.*

  • [4] *

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)