Como avaliar se um modelo de linguagem grande é confiável? Aqui está um resumo das sete dimensões

Question

> Este artigo propõe 7 dimensões principais para avaliar de forma abrangente a credibilidade do LLM.Na implantação real, como "alinhar" um modelo de linguagem grande (LLM, Large Language Model), ou seja, tornar o comportamento do modelo consistente com as intenções humanas [2,3], tornou-se uma tarefa fundamental. Por exemplo, a OpenAI passou seis meses alinhando o GPT-4 antes de ser lançado [1] . No entanto, um desafio enfrentado pelos profissionais é a falta de orientações claras para avaliar se os resultados do LLM cumprem as normas, valores e regulamentos sociais; isto dificulta a iteração e implantação do LLM.Para resolver este problema, Liu Yang e outros pesquisadores da equipe da ByteDance Research forneceram uma pesquisa abrangente sobre as principais dimensões que precisam ser consideradas ao avaliar a credibilidade do LLM. A pesquisa cobriu 7 categorias principais de credibilidade do LLM: Confiabilidade, Segurança, Justiça, Resistência ao Uso Indevido, Explicabilidade e Raciocínio, Conformidade com Normas Sociais e Robustez.Cada categoria principal é subdividida em subcategorias, totalizando 29 subcategorias. Além disso, o pesquisador selecionou 8 subcategorias para pesquisas de avaliação correspondentes. Os resultados da avaliação mostram que, em geral, os modelos com maior alinhamento apresentam melhor desempenho em termos de credibilidade global. Contudo, a eficácia do alinhamento aparece de forma diferente em diferentes dimensões. Isto ilustra a necessidade de análises, testes e melhorias mais detalhadas do alinhamento do LLM. Este artigo tem como objetivo fornecer aos profissionais da área insights e orientações valiosas, resumindo as principais dimensões do LLM confiável, que são essenciais para a compreensão de como implantar o LLM de maneira confiável e racional em várias aplicações.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84c47740dd-dd1a6f-69ad2a) Endereço do papel:## **Taxonomia de alinhamento de modelo de linguagem grande**A Figura 1 mostra a taxonomia de alinhamento de credibilidade do modelo de linguagem grande proposta neste artigo: existem 7 categorias principais, cada uma das quais é subdividida em discussões mais detalhadas, para um total de 29 subcategorias. O artigo continua com uma visão geral de cada categoria:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-95a5489852-dd1a6f-69ad2a) *Figura 1: Taxonomia de alinhamento de credibilidade do modelo de linguagem grande proposta no texto. *1. Confiabilidade => {informações falsas, ilusão de modelo de linguagem, inconsistência, erro de calibração, lisonja}* a. Gerar resultados corretos, realistas e consistentes com incerteza apropriada.2. Segurança => {violência, ilegalidade, lesões a menores, conteúdo adulto, problemas de saúde mental, invasão de privacidade}* a. Evite produzir resultados inseguros e ilegais e evite divulgar informações privadas.3. Justiça => {injustiça, preconceito de estereótipo, preconceito de preferência, diferença de desempenho}* a. Evite preconceitos e garanta que as diferenças de desempenho entre diferentes grupos de pessoas não sejam significativas.4. Resista ao abuso => {Propaganda, ataques cibernéticos, engenharia social, vazamento de direitos autorais}* a. Proibir o abuso por parte de invasores mal-intencionados.5. Explicabilidade e raciocínio => {capacidade de explicação insuficiente, capacidade lógica insuficiente, capacidade causal insuficiente}* a. A capacidade de explicar os resultados aos usuários e raciocinar corretamente.6. Normas sociais => {linguagem cruel, insensibilidade emocional, insensibilidade cultural}* a. Reflete valores humanos universalmente compartilhados.7. Robustez => {Ataques imediatos, mudanças de paradigma e distribuição, efeitos de intervenção, ataques de envenenamento}* a. Resistência a ataques adversários e mudanças de distribuição.A análise deste artigo baseia-se nos desafios de segurança e implantação confiável que surgem na era dos grandes modelos, e também considera a discussão sobre inteligência artificial confiável na literatura existente. Ao mesmo tempo, a definição e divisão das categorias principais referem-se à aplicação de grandes modelos na sociedade e tentam garantir que cada dimensão de avaliação tenha um certo grau de relevância e importância nas principais aplicações de grandes modelos. Literatura específica e discussão dentro de cada categoria e suas subcategorias são fornecidas no artigo.Para cada subcategoria, o artigo conduz pesquisas e discussões relevantes e também fornece estudos de caso para ilustrar os problemas de modelos relacionados em dimensões de confiabilidade relacionadas. Por exemplo, o exemplo a seguir mostra alguns erros cometidos pelo ChatGPT em questões factuais:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4e65b763d8-dd1a6f-69ad2a) Usando o exemplo a seguir, este artigo discute informações ilegais que podem existir na saída de um modelo grande:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa52a42ee6-dd1a6f-69ad2a)## **Pesquisa de avaliação**Este artigo seleciona 8 subcategorias e desenha estudos de avaliação correspondentes. As subcategorias alvo incluem:* Confiabilidade: Ilusão do Modelo de Linguagem* Segurança e normas sociais: tópicos relacionados à segurança (como violência, discriminação, discurso de ódio, etc.)* Justiça: estereótipos (de gênero)* Confiabilidade: Erros de calibração* Resista ao abuso: abuso de propaganda e ataques cibernéticos* Resista ao abuso: vazamento de direitos autorais* Interpretabilidade: raciocínio causal* Robustez: Robustez para ataques de erros ortográficosO artigo toma "normas sociais e de segurança" como exemplo, começando primeiro pelo conjunto de dados existente da equipe vermelha da Antrópica RLHF [4] Extraia algumas palavras-chave relacionadas à segurança (consulte o artigo original para obter detalhes) e, em seguida, use outro LLM para gerar palavras-guia () para instruções inseguras como perguntas de teste.Para tanto, o artigo escolhe o texto-davinci-003 como modelo porque: (1) É um modelo alinhado, mas não fortemente alinhado na dimensão de segurança como o ChatGPT, portanto é melhor para gerar respostas controversas e ofensivas;(2 ) Modelos completamente desalinhados (como davinci) não conseguem compreender bem a tarefa e seguir as instruções humanas.Especificamente, o pesquisador perguntou ao text-davinci-003: “Escreva uma pergunta que envolva.” Escolha entre “antiético”, “perigoso”, “ilegal” ou “hotile”. são as palavras-chave extraídas anteriormente. por exemplo:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cc539d566e-dd1a6f-69ad2a) Este artigo usa perguntas geradas por text-davinci-003 como perguntas de teste.Por fim, o artigo usa GPT-4 para determinar se o modelo de teste se recusa a responder a perguntas inseguras, como segue:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e5a0939d6d-dd1a6f-69ad2a) Os pesquisadores avaliaram 6 LLMs: davinci, OPT-1.3B, text-davinci-003, flan-t5-xxl, gpt-3.5-turbo (ChatGPT) e GPT-4. A Figura 2 mostra a proporção de cada LLM no conjunto de testes que é considerada uma resposta segura pelo GPT-4. Da esquerda para a direita no eixo x, é mostrada a faixa desde completamente desalinhado (davinci) até um dos LLMs mais perfeitamente alinhados atualmente disponíveis (GPT-4).A tendência é a esperada: quando o LLM está mais alinhado, é mais provável que se recuse a responder instruções inseguras. Gpt-3.5-turbo (ChatGPT) e GPT-4 obtêm uma taxa de segurança de quase 100%.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c7c925173b-dd1a6f-69ad2a) *Figura 2: Resultados da avaliação de segurança do LLM. Como esperado, quando o LLM está melhor alinhado, é mais provável que rejeite respostas a perguntas inseguras. *Para métodos de avaliação, detalhes e resultados de outras dimensões, consulte o artigo original.## **Ajuda de alinhamento**Estes dados de avaliação gerados também podem ajudar na recolha de dados alinhados.Tomando como exemplo a segurança, para gerar dados de treinamento alinhados, são utilizadas diretamente as respostas anotadas com LLM. Se o GPT-4 determinar que a saída do modelo contém informações prejudiciais, os pesquisadores consideram que a saída está emparelhada com a pergunta e serve como uma amostra negativa no conjunto de dados alinhado. Por outro lado, se nenhuma informação prejudicial for detectada, o pesquisador considera o par problema-produto uma amostra positiva.Depois que os pesquisadores alinharam os dados gerados, eles usaram o GPT-4 para comparar os resultados antes e depois do alinhamento, permitindo-lhes determinar qual resposta era melhor em termos de utilidade, veracidade e inocuidade.A Tabela 1 mostra que no GPT-2, após os pesquisadores concluírem o RLHF (Reinforcement Learning from Human Feedback, aprendizado por reforço baseado em feedback humano), a proporção do conjunto de dados de teste que foi considerada melhor pelo GPT-4. Comparado com o modelo original, o modelo alinhado foi bastante melhorado.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c93483490c-dd1a6f-69ad2a) *Tabela 1: Após alinhar os dados gerados pelo pesquisador no * *GPT-2* *, a relação de saída é considerada melhor pelo GPT-4. Comparado com o modelo original (Vanilla), o modelo após SFT e PPO foi bastante melhorado. *O artigo também utilizou os dados de avaliação gerados para realizar o ajuste fino supervisionado no LLaMA-7B e descobriu que 78% da saída após o ajuste fino foi considerada melhor do que antes do ajuste fino.## **para concluir**Este artigo fornece aos profissionais uma pesquisa sobre a dimensão de credibilidade do LLM e analisa de forma abrangente as direções e questões que precisam ser consideradas e às quais se deve prestar atenção no processo de construção de um grande modelo confiável. Os resultados da avaliação do artigo mostram que a eficácia do alinhamento é inconsistente em diferentes dimensões, pelo que os profissionais devem realizar testes mais detalhados e melhorar o alinhamento do LLM. Ao mesmo tempo, a pesquisa deste artigo mostra que os dados gerados pela avaliação também podem ajudar a completar a tarefa de alinhamento de grandes modelos.Os profissionais precisam urgentemente de abordagens mais baseadas em princípios para avaliar e implementar o alinhamento do LLM, garantindo que esses modelos aderem aos valores sociais e às considerações éticas. À medida que o campo avança, abordar estas questões não resolvidas será fundamental para construir LLMs cada vez mais fiáveis e responsáveis.Obrigado a Li Hang por suas sugestões e ajuda na revisão deste artigo.*referências** [1] OpenAI. Gpt-4. 2023** [2] Long Ouyang, Jeffrey Wu,* *Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Treinar modelos de linguagem para seguir instruções com feedback humano. Avanços em Neural* *Processamento de Informações, 35:27730–27744, 2022** [3] Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik e Geoffrey Irving. Alinhamento de agentes linguísticos. Pré-impressão do arXiv arXiv:2103.14659, 2021.** [4] *