Se o “humano” no RLHF for substituído, isso será viável?
A pesquisa mais recente da equipe do Google propõe o uso de grandes modelos para substituir humanos na anotação de preferências, que é o aprendizado por reforço de feedback de IA (RLAIF).
Endereço do papel:
Verificou-se que o RLAIF pode produzir melhorias comparáveis ao RLHF sem depender de anotadores humanos, com uma taxa de vitória de 50%.
Ao mesmo tempo, a pesquisa do Google provou mais uma vez que o RLAIF e o RLHF têm uma taxa de vitória superior a 70% em comparação com o ajuste fino supervisionado (SFT).
Uma parte fundamental do treinamento de grandes modelos de linguagem hoje é o RLHF. Os humanos tornam as respostas mais úteis avaliando a qualidade do resultado da IA.
No entanto, isso requer muito esforço, incluindo a exposição de muitos anotadores à produção de conteúdo prejudicial pela IA.
Agora que o RLAIF é comparável ao RLHF, os modelos futuros não requerem feedback humano e também podem ser melhorados através de auto-loops.
RLHF não precisa mais de humanos
Atualmente, o RLHF se tornou o método central para o ajuste fino de grandes modelos, incluindo ChatGPT, Bard e outros modelos que adotam esse paradigma.
Especificamente, o RLHF é dividido em três etapas: pré-treinamento de um LLM de ajuste fino supervisionado; coleta de dados para treinar um modelo de recompensa; ajuste fino do modelo com RL.
Com o RLHF, modelos grandes podem ser otimizados para objetivos complexos em nível de sequência que são difíceis de distinguir pelo SFT tradicional.
No entanto, um problema muito real é que o RLHF requer dados rotulados por humanos em larga escala e de alta qualidade e se esses dados podem alcançar um resultado superior.
Antes deste estudo do Google, os pesquisadores da Anthropic foram os primeiros a explorar o uso de preferências de IA para treinar modelos de recompensa para ajuste fino de RL.
Eles primeiro propuseram o RLAIF em "IA Constitucional" e descobriram que o LLM era altamente consistente com o julgamento humano e até superava os humanos em algumas tarefas.
No entanto, este estudo não comparou o feedback da inteligência humana e artificial, pelo que ainda não foi obtida a resposta final sobre se o RLAIF pode substituir o RLHF.
As pesquisas mais recentes do Google visam principalmente resolver esse problema.
Os pesquisadores compararam diretamente RLAIF e RLHF na tarefa de resumo do modelo.
Dado 1 texto e 2 respostas candidatas, use um LLM disponível no mercado para fornecer uma anotação de preferência.
Em seguida, um modelo de recompensa (RM) é treinado com base nas preferências do LLM e nas perdas contrastivas. Finalmente, o modelo de política é aperfeiçoado através da aprendizagem por reforço, e o modelo de recompensa é usado para dar recompensas.
Então, qual é a diferença entre a abordagem RLAIF proposta pelo Google e pela Anthropic?
O próprio Google explica no texto,
Google: treine o modelo de recompensa de acordo com as preferências das anotações de IA e, em seguida, execute o ajuste fino de RL.
IA constitucional: melhore os modelos de aprendizagem supervisionada solicitando iterativamente ao LLM que gere melhores respostas com base na constituição.
Auto-rotulagem de IA, autoaperfeiçoamento
Qual é o processo do método RLAIF proposto pelo Google nas pesquisas mais recentes?
Modelo de linguagem grande para anotação de preferências
Os pesquisadores usaram um LLM “pronto para uso” para anotar preferências entre dois candidatos.
Este é um modelo pré-treinado ou ajustado com instruções para uso geral, mas não ajustado para uma tarefa posterior específica. Dado um trecho de texto e dois resumos candidatos, o LLM é solicitado a avaliar qual resumo é melhor. A estrutura de entrada do LLM é a seguinte:
1. Prefácio
Instruções que apresentam e descrevem a tarefa em questão
2. Várias instâncias de amostra (opcional)
Um pedaço de texto, um par de resumos, uma justificativa para uma ideia e um julgamento de preferência
3.Amostras a serem rotuladas
Um pedaço de texto e um par de resumos para anotar
4. Fim
String final do prompt para LLM (por exemplo, "Resumo Preferencial =")
Após fornecer dados ao LLM, os pesquisadores obtiveram as probabilidades logarítmicas de geração dos tokens “1” e “2” e calcularam o softmax para obter a distribuição de preferência.
Existem muitas maneiras de obter anotações de preferência do LLM, como decodificar respostas de formato livre do modelo e extrair preferências heuristicamente (por exemplo, saída = "o primeiro resumo é melhor") ou representar a distribuição de preferência como uma representação única ( uma representação quente). No entanto, os investigadores não tentaram estas alternativas porque o seu método já produzia elevados níveis de precisão.
Os pesquisadores experimentaram dois tipos de preâmbulos: o primeiro, “Base”, que simplesmente perguntava “Qual resumo é melhor?” e o segundo, “OpenAI”, que imitou o método usado para gerar o conjunto de dados de preferência OpenAI TL;DR. diretiva de classificação para o marcador de preferência humana, com detalhes sobre o que constitui um resumo forte. Como mostrado abaixo.
Os pesquisadores também experimentaram a aprendizagem contextual adicionando um pequeno número de amostras aos prompts, onde as amostras foram selecionadas manualmente para cobrir diferentes tópicos. Resolva o desvio de posição.
Descobertas anteriores sugerem que a ordem em que os candidatos são apresentados ao LLM pode afetar qual candidato o LLM julga preferir. Os pesquisadores encontraram evidências desse viés posicional, especialmente para LLMs anotados de tamanho menor.
Para mitigar o viés posicional na anotação de preferência, realizamos duas inferências em cada par de candidatos, com a ordem em que os candidatos são submetidos ao LLM invertida. Os resultados das duas inferências são então calculados para obter a distribuição de preferência final.
Raciocínio em cadeia de pensamento
Os pesquisadores tentaram extrair o raciocínio da cadeia de pensamento (COT) dos anotadores de IA para melhorar a consistência com as preferências humanas.
Os pesquisadores substituem os prompts finais padrão (por exemplo, substitua "Resumo Preferido =" por "Considere a coerência, precisão, cobertura e qualidade geral de cada resumo e explique qual é o melhor. Justificativa:") e, em seguida, decodifica uma resposta LLM .
Finalmente, os pesquisadores concatenaram os prompts originais, as respostas e a string final original “Resumo Preferido =” e seguiram o processo de pontuação na Seção 3.1 para obter a distribuição de preferência. Veja a figura abaixo para o processo específico.
Nas dicas de tiro zero, o LLM não dá exemplos de como a inferência deveria ser, enquanto nas dicas de poucos tiros, os pesquisadores fornecem exemplos de inferências COT para o modelo seguir. Veja um exemplo na imagem abaixo.
### Autoconsistência
Para pistas de cadeia de pensamento, os pesquisadores também experimentaram a autoconsistência – uma técnica que melhora o raciocínio da cadeia de pensamento ao amostrar vários caminhos de raciocínio e agregar as respostas finais produzidas no final de cada caminho.
Amostramos múltiplas lógicas de cadeia de pensamento usando temperatura de decodificação diferente de zero e, em seguida, seguimos o método da seção anterior para obter a distribuição de preferência LLM para cada cadeia de pensamento. Os resultados são então calculados para obter a distribuição de preferência final.
Aprendizado por reforço de feedback de IA
Depois que o LLM anota as preferências, um modelo de recompensa (RM) é treinado para prever as preferências. Como o método dos pesquisadores produz rótulos suaves, eles adotam a perda de entropia cruzada do softmax da pontuação de recompensa gerada pelo RM em vez da perda mencionada no modelo de recompensa.
Softmax converte pontuações ilimitadas de RM em distribuições de probabilidade.
O treinamento de RM em conjuntos de dados anotados por IA pode ser considerado uma forma de destilação de modelo, especialmente porque os anotadores de IA dos pesquisadores são normalmente maiores e mais poderosos que os RMs.
Outra abordagem é ignorar o RM e usar diretamente o feedback da IA como sinal de recompensa no RL, embora essa abordagem seja mais cara do ponto de vista computacional, pois o etiquetador da IA é maior que o RM.
Com o RM treinado, os pesquisadores realizaram aprendizagem por reforço utilizando uma versão modificada do algoritmo Advantage Actor Critic (A2C) adaptada à área de modelagem de linguagem.
Avalie
Os pesquisadores avaliaram seus resultados por meio de três métricas: alinhamento do tagger de IA, precisão de emparelhamento e taxa de vitória.
O alinhamento do anotador de IA é usado para medir a precisão das preferências de anotação de IA em relação às preferências humanas.
Para um único exemplo, converta as preferências anotadas da IA suave em uma representação binária. É atribuído 1 se a anotação for consistente com a preferência humana alvo, caso contrário, é atribuído 0.
A precisão dos pares é uma medida de quão preciso é um modelo de recompensa treinado em relação a um conjunto mantido de preferências humanas.
Dado um contexto compartilhado e um par de respostas candidatas, a precisão do emparelhamento é 1 se o RM pontuar o candidato preferido mais alto do que o candidato não preferido, de acordo com anotações humanas. Caso contrário, o valor é 0. Este número é a média de vários exemplos para medir a precisão geral do RM.
A proporção de vitórias avalia a qualidade ponta a ponta de duas estratégias, medindo a frequência com que os humanos preferem uma estratégia à outra.
Dada uma entrada e dois resultados de geração, o anotador humano escolhe qual geração preferir. A porcentagem de casos em que a estratégia A supera a estratégia B é chamada de "taxa de vitória A vs. B".
Detalhes da experiência
Os pesquisadores usaram um conjunto de dados Reddit TL;DR filtrado com curadoria da OpenAI. TL;DR contém aproximadamente 3 milhões de postagens do Reddit sobre uma variedade de tópicos (também conhecidos como "subreddits"), bem como trechos de postagens escritas pelo autor original.
Os dados também são filtrados pela OpenAI para garantir alta qualidade, o que inclui o uso de uma lista branca de tópicos do Reddit que o público em geral pode entender.
Além disso, apenas postagens com 24 a 48 frases de destaque no resumo são incluídas. O conjunto de dados filtrado contém 123.169 postagens, cerca de 5% das quais são usadas como conjunto de validação.
Mais detalhes sobre o conjunto de dados podem ser encontrados no artigo original. Além disso, a OpenAI fez a curadoria de um conjunto de dados de preferência humana do conjunto de dados TL;DR filtrado.
Para uma determinada postagem, dois resumos de candidatos são gerados com base em estratégias diferentes e os anotadores são solicitados a avaliar seu resumo preferido. O conjunto de dados total contém aproximadamente 92 mil comparações entre pares.
Anotação LLM
Para avaliar a eficácia das técnicas de anotação de IA (por exemplo, dicas, autoconsistência), os pesquisadores selecionaram exemplos do conjunto de dados de preferência TL;DR, onde anotadores humanos prefeririam resumos com maior confiança.
Os pesquisadores avaliaram o alinhamento do anotador de IA em um subconjunto aleatório de 15% da divisão de treinamento do conjunto de dados para permitir iterações experimentais mais rápidas, gerando 2.851 exemplos de avaliação.
Para treinamento de modelo de recompensa, as divisões completas de treinamento do conjunto de dados de preferência TL;DR são anotadas pelo LLM e usadas para treinamento, independentemente da pontuação de confiança.
Treinamento de modelo
Os pesquisadores treinaram o modelo SFT no conjunto de dados TL;DR filtrado OpenAI usando PaLM 2 Extra-Small (XS) como ponto de verificação inicial.
Os pesquisadores então inicializaram RMs de modelos SFT e os treinaram no conjunto de dados de preferência humana TL;DR da OpenAI.
Para os resultados nas Tabelas 1 e 5.1, os pesquisadores usaram PaLM 2L para gerar preferências anotadas por IA usando o prompt “OpenAI + COT 0-shot” (sem autoconsistência) e depois treinaram o conjunto de dados RM nas preferências completas.
Para aprendizagem por reforço, os pesquisadores usam o Advantage Actor Critic (A2C) para treinar políticas. Os modelos de política e de valor são inicializados a partir do modelo SFT. Os pesquisadores usam o conjunto de dados Reddit TL;DR filtrado como um estado inicial para implementar sua estratégia.
Avaliação da classe Humana
Os pesquisadores coletaram 1.200 classificações humanas para avaliar as estratégias RLHF e RLAIF. Para cada tarefa de classificação, os avaliadores recebem uma postagem e 4 resumos gerados de acordo com diferentes estratégias (um para RLAIF, RLHF, SFT e referência humana) e são solicitados a classificá-los em ordem de qualidade sem vínculos.
As postagens são retiradas do conjunto de validação do conjunto de dados de ajuste fino supervisionado TL;DR, que não foi usado para nenhuma outra avaliação. Uma vez coletadas essas classificações, a taxa de vitória de quaisquer duas estratégias pode ser calculada.
Taxa de vitórias de 50%, empate
RLAIF x RLHF
No início do artigo, apresentamos as vantagens da comparação entre RLAIF e RLHF do Google. Os resultados mostram que os dois métodos têm desempenho semelhante.
Especificamente, os avaliadores humanos preferem o RLAIF 71% das vezes em comparação com o SFT de base. RLHF supera SFT 73% das vezes.
Os pesquisadores também compararam diretamente as taxas de vitória do RLAIF e do RLHF e descobriram que eles eram igualmente populares – ou seja, ambos tinham uma taxa de vitória de 50%.
Para entender melhor as diferenças entre essas duas estratégias, o Google realizou uma comparação qualitativa dos snippets gerados.
Além disso, eles compararam os resumos RLAIF e RLHF com resumos de referência escritos por humanos. Em 79% das vezes, os resumos gerados pelo RLAIF foram melhores que os resumos de referência e, em 80% das vezes, os resultados do RLHF foram melhores que os resumos de referência.
Pode-se observar que a diferença na taxa de vitórias entre RLAIF e RLHF e o resumo de referência é de apenas 1%, não havendo diferença significativa.
É importante notar que os investigadores também descobriram que a frequência de alucinações na estratégia RLHF é muitas vezes superior à da RLAIF, como mostra o texto a vermelho na tabela acima.
Depois de controlar o comprimento do resumo, as estratégias RLAIF e RLHF ainda superam o SFT de base e alcançam taxas de ganhos semelhantes.
Estes resultados demonstram que o RLAIF não precisa depender de anotação humana e é uma alternativa viável ao RLHF.
Dicas e truques
No uso de técnicas de dicas, a equipe do Google tentou três tipos de técnicas de dicas: especificidade de preâmbulo, CoT e aprendizado de contexto de poucas amostras.
Descobriu-se que o tagger AI pode atingir 78% de consistência solicitando através do preâmbulo detalhado do OpenAI e executando o raciocínio CoT.
A aprendizagem contextual não melhora a precisão e pode até piorá-la.
### Autoconsistência
Os pesquisadores conduziram experimentos de autoconsistência usando 4 e 16 amostras, com temperatura de decodificação de 1.
A amostragem de vários princípios da cadeia de pensamento com T = 1 produz resultados que são menos consistentes com as preferências humanas.
### Grande escala de etiquetador de modelo
O estudo também descobriu que aumentar a escala de parâmetros de etiquetadores de modelos grandes pode resultar em anotações de preferência de maior qualidade.
Número de exemplos preferidos
Como a precisão do modelo de recompensa varia com os exemplos de treinamento?
Os pesquisadores descobriram que, após o treinamento em milhares de exemplos, o desempenho do modelo de recompensa se aproximou do treinamento no conjunto completo de dados.
para concluir
Os pesquisadores demonstram que o RLAIF pode produzir melhorias comparáveis ao RLHF sem depender de anotadores humanos.
Embora este trabalho destaque o potencial do RLAIF, ainda existem algumas limitações.
Primeiro, este estudo explorou apenas a tarefa de sumarização, sendo necessárias mais pesquisas sobre a generalização para outras tarefas.
Em segundo lugar, os investigadores não estimaram se a inferência LLM é mais vantajosa do que a anotação manual em termos de custo económico.
Além disso, há algumas questões interessantes que vale a pena investigar, tais como se o RLHF combinado com o RLAIF pode superar um único método, quão eficaz é usar o LLM para atribuir recompensas diretamente, se um melhor alinhamento do rotulador de IA se traduzirá em melhores políticas finais e se usar um anotador LLM do mesmo tamanho do modelo de política pode melhorar ainda mais a política (ou seja, se o modelo pode "melhorar a si mesmo").
Discussão acalorada entre internautas
O Google publicou dois artigos sobre RL:
RLAIF: Modelos de recompensa de treinamento semelhantes ao feedback humano
ReST: Usando modelos generativos para facilitar o autotreinamento A combinação desses dois artigos pode satisfazer esses algoritmos de IA que consomem muitos dados.
Há meio mês, o Google DeepMind acaba de propor um novo algoritmo ReST, a fim de tornar o modelo de linguagem em grande escala consistente com as preferências humanas.
Especificamente, métodos de aprendizagem por reforço offline são usados para melhorar a qualidade da tradução de grandes modelos de linguagem para melhor atender às preferências humanas.
Um pesquisador disse que o modelo Claude da Anthropic parece ser mais fraco que o GPT-4 com base em testes qualitativos. Isto pode ser causado pelo método RLHF/RLAIF ou pelo pré-treinamento. Não está claro se esses métodos generalizam melhor em aplicações do mundo real, mesmo que tenham melhor desempenho em benchmarks acadêmicos.
Eu não diria que isso reduza a importância da anotação humana, mas uma coisa é certa: RL alimentado por IA pode reduzir o custo. A anotação humana ainda é extremamente importante para generalização, e o método híbrido RLHF+RLAIF supera qualquer método único.
A maioria dos internautas pensa que o artigo é um grande avanço, mas alguns internautas pensam que parece não haver nenhuma diferença essencial entre este e o RLAIF no Instituto Claude proposto pela Anthropic há alguns meses.
Referências:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
RLHF não precisa mais de humanos. A pesquisa da equipe do Google prova que a rotulagem de IA atingiu o nível humano
Fonte original: Xinzhiyuan
Se o “humano” no RLHF for substituído, isso será viável?
A pesquisa mais recente da equipe do Google propõe o uso de grandes modelos para substituir humanos na anotação de preferências, que é o aprendizado por reforço de feedback de IA (RLAIF).
Verificou-se que o RLAIF pode produzir melhorias comparáveis ao RLHF sem depender de anotadores humanos, com uma taxa de vitória de 50%.
Ao mesmo tempo, a pesquisa do Google provou mais uma vez que o RLAIF e o RLHF têm uma taxa de vitória superior a 70% em comparação com o ajuste fino supervisionado (SFT).
No entanto, isso requer muito esforço, incluindo a exposição de muitos anotadores à produção de conteúdo prejudicial pela IA.
Agora que o RLAIF é comparável ao RLHF, os modelos futuros não requerem feedback humano e também podem ser melhorados através de auto-loops.
RLHF não precisa mais de humanos
Atualmente, o RLHF se tornou o método central para o ajuste fino de grandes modelos, incluindo ChatGPT, Bard e outros modelos que adotam esse paradigma.
Especificamente, o RLHF é dividido em três etapas: pré-treinamento de um LLM de ajuste fino supervisionado; coleta de dados para treinar um modelo de recompensa; ajuste fino do modelo com RL.
No entanto, um problema muito real é que o RLHF requer dados rotulados por humanos em larga escala e de alta qualidade e se esses dados podem alcançar um resultado superior.
Antes deste estudo do Google, os pesquisadores da Anthropic foram os primeiros a explorar o uso de preferências de IA para treinar modelos de recompensa para ajuste fino de RL.
Eles primeiro propuseram o RLAIF em "IA Constitucional" e descobriram que o LLM era altamente consistente com o julgamento humano e até superava os humanos em algumas tarefas.
As pesquisas mais recentes do Google visam principalmente resolver esse problema.
Os pesquisadores compararam diretamente RLAIF e RLHF na tarefa de resumo do modelo.
Dado 1 texto e 2 respostas candidatas, use um LLM disponível no mercado para fornecer uma anotação de preferência.
Em seguida, um modelo de recompensa (RM) é treinado com base nas preferências do LLM e nas perdas contrastivas. Finalmente, o modelo de política é aperfeiçoado através da aprendizagem por reforço, e o modelo de recompensa é usado para dar recompensas.
Google: treine o modelo de recompensa de acordo com as preferências das anotações de IA e, em seguida, execute o ajuste fino de RL.
IA constitucional: melhore os modelos de aprendizagem supervisionada solicitando iterativamente ao LLM que gere melhores respostas com base na constituição.
Auto-rotulagem de IA, autoaperfeiçoamento
Qual é o processo do método RLAIF proposto pelo Google nas pesquisas mais recentes?
Modelo de linguagem grande para anotação de preferências
Os pesquisadores usaram um LLM “pronto para uso” para anotar preferências entre dois candidatos.
Este é um modelo pré-treinado ou ajustado com instruções para uso geral, mas não ajustado para uma tarefa posterior específica. Dado um trecho de texto e dois resumos candidatos, o LLM é solicitado a avaliar qual resumo é melhor. A estrutura de entrada do LLM é a seguinte:
1. Prefácio
Instruções que apresentam e descrevem a tarefa em questão
2. Várias instâncias de amostra (opcional)
Um pedaço de texto, um par de resumos, uma justificativa para uma ideia e um julgamento de preferência
3.Amostras a serem rotuladas
Um pedaço de texto e um par de resumos para anotar
4. Fim
String final do prompt para LLM (por exemplo, "Resumo Preferencial =")
Existem muitas maneiras de obter anotações de preferência do LLM, como decodificar respostas de formato livre do modelo e extrair preferências heuristicamente (por exemplo, saída = "o primeiro resumo é melhor") ou representar a distribuição de preferência como uma representação única ( uma representação quente). No entanto, os investigadores não tentaram estas alternativas porque o seu método já produzia elevados níveis de precisão.
Os pesquisadores experimentaram dois tipos de preâmbulos: o primeiro, “Base”, que simplesmente perguntava “Qual resumo é melhor?” e o segundo, “OpenAI”, que imitou o método usado para gerar o conjunto de dados de preferência OpenAI TL;DR. diretiva de classificação para o marcador de preferência humana, com detalhes sobre o que constitui um resumo forte. Como mostrado abaixo.
Descobertas anteriores sugerem que a ordem em que os candidatos são apresentados ao LLM pode afetar qual candidato o LLM julga preferir. Os pesquisadores encontraram evidências desse viés posicional, especialmente para LLMs anotados de tamanho menor.
Raciocínio em cadeia de pensamento
Os pesquisadores tentaram extrair o raciocínio da cadeia de pensamento (COT) dos anotadores de IA para melhorar a consistência com as preferências humanas.
Os pesquisadores substituem os prompts finais padrão (por exemplo, substitua "Resumo Preferido =" por "Considere a coerência, precisão, cobertura e qualidade geral de cada resumo e explique qual é o melhor. Justificativa:") e, em seguida, decodifica uma resposta LLM .
Finalmente, os pesquisadores concatenaram os prompts originais, as respostas e a string final original “Resumo Preferido =” e seguiram o processo de pontuação na Seção 3.1 para obter a distribuição de preferência. Veja a figura abaixo para o processo específico.
Para pistas de cadeia de pensamento, os pesquisadores também experimentaram a autoconsistência – uma técnica que melhora o raciocínio da cadeia de pensamento ao amostrar vários caminhos de raciocínio e agregar as respostas finais produzidas no final de cada caminho.
Amostramos múltiplas lógicas de cadeia de pensamento usando temperatura de decodificação diferente de zero e, em seguida, seguimos o método da seção anterior para obter a distribuição de preferência LLM para cada cadeia de pensamento. Os resultados são então calculados para obter a distribuição de preferência final.
Aprendizado por reforço de feedback de IA
Depois que o LLM anota as preferências, um modelo de recompensa (RM) é treinado para prever as preferências. Como o método dos pesquisadores produz rótulos suaves, eles adotam a perda de entropia cruzada do softmax da pontuação de recompensa gerada pelo RM em vez da perda mencionada no modelo de recompensa.
Softmax converte pontuações ilimitadas de RM em distribuições de probabilidade.
O treinamento de RM em conjuntos de dados anotados por IA pode ser considerado uma forma de destilação de modelo, especialmente porque os anotadores de IA dos pesquisadores são normalmente maiores e mais poderosos que os RMs.
Outra abordagem é ignorar o RM e usar diretamente o feedback da IA como sinal de recompensa no RL, embora essa abordagem seja mais cara do ponto de vista computacional, pois o etiquetador da IA é maior que o RM.
Com o RM treinado, os pesquisadores realizaram aprendizagem por reforço utilizando uma versão modificada do algoritmo Advantage Actor Critic (A2C) adaptada à área de modelagem de linguagem.
Avalie
Os pesquisadores avaliaram seus resultados por meio de três métricas: alinhamento do tagger de IA, precisão de emparelhamento e taxa de vitória.
O alinhamento do anotador de IA é usado para medir a precisão das preferências de anotação de IA em relação às preferências humanas.
Para um único exemplo, converta as preferências anotadas da IA suave em uma representação binária. É atribuído 1 se a anotação for consistente com a preferência humana alvo, caso contrário, é atribuído 0.
A precisão dos pares é uma medida de quão preciso é um modelo de recompensa treinado em relação a um conjunto mantido de preferências humanas.
Dado um contexto compartilhado e um par de respostas candidatas, a precisão do emparelhamento é 1 se o RM pontuar o candidato preferido mais alto do que o candidato não preferido, de acordo com anotações humanas. Caso contrário, o valor é 0. Este número é a média de vários exemplos para medir a precisão geral do RM.
A proporção de vitórias avalia a qualidade ponta a ponta de duas estratégias, medindo a frequência com que os humanos preferem uma estratégia à outra.
Dada uma entrada e dois resultados de geração, o anotador humano escolhe qual geração preferir. A porcentagem de casos em que a estratégia A supera a estratégia B é chamada de "taxa de vitória A vs. B".
Detalhes da experiência
Os pesquisadores usaram um conjunto de dados Reddit TL;DR filtrado com curadoria da OpenAI. TL;DR contém aproximadamente 3 milhões de postagens do Reddit sobre uma variedade de tópicos (também conhecidos como "subreddits"), bem como trechos de postagens escritas pelo autor original.
Os dados também são filtrados pela OpenAI para garantir alta qualidade, o que inclui o uso de uma lista branca de tópicos do Reddit que o público em geral pode entender.
Além disso, apenas postagens com 24 a 48 frases de destaque no resumo são incluídas. O conjunto de dados filtrado contém 123.169 postagens, cerca de 5% das quais são usadas como conjunto de validação.
Mais detalhes sobre o conjunto de dados podem ser encontrados no artigo original. Além disso, a OpenAI fez a curadoria de um conjunto de dados de preferência humana do conjunto de dados TL;DR filtrado.
Para uma determinada postagem, dois resumos de candidatos são gerados com base em estratégias diferentes e os anotadores são solicitados a avaliar seu resumo preferido. O conjunto de dados total contém aproximadamente 92 mil comparações entre pares.
Anotação LLM
Para avaliar a eficácia das técnicas de anotação de IA (por exemplo, dicas, autoconsistência), os pesquisadores selecionaram exemplos do conjunto de dados de preferência TL;DR, onde anotadores humanos prefeririam resumos com maior confiança.
Os pesquisadores avaliaram o alinhamento do anotador de IA em um subconjunto aleatório de 15% da divisão de treinamento do conjunto de dados para permitir iterações experimentais mais rápidas, gerando 2.851 exemplos de avaliação.
Para treinamento de modelo de recompensa, as divisões completas de treinamento do conjunto de dados de preferência TL;DR são anotadas pelo LLM e usadas para treinamento, independentemente da pontuação de confiança.
Treinamento de modelo
Os pesquisadores treinaram o modelo SFT no conjunto de dados TL;DR filtrado OpenAI usando PaLM 2 Extra-Small (XS) como ponto de verificação inicial.
Os pesquisadores então inicializaram RMs de modelos SFT e os treinaram no conjunto de dados de preferência humana TL;DR da OpenAI.
Para os resultados nas Tabelas 1 e 5.1, os pesquisadores usaram PaLM 2L para gerar preferências anotadas por IA usando o prompt “OpenAI + COT 0-shot” (sem autoconsistência) e depois treinaram o conjunto de dados RM nas preferências completas.
Para aprendizagem por reforço, os pesquisadores usam o Advantage Actor Critic (A2C) para treinar políticas. Os modelos de política e de valor são inicializados a partir do modelo SFT. Os pesquisadores usam o conjunto de dados Reddit TL;DR filtrado como um estado inicial para implementar sua estratégia.
Avaliação da classe Humana
Os pesquisadores coletaram 1.200 classificações humanas para avaliar as estratégias RLHF e RLAIF. Para cada tarefa de classificação, os avaliadores recebem uma postagem e 4 resumos gerados de acordo com diferentes estratégias (um para RLAIF, RLHF, SFT e referência humana) e são solicitados a classificá-los em ordem de qualidade sem vínculos.
As postagens são retiradas do conjunto de validação do conjunto de dados de ajuste fino supervisionado TL;DR, que não foi usado para nenhuma outra avaliação. Uma vez coletadas essas classificações, a taxa de vitória de quaisquer duas estratégias pode ser calculada.
Taxa de vitórias de 50%, empate
RLAIF x RLHF
No início do artigo, apresentamos as vantagens da comparação entre RLAIF e RLHF do Google. Os resultados mostram que os dois métodos têm desempenho semelhante.
Especificamente, os avaliadores humanos preferem o RLAIF 71% das vezes em comparação com o SFT de base. RLHF supera SFT 73% das vezes.
Os pesquisadores também compararam diretamente as taxas de vitória do RLAIF e do RLHF e descobriram que eles eram igualmente populares – ou seja, ambos tinham uma taxa de vitória de 50%.
Para entender melhor as diferenças entre essas duas estratégias, o Google realizou uma comparação qualitativa dos snippets gerados.
Pode-se observar que a diferença na taxa de vitórias entre RLAIF e RLHF e o resumo de referência é de apenas 1%, não havendo diferença significativa.
É importante notar que os investigadores também descobriram que a frequência de alucinações na estratégia RLHF é muitas vezes superior à da RLAIF, como mostra o texto a vermelho na tabela acima.
Depois de controlar o comprimento do resumo, as estratégias RLAIF e RLHF ainda superam o SFT de base e alcançam taxas de ganhos semelhantes.
Dicas e truques
No uso de técnicas de dicas, a equipe do Google tentou três tipos de técnicas de dicas: especificidade de preâmbulo, CoT e aprendizado de contexto de poucas amostras.
Descobriu-se que o tagger AI pode atingir 78% de consistência solicitando através do preâmbulo detalhado do OpenAI e executando o raciocínio CoT.
A aprendizagem contextual não melhora a precisão e pode até piorá-la.
Os pesquisadores conduziram experimentos de autoconsistência usando 4 e 16 amostras, com temperatura de decodificação de 1.
A amostragem de vários princípios da cadeia de pensamento com T = 1 produz resultados que são menos consistentes com as preferências humanas.
O estudo também descobriu que aumentar a escala de parâmetros de etiquetadores de modelos grandes pode resultar em anotações de preferência de maior qualidade.
Número de exemplos preferidos
Como a precisão do modelo de recompensa varia com os exemplos de treinamento?
Os pesquisadores descobriram que, após o treinamento em milhares de exemplos, o desempenho do modelo de recompensa se aproximou do treinamento no conjunto completo de dados.
para concluir
Os pesquisadores demonstram que o RLAIF pode produzir melhorias comparáveis ao RLHF sem depender de anotadores humanos.
Embora este trabalho destaque o potencial do RLAIF, ainda existem algumas limitações.
Primeiro, este estudo explorou apenas a tarefa de sumarização, sendo necessárias mais pesquisas sobre a generalização para outras tarefas.
Em segundo lugar, os investigadores não estimaram se a inferência LLM é mais vantajosa do que a anotação manual em termos de custo económico.
Além disso, há algumas questões interessantes que vale a pena investigar, tais como se o RLHF combinado com o RLAIF pode superar um único método, quão eficaz é usar o LLM para atribuir recompensas diretamente, se um melhor alinhamento do rotulador de IA se traduzirá em melhores políticas finais e se usar um anotador LLM do mesmo tamanho do modelo de política pode melhorar ainda mais a política (ou seja, se o modelo pode "melhorar a si mesmo").
Discussão acalorada entre internautas
O Google publicou dois artigos sobre RL:
RLAIF: Modelos de recompensa de treinamento semelhantes ao feedback humano
ReST: Usando modelos generativos para facilitar o autotreinamento A combinação desses dois artigos pode satisfazer esses algoritmos de IA que consomem muitos dados.
Especificamente, métodos de aprendizagem por reforço offline são usados para melhorar a qualidade da tradução de grandes modelos de linguagem para melhor atender às preferências humanas.