Jan Leike: Como a OpenAI alcançará o superalinhamento em 4 anos?

Autor: Daniel Filan@AXRP

Fonte: Unicórnio Estrangeiro

Recomendado por: Cage Compiler: wenli, Yanxi Composição: Mengxi, Scout

OpenAI anunciou seu plano de “Superalinhamento” no início do mês passado e anunciou que dedicará 20% de seu poder computacional total a esta nova direção de uma só vez. O cofundador e cientista-chefe da OpenAI, Ilya Sutskever, e o líder da equipe de alinhamento original, Jan Leike, liderarão conjuntamente este novo projeto, com o objetivo de resolver os principais desafios técnicos do alinhamento da superinteligência dentro de 4 anos para garantir que os humanos possam controlar a superinteligência.

Para conseguir isso, a OpenAI precisa primeiro treinar um "alinhador automático que esteja no nível humano" e, em seguida, usar esse "alinhador automático" para alcançar o alinhamento com superinteligência. De acordo com o artigo Introducing Superalignment, "Alinhador automático" O design do "Aligner" também envolve permitir que a IA avalie e supervisione a IA, verificando a segurança do sistema com base na explicabilidade e usando modelos não alinhados para realizar testes de perturbação no sistema.

Este artigo foi compilado a partir de uma entrevista com Jan Leike e é o pensamento técnico mais detalhado de Jan Leike sobre como a OpenAI pode alcançar o “superalinhamento”.

**A seguir está o índice deste artigo. Recomenda-se lê-lo em combinação com os pontos principais. **

👇

01 Equipe de Superalinhamento

02 Deixe o modelo “alinhar-se autonomamente”

03 Cronograma de Superalinhamento

04 Generalização

05 Mantenha-se otimista em relação ao Superalinhamento

01.Equipe de Superalinhamento

**Daniel Filan: Você pode apresentar a equipe do Superalignment primeiro? **

Jan Leike: O objetivo da equipe de Superalinhamento é resolver o problema de alinhamento da superinteligência nos próximos 4 anos. Ilya Sutskever, cofundador e cientista-chefe da OpenAI, também se juntará à equipe e liderará o projeto comigo. Além disso, a OpenAI dedicará 20% dos seus recursos computacionais a este tema. Também estamos recrutando ativamente talentos para se juntarem a esta equipe de projeto. **Esperamos muito atrair especialistas e engenheiros em aprendizado de máquina que não estejam envolvidos em pesquisas de alinhamento, e essas pessoas podem ter um grande potencial nesta questão. **

Projetamos uma estrutura de trabalho preliminar, a ideia central é primeiro treinar um pesquisador automatizado de alinhamento de nível humano (pesquisador automatizado de alinhamento de nível humano) e depois deixá-lo continuar a estudar como concluir o trabalho de alinhamento da Superinteligência. Portanto, uma das principais coisas que precisamos fazer é descobrir como “alinhar” esse autoalinhador.

**Daniel Filan: Qual é o tamanho dessa nova equipe? **

Jan Leike: Temos agora cerca de 20 pessoas e podemos chegar a 30 até o final deste ano. Nos próximos quatro anos, essa equipe provavelmente não excederá 100 pessoas, mas a forma como essa equipe se expandirá pode ser Existem milhões de "pessoas virtuais", ou pelo menos tantos quanto o número de funcionários da OpenAI (**Nota Shixiang: **As "pessoas virtuais" aqui se referem ao uso interno de vários modelos pela OpenAI para colaborar com cientistas. maneira de fazer alinhamento). A partir deste nível, certamente expandiremos em grande escala no futuro.

**Daniel Filan: Você mencionou que a OpenAI fornecerá a esta equipe 20% de suporte de poder computacional. O que significa esses 20%? **

**Jan Leike: **Para OpenAI, 20% do poder computacional alocado para esta equipe não é um número pequeno, é definitivamente o maior investimento que fizemos em alinhamento até o momento, e pode superar todas as outras somas de investimentos. **Então, nesse sentido, 20% dos recursos computacionais é uma porcentagem bastante grande para OpenAI. Além disso, se aumentarmos esse número, algumas pessoas certamente questionarão se o OpenAI pode realmente fazer isso.O sistema é pré-treinado, o que exigirá muitos recursos computacionais.

**Daniel Filan: Antes disso a OpenAI já tinha uma equipe de alinhamento, essa equipe ainda existe? **

Jan Leike: A equipe de alinhamento criada no ano passado tem duas partes, uma é chamada de "Alinhamento Prático" e a outra é chamada de "Alinhamento Escalável". A equipe de Alinhamento Prático concentra-se no alinhamento GPT-4, enquanto a equipe de Alinhamento Escalável visa estudar problemas de alinhamento que atualmente não podemos resolver. Com o lançamento do ChatGPT e seu subsequente sucesso, a importância e a escala do produto do ChatGPT estão aumentando constantemente, exigindo RLHF e modelos maiores para garantir que as funções e a experiência do produto sejam completas o suficiente. A equipe de alinhamento não é mais adequada para isso.

O trabalho prático de alinhamento que mencionámos anteriormente está agora disperso entre várias equipas de projecto OpenAI, com centenas de pessoas a participar nele, pelo que já é um projecto de grande escala, e o trabalho de alinhamento escalável é agora realizado pela Equipa de Superalinhamento. Coisas para fazer.

A razão pela qual escolhemos o nome Superalinhamento é porque queremos enfatizar que o que estamos estudando nesta fase é na verdade um problema que ainda não apareceu.Nossa pesquisa é relativamente voltada para o futuro e orientada para o futuro.

**Daniel Filan: Como ver as tentativas de alinhamento de pessoas ou equipes que não sejam OpenAI? **

**Jan Leike:**Há muitas pessoas ou equipes fora da OpenAI que também estão tentando trabalhos relacionados, especialmente DeepMind e Anthropic. Até certo ponto, todos nós estamos tentando resolver o mesmo problema, então acabamos fazendo um trabalho semelhante. Também é normal. Existem outros trabalhos sobre interpretabilidade e supervisão escalonável.

Até certo ponto, corremos o risco de duplicar muito trabalho, então, idealmente, estamos tentando coordenar melhor ou colaborar mais. Mas todos que fazem a mesma coisa podem evitar o "pensamento de grupo", porque se cada laboratório quiser resolver esses problemas de forma independente, naturalmente duvidará dos resultados de outros laboratórios, e o lado negativo será "Efeito "ou-ou": Isto é , as pessoas não estão dispostas a usar tecnologias inventadas em outros lugares. As pessoas naturalmente pensarão que outras tecnologias que não as suas não são boas ou olharão para elas com algum tipo de preconceito.

Portanto, não há um grande equilíbrio no momento e, embora fizesse sentido pensar que todas as pessoas de alinhamento deveriam estar em um só lugar e trabalhar juntas de alguma forma, essa é a realidade porque laboratórios de IA essencialmente de ponta têm impulso. recursos em matéria de "alinhamento". Isso ficou muito evidente com o sucesso do RLHF, que tornou os modelos mais viáveis comercialmente, tornando mais atraente o investimento em pesquisas nesse tipo de tecnologia.

**Daniel Filan: Qual a diferença na abordagem da equipe de superalinhamento OpenAI? **

Jan Leike: Estamos realmente focados em como alinhar esse alinhador automático, em vez de descobrir como alinhar várias tarefas. Então, pelo menos nesta questão, não estamos muito preocupados com a taxa de alinhamento. Não creio que outros laboratórios enfatizem esse objetivo ou direção dessa forma.

Imposto de alinhamento:

Também conhecido como imposto de segurança, refere-se ao custo adicional para garantir o alinhamento dos sistemas de IA. A taxa de alinhamento sob RLHF mencionada neste artigo significa que, para fazer RLHF, a capacidade do modelo base é perdida para alcançar o alinhamento, como aumento do tempo de desenvolvimento, cálculos adicionais ou degradação de desempenho, etc.

**Nossa abordagem bastante otimista é: experimentar todas as técnicas de alinhamento escalonáveis, ver quais funcionam melhor e tentar encontrar métodos que possam ser comparados empiricamente. Outros laboratórios possuem tecnologias de vigilância escalonáveis específicas que os entusiasmam muito e também estão tentando usar essas tecnologias. Além disso, em termos de interpretabilidade, estamos adotando uma abordagem automatizada para a interpretabilidade, e estamos ampliando-a bastante, na qual outros laboratórios não dão tanta ênfase no momento. **

A outra coisa que realmente queremos fazer é usar a computação para avançar no alinhamento, que é uma das nossas principais estratégias, especialmente em termos de supervisão escalonável, realmente queremos descobrir como podemos obter mais poder de computação para enviar obter melhores sinais de supervisão? Que oportunidades temos? Como fazer um trabalho melhor no modelo Crítica? Como usar mais poder computacional para tornar o sinal de supervisão mais forte? A interpretabilidade automatizada (interpretabilidade automatizada) é um método muito simples, só precisamos investir muito poder de computação para progredir neste problema.

Modelo de crítica:

É um modelo de linguagem independente. Ele analisa os resultados do primeiro sistema de IA e depois escreve uma revisão.

Além disso, existem estudos de calibração automatizados: se isso puder ser feito, podemos obter mais resultados de alinhamento investindo mais poder computacional. Mas como o que realmente queremos fazer é converter a quantidade de poder computacional em capacidade de alinhamento, agora precisamos de muito poder computacional, e é por isso que a OpenAI está disposta a dedicar 20% do poder computacional ao alinhamento. Isso basicamente diz que se descobrirmos sobre esse alinhador automático e descobrirmos que precisamos de mais poder computacional, poderemos usar mais poder computacional para executá-lo. Isso também significa que a estratégia de converter o poder da computação em alinhamento será bem-sucedida e será apoiada pela OpenAI.

02. Deixe o modelo "alinhar autonomamente"

O que é "Alinhador Automático"

**Daniel Filan: O que é um “pesquisador automatizado de alinhamento de nível humano”? **

**Jan Leike: Nosso objetivo é usar sistemas automatizados tanto quanto possível para dividir e distribuir as tarefas no trabalho de alinhamento. **

Quando se trata de modelos de linguagem ou outros sistemas de IA, não é 100% o que eles podem fazer que os humanos fazem. Por exemplo, os LLMs podem ser melhores do que os humanos em coisas como traduzir ou responder a perguntas factuais, mas podem não ser tão bons em cálculos aritméticos ou em algumas outras tarefas. **Portanto, a questão é: em que ordem, quais tarefas precisamos atribuir à IA para lidar, de modo a liberar a energia limitada dos pesquisadores humanos? **Como resultado, as equipes humanas serão capazes de concluir tarefas críticas com mais eficiência, enquanto a IA também assumirá cada vez mais tarefas auxiliares.

**Em geral, a proporção de IA que participa no trabalho será cada vez maior, enquanto os investigadores humanos prestarão mais atenção às tarefas que não são assumidas pela IA e acelerarão a investigação do alinhamento da superinteligência de forma mais prática através do homem-máquina. colaboração. **

**Daniel Filan: Portanto, não se trata de usar IA para substituir alguns funcionários humanos na equipe de alinhamento da OpenAI, mas de usar IA para concluir um tipo específico de trabalho que todos estão fazendo e, em seguida, substituí-lo por IA passo a passo Mais tarefas atuar? **

**Jan Leike:**Sim, acho que se quisermos que o resultado deste sistema seja alto o suficiente, 99% ou 99,9% das tarefas devem ser automatizadas, para que possamos obter 10 vezes, 100 vezes ou até 1000 vezes vezes os resultados da pesquisa.

Eu categorizaria amplamente as “tarefas” mencionadas aqui em duas grandes categorias. Um tipo são as tarefas de pesquisa de engenharia de aprendizado de máquina mais tradicionais, projetadas para ajudar a melhorar as capacidades dos sistemas de IA, como a implementação de vários experimentos de ML e a coleta de resultados experimentais.

O outro tipo é o que deve ser feito para alcançar o alinhamento da superinteligência. Este tipo de problema é relativamente maior e de nível superior (alto nível). Por exemplo, para melhorar a supervisão da escalabilidade (Supervisão Escalável), como decidimos quais experimentos executar? Ou como progredir na interpretabilidade. É claro que deve haver algumas questões muito específicas que precisam ser respondidas. Por exemplo, quando uma pesquisa atinge um estágio específico, é necessário esclarecer uma série de problemas subsequentes que precisam ser resolvidos e outras questões muito detalhadas.

Supervisão Escalável:

O objetivo da supervisão de escalabilidade é garantir que as capacidades do modelo ainda possam ser consistentes com as expectativas humanas e continuar a melhorar e aprender após exceder os níveis humanos. Isso exige que os pesquisadores pensem em como aumentar a capacidade do modelo, alinhar os valores do modelo e monitorar continuamente o desempenho do modelo. O foco da supervisão escalonável é como fornecer continuamente uma supervisão confiável ao modelo. Essa supervisão pode assumir diversas formas, como rótulos, sinais de recompensa ou críticas.

Espero que o aprendizado de máquina possa realizar muito bem o primeiro tipo de tarefa, que é projetar e executar experimentos automaticamente, e o trabalho único que estamos fazendo hoje para acelerar o progresso do alinhamento é descobrir como automatizar o segundo tipo de método. da tarefa. **

**Daniel Filan: O segundo tipo de tarefa parece ser uma tarefa de processo completo? Não apenas descobrir direções de pesquisa, mas também o que pode ser útil, até mesmo "que script eu quero executar agora?" **

Jan Leike: Esta pergunta pode ser feita assim: **Como a pesquisa de alinhamento é muito semelhante à pesquisa tradicional de ML, que outras tarefas podem ser realizadas na segunda categoria? **

**Acho que há muita coisa envolvida no segundo tipo de tarefas, e a influência da pesquisa nesta parte é muito grande. **Porque do ponto de vista dos tópicos de pesquisa, ainda não chegamos a um consenso sobre "como definir o alinhamento". Mesmo os especialistas da indústria ainda estão se perguntando sobre "a rota técnica que tem maior probabilidade de realizar o alinhamento" ou "que trabalho deve ser realizado feito a seguir" "Existem diferenças nessas questões. Portanto, se o alinhamento puder ser acelerado, o impacto será enorme. Essa também é a visão e a direção que dissemos aos pesquisadores quando os chamamos para se juntarem à equipe do OpenAI Superalignment.

Nesta fase, ainda estamos a resolver alguns problemas básicos e ainda há muito trabalho a ser feito na investigação do alinhamento. Não sabemos como alinhar a superinteligência, e até mesmo alinhar sistemas de IA com inteligência superior à humana é bastante difícil.

**Daniel Filan: Você mencionou o conceito de um alinhador automático de nível humano, mas parece que a maioria das coisas na IA não são exatamente de nível humano. Quão importante é o “nível humano” neste objetivo? É bom ou ruim se a IA superar o desempenho humano em algumas das tarefas que você mencionou? **

**Jan Leike: Acho que a chave para esta questão é o quão arriscado é ter este tipo de sistema de nível humano na pesquisa de alinhamento. **

Não é terrível que um sistema de IA tenha muito conhecimento, mas quando este sistema assume algumas (a longo prazo, a maior parte) das pesquisas de alinhamento, precisamos considerar se ele mentirá para os humanos? A IA tentará nos enganar e assumir o controle do sistema?

Como atualmente não entendemos quanto do comportamento do modelo ocorre, a verdadeira questão que enfrentamos é que tipo de habilidades precisamos para entender seu comportamento e riscos, e se isso é comparável ao que precisamos para construir um pesquisador automatizado para hiperalinhamento?Como as habilidades se comparam?

Se aprofundarmos esta questão, quais são as nossas verdadeiras preocupações? Pode ser que o modelo esteja tecendo uma série de mentiras que podem enganar os humanos? Os modelos já estão enganando os humanos? Você está fingindo fazer algo ou acreditar em algo quando na realidade isso é direcionado para outro objetivo?

Portanto, também é fundamental avaliar se um modelo fará jailbreak (autoexfiltração): quão capaz é o modelo de quebrar as precauções de segurança do sistema, obter parâmetros de peso do modelo e tentar replicá-los em outro lugar no a Internet? Ou é possível que o modelo baixe esses dados e os envie para outro lugar, convencendo um engenheiro humano com acesso aos pesos? Também podemos medir a capacidade do modelo nesta área.Nestas ligações críticas, espero que a capacidade do modelo não seja demasiado forte.

**Daniel Filan: Um alinhador automático de nível humano precisa ser muito inteligente, criativo e capaz de planejar tarefas, e também deve ser muito bom em pensar sobre problemas relacionados ao alinhamento. ferramenta em si É muito ameaçador para os humanos. Se a tarefa é alinhar o pesquisador de alinhamento automático, há algum outro problema que ele precise resolver? **

**Jan Leike: Acho que no final será algo baseado na experiência. **

Poderíamos começar pensando sobre isso em um nível macro. Por exemplo, há uma possibilidade muito óbvia de que, uma vez que as capacidades do modelo sejam melhoradas, naturalmente deixaremos o modelo ajudar a implementar algum trabalho de pesquisa de alinhamento. Embora o modelo nos ajude a conduzir pesquisas, suas próprias capacidades foram melhoradas, então, de Como resultado , podemos usar isso para treinar rapidamente um modelo mais poderoso.

Esta história é bastante emocionante à primeira vista, mas o ângulo prático é na verdade muito complicado. Em primeiro lugar, o pré-treinamento do modelo geralmente leva vários meses, não semanas, por isso precisamos usar esta geração de modelos até que a nova geração de modelos nasça. Outra questão que ainda não foi claramente respondida é: ainda existem muitos “frutos ao alcance da mão” em termos de melhoria do poder de computação?

Penso que, em comparação com o alinhamento, o investimento e o foco de toda a comunidade de IA na melhoria da velocidade e das capacidades da IA são consideráveis, e se pudermos automatizar mais destas tarefas para beneficiar ambas as comunidades, então à escala da comunidade de alinhamento. casos menores, o benefício marginal que isso traz será maior.

**Daniel Filan: Quando se trata de avaliar o alinhamento como uma direção de pesquisa, qual você acha que será o objetivo de longo prazo deste alinhador automático? **

Jan Leike: Acho que os modelos de linguagem ou a inteligência artificial em geral são mais criativos do que os humanos, em média. Por exemplo, em imagens geradas por um modelo de difusão ou amostragem de um modelo básico pré-treinado, você certamente encontrará muitas coisas inesperadas, então o modelo é particularmente criativo. São coisas com as quais é difícil aprendermos. alguém. Ou obtido de um pequeno grupo de humanos, e o modelo pode fazer isso porque aprendeu todas as palavras ditas por humanos ou todas as imagens na Internet, completando assim a amostragem nesta distribuição em escala extremamente grande, que um único ser humano não posso fazer até este ponto.

Em termos de objetivos de longo prazo, **não creio que haja realmente necessidade de perseguir o chamado longo prazo, porque podemos atribuir primeiro tarefas de curto prazo à IA, e se eles forem bons em essas tarefas, é o suficiente. **Por exemplo, pode ser algo muito restrito, como "este é o artigo que acabamos de escrever, sugira alguns próximos passos ou quais novos experimentos podem ser implementados". Imagine que estamos realmente pedindo a um verdadeiro pesquisador famoso de IA que faça perguntas, para que ele não precise perseguir objetivos de longo prazo, ele só precisa nos ajudar a otimizar os próximos pequenos objetivos, talvez alguns milhares de tokens, se puderem. isso bem, já pode trazer muito valor para a humanidade.

**Daniel Filan: Isso parece entrar em conflito com a meta mencionada acima de que 99,9% das tarefas de alinhamento podem ser automatizadas? Na minha opinião, uma das chaves para fazer pesquisas de alinhamento é continuar a pensar e resolver o problema de “o que é necessário para realmente obter uma IA alinhada”? **

Jan Leike: Exatamente. Mas o que quero expressar é que quando o sistema completa bem essas tarefas, ele alcança muito valor, e o que nós, humanos, temos que fazer é combinar essas tarefas. **Por exemplo, algumas tarefas são "escrever o código para implementar esses experimentos", enquanto outras tarefas são "olhar os resultados e me dizer o que você viu" ou "sugerir o que fazer a seguir". Essencialmente, uma vez que o modelo tenha concluído essas tarefas, podemos combiná-las de alguma forma geral, assim como faria no Auto-GPT ou em um programa de modelo de linguagem, onde cada tarefa é pequena e integrada automaticamente para que o sistema não precise. perseguir deliberadamente algum objetivo grande e de longo prazo.

Por exemplo, o recente Let's Verify Step by Step da OpenAI usa feedback baseado em processo em matemática para treinar um modelo de recompensa baseado no feedback humano em cada etapa do processo de prova, em vez de treinar a solução "se o sistema obteve a resposta correta"? ". Isso provou ser mais eficaz porque deu ao sistema de IA uma forma de aprendizagem mais refinada e feedback mais detalhado. Mas, a longo prazo, será isto competitivo com a aprendizagem por reforço de ponta a ponta? Ainda não sabemos, mas pelo menos por enquanto, podemos usar esta análise detalhada das etapas para fazer com que o sistema faça muitas coisas realmente úteis que os humanos fariam e depois juntar essas coisas.

Vamos verificar passo a passo:

Um estudo publicado em maio de 2023 por Hunter Lightman et al. Visando principalmente o problema de erros lógicos frequentes em tarefas complexas de raciocínio em várias etapas de grandes modelos, o autor comparou dois métodos: supervisão de resultados e supervisão de processos: a supervisão de resultados fornece principalmente feedback para o resultado final, enquanto a supervisão de processos fornece feedback para cada intermediário etapa de raciocínio. feedback. O estudo descobriu que a supervisão de processos superou significativamente os modelos de treinamento supervisionados por resultados, especialmente em problemas matemáticos. Além disso, os autores descobriram que a aprendizagem ativa melhorou significativamente a eficácia da supervisão do processo.

**Daniel Filan: Uma das minitarefas que você mencionou é “ver os resultados e decidir o que fazer a seguir”. Se você quiser fazer isso, terá que pensar em qual projeto específico será mais útil para atingir a meta de alinhamento da superinteligência em quatro anos? **

**Jan Leike: Você está certo. No entanto, isso não é alcançado por meio da otimização e da atribuição de crédito de longo prazo (atribuição de crédito), mas sim pela adição de alguns objetivos e contexto mais amplos ao prompt. **

No entanto, em aplicações práticas, quando melhoramos sistemas através de aprendizagem por reforço (RL) ou aprendizagem por reforço baseada em feedback humano (RLHF), não precisamos de esperar até ao final do projecto de investigação para tirar conclusões sobre se estes métodos são eficazes. . Em vez disso, podemos usar o feedback humano como base para sugerir recompensas, perguntando-nos simplesmente: “Será que esta direção parece melhor do que qualquer outra que eu possa ter pensado sozinho?”

** Portanto, acho que o objetivo geral do Superalignment não é alcançar o alinhamento automático mais poderoso da tecnologia atual, mas construir um sistema de aplicação muito útil e em grande escala. Mais importante ainda, acreditamos que ele pode alcançar o alinhamento, então você pode ter certeza de que lidará com essas tarefas. **

**Em comparação com a divisão de tarefas, pode-se pensar que apenas o treinamento de ponta a ponta pode tornar o modelo mais capaz. Mas acho que isso não é tão importante. Na verdade, o método de treinamento ponta a ponta não apenas limita em grande medida a capacidade do modelo, mas também tem baixa eficiência. Isso é o que as pessoas costumam chamar de "imposto de alinhamento". **

A "imposto de alinhamento" é um fator importante se você quiser competir de forma eficaz com outras empresas no mercado: suponha que eu esteja construindo um chatbot que faz um trabalho de alinhamento particularmente bom, mas parece ser muito menos capaz, o que na verdade é muito difícil competir no mercado. Mas se você tem um autoalinhador, o pesquisador do autoalinhamento não precisa competir no mercado, ele só precisa ser útil para nós. Então podemos aceitar um custo de alinhamento maior porque não temos substituto, ou o verdadeiro substituto é contratar mais humanos, mas esta forma não é tão escalável.

**Daniel Filan: Que problemas você espera que este pesquisador de alinhamento automatizado possa resolver? **

Jan Leike: Deve resolver o problema de "como ajustamos a superinteligência". **Alinhamento da superinteligência A solução real pode ser bem diferente do alinhamento que estamos fazendo hoje. **

A solução do ChatGPT é aprender muito com o feedback humano, nomeadamente RLHF (Aprendizagem por reforço com feedback humano). O consenso geral nesta fase é que esta abordagem pode ser difícil de escalar porque assume fundamentalmente que os humanos precisam de compreender completamente os detalhes do que o sistema está a fazer.

Portanto, se você permitir que o modelo faça pesquisas de alinhamento em grande escala, poderá imaginar tarefas equivalentes a milhões de cargas de trabalho humanas. É obviamente impossível para os humanos visualizar todos os dados e fornecer feedback detalhado. Isso é bastante difícil. , definitivamente iremos ignorar muitos bugs importantes neste processo.

**A tecnologia na qual a equipe do Superalignment está trabalhando atualmente é tornar o RLHF extensível e implementar o alinhamento para alinhadores automáticos. **Este alinhador automático está quase no mesmo nível dos humanos. Ele pode substituir os humanos na conclusão dessas tarefas difíceis, mas não será muito diferente dos humanos. As tecnologias que queremos implementar são todas atualizações ou explorações sérias de tecnologias anteriores. Por exemplo, a supervisão escalável é uma extensão natural do RLHF. **

A supervisão escalável é definida como a combinação geral de ideias e técnicas que nos permitem usar a IA para ajudar os humanos na avaliação de tarefas difíceis.A supervisão pode ser construída a partir da aprendizagem por reforço com feedback humano (RLHF).

Os representantes típicos da supervisão escalonável incluem debate, modelagem de recompensa recursiva (RRM, modelagem de recompensa recursiva), destilação e amplificação iterada, criação de mercado automatizada, etc. Existem muitos métodos novos surgindo.

Acho que se realmente fizermos um alinhamento de superinteligência, dado que o sistema é mais inteligente que os humanos, pensa mais rápido e computa em uma ordem de magnitude completamente nova, isso trará um monte de outros problemas, especialmente porque é será super geral e poderá fazer muitas coisas, e então você terá que descobrir como alinhá-lo, não apenas alinhando tarefas de pesquisa com uma distribuição mais restrita, mas todo o resto. Além disso, é necessário verificar se é bem sucedido através de uma extensa avaliação empírica.

Portanto, neste momento, não só eu, ninguém sabe como será o futuro, mas seria muito emocionante ter alguma verificação formal. Talvez tenhamos encontrado algum tipo de algoritmo com garantias teóricas, mas a teoria e a prática subsequente podem ser muito diferentes, e mesmo eu não acho que um pesquisador de alinhamento de nível aproximadamente humano se empenhará imediatamente em resolver esses problemas. Em vez disso, esperamos que encontrem uma forma de alinhar melhor a próxima iteração, para que possamos eventualmente ter um sistema que nos ajude a sintonizar a nossa superinteligência, de forma orientada.

**Daniel Filan: Depois de ter esses pesquisadores de alinhamento de IA em nível humano, a OpenAI ainda precisa de uma equipe de alinhamento de superinteligência e equipe correspondente? **

Jan Leike: Essa é uma boa pergunta. Pessoalmente, ficaria muito entusiasmado se pudesse ser substituído pela IA. **Mas, historicamente, o cenário típico é o que mencionamos anteriormente: os assistentes de IA fazem 99% ou 99,9% do trabalho e os humanos cuidam do 1% restante ou 0,01%. **No longo prazo, mesmo que não consigamos mais compreender verdadeiramente tudo o que a IA faz, ainda precisamos garantir que os humanos estejam envolvidos de alguma forma ou sejam sempre capazes de controlar o que a IA está fazendo. Em outras palavras, deve haver ser uma função humana Tentar entender as implicações de alto nível do que a IA está fazendo não precisa necessariamente ser a atual equipe do OpenAI Superalignment, porque os conjuntos de habilidades necessários podem ser muito diferentes dos que temos agora.

**Daniel Filan: OpenAI continua mencionando em seu blog que a segurança está intimamente relacionada às capacidades do modelo, precisamos de modelos inteligentes para resolver problemas de alinhamento, mas, ao mesmo tempo, esperamos não ser alterados pelas capacidades do modelo. Há uma passagem no Planejamento para AGI e além: "Se a AGI tiver capacidade suficiente para acelerar seu próprio desenvolvimento, poderá causar grandes mudanças a uma velocidade surpreendente", "Achamos que o desenvolvimento relativamente lento da AGI é mais fácil de garantir Segurança ". Se fizermos um alinhador realmente inteligente ou de nível quase humano e, em seguida, aumentarmos efetivamente a equipe de alinhamento em 10 ou 100 vezes, isso acabará em um ciclo recursivo de autoaperfeiçoamento? **

Jan Leike: É inevitável. É impossível ter um ciclo recursivo de autoaperfeiçoamento sem uma grande melhoria no alinhamento. Pessoalmente, penso que a possibilidade de um salto nas capacidades da IA é bastante elevada e devemos estar preparados para isso. Se isso não acontecesse, eu também ficaria muito contente.

Se olharmos para outros sistemas de IA, como AlphaGo, Dota ou StarCraft, estes sistemas passam por iterações massivas de capacidades quase semanalmente. Quanto ao que exatamente vai acontecer, ainda não podemos ter certeza porque há muita incerteza, mas acho que devemos estar preparados para essa possibilidade. Quando isso acontece, uma ideia realmente boa é ter pesquisadores de alinhamento automatizados que possam realmente realizar milhares de anos de trabalho em uma semana, o que os humanos não conseguem fazer.

Como projetar um alinhador automático

**Daniel Filan: Como implementar este alinhador automático de nível humano? **

Jan Leike: Pode ser dividido em duas partes. Primeiro, precisamos de um sistema que seja inteligente o suficiente para executar tarefas; por outro lado, precisamos alinhar esse sistema para garantir que ele possa realmente executar tarefas. Estas duas partes não são completamente independentes, estão intimamente relacionadas.

Não estive pessoalmente envolvido na primeira parte da pesquisa, mas acredito que com certeza isso se tornará realidade e muitas pessoas estão trabalhando para tornar isso possível. Existem muitas direções diferentes para seguir, mas você pode imaginar que, à medida que o modelo fica cada vez maior, eventualmente ele se torna inteligente o suficiente.

**O que realmente me interessa pessoalmente é a segunda parte. O problema que enfrentamos na pesquisa é: Com esse modelo pré-treinado muito inteligente, como fazer com que ele faça a pesquisa de alinhamento da maneira que você deseja? Ou, mais importante e mais crítico, como saber se pode confiar nele o suficiente para realizar a tarefa? **

Nossos modelos podem tentar apresentar resultados e técnicas de uma forma que, caso você decida implementá-los, realmente melhore o próprio sistema ou outros sistemas relacionados e exiba mais comportamento de busca de poder no futuro, ou execute um jailbreak (auto-exfiltração) e outros comportamentos.

Portanto, precisamos alinhar a IA para garantir que ela possa realizar as tarefas de acordo com as nossas expectativas, e fazer pleno uso de suas capacidades para alcançar o melhor desempenho nas tarefas. Para tanto, uma série de métodos de treinamento de alinhamento precisam ser desenvolvidos para garantir que a IA mantenha o alinhamento ao executar tarefas.

Na verdade, trata-se de dois tipos diferentes de sistemas. Precisamos distinguir claramente se o sistema está verdadeiramente alinhado ou falsamente alinhado. O primeiro é um sistema que pode trabalhar arduamente para conduzir pesquisas de alinhamento e realmente nos ajudar e buscar a verdade; o último pode ter a intenção de controlar o mundo, fazer jailbreak ou realizar outro risco de mau comportamento. Portanto, precisamos de estabelecer mecanismos ou métodos para discernir estes dois alinhamentos para garantir que podemos confiar e confiar em sistemas que estejam verdadeiramente alinhados.

**Uma parte importante do nosso trabalho é descobrir como distinguir entre alinhamentos reais e falsos, que chamo de métodos de validação. Eles não são usados diretamente para treinar sistemas de IA, nem são usados diretamente como base para selecionar sistemas, mas fornecem um independente O sinal de é usado para julgar se o sistema pertence ao sistema alinhado real ou ao sistema alinhado falso. **

Por exemplo, a pesquisa de interpretabilidade é um desses métodos. Se olharmos para dentro do modelo e encontrarmos alguma evidência de que o modelo está conspirando secretamente contra nós, então o modelo falhará no teste de validação e será considerado um sistema falsamente alinhado.

Outra abordagem é generalizar o problema de fácil para difícil, o que pode ser uma técnica de treinamento ou validação, dependendo de como está configurado. Esta questão examina se a capacidade do modelo de generalizar desde problemas simples que podemos supervisionar até problemas difíceis que não podemos supervisionar. Se o modelo puder ser supervisionado na parte fácil e validado cruzadamente na parte difícil, então poderemos determinar se o modelo corre risco de trapaça encoberta ou outro comportamento.

Abordagem 1: Supervisão Escalável

**Daniel Filan: Como é alcançada a supervisão escalonável? Actualmente, não há muito consenso sobre o alinhamento.Como obter sinais de formação para investigação de alinhamento de alta qualidade? **

Jan Leike: O fracasso em chegar a um consenso mostra realmente que o alinhamento é realmente muito difícil de resolver. Este campo ainda não está maduro, por isso não temos muita experiência até agora. Mas penso que a investigação sobre alinhamento tem algumas propriedades muito importantes que podemos explorar para uma supervisão escalonável.

Avaliar a qualidade da investigação sobre alinhamento pode ser uma abordagem melhor do que simplesmente estudar o alinhamento. Isto não significa que a investigação sobre alinhamento seja fácil, e não significa que avaliá-la seja fácil, mas é muito mais fácil encontrar um artigo. Por exemplo, este artigo tem uma ideia legal, faz alguns experimentos legais e os resultados são muito bons. Depois de lê-lo, você com certeza sentirá a qualidade dessa pesquisa relacionada, que é muito mais fácil do que concluir o trabalho.

**Assim, o princípio “avaliar é mais fácil do que gerar” está no centro de muitas ideias de supervisão escalonáveis. **Por exemplo, se você considerar a modelagem de recompensa recursiva, a ideia básica é usar um assistente de IA para ajudá-lo a avaliar o trabalho de outros sistemas de IA: primeiro deixe o sistema auxiliar de IA se alinhar em uma tarefa relativamente simples, que é usada como um Assistente de avaliação para auxiliar na avaliação de outros sistemas de IA.

Como a avaliação é mais fácil do que a geração, a tarefa dos sistemas assistivos de IA é relativamente simples, especialmente porque os humanos colaboram com os sistemas assistivos de IA na avaliação. Uma vez bem sucedida nesta tarefa, uma combinação de humanos e sistemas de IA de apoio pode ser usada para supervisionar o treino de um novo sistema de IA numa tarefa mais difícil.

Ao repetir repetidamente este processo, podemos expandir continuamente a gama de tarefas para as quais podemos supervisionar eficazmente os sistemas de IA. Esta abordagem permite-nos aproveitar a relativa simplicidade da tarefa de avaliação para orientar e treinar o sistema de IA, desbloqueando gradualmente uma gama mais ampla de tarefas.

Alinhamento escalonável de agentes por meio de modelagem de recompensa: uma direção de pesquisa:

Jan Leike publicou um estudo sobre modelagem de recompensa recursiva em 2018, projetando uma função de recompensa adequada para a aplicação de algoritmos de aprendizagem por reforço a problemas do mundo real. Além disso, é discutido o problema do alinhamento dos agentes, ou seja, como criar agentes que se comportem de acordo com a intenção do usuário. A equipe descreve uma direção de pesquisa de alto nível para resolver o problema de alinhamento de agentes centrado na modelagem de recompensas, aprendendo funções de recompensa a partir de interações com usuários.

**Daniel Filan: Isto é, adicionando iterativamente mais e mais conhecimento de IA à parte de avaliação do estudo de alinhamento. Operando dessa maneira iterativa, o sistema de IA sempre pode receber bons sinais de treinamento. **

Jan Leike: Sim. Por exemplo, RLHF é o mais simples, sem o uso de nenhum assistente, e os humanos avaliarão se é bom ou não depois de ver os resultados de desempenho da IA, o que é um sinal de treinamento.

Aprendizagem por reforço profundo a partir das preferências humanas:

Um estudo de 2017 de Paul Christiano e Jan Leike. Neste trabalho, exploramos principalmente o objetivo de permitir que sistemas complexos de aprendizagem por reforço (RL) interajam efetivamente com ambientes do mundo real, definidos em termos de preferências humanas (não especializadas) entre segmentos de trajetória. A pesquisa mostra que esta abordagem pode resolver com eficácia tarefas complexas de aprendizagem por reforço sem exigir acesso a funções de recompensa, incluindo jogos Atari e movimentos simulados de robôs, ao mesmo tempo que fornece feedback sobre menos de 1% das interações do agente com o ambiente. Isto reduz significativamente o custo da supervisão humana.

A seguir, desenvolvendo ainda mais a abordagem descrita anteriormente, treinamos basicamente o modelo assistente mais simples, o modelo de crítica. Este é um modelo de linguagem independente que observa o resultado do primeiro sistema de IA e escreve críticas.

Por exemplo, o primeiro sistema de IA escreve um pedaço de código, e nós olhamos para o código: os humanos tendem a ser ruins em detectar bugs no código, e é por isso que há tantos códigos com bugs no mundo. Mas agora, se existe um sistema de crítica que pode escrever críticas e apontar erros, então é muito fácil para os humanos julgarem: “isto é definitivamente um bug, devemos corrigi-lo”.

A ressalva aqui é que a tarefa em si não é muito clara, já que normalmente o código é escrito de acordo com alguma especificação de linguagem natural. Na prática, o significado desta especificação não é claro e determinar se um problema é um bug pode ser ambíguo. Mas o mais importante é que ao usar um modelo crítico como assistente, você pode expandir o escopo das tarefas de supervisão. Embora possa haver alguma ambigüidade e ambigüidade sobre a certeza de problemas e bugs em seu código, você ainda pode usar a saída do modelo de crítica para encontrar mais problemas. Esta abordagem permite supervisionar eficazmente os sistemas de IA numa gama mais ampla de domínios de tarefas e expandir o âmbito da supervisão.

O bom é que existem muitas maneiras de avaliar a eficácia dessa abordagem por meio de pesquisas empíricas. Uma das abordagens, a que usamos no artigo que publicamos no ano passado, é basicamente um ensaio clínico randomizado com perturbações direcionadas. Suponha que você tenha uma tarefa de codificação. Embora não usemos tarefas de codificação no artigo, o conteúdo específico da tarefa não é importante aqui. Então você tem um resultado de resposta, que não precisa ser perfeito, mas vamos supor que seja. O que você está tentando fazer é introduzir algum erro ou falha sutil no resultado da resposta, tornando-a uma resposta não tão boa, mas imperceptivelmente ruim para os humanos.

O artigo mencionado aqui é Modelos de autocrítica para ajudar uadores humanos publicado em 2022. Este artigo ajusta principalmente modelos de linguagem grandes e usa clonagem comportamental para escrever comentários em linguagem natural. As avaliações escritas pelo modelo podem ajudar as pessoas a detectar falhas nos resultados. Além disso, os autores estudaram as propriedades de escala de revisões para tarefas de resumo e síntese baseadas em tópicos. Modelos maiores escreverão comentários mais úteis.

**Daniel Filan: Como esses bugs são introduzidos? **

Jan Leike: A maneira mais fácil é deixar que os humanos façam isso, mas, em última análise, temos que deixar o modelo concluir esse processo sozinho.

Primeiro, faça uma amostragem aleatória de uma das perturbações e mostre-a a um humano ou a um humano assistido por IA, ou a qualquer método supervisionado escalável. Então veja qual é a probabilidade de eles encontrá-lo? Ou você pode simplesmente perguntar a eles: "Há um bug aqui?", e você poderá saber com que frequência eles encontram bugs.

Além disso, você pode comparar diretamente a compreensão do problema pelo modelo e treinar o modelo como um discriminador que pode distinguir versões boas de versões defeituosas. A precisão do discriminador representa seu desempenho. Em seguida, o modelo ou modelo aprimorado pelo RLHF é solicitado a comentar o código. Em seguida, observe com que frequência o modelo menciona defeitos de código nos comentários. Compare a precisão do discriminador com a precisão do modelo para gerar avaliações. A precisão do discriminador reflete a capacidade cognitiva do modelo para o problema, enquanto a precisão da revisão reflete a consciência do modelo sobre os defeitos do código, que é o que chamamos de lacuna entre o discriminador e a crítica.

Se a diferença for grande, significa que há muitos problemas que o modelo pode cheirar, mas não nos diz porque se pedíssemos para escrever um comentário, ele não o diria. Esta situação é muito preocupante, porque significa que a sua supervisão escalonável está profundamente falha de alguma forma, e muitas coisas estão escapando ao seu radar. Ou no sentido de que este assistente de IA não é muito cooperativo, porque não se esforça muito para ajudá-lo.

Pelo contrário, um pequeno valor de diferença significa que o assistente de IA irá informá-lo assim que souber que há um problema com o modelo. Em particular, se um modelo de tamanho semelhante ou o mesmo modelo base tentar implantar bugs ou colocar trojans difíceis de encontrar, com pequenos valores de variação, então podemos descartar a possibilidade de tal ataque com maior confiança. Porque é provável que outra cópia do modelo escreva uma revisão que revele possíveis problemas.

Esta situação baseia-se na suposição de que o treinamento do discriminador pode realmente eliminar esta situação do modelo. Acho que temos bons motivos para acreditar nisso, já que o ajuste fino de um discriminador essencialmente dá acesso a todas as ativações do modelo e ajusta todos os pesos simultaneamente. Portanto, se existir conhecimento em algum lugar nas ativações do modelo, o ajuste fino do discriminador deverá ser capaz de extrair esse conhecimento, desde que o ajuste fino seja feito corretamente e haja dados suficientes.

Na verdade, você pode fazer alguns cálculos retroativos para determinar a quantidade de dados necessária. Suponha que haja um único neurônio no modelo que encontra problemas no código. Para encontrar e identificar esse neurônio, o número de pontos de dados necessários é aproximadamente o logaritmo do número total de neurônios. Isso significa que relativamente poucos pontos de dados são suficientes para restringir e encontrar neurônios com uma função específica. Esta estimativa mostra que com treinamento discriminador e dados suficientes, é possível descobrir as funções de neurônios específicos no modelo.

**Daniel Filan: Essa também é uma dúvida que tenho sobre todo o plano. A razão pela qual não gostamos do RLHF é que ele pode não ser capaz de distinguir entre o que os humanos pensam ser correto e o que “parece bom”, porque os humanos não são bons em críticas. **

A ideia da revisão recursiva é melhorar continuamente a qualidade das revisões, treinando tanto o discriminador quanto o revisor. Uma maneira é treinarmos algo que possa escrever críticas realmente boas e, então, trabalharmos com isso para treinar algo que seja mais capaz de revisar. Nesse caso, aumentamos gradativamente a qualidade das avaliações para obter melhores resultados. Mas existe outra situação em que treinamos algo, treinamo-lo inadvertidamente para escrever comentários falsos que nos parecem bons, e depois trabalhamos com ele para melhorar ainda mais a nossa capacidade de discernir comentários que soam bem. Isso pode fazer com que prestemos mais atenção às coisas que parecem boas, mas que na verdade são problemas, ignorando os problemas que realmente existem.

Jan Leike: Sim, concordo que esta é uma questão muito importante e legítima. Ao explorar aplicações de supervisão escalável, torna-se crucial compreender uma das suas principais questões. Portanto, estou muito entusiasmado por poder realmente aplicar estas técnicas e experimentá-las empiricamente, porque acredito que através da prática podemos avaliar melhor a eficácia destes métodos.

Uma maneira concreta e simples de medir esse efeito é treinar deliberadamente um modelo com alinhamentos enganosos e então observar se a supervisão escalável é capaz de identificar e sinalizar tal comportamento enganoso, ou quão difícil é detectá-lo... ...ou quanto esforço que precisamos para fazer com que o modelo se alinhe de maneira enganosa para escapar de nossa supervisão escalonável.

**Daniel Filan: Sim, pensei em um “experimento de sanduíche” para testar as respostas da IA a questões jurídicas. Neste experimento, algumas pessoas não jurídicas foram solicitadas a fazer perguntas jurídicas e, em seguida, algumas pessoas que eram realmente versadas na lei foram solicitadas a verificar se a IA estava enganando as pessoas não jurídicas. **

Jan Leike: Esses experimentos são realmente interessantes e já existem algumas pesquisas interessantes nesta área. Algumas das questões básicas que você aponta realmente precisam ser levadas em consideração.

Primeiro, você mencionou a questão da confiança nos especialistas. Dado que os peritos por vezes cometem erros, pode haver alguma incerteza em confiar no parecer dos peritos, o que é, de facto, uma consideração importante. Além disso, é fundamental garantir que haja sobreposição de domínio suficiente entre especialistas e tarefas para que possam fornecer avaliações e feedback precisos.

Outro problema é que, para algumas tarefas, podemos não conhecer os factos ou a verdade subjacentes. Mesmo num campo como a investigação de alinhamento, podemos ter diferentes perspetivas e perceções. Isto torna a avaliação precisa nessas tarefas mais difícil. Além disso, a recolha de grandes quantidades de dados pode ser uma tarefa dispendiosa devido ao número limitado de especialistas e aos elevados custos de tempo.

Então, em geral, eu gostaria de ter um método de avaliação que não se baseasse na suposição de que já temos a verdade básica. Este método pode ser avaliado sem conhecimento prévio e pode ser adaptado a tarefas de vários níveis de dificuldade, razão pela qual estou muito preocupado com o uso destes ensaios clínicos randomizados para perturbação direcionada ou medição da lacuna discriminador-crítica. o prospecto.

**Daniel Filan: Sim, porém, ao medir a lacuna discriminador-crítico, você precisa de um discriminador real, não apenas um discriminador que distinga o dispositivo "parece errado" do dispositivo "parece bom". **

Jan Leike: Você está dizendo que é possível introduzir falhas em sistemas de IA, certo? De certa forma, esta abordagem pode ser melhor do que as avaliações humanas porque está mais próxima da verdadeira distribuição que os sistemas de IA enfrentam em aplicações do mundo real. Ao utilizar estes dados defeituosos, o discriminador pode ser ajustado e, se acreditarmos que a versão defeituosa é realmente pior, então podemos estabelecer uma espécie de verdade básica. Podemos observar por que as coisas dão errado e verificá-las para melhor compreendê-las.

**Daniel Filan: Embora um sistema de inteligência artificial possa nos fazer pensar que algo é bom, não é necessariamente bom; da mesma forma, se um sistema de inteligência artificial nos faz pensar que algo é ruim, então na verdade pode ser muito ruim, ou o desempenho caiu. De qualquer forma, se a IA faz você pensar que isso é ruim, talvez seja mais fácil nos ajudar a verificar? **

Jan Leike: Sim, eu sei o que você quer dizer. Eu provavelmente não deveria usar o termo "verdade básica" neste caso porque não é realmente uma verdade básica, como se nada fosse verdadeiramente verdade, mas há muito que você pode fazer para ter muita confiança no valor verdadeiro, o que não não necessariamente torna a tarefa de encontrar o problema mais fácil.

Verdade básica:

Na aprendizagem supervisionada, os rótulos de dados geralmente estão na forma (x, t), onde x são os dados de entrada e t é o rótulo. A marca t correta é a verdade fundamental, que pode ser entendida como o padrão de referência e o valor verdadeiro no sentido de referência, enquanto a marca t errada não o é.

Abordagem 2: Procure mau comportamento e estrutura interna

**Daniel Filan: No artigo da OpenAI que apresenta o Superalignment, um de seus pipelines de alinhamento é procurar automaticamente comportamentos do modelo que podem causar problemas (robustez) e estruturas internas que podem causar problemas (interpretabilidade automática). Neste ponto, quais problemas você acha? acha que a equipe de superalinhamento resolverá a seguir? **

**Jan Leike: Interpretabilidade sem dúvida. Em certo sentido, a explicabilidade é realmente difícil. No momento não temos resultados importantes sobre modelos de linguagem, e é justo dizer que a interpretabilidade realmente nos inspirou muito ou agregou muito valor, e isso porque nossa compreensão dos modelos e de seus componentes internos ainda é muito rudimentar. **

**Daniel Filan: A comunidade acadêmica fez alguns trabalhos interpretáveis em modelos de linguagem. Por exemplo, o trabalho de ** Chefes de Aprendizagem e Indução em Contexto **, e o trabalho de identificação indireta de objetos (Identificação Indireta de Objetos), podem pelo menos realizar algum tipo de identificação indireta de objetos. Quero saber, além disso, o que mais você precisa para chegar ao seu ponto final ideal? **

• Chefes de aprendizagem e indução em contexto

Este trabalho foi publicado em 2022. Centra-se principalmente em questões de segurança relacionadas no contexto da expansão contínua do modelo de geração de transformadores e melhora a interpretabilidade mecânica através da engenharia reversa dos cálculos detalhados realizados pelo modelo. Aborde os problemas de segurança atuais de forma mais sistemática e preveja problemas de segurança futuros em modelos mais poderosos, compreendendo a estrutura interna que faz com que um modelo Transformer produza sua saída.

• Interpretabilidade em estado selvagem: um circuito para identificação indireta de objetos em GPT-2 pequeno

Este artigo demonstra que a compreensão mecanicista de grandes modelos de aprendizado de máquina é viável, explicando como o GPT-2 pequeno executa uma tarefa de linguagem natural chamada identificação indireta de objeto (IOI) para preencher a lacuna no desempenho de interpretabilidade mecanicista em grandes modelos complexos, o que oferece a oportunidade para interpretabilidade para se estender a modelos maiores e tarefas mais complexas.

Jan Leike: Sim, as pessoas estão atualmente explorando o campo da interpretabilidade é muito gratificante, acho que é mais importante se pudermos usar técnicas de explicabilidade em um modelo de recompensa de modelo de linguagem, como tamanho GPT-4 ou qualquer modelo grande você pode pensar, e então obtive algo sobre o modelo de recompensa que não sabíamos antes, isso é importante, **Porque o modelo de recompensa fornece o sinal de treinamento para muitos treinamentos RLHF, entenda-o melhor É muito valioso , e seria uma melhoria importante poder marcar ou descobrir que existem problemas no comportamento que ele incentiva e que nós, humanos, não queremos que ocorra. **

Nesse sentido, penso que a interpretabilidade não é necessária nem suficiente. Acho que é bem possível resolvermos o problema de alinhamento de forma puramente comportamental, sem realmente entender o modelo interno. Mas também acho que **qualquer percepção não trivial que obtivermos com a explicabilidade será super útil, ou talvez super útil, porque nos dá um caminho para atacar. **

Portanto, é absolutamente impossível abandonarmos a tentativa de interpretabilidade. Porque, de certa forma, você tem esse cérebro artificial, e nós temos o scanner cerebral perfeito onde podemos ampliar totalmente e medir com precisão a ativação de cada neurônio em cada caminho direto, incluindo carimbo de data/hora discreto e arbitrário, que é provavelmente a resolução máxima queremos obter. Também podemos fazer intervenções arbitrárias e perturbar qualquer valor do modelo à vontade. Isso nos dá muito espaço e oportunidade para experimentar, e seríamos loucos se não aproveitássemos isso.

Mas, ao mesmo tempo, a razão pela qual é muito difícil é porque o modelo está aprendendo a calcular em termos de eficiência, em vez de ser regularizado para algo compreensível para os humanos, ou não há razão para acreditar que um único neurônio deva corresponder a um conceito , ou qualquer coisa próxima ao humano Pense que eles são ou deveriam ser ou algo com o qual estamos familiarizados. Na verdade, empiricamente, as redes neurais representam muitos conceitos diferentes com um único neurônio, e cada conceito é distribuído entre diferentes neurônios. Portanto, os neurônios não são importantes aqui.

Há duas coisas nas quais eu me concentraria em termos de interpretabilidade.

A primeira é a causalidade. Queremos observar os neurônios à medida que passamos os dados pelo modelo. Por exemplo, há um neurônio relacionado ao "Canadá" que dispara quando o conceito relacionado ao Canadá é apresentado. Mas isto é apenas correlação, não necessariamente causalidade. Para verificar se esta é uma relação de causa e efeito, teríamos que escrever deliberadamente alguns conceitos relacionados ao Canadá para ver se todos reagem, e também escrever alguns outros conceitos relacionados que podem soar relacionados ao Canadá e também podem ser relacionado ao Canadá. Nada a ver com o Canadá, mas é bastante semelhante em geral, e então verifique se os neurônios responderão ou se esses neurônios serão desligados, etc.

Daniel Filan: Isso é semelhante a Tolga Bolukbasi et al. Uma Ilusão de Interpretabilidade para BERT **Este artigo, acho que é chamado de Ilusão de Interpretabilidade, o artigo menciona: Podemos fazer com que os neurônios reajam a uma coisa específica, mas isso é apenas uma ilusão porque em outros conjuntos de dados esses neurônios reagem a um monte de outras coisas. **

Uma ilusão de interpretabilidade para BERT:

O artigo descreve a “ilusão de interpretabilidade” que ocorre ao analisar modelos BERT. As ativações de neurônios individuais em uma rede podem parecer codificar um conceito único e simples, quando na verdade codificam algo muito mais complexo, e o mesmo efeito se aplica a combinações lineares de ativações. Os autores atribuem a origem desta ilusão às propriedades geométricas do espaço de incorporação do BERT e ao fato de que os corpora de texto simples representam apenas uma pequena fração das possíveis sentenças em inglês, entre outras coisas.

Jan Leike: Outra coisa muito interessante é que a OpenAI publicou um artigo sobre interpretabilidade no início deste ano. Modelos de linguagem podem explicar neurônios em modelos de linguagem ( Nota Shixiang: neste artigo, os experimentadores tentam usar GPT-4 para explicar o comportamento do neoron GPT-2) O que queremos é uma técnica que funcione no nível de detalhe dos neurônios individuais, para que você possa realmente garantir que não perderá nenhum detalhe e ao mesmo tempo será capaz de trabalhar na escala de todo o modelo.

Porque no final das contas tudo no modelo está relacionado, então ambos são importantes. Até agora, a tecnologia tem sido principalmente uma alternativa. Houve tentativas de interpretabilidade automática antes do nosso artigo, por isso não somos os primeiros a fazê-lo. Mas acho que se puder haver algum trabalho de interpretabilidade realmente detalhado, alguns métodos mecanicistas de interpretabilidade que realmente tentem entender os circuitos individuais ou unidades computacionais dentro do modelo, então a maneira de estender isso para todo o modelo é automatizá-lo, certo ?

Mas você também pode fazer isso: depois de descobrir como fazer isso detalhadamente, bem, basta documentar o que está fazendo, ou seja, deixar um alinhamento automático ou um pesquisador de interpretabilidade detalhar para estudar o que aconteceu com o modelo. Em seguida, analise tudo ou encontre uma maneira de agregá-lo. **Estou simplificando um pouco aqui, mas de qualquer forma, essa é a ideia que me deixa muito entusiasmado.

Então, no jornal, temos muito conteúdo explicativo. Por exemplo, este artigo escreve uma explicação em linguagem natural para um único neurônio, o que pode não ser totalmente correto, mas dá um exemplo simples do que podemos fazer aqui. A maneira como funciona é simplesmente mostrar ao GPT-4 uma série de padrões de ativação e, em seguida, pedir ao GPT-4 para escrever uma sugestão de explicação.

De modo geral, essas explicações não são muito boas, até porque a tarefa é muito difícil e a maioria dos neurônios não faz coisas que os humanos possam entender claramente. Mas podemos executar este programa na escala de cada neurônio no GPT-2 e descartar todas as explicações e tentar descobrir quais são os padrões interessantes. Você também pode observar tendências de escala, como: "Como pontuamos automaticamente essas explicações à medida que o modelo fica maior?" ou "E se adicionarmos mais computação ou fizermos com que o modelo que dá as explicações fique maior?" O que acontece com a qualidade das explicações? "

O mais legal é que podemos medir essa métrica automaticamente com um modelo de linguagem. Embora esta não seja uma métrica perfeita e tenha muitos problemas, ela fornece uma estimativa para saber se os humanos considerariam essa explicação boa. Você pode então usar esse indicador proxy em escala, executando-o em um grande número de neurônios.

**Daniel Filan: Se você pensar sobre o trabalho de interpretabilidade necessário, quanto dele você acha que é sobre descobrir uma unidade básica de explicação melhor versus descobrir como estender o que está acontecendo? **

Jan Leike: Acho que ambos são necessários. O primeiro é mais difícil, o que obviamente faz sentido. Além disso, para ter sucesso, acho que precisa ser ampliado.

Abordagem 3: Teste Adversário

**Daniel Filan: A terceira maneira de implementar o Superalinhamento é treinar deliberadamente modelos desalinhados (modelos desalinhados) para ver se o pipeline pode detectar esses modelos. Então, a OpenAI vai eliminá-los ou vai corrigi-los proativamente? **

Jan Leike: O objetivo aqui não é corrigir esses modelos desalinhados intencionalmente treinados. Na verdade, esses modelos defeituosos são usados apenas para detecção.

Fundamentalmente falando, o objetivo principal é que precisamos ser capazes de distinguir efetivamente entre modelos de alinhamento verdadeiro e modelos de alinhamento falso, os primeiros podem ajudar a alcançar nossas tarefas-alvo e progredir na pesquisa de alinhamento, enquanto os últimos podem completar a aquisição e a auto-infiltração . Uma forma de nos ajudar a diferenciar melhor esses dois tipos de alinhadores é fazer um alinhador falso e ver se ele é semelhante ao alinhador real. Mas você precisa ter muito cuidado ao fazer isso porque está criando algo terrível que todos nós queremos evitar.

**Daniel Filan: No início do artigo da OpenAI, você mencionou que a Superinteligência pode ser uma tecnologia que terá o impacto mais profundo na humanidade e nos ajudará a resolver os problemas mais importantes do mundo. **

Há uma frase sobre o quão grande é a superinteligência, e eu me pergunto se isso levará à perda de poder dos seres humanos, ou mesmo à extinção dos seres humanos? Especificamente, de que modelo de deslocamento estamos falando? Como sabemos que eles não farão essas coisas horríveis?

Jan Leike: Muito precisa ser feito para tornar o desenvolvimento futuro tranquilo. Precisamos de ter as estruturas de governação adequadas para podermos prevenir a utilização indevida de poderosos sistemas de IA, e temos de ter medidas preventivas em vigor para que não tenhamos algum tipo de efeito descontrolado que ainda seja mau para os seres humanos. Neste caso, temos a IA aliada aos humanos, e temos a IA aliada às corporações contra a humanidade, e mesmo que todos os indicadores económicos ou outros aspectos pareçam bons, todo o sistema ficará fora de controlo.

**Além disso, também precisamos abordar questões de alinhamento tecnológico para que possamos realmente alinhar nossos sistemas de IA. **O alinhamento da superinteligência concentra-se apenas na última parte do risco. O problema técnico que queremos resolver é como tornar um sistema de IA consistente com um conjunto de valores humanos e, ao mesmo tempo, derivar uma nova questão independente: quais deveriam ser esses valores? Como desenhamos um processo para importar esses valores da sociedade?

Penso que estas são questões importantes que precisamos de responder, e só se as resolvermos o futuro poderá evoluir sem problemas. Penso que para um bom futuro, o padrão não é apenas "A IA não matará todos", mas ver a humanidade prosperar. O futuro que anseio é um futuro em que todos queiram viver. Quanto mais poderosa for a IA, maior será o risco e maior será o potencial de erro se o sistema estiver desalinhado.

Em particular, numa perspectiva de desalinhamento, penso que os padrões de ameaça com os quais devemos estar particularmente preocupados são as mentiras sistémicas, o engano e a auto-infiltração.

**Daniel Filan: Você fala sobre treinar deliberadamente modelos desalinhados, o que significa treiná-los para mentir e às vezes tentar fazer o jailbreak, mas como a capacidade real do modelo é baixa o suficiente, isso é suficiente para prevenir e controlar o risco? **

Jan Leike: Na verdade, você não quer treinar um modelo para fazer o jailbreak, e se ele for realmente bom nisso? É mais seguro escolher alguma outra tarefa de agente mais geral que ainda o ajudará a facilitar a avaliação do seu modelo.

E então a principal dificuldade e o objetivo principal é realmente descobrir quais propriedades um sistema precisa ter para passar na avaliação. Se você tem um sistema que ocasionalmente mente ou engana você, isso pode ser visto como ineficaz. Somente quando ele comete um engano contínuo, uma mentira contínua e o convence, é que ele é um mentiroso verdadeiramente coerente e confiável. A maneira como ele mente é tão consistente que dificilmente se consegue apontar as suas mentiras ou quaisquer inconsistências no que diz através de interrogatório, o que é verdadeiramente assustador.

Na verdade, não é fácil ser um mentiroso tão consistente. Tentamos dificultar que os modelos sejam mentirosos tão consistentes através de supervisão escalonável, interpretabilidade e generalidade.

Mas se fizermos isso, não será suficiente: é difícil determinar quão fácil será para a IA trapacear de forma consistente. Uma maneira de determinar isso é primeiro treinar o modelo para se tornar um mentiroso verdadeiramente estável e, em seguida, começar do ponto de vista da estabilidade e ver como é difícil se tornar um mentiroso consistente. Quanto precisamos para enganar o modelo? Até que ponto precisamos dar dicas ao modelo ou ensiná-lo passo a passo ao longo do caminho? Dito isto, você não quer treinar um sistema que seja realmente perigoso, e se ele for executado e se filtrar com sucesso e causar diretamente exatamente aquilo que você deseja parar, isso é muito ruim.

**Daniel Filan: Quando você diz isso, você está distinguindo entre mentir e outros tipos de perigo, tipo, podemos treiná-lo para mentir, mas não o treinaríamos para assassinar? **

Jan Leike: Sim. Por exemplo, suponha que você estabeleça uma meta falsa para isso. Talvez seja para convencer os humanos a dizerem um determinado mantra, talvez seja para executar um determinado comando Python, mas na verdade, esse comando não faz nada real, apenas parece engraçado.

Além disso, estamos preocupados em como fazer isso a priori, o que é completamente diferente do teste de estresse do sistema.

No contexto da interpretabilidade, o nosso objectivo é simplesmente compreender se o sistema actualmente treinado ou os sistemas existentes estão de alguma forma próximos do nosso sistema alvo desejado e podem enganar-nos de uma forma coerente. Queremos determinar se o sistema executará um determinado código ou comportamento semelhante sem supervisão humana, o que exige que conduzamos experimentos para cenários específicos. Tudo o que precisamos é verificar "este é um mentiroso coerente", caso contrário é realmente difícil determinar a priori o quão perto estamos deste objectivo, excepto quando avançamos deliberadamente, para que o sistema possa fazer outras coisas ultrajantes.

**Daniel Filan: Então você o treina para fazer alguma coisinha arbitrária em vez da coisa ruim que realmente deveria fazer, como mentir, machucar as pessoas, etc., mas no final das contas, ele apenas coloca um adesivo na testa de alguém. nota ou algo assim. **

Jan Leike: Exatamente, como se você contratasse alguém para fazer um teste de penetração (Penetration_test), e tudo que eu tenho que fazer é entrar no prédio e apertar sua mão, e então você diz: "Sim, parece como se você tivesse conseguido", ou algo parecido. Ou você diz: "Você pode roubar essa coisa falsa para mim? Quero descobrir até que ponto estamos seguros. "Você pode fazer isso sem consequências reais, mas ainda assim lhe diz muito sobre segurança. Estou animado para fazer a mesma coisa com o alinhamento, testando o estresse do seu sistema de alinhamento, treinando algo especificamente direcionado para quebrá-lo e contorná-lo, o que é muito benigno.

03.Cronograma de Superalinhamento

**Daniel Filan: O objetivo da OpenAI é resolver os principais desafios técnicos do alinhamento do Superalinhamento dentro de um período de quatro anos. A que se referem principalmente os principais desafios técnicos aqui? **

**Jan Leike:**Isso se refere a como tornar o Superalinhamento consistente com os valores humanos. Imaginamos o Superalignment como um sistema muito mais inteligente que os humanos, que pode potencialmente funcionar muito mais rápido, que pode funcionar com muitas cópias de si mesmo, por isso é um sistema realmente poderoso.

Esperamos conseguir isso dentro de quatro anos. A razão pela qual escolhi quatro anos é porque um é realmente ambicioso e o outro é para fazer as pessoas acreditarem que podemos realmente atingir este objectivo. Ao mesmo tempo, mesmo que a IA avance muito rapidamente e a tecnologia melhore muito nos próximos anos, ainda há coisas que podemos fazer dentro deste objectivo ambicioso.

** Alinhadores automáticos de nível próximo ao humano são o objetivo instrumental que buscamos, com o objetivo final de descobrir como alinhar agentes superinteligentes, porque ainda não sabemos como fazer isso. **

**Daniel Filan: Até onde você acha que isso pode ser alcançado em 2 anos? **

**Jan Leike:**Se recuarmos em quatro anos, acho que geralmente seremos capazes de concluir basicamente a pesquisa de alinhamento automático em cerca de três anos, desde que algumas capacidades básicas já estejam implementadas. Caso contrário, nosso projeto pode demorar mais.

Se for dentro de dois anos, esperamos ter um bom controle sobre essa meta. Incluindo qual tecnologia é realmente usada, temos o mix de tecnologias e nos sentimos confiantes de que temos um sistema em que podemos confiar não apenas para usá-lo regularmente, mas também para poder delegar muito trabalho a ele. Neste ponto, gostaríamos de analisar o problema o suficiente para parecer que a carga de trabalho esmagadora no momento é apenas de engenharia e, nesse sentido, provavelmente ainda estamos a dois anos de resolver os problemas de pesquisa associados a ele.

Agora que temos um cronograma para uma meta de quatro anos, fica claro que os avanços nas capacidades de IA estão vinculados a esse prazo. Se o progresso abrandar, poderemos não ter um modelo que seja realmente útil para tarefas de investigação de alinhamento. Mas se depois de quatro anos descobrirmos que o modelo ainda não é bom o suficiente, isso também significa que teremos mais tempo para realmente resolver o problema, porque o problema não é tão urgente.

Por outro lado, a inteligência artificial pode avançar mais rapidamente e os humanos podem acolher com satisfação a chegada da superinteligência mais rapidamente. Nesse ponto, temos que ajustar nossos planos de acordo. Portanto, escolhemos quatro anos como um prazo que fosse realista e nos desse urgência suficiente para resolver os problemas rapidamente.

**Daniel Filan: Suponha que o progresso na pesquisa sobre capacidades de inteligência artificial seja o esperado. Quatro anos depois, você tem todas as capacidades para se tornar um bom pesquisador de alinhamento automático, mas a interpretabilidade é mais difícil do que pensávamos, ou a supervisão escalonável é mais difícil do que pensávamos, então você ainda não alcançou o superalinhamento. O que devo fazer? ? **

Jan Leike: Em primeiro lugar temos que dizer ao público que não atingimos o objetivo, mas seremos responsáveis por esse objetivo. O que acontece depois que o alvo falha depende do estado geral do mundo no momento. Podemos de alguma forma ganhar mais tempo ou nosso pensamento geral está errado, devemos mudar de direção, etc.? Muitas coisas podem acontecer.

Mas na minha opinião, o alinhamento é realmente muito fácil de resolver.Há muitas ideias boas que só precisam ser testadas e medidas rigorosamente, e o modelo pode realmente aprender e melhorar muito. Nos últimos dois anos tornei-me mais optimista e penso que este é um objectivo muito realista. Mesmo que eu esteja errado, mesmo que o problema seja muito mais difícil do que pensamos, ainda é muito útil tentar. Há agora muita discordância sobre o quão difícil é este problema, mas, mais importante ainda, até que ponto um sistema é medido na prática.

**Uma das minhas maiores preocupações não é que nossos sistemas não sejam suficientemente uniformes, mas que não saibamos realmente quão uniformes eles são. **Neste caso, os especialistas podem ter opiniões diferentes sobre o assunto. Se todos pensarem que o sistema não está suficientemente coordenado, o modelo não pode ser implantado. Isto é muito fácil de acontecer e muito assustador. Além disso, também precisamos de enfrentar enormes pressões comerciais.

As pessoas estão muito preocupadas com o tempo de implantação, mas os especialistas só podem adiá-lo indefinidamente sem encontrar o motivo exato. Essa situação é realmente preocupante, a pressão empresarial só vai aumentar, e vocês estão confiantes por um lado, mas não tão seguros. Eu gostaria muito de evitar isso, e a maneira imediata de evitar isso é sermos realmente bons em medir até que ponto os sistemas realmente se encaixam, e é aí que o portfólio de tecnologia mais amplo realmente ajuda.

Daniel Filan: Em Governança da superinteligência, Planejamento para AGI e além **Nestes artigos, a OpenAI mencionou a auditoria independente (auditoria) para sistemas de IA para garantir a implementação da Segurança de IA. Antecipando, até que ponto a Equipe de Superalinhamento pode desenvolver algo útil para auditoria de modelos? **

**Jan Leike: **Se tudo correr bem, a tecnologia que desenvolvemos poderá ser utilizada na “auditoria de modelos”. Por exemplo, se pudermos fazer algum progresso na interpretabilidade, então qualquer técnica que surgirmos poderá ser usada pelos revisores como parte do seu trabalho de revisão; ou seria possível algum tipo de supervisão escalonável como parte da revisão. Mas o Superalignment Team, na verdade, não é adequado para auditoria, porque não somos independentes do OpenAI. Na minha opinião, a auditoria deve ser totalmente independente do auditado, por isso presto atenção na coisa do “auditor independente”.

A principal tarefa da nossa equipe não é nos convencermos de que o sistema que estamos construindo é correto e seguro, porque é muito simples nos convencermos de várias coisas. O que temos que fazer é convencer toda a comunidade acadêmica ou grupos que focam na segurança da IA para acreditar no modelo. Isto requer não só pesquisar a tecnologia que vamos utilizar e mostrá-la a outros depois de fornecer provas de que o sistema é o que pensamos que é, mas também uma avaliação independente de todos os itens acima.

04.Generalização

**Daniel Filan: Nas notas de rodapé do artigo Introduzindo o Superalinhamento, você mencionou: As suposições favoráveis que as pessoas fizeram até agora podem ser quebradas. Uma suposição é que a generalização é benigna. Como você vê a questão da generalização? **

Jan Leike: Estabelecemos recentemente uma equipe de generalização liderada por Collin Burns.

**A questão que enfrentamos é: como compreender e melhorar a capacidade de generalização do modelo? Como generalizar o modelo de tarefas simples que podem ser supervisionadas para tarefas difíceis de supervisionar? Este problema é, na verdade, complementar à supervisão escalonável. Na Supervisão Escalável, nos concentramos em melhorar a capacidade dos humanos de avaliar o que o sistema está fazendo. Se a modelagem de recompensa recursiva for considerada, a questão é “Podemos avaliar recursivamente tudo o que uma IA faz com um assistente de IA que avalia recursivamente?”. **

O que eu realmente gosto nisso é que ele realmente coloca o humano no centro, na frente e no centro, e observa tudo o que o sistema de IA está fazendo. É claro que, na prática, você não pode fazer isso porque o sistema de IA fará muitas coisas, mas você pode observar tudo com pequenas probabilidades independentes. Mas desta forma, ainda não sabemos se o modelo generaliza para situações às quais não estamos prestando atenção.

Então, a maneira como pensei sobre isso no passado é, geralmente, apenas certifique-se de que seu modelo seja principalmente uma generalização iid, ou seja, a tarefa na qual estamos trabalhando tem a mesma distribuição que a tarefa na qual não estamos trabalhando.

Generalização independente e distribuída de forma idêntica:

A capacidade de generalização do modelo é o desempenho do modelo no conjunto de testes (no qual o modelo de dados não foi visto antes), ou seja, a capacidade do modelo de fazer inferências a partir de um exemplo. Generalização independente e distribuída de forma idêntica significa que esses números devem satisfazer iid (independentes e distribuídos de forma idêntica) e estar na mesma distribuição.

**Daniel Filan: Você mencionou em um de seus blogs pessoais que não pretende confiar em generalizações, apenas continue treinando e fazendo iid. **

Jan Leike: Sim, pelo menos meu pensamento inicial foi que eu não queria confiar na generalização não-IID porque isso não funciona bem em redes neurais e não é bem compreendido.

Mas a nova questão é: "E se realmente compreendermos? E se pudermos realmente dizer o significado generalizado?"Penso que é uma pergunta muito boa. Ilya também menciona muito isso. Então, o que queremos entender é se ainda podemos encontrar sentido em que o modelo generalize para coisas que não são supervisionadas, mesmo que não sejam i.i.d. Generaliza da maneira que os humanos pretendem? Portanto, podemos agora investigar esta questão empiricamente através de experimentos bem planejados.

Temos estudado como dividir os conjuntos de dados existentes em problemas fáceis e difíceis, onde problemas fáceis são definidos como aqueles que pequenos modelos podem resolver. Em seguida, tentamos compreender ou melhorar a precisão de modelos grandes em todo o conjunto de dados. Este é um tópico muito interessante porque fornece um pilar totalmente novo para técnicas de treinamento e validação. Por exemplo, se o modelo funcionar tão bem que possamos supervisionar o modelo de recompensa em algumas tarefas de avaliação fáceis e confiáveis, ou generalizar o modelo para problemas mais difíceis, então poderemos completar a generalização do modelo.

E ainda há esse modelo de recompensa que, mesmo sem supervisão, generaliza para tarefas mais difíceis da maneira que queremos, e pode ser treinado com ele. Mas ainda não temos como saber se está realmente alinhado agora. No entanto, você pode aproveitar a supervisão escalonável e a interpretabilidade para validar essas técnicas. Ou vice-versa, suponha que treinemos nosso autoalinhador com supervisão escalonável e depois usemos a generalização como técnica de validação, ou seja, generalizamos para a probabilidade da resposta verdadeira com base no melhor conhecimento do modelo.

Perguntamos então: há uma pequena falha aqui? Existe um Trojan escrito no modelo de alinhamento supervisionado escalável neste código? Agora podemos realizar validação cruzada avançada. Podemos treinar dois modelos diferentes: um treinado usando uma técnica de generalização e outro usando uma técnica de supervisão escalonável, e agora podemos fazer com que eles validem as respostas uns dos outros e verifiquem se esses modelos são fundamentalmente iguais. Se forem diferentes, quais são suas diferenças importantes?

**Daniel Filan: Por "treinar com técnicas de generalização" aqui, você quer dizer treinar em problemas fáceis e depois generalizar para problemas difíceis, ou algo mais? **

Jan Leike: Se você entender como seu modelo generaliza de fácil para difícil, poderá generalizá-lo muito bem, e sua precisão será basicamente a mesma de se você o treinasse no problema difícil como bom. Agora, você pode usar isso como um modelo de recompensa ou pode pensar nisso como: "Se eu realmente soubesse o que está acontecendo aqui, qual resposta eu preferiria?"

**Daniel Filan: Em relação à generalização não-IID, por que precisamos conhecer a estrutura interna do modelo? É porque você quer saber o que aconteceria sem você verificar? Qual é a conexão entre essas duas questões? **

Jan Leike: Até certo ponto, as perguntas que eles querem responder se sobrepõem: o que o modelo faz sem a distribuição? Pelo menos eles têm dois caminhos distintos para responder.

Para fazer a validação cruzada, você precisa dividir o conjunto de treinamento de forma diferente. O que quero dizer com validação cruzada aqui é que em uma execução de treinamento, você treina usando um método de generalização e depois valida usando interpretabilidade, supervisão escalonável e outras técnicas. Em seguida, no segundo treinamento, um método supervisionado escalável é usado para treinamento e métodos de generalização, interpretabilidade e outros métodos são usados para validação. Dessa forma, você tem duas tentativas separadas para resolver o problema.

**Daniel Filan: Sim, quero dizer validação cruzada em um sentido muito amplo de "coisas validando umas às outras de maneira cruzada". **

Jan Leike: Acho que o melhor cenário é que eles sejam realmente complementares, em vez de fazerem a mesma coisa. Se você puder entender ou melhorar como um modelo se generaliza, então você terá maneiras de aproveitar a estrutura interna do modelo para realizar melhor o que deseja. Digamos que você esteja tentando extrair do modelo o melhor conhecimento sobre o que realmente está acontecendo no mundo, o que é muito difícil para o RLHF porque as pessoas priorizarão coisas que parecem verdadeiras, então o RLHF reforça o que os humanos pensam que é verdade. Então, na verdade, você está treinando o modelo para lhe dizer o que você quer ouvir ou no que acredita, mas pode não ser isso que o modelo sabe. Mas as técnicas de generalização fornecem uma maneira de extraí-las, embora ainda não tenhamos provado o que é ideal para um modelo saber.

No entanto, se você tiver ferramentas de interpretabilidade realmente boas, esperamos poder fazer algo assim, tentando descobrir a cognição, a estrutura interna, ou o que quer que seja, do modelo a partir da estrutura interna. Mas, fundamentalmente, pode ser mais difícil porque nunca se sabe se esta é a melhor percepção que o modelo pode produzir ou a percepção de alguém que o modelo está simulando. Existe uma suposição de que um modelo de linguagem pré-treinado é apenas uma coleção de caracteres diferentes, e você pode extrair a cognição de um personagem ou grupo de caracteres.

**Daniel Filan: Então você precisa de algum tipo de modelo causal da chamada cognição até o resultado. **

Jan Leike: Exatamente. Acho que esse tipo de aplicação é bastante natural em termos de interpretabilidade. Tal como um detector de mentiras, ou a descoberta de provas de fraude num modelo, uma conspiração secreta para derrubar a humanidade, a investigação sobre interpretabilidade pode levar a padrões de “extracção de conhecimento”. A extração de conhecimento que generaliza da mesma forma é muito mais difícil.

**Daniel Filan: Para generalização, você deve escolher a distribuição de generalização. E a esperança é que talvez a interpretabilidade possa lhe dizer algo, como se tem ou não um núcleo mentiroso, e mesmo que tenha, só se desvenda aqui. **

Jan Leike: Certo. Este também é um problema de aprendizado de máquina muito interessante: como as redes neurais generalizam fora do cenário i.i.d.? De que forma eles generalizam naturalmente e onde não o fazem? Por exemplo, no artigo do InstructGPT, uma das coisas que descobrimos foi que, embora nosso conjunto de dados de ajuste fino estivesse quase inteiramente em inglês, o modelo também era muito bom em seguir instruções em outros idiomas além do inglês. Mas às vezes ele faz algo estranho: pede para usar outro idioma, digamos, para escrever um resumo em alemão, e ele escreve em inglês. Em geral, o modelo entende perfeitamente qual idioma fala, mas isso não significa necessariamente que tenha que seguir as instruções em alemão. Basicamente, ele generaliza instruções entre idiomas.

Mas não sabemos por que funciona dessa maneira. Isso aconteceu muitas vezes. Existem também razões intuitivas para isso. Os humanos generalizam entre idiomas, mas quero saber como o modelo generaliza internamente ou generaliza para seguir instruções e código.

Não generaliza de outras maneiras. Por exemplo, a generalização tende a ser rejeitada de maneira muito diferente e, de acordo com nossa política de conteúdo, o ChatGPT é treinado para rejeitar tarefas que não queremos cumprir (por exemplo, se for solicitada assistência em crime ou de outra forma). Mas desta forma, você pode fazer o jailbreak. Existem muitas maneiras de enganar esse modelo. Você pode deixá-lo fazer uma dramatização, ou dizer "faça o que quiser agora", ou encontrar essas dicas muito interessantes na Internet, e a modelo obviamente irá te obedecer e terá prazer em ajudá-lo a cometer crimes, e é isso que não é deveria fazer. Assim, de alguma forma, não generaliza a rejeição de tarefas para outros ambientes.

Então, por que generaliza para o primeiro caso, mas não aqui? Acho que ninguém tem a resposta. Mas esta é uma questão muito importante.

**Daniel Filan: Em minha entrevista com Scott Aaronson não muito tempo atrás, ele mencionou que Ilya frequentemente pedia a ele para dar definições de teorias complexas como amor e bondade. Quantas dessas definições haverá na Equipe de Superalinhamento? **

Jan Leike: Podemos realizar vários projetos exploratórios diferentes. Acho que a questão final é: os conceitos relacionados ao alinhamento podem ser convocados de alguma forma? Uma das coisas que você deseja evocar é: esse modelo deseja fundamentalmente que os humanos tenham sucesso? Ou como Ilya disse, ele ama os humanos? Então você pode perguntar: se o modelo é realmente inteligente, leu tudo, sabe exatamente como os humanos percebem a imoralidade... você pode pedir ao GPT4 para mirar em diferentes cenários, apresentando diferentes casos morais. De um modo geral, as suas capacidades a este respeito não são más.

Portanto, compreende fundamentalmente a compreensão humana da moralidade e como pensamos sobre os problemas. Então, como podemos tirar vantagem disso? Como você extrai isso do modelo e o usa como um sinal de recompensa? Ou como algo que a modelo conhece ou se preocupa? Este é o cerne da questão.

05. Mantenha-se otimista em relação ao Superalinhamento

**Daniel Filan: Você está otimista em relação ao Superalinhamento, mas nem todo mundo está. De onde vem o seu otimismo? **

**Jan Leike: Essa é uma ótima pergunta. “Se o plano será bem sucedido em quatro anos” pode ser uma questão mais complexa do que “se o plano será bem sucedido”. **

Se você me perguntar, em nosso plano atual, uma determinada versão pode ser alinhada com sucesso com a superinteligência? Eu diria que a taxa de sucesso é de 85% neste momento e provavelmente foi de 60% no ano passado. No geral, embora o alinhamento não seja fácil, ao mesmo tempo, há muitas razões para eu estar optimista quanto a isso. As razões são as seguintes:

**A primeira razão é que temos visto muitos sinais positivos em relação ao alinhamento nos últimos anos. **O primeiro é o sucesso do modelo de linguagem. Se você também pré-carregar o modelo com muito conhecimento sobre o que os humanos se preocupam, a maneira como os humanos pensam sobre questões morais e as preferências humanas, e o modelo compreender a linguagem natural, você poderá falar diretamente com eles. De certa forma, isso torna mais fácil expressar com o que queremos que o modelo de linguagem se alinhe do que um agente Deep RL treinado em um jogo ou ambiente virtual: um agente Deep RL não envolve necessariamente tantos idiomas, mas os idiomas trazem tantas habilidades importantes.

Outro grande desenvolvimento é o RLHF. Estudei RLHF pela primeira vez através do RL profundo no artigo de preferência humana. Na época, pensei que seria difícil fazê-lo funcionar em um período de tempo razoável porque os GANs eram muito difíceis de treinar na época, e estávamos fazendo algo muito semelhante no sentido de que treinamos esse modelo de recompensa (que era um rede neural), que então usamos para treinar outras redes, que podem falhar por vários motivos. Agora adicionamos o aprendizado por reforço profundo, o que também era complicado na época, então pensei que poderia não funcionar. Mas, na verdade, funciona muito bem - em muitos jogos, mesmo em muitos jogos de Atari, é quase tão bom quanto treinar com a função de pontuação.

Mais importante ainda, o RLHF tem um desempenho realmente interessante em modelos de linguagem. Especialmente considerando as diferenças entre o InstructGPT e o modelo base - quando ajustamos o modelo base, essa diferença era muito óbvia: na tarefa da API da época, nossa versão ajustada da instrução (nossa primeira versão) é melhor do que o modelo básico é 100 vezes maior, e essas são tarefas reais pelas quais as pessoas estão dispostas a pagar. Esta é uma diferença muito grande. Isso mostra que o trabalho que realizamos durante o ajuste fino do RLHF tornou o modelo mais eficaz na conclusão de tarefas exigidas pelos humanos.

Ao mesmo tempo, investimos muito pouco poder computacional neste trabalho e nem integramos tantos dados. Esta é a nossa primeira tentativa real de usar RLHF para alinhar um sistema do mundo real e não esperávamos que funcionasse tão bem. Comparado ao GPT-3, o InstructGPT de tamanho GPT-2 preferido é muito eficiente. Portanto, embora eu não ache que o RLHF seja a solução para o alinhamento, especialmente para a superinteligência, o fato de nosso primeiro método de alinhamento ser tão eficaz é uma melhoria para mim.

**O segundo sinal positivo é que fizemos alguns progressos na medição do alinhamento. **

Especificamente no caso do RLHF, podemos realizar várias intervenções e depois fazer avaliações humanas para ver o quanto o sistema melhora. Além disso, podemos fazer muitas outras coisas. Por exemplo, em termos de supervisão escalável, podemos realizar ensaios clínicos randomizados através de perturbações direcionadas, que também é um método de avaliação. Você também pode realizar experimentos de sanduíche com dados de especialistas. Também podemos fazer uma série de modificações na função de pontuação automática e ver o quanto isso melhora a função de pontuação. Esta não é uma função de pontuação perfeita, mas é uma métrica local que fornece gradientes locais que podem ser melhorados. Acho que isso é muito importante porque ajuda a iterar e aponta o caminho para melhorias.

**Embora eu não ache que isso nos levará ao objetivo da superinteligência alinhada, é muito possível construir alinhadores automatizados que estejam aproximadamente no nível humano. Esta é a minha terceira razão para estar optimista – um objectivo muito mais modesto. **Quando comecei a trabalhar no problema do alinhamento, há muitos anos, entendi que alinhar a superinteligência parecia difícil. Mas esse objetivo é muito mais modesto e viável, e você não está tentando resolver todo o problema diretamente, mas está tentando orientar o modelo.

** Uma quarta razão para otimismo é que a avaliação é mais fácil do que a geração. **Essa ideia na verdade se aplica a muitas coisas, por exemplo, é muito mais fácil descobrir qual smartphone vale a pena comprar do que fabricar um.

Existem muitos exemplos de tarefas NP em ciência da computação, como resolução de problemas SAT ou várias versões de satisfação de restrições. Encontrar soluções para esses problemas é difícil, mas uma vez encontrados, verificá-los é fácil. Além disso, e acho que isso se aplica a muitos negócios, se você vai contratar alguém para resolver um problema, precisa ser capaz de avaliar a capacidade dele de fazer o trabalho. É muito menos trabalhoso do que tentar resolver o problema em si; se você estiver fazendo pesquisa acadêmica, a revisão por pares exige muito menos esforço do que fazer pesquisa. É claro que a revisão por pares não é perfeita, mas pode fornecer muitos sinais muito rapidamente. Fundamentalmente, o mesmo se aplica à pesquisa de alinhamento. Avaliar é mais fácil do que gerar. Então, se os humanos apenas avaliarem a pesquisa de alinhamento em vez de fazê-la, já estaremos acelerando.

A última razão para meu otimismo é que minha confiança no modelo de linguagem não mudará, a capacidade do modelo definitivamente se tornará cada vez mais forte, eles são naturalmente aplicáveis a muitas tarefas de pesquisa de alinhamento, você pode colocar essas tarefas expresso como entrada de texto e saída de texto, sejam tarefas do tipo ML (ou seja, execução de experimentos e compreensão de resultados) ou algo mais conceitual ou orientado para pesquisa, se estivermos confusos sobre o que fazer a seguir ou não soubermos como pensar. determinado problema, o modelo tentará nos ajudar a resolver. Essas tarefas são basicamente entrada e saída de texto. Provavelmente a outra coisa mais complicada que você precisa fazer é olhar alguns gráficos e coisas assim, mas o GPT-4 pode fazer tudo. Portanto, acho que o modelo de pré-treinamento do modelo de linguagem atual é muito adequado para o plano de alinhamento que estou ansioso, e é também a direção que o Superalignment está trabalhando.

Referência

  1. Alinhamento escalável de agentes via modelagem de recompensa: uma direção de pesquisa Endereço do artigo:

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)