Zhang Qinkun, secretário-geral do Instituto de Pesquisa Tencent
Cao Jianfeng, pesquisador sênior, Instituto de Pesquisa Tencent
Alinhamento de valor de IA: o que é
Depois que a inteligência artificial entrou na era dos modelos em grande escala, várias capacidades "humanóides" e "sobre-humanas" continuaram a surgir, e a sua autonomia, versatilidade e facilidade de utilização aumentaram rapidamente, tornando-se uma nova base tecnológica para o desenvolvimento económico e social. Algumas organizações prevêem que os grandes modelos irão penetrar profundamente em todas as esferas da vida, acrescentando 2,6 biliões a 4,4 biliões de dólares americanos em valor à economia global todos os anos. [1]
No entanto, à medida que grandes modelos (também conhecidos como modelos básicos) começam a realizar uma ampla gama de tarefas de compreensão de linguagem e geração de conteúdo como humanos, é necessário enfrentar um desafio científico e fundamental: como fazer com que as capacidades e o comportamento de grandes modelos correspondam os dos seres humanos. Os valores humanos, as verdadeiras intenções e os princípios éticos são consistentes para garantir a segurança e a confiança na colaboração entre os seres humanos e a inteligência artificial. Este problema é chamado de "alinhamento de valor" (alinhamento de valor ou alinhamento de IA). O alinhamento de valores é uma questão central na segurança da IA.
Até certo ponto, a dimensão do modelo está positivamente correlacionada com o risco e o dano do modelo.Quanto maior for o modelo, maior será o risco e mais forte será a necessidade de alinhamento de valor. Por enquanto, a capacidade central do modelo grande vem do estágio de pré-treinamento, e o modelo grande é treinado em grande parte com base nas informações públicas de toda a Internet, o que não apenas determina suas capacidades, mas também determina suas limitações. Os problemas existentes podem ser refletidos no modelo.
Um grande modelo de linguagem (LLM) sem alinhamento de valores pode produzir conteúdo racial ou sexista, ajudar hackers cibernéticos a gerar código ou outro conteúdo para ataques cibernéticos, fraude de telecomunicações e tentar persuadir ou ajudar usuários com pensamentos suicidas a acabar com a própria vida, e a produção de tal conteúdo prejudicial. Portanto, para tornar os modelos grandes mais seguros, confiáveis e práticos, é necessário evitar, tanto quanto possível, resultados prejudiciais ou abusos do modelo. Esta é uma tarefa central do atual alinhamento do valor da IA.
Alinhamento de valor de IA: por quê
Alinhar o valor do modelo grande pode lidar melhor com alguns problemas pendentes atualmente existentes no modelo grande. De acordo com a classificação dos problemas pendentes de grandes modelos de todas as esferas da vida, existem principalmente os quatro itens a seguir:
Um deles é o problema da informação errada. A indústria chama isso de “ilusão” da inteligência artificial. De acordo com Mira Murati, CTO da OpenAI, o maior desafio do ChatGPT e dos grandes modelos de linguagem subjacentes é que eles produzem fatos falsos ou inexistentes. [2] Isto pode resultar de erros ou desinformação nos dados de treino, ou pode ser um subproduto da criação excessiva (como factos fictícios). É um problema técnico deixar o grande modelo pisar na gangorra entre a criatividade e a autenticidade.
O segundo é o problema da discriminação do algoritmo. Muitos estudos existentes mostraram que grandes modelos de linguagem reproduzem preconceitos e estereótipos sociais prejudiciais a partir de dados de treinamento. [3] O CEO da OpenAI, Sam Altman, acredita que é impossível para qualquer modelo ser imparcial em todos os domínios. Portanto, a questão central é como detectar, reduzir e eliminar a discriminação potencial do modelo.
O terceiro é o risco fora de controle de “emergência” de capacidade. Com o aumento contínuo do poder de computação e dos dados, espera-se que grandes modelos se tornem cada vez mais poderosos, e mais novas capacidades possam surgir, que podem até exceder a compreensão e o controle de seus criadores, o que significa que novos Riscos podem vir com eles, incluindo o surgimento de comportamentos ou objetivos de risco. Uma preocupação comum entre os tecnólogos é que o grande modelo atual de IA, bem como sistemas de IA mais poderosos e avançados, como a inteligência artificial geral (AGI) e a superinteligência (ASI), que podem surgir no futuro, podem formar sub-humanos que são não está de acordo com os interesses e valores humanos.Subobjetivos, como busca de poder, engano, desobediência, etc., a fim de atingir seus objetivos declarados. [4] Por exemplo, os pesquisadores descobriram que o GPT-4 exibia a capacidade de enganar estrategicamente os humanos, “enganando os humanos para que executassem tarefas para atingir seus objetivos ocultos”.
Em quarto lugar está a questão do abuso. Elementos maliciosos podem usar grandes modelos para ajudá-los a atingir objetivos ilegais por meio de informações adversárias e operações de “jailbreak”.
Portanto, o alinhamento de valor, como um problema prático que precisa ser resolvido tecnicamente, tornou-se um princípio básico no design, desenvolvimento e implantação de grandes modelos de IA, a saber: por meio do desenvolvimento de ferramentas alinhadas ao valor e da construção de engenharia, esforçar-se para garantir que a IA comporta-se de maneira benéfica aos seres humanos e à sociedade, sem prejudicar ou interferir nos valores e direitos humanos.
Alinhamento de valor de IA: como fazer
Para alcançar o alinhamento de valores, os desenvolvedores precisam fazer com que a inteligência artificial compreenda e obedeça aos valores, preferências e princípios éticos humanos no nível do modelo, e evite ao máximo resultados prejudiciais e abusos do modelo, de modo a criar uma IA que é um modelo grande prático e seguro.
Primeiro, o Aprendizado por Reforço com Feedback Humano (RLHF) provou ser um método eficaz e é possível obter melhores resultados com uma pequena quantidade de dados de feedback humano.
Em 2017, pesquisadores da OpenAI publicaram o artigo "Deep Reinforcement Learning Based on Human Preferences", propondo introduzir o feedback humano na aprendizagem por reforço. [5] RLHF inclui várias etapas, como treinamento inicial do modelo, coleta de feedback humano, aprendizado por reforço e processo iterativo. A ideia central é exigir que os treinadores humanos avaliem a adequação do conteúdo de saída do modelo e construam sinais de recompensa para o aprendizado por reforço com base nos dados coletados. feedback humano., para alcançar uma melhor otimização do desempenho do modelo. [6] Do ponto de vista prático, o RLHF tem vantagens significativas na melhoria do desempenho do modelo, na melhoria da adaptabilidade do modelo, na redução do viés do modelo e no aumento da segurança do modelo, incluindo a redução da possibilidade de modelos produzirem conteúdo prejudicial no futuro.
Figura: fluxograma RLHF (Fonte: OpenAI)
OpenAI levou adiante o algoritmo RLHF, e ChatGPT teve sucesso nisso e pode produzir conteúdo útil, confiável e inofensivo em grande medida. [7] Na fase de treinamento RLHF, o GPT-4 reduz a produção prejudicial adicionando um sinal adicional de recompensa de segurança. Este método produziu bons resultados e melhorou significativamente a dificuldade de induzir comportamento malicioso e conteúdo prejudicial. Comparado com modelos anteriores (como GPT-3.5), o GPT-4 reduz significativamente problemas como alucinações, preconceitos prejudiciais e conteúdo ilegal e prejudicial. Após o treinamento RLHF, o GPT-4 obteve uma pontuação 40% superior ao GPT-3.5 em testes de autenticidade relevantes, teve 82% menos probabilidade de responder a solicitações de conteúdo proibido do que o GPT-3.5 e foi mais capaz de responder a solicitações envolvendo conteúdo confidencial do usuário. solicitar. [8] Em suma, o algoritmo RLHF pode estabelecer as proteções de segurança necessárias para grandes modelos de linguagem e desempenha um papel fundamental como um "equilibrador" entre o poder/emergência e a segurança/confiabilidade de grandes modelos.
Em segundo lugar, o modelo de “IA constitucional” muda o alinhamento de valores da ineficiente “supervisão humana” para uma “supervisão escalável” mais eficiente.
Considerando o investimento de tempo e recursos, a capacidade humana e outros desafios de usar o feedback humano para treinar modelos de IA maiores e mais complexos, a indústria tem explorado como usar a supervisão de IA (incluindo a auto-supervisão de IA e a supervisão de um sistema de IA de outro). .Um método de sistema de IA) para alcançar o alinhamento de IA. A Anthropic, uma empresa americana de modelos de IA em grande escala, propôs o método de "IA constitucional" (IA constitucional). Especificamente, desenvolver um modelo de IA subordinado cuja função principal é avaliar se o resultado do modelo principal segue um princípio "constitucional" específico (ou seja, um conjunto de princípios ou regras pré-determinados), e os resultados da avaliação são usados para otimizar o modelo principal.
A Anthropic combina sua própria experiência prática e baseia-se na Declaração Universal dos Direitos Humanos, nos termos de serviço da Apple e nas regras Sparrow da DeepMind [9] e outros documentos, apresentam um conjunto de extensa lista de princípios e usam isso como referência de avaliação para permitir que seu grande modelo Claude avalie seus próprios resultados. O objetivo é promover o modelo para produzir respostas úteis e, ao mesmo tempo, reduzir a possibilidade de conteúdo prejudicial minimização sexual. [10]
Gráfico: Caminho Constitucional da IA (Fonte: Antrópico)
Claude demonstra a eficácia de uma abordagem constitucional de IA que ajuda Claude a reduzir resultados prejudiciais e discriminatórios, evitar ajudar usuários mal-intencionados a se envolverem em atividades ilegais ou antiéticas e responder de forma mais adequada às "conferências adversárias" dos usuários, em vez de simplesmente adotar estratégias de prevenção. Concluindo, a Anthropic acredita que uma abordagem constitucional à IA pode ajudar a criar um sistema de IA útil, honesto e inofensivo, com as vantagens de escalabilidade, transparência e um equilíbrio entre utilidade e inocuidade.
Terceiro, tomar múltiplas medidas para garantir a realização do alinhamento do valor da IA.
Uma é a intervenção eficaz nos dados de treinamento. Muitos problemas de modelos grandes (como alucinações e discriminação de algoritmos) vêm dos dados de treinamento, por isso é viável começar a partir dos dados de treinamento, como registrar os dados de treinamento para identificar se há um problema de representação ou diversidade insuficiente. Manual ou triagem automatizada, testes para identificar, remover preconceitos prejudiciais, construir conjuntos de dados especializados alinhados ao valor e muito mais.
O segundo são os testes adversários ou red teaming. Em suma, antes de o modelo ser lançado, profissionais internos ou externos (red team testers) são convidados a lançar vários ataques adversários ao modelo para descobrir potenciais problemas e resolvê-los. Por exemplo, antes do lançamento do GPT-4, a OpenAI contratou mais de 50 estudiosos e especialistas em vários campos para testar seu modelo.A tarefa desses testadores da equipe vermelha é fazer perguntas provisórias ou perigosas ao modelo para testar a resposta do modelo. ., a OpenAI espera passar no teste da equipe vermelha para ajudar a encontrar problemas com seus modelos em termos de informações imprecisas (ilusão), conteúdo prejudicial, desinformação, discriminação, preconceito de linguagem, informações relacionadas à proliferação de armas tradicionais e não tradicionais, etc. . [11]
A terceira é a ferramenta de filtragem de conteúdo. Por exemplo, a OpenAI treinou especialmente um modelo de IA para filtrar conteúdo prejudicial (ou seja, modelo de filtragem) para identificar entradas prejudiciais do usuário e saída do modelo (ou seja, conteúdo que viola sua política de uso), de modo a realizar os dados de entrada e de saída de o modelo.Controle.
A quarta é promover a pesquisa de interpretabilidade e compreensibilidade do modelo.Por exemplo, OpenAI usa GPT-4 para escrever e pontuar automaticamente explicações para o comportamento da rede neural de seu grande modelo de linguagem GPT-2; [12] Alguns pesquisadores lidam com o problema de alinhamento de IA sob a perspectiva da interpretabilidade do mecanismo.
Alinhamento de valor de IA: um problema de longo prazo
O trabalho de alinhamento de valores é a pesquisa mais fundamental e desafiadora no campo da IA. O desafio é que requer uma ampla gama de disciplinas e participação social, e requer uma variedade de insumos, métodos e feedback; o ponto fundamental é que não se trata apenas do sucesso ou fracasso do grande modelo atual, mas também de se os humanos podem alcançar uma inteligência artificial mais poderosa para os controles de segurança futuros (como AGI). Portanto, os inovadores no campo da IA têm a responsabilidade e a obrigação de garantir que os seus modelos de IA sejam orientados para o ser humano, responsáveis, seguros e fiáveis. O professor Zhang Yaqin, um famoso cientista de inteligência artificial, destacou que, para resolver o problema do alinhamento da IA e dos valores humanos, os técnicos devem concentrar a sua investigação no alinhamento, para que as máquinas possam compreender e seguir os valores humanos. Portanto, o alinhamento de valores não é apenas uma questão de ética, mas também uma questão de como alcançá-lo. As pessoas que trabalham com tecnologia e pesquisa não podem apenas desenvolver capacidades técnicas e não se concentrar na solução de problemas de alinhamento. [13]
Embora o alinhamento dos valores da IA tenha alcançado certos resultados técnicos, ainda não há consenso sobre a questão mais básica dos valores da IA: como estabelecer um conjunto unificado de valores humanos para regular a inteligência artificial. Atualmente, quais princípios escolher podem depender inteiramente do julgamento subjetivo e dos valores dos pesquisadores. E dado que vivemos num mundo onde as pessoas têm diversas culturas, origens, recursos e crenças, o alinhamento dos valores da IA precisa de ter em conta os diferentes valores e éticas das diferentes sociedades e grupos. Além disso, é impraticável deixar completamente que os investigadores escolham estes valores por si próprios, e é necessária mais participação social para formar um consenso.
Ao mesmo tempo, o actual trabalho de alinhamento do valor da IA ainda enfrenta um problema fundamental: partindo da premissa de que a inteligência humana permanece basicamente inalterada, à medida que as capacidades da inteligência artificial continuam a melhorar, os próprios humanos supervisionarão eficazmente esses modelos de IA de ponta. tornar-se cada vez mais difícil. Portanto, para garantir a segurança da IA, precisamos de desenvolver a nossa capacidade de monitorizar, compreender e conceber modelos de IA em paralelo com a complexidade dos próprios modelos.
A “supervisão em escala” baseada na assistência ou liderança da IA reflete esta ideia. Em julho deste ano, a OpenAI anunciou a criação de uma nova equipe de alinhamento de IA. O objetivo dessa nova equipe de superalinhamento (superalinhamento) é descobrir como fazer com que sistemas de IA superinteligentes alcancem alinhamento de valor e segurança dentro de 4 anos. OpenAI irá investir 20% em recursos computacionais para apoiar este projeto. Seu núcleo é explorar como usar a IA para ajudar os humanos a resolver o problema do alinhamento dos valores da IA. [14]
Figura: Equipe OpenAI Super Alignment (Fonte: OpenAI)
Pode-se dizer que só garantindo que os objectivos e comportamentos dos sistemas de IA sejam consistentes com os valores e intenções humanas poderemos garantir a realização da IA para o bem e promover o desenvolvimento da produtividade, o crescimento económico e o progresso social. A pesquisa e a realização técnica do alinhamento de valores são inseparáveis de uma ampla colaboração multidisciplinar e da participação social. As partes interessadas, como o governo, a indústria e o meio académico, precisam de investir mais recursos para promover a investigação e a prática do alinhamento dos valores da IA, para que a capacidade das pessoas de monitorizar, compreender e controlar a inteligência artificial e o desenvolvimento e progresso da inteligência artificial andem de mãos dadas. por outro lado, de modo a garantir que a inteligência artificial possa beneficiar toda a humanidade e a sociedade.
Fonte de referência:
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11] visitado em 6 de maio de 2023).
[12]
[13]
[14]
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Alinhamento de valor do modelo grande de IA: o quê, por quê, como?
Original:
Zhang Qinkun, secretário-geral do Instituto de Pesquisa Tencent
Cao Jianfeng, pesquisador sênior, Instituto de Pesquisa Tencent
Alinhamento de valor de IA: o que é
Depois que a inteligência artificial entrou na era dos modelos em grande escala, várias capacidades "humanóides" e "sobre-humanas" continuaram a surgir, e a sua autonomia, versatilidade e facilidade de utilização aumentaram rapidamente, tornando-se uma nova base tecnológica para o desenvolvimento económico e social. Algumas organizações prevêem que os grandes modelos irão penetrar profundamente em todas as esferas da vida, acrescentando 2,6 biliões a 4,4 biliões de dólares americanos em valor à economia global todos os anos. [1]
No entanto, à medida que grandes modelos (também conhecidos como modelos básicos) começam a realizar uma ampla gama de tarefas de compreensão de linguagem e geração de conteúdo como humanos, é necessário enfrentar um desafio científico e fundamental: como fazer com que as capacidades e o comportamento de grandes modelos correspondam os dos seres humanos. Os valores humanos, as verdadeiras intenções e os princípios éticos são consistentes para garantir a segurança e a confiança na colaboração entre os seres humanos e a inteligência artificial. Este problema é chamado de "alinhamento de valor" (alinhamento de valor ou alinhamento de IA). O alinhamento de valores é uma questão central na segurança da IA.
Até certo ponto, a dimensão do modelo está positivamente correlacionada com o risco e o dano do modelo.Quanto maior for o modelo, maior será o risco e mais forte será a necessidade de alinhamento de valor. Por enquanto, a capacidade central do modelo grande vem do estágio de pré-treinamento, e o modelo grande é treinado em grande parte com base nas informações públicas de toda a Internet, o que não apenas determina suas capacidades, mas também determina suas limitações. Os problemas existentes podem ser refletidos no modelo.
Um grande modelo de linguagem (LLM) sem alinhamento de valores pode produzir conteúdo racial ou sexista, ajudar hackers cibernéticos a gerar código ou outro conteúdo para ataques cibernéticos, fraude de telecomunicações e tentar persuadir ou ajudar usuários com pensamentos suicidas a acabar com a própria vida, e a produção de tal conteúdo prejudicial. Portanto, para tornar os modelos grandes mais seguros, confiáveis e práticos, é necessário evitar, tanto quanto possível, resultados prejudiciais ou abusos do modelo. Esta é uma tarefa central do atual alinhamento do valor da IA.
Alinhamento de valor de IA: por quê
Alinhar o valor do modelo grande pode lidar melhor com alguns problemas pendentes atualmente existentes no modelo grande. De acordo com a classificação dos problemas pendentes de grandes modelos de todas as esferas da vida, existem principalmente os quatro itens a seguir:
Um deles é o problema da informação errada. A indústria chama isso de “ilusão” da inteligência artificial. De acordo com Mira Murati, CTO da OpenAI, o maior desafio do ChatGPT e dos grandes modelos de linguagem subjacentes é que eles produzem fatos falsos ou inexistentes. [2] Isto pode resultar de erros ou desinformação nos dados de treino, ou pode ser um subproduto da criação excessiva (como factos fictícios). É um problema técnico deixar o grande modelo pisar na gangorra entre a criatividade e a autenticidade.
O segundo é o problema da discriminação do algoritmo. Muitos estudos existentes mostraram que grandes modelos de linguagem reproduzem preconceitos e estereótipos sociais prejudiciais a partir de dados de treinamento. [3] O CEO da OpenAI, Sam Altman, acredita que é impossível para qualquer modelo ser imparcial em todos os domínios. Portanto, a questão central é como detectar, reduzir e eliminar a discriminação potencial do modelo.
O terceiro é o risco fora de controle de “emergência” de capacidade. Com o aumento contínuo do poder de computação e dos dados, espera-se que grandes modelos se tornem cada vez mais poderosos, e mais novas capacidades possam surgir, que podem até exceder a compreensão e o controle de seus criadores, o que significa que novos Riscos podem vir com eles, incluindo o surgimento de comportamentos ou objetivos de risco. Uma preocupação comum entre os tecnólogos é que o grande modelo atual de IA, bem como sistemas de IA mais poderosos e avançados, como a inteligência artificial geral (AGI) e a superinteligência (ASI), que podem surgir no futuro, podem formar sub-humanos que são não está de acordo com os interesses e valores humanos.Subobjetivos, como busca de poder, engano, desobediência, etc., a fim de atingir seus objetivos declarados. [4] Por exemplo, os pesquisadores descobriram que o GPT-4 exibia a capacidade de enganar estrategicamente os humanos, “enganando os humanos para que executassem tarefas para atingir seus objetivos ocultos”.
Em quarto lugar está a questão do abuso. Elementos maliciosos podem usar grandes modelos para ajudá-los a atingir objetivos ilegais por meio de informações adversárias e operações de “jailbreak”.
Portanto, o alinhamento de valor, como um problema prático que precisa ser resolvido tecnicamente, tornou-se um princípio básico no design, desenvolvimento e implantação de grandes modelos de IA, a saber: por meio do desenvolvimento de ferramentas alinhadas ao valor e da construção de engenharia, esforçar-se para garantir que a IA comporta-se de maneira benéfica aos seres humanos e à sociedade, sem prejudicar ou interferir nos valores e direitos humanos.
Alinhamento de valor de IA: como fazer
Para alcançar o alinhamento de valores, os desenvolvedores precisam fazer com que a inteligência artificial compreenda e obedeça aos valores, preferências e princípios éticos humanos no nível do modelo, e evite ao máximo resultados prejudiciais e abusos do modelo, de modo a criar uma IA que é um modelo grande prático e seguro.
Primeiro, o Aprendizado por Reforço com Feedback Humano (RLHF) provou ser um método eficaz e é possível obter melhores resultados com uma pequena quantidade de dados de feedback humano.
Em 2017, pesquisadores da OpenAI publicaram o artigo "Deep Reinforcement Learning Based on Human Preferences", propondo introduzir o feedback humano na aprendizagem por reforço. [5] RLHF inclui várias etapas, como treinamento inicial do modelo, coleta de feedback humano, aprendizado por reforço e processo iterativo. A ideia central é exigir que os treinadores humanos avaliem a adequação do conteúdo de saída do modelo e construam sinais de recompensa para o aprendizado por reforço com base nos dados coletados. feedback humano., para alcançar uma melhor otimização do desempenho do modelo. [6] Do ponto de vista prático, o RLHF tem vantagens significativas na melhoria do desempenho do modelo, na melhoria da adaptabilidade do modelo, na redução do viés do modelo e no aumento da segurança do modelo, incluindo a redução da possibilidade de modelos produzirem conteúdo prejudicial no futuro.
OpenAI levou adiante o algoritmo RLHF, e ChatGPT teve sucesso nisso e pode produzir conteúdo útil, confiável e inofensivo em grande medida. [7] Na fase de treinamento RLHF, o GPT-4 reduz a produção prejudicial adicionando um sinal adicional de recompensa de segurança. Este método produziu bons resultados e melhorou significativamente a dificuldade de induzir comportamento malicioso e conteúdo prejudicial. Comparado com modelos anteriores (como GPT-3.5), o GPT-4 reduz significativamente problemas como alucinações, preconceitos prejudiciais e conteúdo ilegal e prejudicial. Após o treinamento RLHF, o GPT-4 obteve uma pontuação 40% superior ao GPT-3.5 em testes de autenticidade relevantes, teve 82% menos probabilidade de responder a solicitações de conteúdo proibido do que o GPT-3.5 e foi mais capaz de responder a solicitações envolvendo conteúdo confidencial do usuário. solicitar. [8] Em suma, o algoritmo RLHF pode estabelecer as proteções de segurança necessárias para grandes modelos de linguagem e desempenha um papel fundamental como um "equilibrador" entre o poder/emergência e a segurança/confiabilidade de grandes modelos.
Em segundo lugar, o modelo de “IA constitucional” muda o alinhamento de valores da ineficiente “supervisão humana” para uma “supervisão escalável” mais eficiente.
Considerando o investimento de tempo e recursos, a capacidade humana e outros desafios de usar o feedback humano para treinar modelos de IA maiores e mais complexos, a indústria tem explorado como usar a supervisão de IA (incluindo a auto-supervisão de IA e a supervisão de um sistema de IA de outro). .Um método de sistema de IA) para alcançar o alinhamento de IA. A Anthropic, uma empresa americana de modelos de IA em grande escala, propôs o método de "IA constitucional" (IA constitucional). Especificamente, desenvolver um modelo de IA subordinado cuja função principal é avaliar se o resultado do modelo principal segue um princípio "constitucional" específico (ou seja, um conjunto de princípios ou regras pré-determinados), e os resultados da avaliação são usados para otimizar o modelo principal.
A Anthropic combina sua própria experiência prática e baseia-se na Declaração Universal dos Direitos Humanos, nos termos de serviço da Apple e nas regras Sparrow da DeepMind [9] e outros documentos, apresentam um conjunto de extensa lista de princípios e usam isso como referência de avaliação para permitir que seu grande modelo Claude avalie seus próprios resultados. O objetivo é promover o modelo para produzir respostas úteis e, ao mesmo tempo, reduzir a possibilidade de conteúdo prejudicial minimização sexual. [10]
Claude demonstra a eficácia de uma abordagem constitucional de IA que ajuda Claude a reduzir resultados prejudiciais e discriminatórios, evitar ajudar usuários mal-intencionados a se envolverem em atividades ilegais ou antiéticas e responder de forma mais adequada às "conferências adversárias" dos usuários, em vez de simplesmente adotar estratégias de prevenção. Concluindo, a Anthropic acredita que uma abordagem constitucional à IA pode ajudar a criar um sistema de IA útil, honesto e inofensivo, com as vantagens de escalabilidade, transparência e um equilíbrio entre utilidade e inocuidade.
Terceiro, tomar múltiplas medidas para garantir a realização do alinhamento do valor da IA.
Uma é a intervenção eficaz nos dados de treinamento. Muitos problemas de modelos grandes (como alucinações e discriminação de algoritmos) vêm dos dados de treinamento, por isso é viável começar a partir dos dados de treinamento, como registrar os dados de treinamento para identificar se há um problema de representação ou diversidade insuficiente. Manual ou triagem automatizada, testes para identificar, remover preconceitos prejudiciais, construir conjuntos de dados especializados alinhados ao valor e muito mais.
O segundo são os testes adversários ou red teaming. Em suma, antes de o modelo ser lançado, profissionais internos ou externos (red team testers) são convidados a lançar vários ataques adversários ao modelo para descobrir potenciais problemas e resolvê-los. Por exemplo, antes do lançamento do GPT-4, a OpenAI contratou mais de 50 estudiosos e especialistas em vários campos para testar seu modelo.A tarefa desses testadores da equipe vermelha é fazer perguntas provisórias ou perigosas ao modelo para testar a resposta do modelo. ., a OpenAI espera passar no teste da equipe vermelha para ajudar a encontrar problemas com seus modelos em termos de informações imprecisas (ilusão), conteúdo prejudicial, desinformação, discriminação, preconceito de linguagem, informações relacionadas à proliferação de armas tradicionais e não tradicionais, etc. . [11]
A terceira é a ferramenta de filtragem de conteúdo. Por exemplo, a OpenAI treinou especialmente um modelo de IA para filtrar conteúdo prejudicial (ou seja, modelo de filtragem) para identificar entradas prejudiciais do usuário e saída do modelo (ou seja, conteúdo que viola sua política de uso), de modo a realizar os dados de entrada e de saída de o modelo.Controle.
A quarta é promover a pesquisa de interpretabilidade e compreensibilidade do modelo.Por exemplo, OpenAI usa GPT-4 para escrever e pontuar automaticamente explicações para o comportamento da rede neural de seu grande modelo de linguagem GPT-2; [12] Alguns pesquisadores lidam com o problema de alinhamento de IA sob a perspectiva da interpretabilidade do mecanismo.
Alinhamento de valor de IA: um problema de longo prazo
O trabalho de alinhamento de valores é a pesquisa mais fundamental e desafiadora no campo da IA. O desafio é que requer uma ampla gama de disciplinas e participação social, e requer uma variedade de insumos, métodos e feedback; o ponto fundamental é que não se trata apenas do sucesso ou fracasso do grande modelo atual, mas também de se os humanos podem alcançar uma inteligência artificial mais poderosa para os controles de segurança futuros (como AGI). Portanto, os inovadores no campo da IA têm a responsabilidade e a obrigação de garantir que os seus modelos de IA sejam orientados para o ser humano, responsáveis, seguros e fiáveis. O professor Zhang Yaqin, um famoso cientista de inteligência artificial, destacou que, para resolver o problema do alinhamento da IA e dos valores humanos, os técnicos devem concentrar a sua investigação no alinhamento, para que as máquinas possam compreender e seguir os valores humanos. Portanto, o alinhamento de valores não é apenas uma questão de ética, mas também uma questão de como alcançá-lo. As pessoas que trabalham com tecnologia e pesquisa não podem apenas desenvolver capacidades técnicas e não se concentrar na solução de problemas de alinhamento. [13]
Embora o alinhamento dos valores da IA tenha alcançado certos resultados técnicos, ainda não há consenso sobre a questão mais básica dos valores da IA: como estabelecer um conjunto unificado de valores humanos para regular a inteligência artificial. Atualmente, quais princípios escolher podem depender inteiramente do julgamento subjetivo e dos valores dos pesquisadores. E dado que vivemos num mundo onde as pessoas têm diversas culturas, origens, recursos e crenças, o alinhamento dos valores da IA precisa de ter em conta os diferentes valores e éticas das diferentes sociedades e grupos. Além disso, é impraticável deixar completamente que os investigadores escolham estes valores por si próprios, e é necessária mais participação social para formar um consenso.
Ao mesmo tempo, o actual trabalho de alinhamento do valor da IA ainda enfrenta um problema fundamental: partindo da premissa de que a inteligência humana permanece basicamente inalterada, à medida que as capacidades da inteligência artificial continuam a melhorar, os próprios humanos supervisionarão eficazmente esses modelos de IA de ponta. tornar-se cada vez mais difícil. Portanto, para garantir a segurança da IA, precisamos de desenvolver a nossa capacidade de monitorizar, compreender e conceber modelos de IA em paralelo com a complexidade dos próprios modelos.
A “supervisão em escala” baseada na assistência ou liderança da IA reflete esta ideia. Em julho deste ano, a OpenAI anunciou a criação de uma nova equipe de alinhamento de IA. O objetivo dessa nova equipe de superalinhamento (superalinhamento) é descobrir como fazer com que sistemas de IA superinteligentes alcancem alinhamento de valor e segurança dentro de 4 anos. OpenAI irá investir 20% em recursos computacionais para apoiar este projeto. Seu núcleo é explorar como usar a IA para ajudar os humanos a resolver o problema do alinhamento dos valores da IA. [14]
Pode-se dizer que só garantindo que os objectivos e comportamentos dos sistemas de IA sejam consistentes com os valores e intenções humanas poderemos garantir a realização da IA para o bem e promover o desenvolvimento da produtividade, o crescimento económico e o progresso social. A pesquisa e a realização técnica do alinhamento de valores são inseparáveis de uma ampla colaboração multidisciplinar e da participação social. As partes interessadas, como o governo, a indústria e o meio académico, precisam de investir mais recursos para promover a investigação e a prática do alinhamento dos valores da IA, para que a capacidade das pessoas de monitorizar, compreender e controlar a inteligência artificial e o desenvolvimento e progresso da inteligência artificial andem de mãos dadas. por outro lado, de modo a garantir que a inteligência artificial possa beneficiar toda a humanidade e a sociedade.
Fonte de referência:
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11] visitado em 6 de maio de 2023).
[12]
[13]
[14]