ChatGPT quebra o teste de Turing, é hora de encontrar uma nova maneira de avaliar a tecnologia de IA

2023-07-27 06:06:22

**Fonte:**AI Frontline

** autor | Celeste Biever**

Tradutor｜Nucle-Cola

Planejamento｜Dongmei

Fonte da imagem: Gerada pela ferramenta Unbounded AI, modelo geral (corte de papel)

Grandes modelos de linguagem têm excelentes capacidades de simulação de linguagem humana, mas os cientistas ainda estão divididos em seu desempenho de inferência.

Em 25 de julho, a "Nature" afirmou em um artigo que o ChatGPT quebrou o teste de Turing e é hora de habilitar outros novos métodos para avaliar a tecnologia de inteligência artificial.

O sistema de inteligência artificial (IA) mais forte do mundo pode passar em exames rigorosos, escrever artigos convincentes e participar de bate-papos sem problemas. Muitas pessoas nem conseguem distinguir entre IA e humanos em termos de expressão de linguagem. Existe alguma coisa que eles não podem fazer? Claro que existem, e são questões muito simples.

Uma série de gráficos coloridos são organizados na tela, e a maioria das pessoas pode descobrir rapidamente a resposta para esse tipo de teste de lógica visual. Mas como a luz da tecnologia por trás do robô de bate-papo ChatGPT e do mecanismo de busca Bing, e a maior obra-prima da IA atual, o GPT-4 é obviamente incapaz de fazer o que deseja. Um estudo em maio deste ano mostrou que o GPT-4 estava correto apenas um terço das vezes em um tipo de teste de padrão e apenas 3% no outro.

A equipe de pesquisa por trás do quebra-cabeça lógico espera que o teste forneça uma referência melhor para sistemas de IA e ajude a resolver as deficiências inerentes de grandes modelos de linguagem, como o GPT-4. Resumindo: no teste de linguagem, o grande modelo de linguagem completou facilmente o feito de inteligência que antes era considerado um marco; mas no teste de lógica visual, seu desempenho é bastante fraco, há pontos cegos óbvios e não podem ser baseados na abstração.Conceitos fazem inferências.

"Praticantes no campo da IA estão enfrentando o difícil problema de avaliar grandes sistemas de modelos de linguagem", diz Melanie Mitchell, cientista da computação do Santa Fe Research Institute, no Novo México. Para esse fim, sua equipe montou este conjunto de problemas lógicos.

Nos últimos dois ou três anos, o grande modelo de linguagem esmagou completamente o sistema de IA anterior em termos de recursos de multitarefa cruzada. Seu princípio de funcionamento é simples: com base nos bilhões de frases on-line a que foram expostos durante o treinamento, eles resumem a correlação estatística entre cada palavra e, em seguida, geram uma próxima palavra razoável para um determinado texto de entrada. Para chatbots construídos sobre modelos de linguagem grandes, um elemento adicional é adicionado: os treinadores humanos fornecem feedback extensivo, ajustando assim como o bot responde.

Vale a pena notar que os algoritmos treinados em tais grandes corpora de linguagem humana com propriedades semelhantes ao autocompletar demonstraram com sucesso uma ampla gama de recursos de resolução de problemas. Embora os sistemas legados de IA possam superar grandes modelos de linguagem em uma tarefa específica, os primeiros devem ser treinados em quantidades específicas do problema, e essa capacidade não pode ser transferida rapidamente de uma tarefa para outra.

De um modo geral, os pesquisadores nesses dois campos têm visões diametralmente opostas sobre como grandes modelos de linguagem funcionam sob o capô, diz Tomer Ullman, cientista cognitivo da Universidade de Harvard. Alguns atribuem as conquistas do algoritmo ao raciocínio ou compreensão genuínos, mas outros (incluindo o próprio Ullman e pesquisadores como Mitchell acima) são mais cautelosos.

De acordo com Ullamn, “ambos os lados deste debate são brilhantes e de alto nível”. "Afinal, não há detector inteligente estável e confiável como um contador Geiger, que pode dar claramente a resposta de inteligência ou não inteligência."

Pesquisadores de ambos os lados da discussão dizem que confiar em testes como questões de lógica para revelar diferenças de capacidades entre humanos e sistemas de IA deve ser um passo importante na direção certa. Brenden Lake, cientista de computação cognitiva da Universidade de Nova York, diz que esses benchmarks também podem ajudar a revelar recursos que estão faltando nos sistemas de aprendizado de máquina atuais e esclarecer do que exatamente é feita a inteligência humana.

Além disso, este teste de grandes modelos de linguagem e pesquisa de capacidade de referência tem outro significado prático. Mitchell apontou que, se você deseja aplicar grandes modelos de linguagem a cenários do mundo real, como medicina e direito, deve primeiro esclarecer onde estão os limites de suas capacidades. "Temos que descobrir o que pode e o que não pode fazer antes de podermos julgar como usá-lo com segurança."

O teste de Turing está obsoleto?

No campo de teste de inteligência de máquina, o esquema mais famoso sempre foi o teste de Turing. O teste foi proposto pelo matemático britânico e pioneiro da computação Alan Turing em 1950, quando os computadores ainda estavam em sua infância. Turing propôs um método de avaliação do chamado "jogo da imitação" Neste cenário, o árbitro humano tem um pequeno diálogo de texto com o computador e o humano escondido atrás da tela para ver se consegue identificar com precisão a máquina e o humano. . Turing acreditava que isso deveria responder à pergunta "As máquinas têm a capacidade de pensar?"

Mitchell apontou que Turing não especificou muitos detalhes sobre o cenário, então não havia regras exatas a serem seguidas. De acordo com François Chollet, engenheiro de software do Google, "o teste de Turing não é um teste concreto que pode realmente ser executado em uma máquina - é mais um experimento mental".

Mas essa visão de usar a linguagem para testar se uma máquina tem a capacidade de pensar está profundamente enraizada no campo da tecnologia. Durante décadas, o empresário e filantropo Hugh Loebner financiou o evento anual Turing Test, conhecido como Prêmio Loebner. Mas o cientista da computação Rob Wortham disse que a campanha parou depois de 2019 porque o financiamento para a campanha acabou após a morte do próprio Loebner. Wortham é codiretor da UK Society for Artificial Intelligence and Behavioral Simulation Research, que organiza a competição em nome de Loebner desde 2014. Ele explicou que o modelo de linguagem grande agora basicamente tem a capacidade de enganar os humanos, então o Prêmio Loebner foi forçado a parar na véspera da decolagem total do modelo de linguagem grande, que é um humor negro.

Outros pesquisadores também acreditam que grandes modelos de linguagem, como o GPT-4, já têm a capacidade de passar no teste de Turing. Pelo menos em conversas curtas, provavelmente é difícil para a maioria das pessoas dizer quem é humano e quem é um grande modelo. Em maio, pesquisadores do laboratório AI21 em Tel Aviv, Israel, relataram que mais de 1,5 milhão de pessoas jogaram um jogo online baseado no teste de Turing. Os usuários participarão de um bate-papo de dois minutos com outro usuário ou com um grande modelo de linguagem disfarçado de pessoa real com base nas solicitações dos pesquisadores. A probabilidade de o jogador identificar corretamente o robô é de apenas 60%, o que é quase o mesmo que uma adivinhação completamente aleatória3.

No entanto, os pesquisadores mais familiarizados com modelos de linguagem grandes ainda podem distinguir os chatbots de vários detalhes. Chollet observou que descobriu que era fácil detectar quem era um grande modelo de linguagem simplesmente explorando as fraquezas conhecidas do sistema. "Se eu me colocasse à prova para ver se estava falando com um grande modelo de linguagem, com certeza obteria a resposta certa."

A chave é deixar o grande modelo de linguagem sair de sua zona de conforto. Seu truque é propor cenários diferenciados para o modelo de linguagem grande do que os cenários de treinamento comuns. Na maioria dos casos, o modelo de linguagem grande está gerando a palavra mais provável com base nos dados de treinamento, em vez de realmente dar a resposta correta de acordo com a nova cena.

Além disso, Chollet e outros são céticos em relação a esse método de teste baseado em desempenho enganoso. “Isso obviamente existe para enganar os árbitros humanos.” Esses testes apenas encorajarão os desenvolvedores a instilar mais habilidades de camuflagem na IA e não inspirarão funções mais úteis ou interessantes.

Os benchmarks não são confiáveis

Os pesquisadores costumam avaliar os sistemas de IA com benchmarks que avaliam habilidades específicas, como linguagem, raciocínio de bom senso e matemática, e as equipes de tecnologia estão cada vez mais adotando exames acadêmicos e profissionais projetados para humanos.

Quando o GPT-4 foi lançado pela primeira vez em março, a empresa OpenAI, com sede em San Francisco, Califórnia, avaliou o desempenho do novo modelo em uma série de benchmarks projetados para máquinas, incluindo compreensão de leitura, matemática e codificação. Conforme relatado pela OpenAI, o GPT-4 teve um bom desempenho na maioria dos testes4. Eles também definiram cerca de 30 exames para o GPT-4, incluindo: uma variedade de exames para alunos do ensino médio americano, conhecido como Advanced Placement; um exame para avaliar o conhecimento clínico de médicos americanos; e os critérios usados no processo de seleção para graduados americanos teste de alunos (GRE). O GPT-4 conseguiu pontuar entre os 10% melhores no Exame da Ordem Uniforme (que está incluído no exame da ordem em vários estados dos EUA).

Desempenho do sistema AI - Trecho dos resultados

Fonte: OpenAI/ Referência 4

O percentil de classificação aqui é a posição dos candidatos humanos que alcançaram essa pontuação entre todos os assuntos.

Mitchell reconhece que "alguns modelos de linguagem se saem bem nesses benchmarks. Mas, na maioria dos casos, não é que eles superam os humanos em capacidade geral, mas sim que os próprios benchmarks têm limitações". modelo foi treinado em uma grande quantidade de material de texto, é provável que problemas semelhantes tenham sido observados nos dados de treinamento. As conclusões de benchmarking tiradas nesta situação são chamadas de "poluição" e obviamente não são confiáveis.

A OpenAI diz que verificou isso procurando strings semelhantes nos dados do problema e do treinamento. Testar grandes modelos de linguagem antes e depois de remover strings semelhantes mostra pouca mudança no desempenho. Isso sugeriu que as pontuações extremamente altas não tinham nada a ver com a poluição, mas alguns pesquisadores questionaram se o teste era suficientemente rigoroso.

Sam Bowman é um cientista de tecnologia de linguagem da Universidade de Nova York que também trabalha na Anthropic, uma empresa de IA em São Francisco. Ele alertou contra simplesmente aceitar as pontuações do teste GPT-4 como resultado de "ver problemas semelhantes" e negar a capacidade do GPT-4. Em sua opinião, "a conversa sobre poluição complica um pouco a situação, mas não acho que realmente afete o quadro geral".

Os pesquisadores também apontaram que a capacidade de grandes modelos de linguagem para obter notas altas em exames também é relativamente frágil e pode não ser capaz de ser transformada na capacidade de fazer julgamentos corretos no mundo real. De acordo com Mitchell, apenas um pequeno ajuste nas questões do exame pode tornar modelos grandes inaceitáveis. Por exemplo, ela pegou uma pergunta de um exame de MBA que o ChatGPT passou e mudou um pouco. Os humanos poderiam facilmente ajustar a resposta de acordo com a mudança, mas o ChatGPT falhou miseravelmente.

Há outro problema mais profundo quando se trata de decifrar as implicações do benchmarking. Para os humanos, pontuações altas nesses testes geralmente representam um forte nível de inteligência - na verdade, o próprio nível de inteligência também é um conceito vago, refletido principalmente na capacidade de adaptação a diferentes ambientes mostrados em uma série de tarefas. Em outras palavras, uma pontuação alta em um teste demonstra que a pessoa tem boas habilidades cognitivas e um bom domínio de certos conceitos abstratos. Mas este não é o caso de grandes modelos de linguagem. Mitchell enfatizou que o método de julgamento de grandes modelos é muito diferente do dos humanos: "Na maioria dos casos, os sistemas de IA não estão raciocinando da maneira que os humanos estão familiarizados".

Isso pode ocorrer porque grandes modelos de linguagem só podem aprender com a experiência da linguagem; devido à falta de canais para se conectar com o mundo real, eles não podem experimentar a conexão entre linguagem e objetos, atributos e emoções como os humanos. "Está claro que eles não entendem as palavras da mesma forma que os humanos", diz Lake. Em sua opinião, as evidências atuais sugerem que grandes modelos de linguagem "podem usar a linguagem com muita fluência sem realmente entender o que estão dizendo".

Por outro lado, grandes modelos de linguagem também mostraram algumas habilidades que os humanos não possuem, como entender a conexão entre quase todas as palavras que os humanos escrevem. Mitchell disse que isso pode significar que o modelo está contando com certas características de linguagem ou outros indicadores para resolver o problema, sem a necessidade de compreender a capacidade de raciocínio mais ampla.

Nick Ryder, pesquisador da OpenAI, concorda com esse julgamento, dizendo que o desempenho da IA em um único teste não é suficiente para provar sua capacidade geral como seres humanos. "Não acho que as pessoas devam comparar diretamente as pontuações humanas com as pontuações de grandes modelos de linguagem." As pontuações divulgadas pela OpenAI "não descrevem a habilidade semelhante à humana ou o nível de raciocínio humano de modelos de linguagem ampla, mas simplesmente mostram que esses modelos têm bom desempenho nessas tarefas."

Além dos tradicionais benchmarks de máquinas e exames profissionais humanos, os pesquisadores também exploraram grandes modelos de linguagem de forma mais ampla. Em março deste ano, Sébastien Bubeck da Microsoft Research e seus colegas lançaram a versão 5 pré-publicada intitulada "Spark of General Artificial Intelligence: GPT-4 Early Experiments", que causou discussões acaloradas na indústria. Usando uma versão inicial do GPT-4, eles documentaram um conjunto surpreendente de recursos, muitos dos quais não estavam direta ou explicitamente vinculados ao idioma. Uma característica notável é que ele passa nos testes usados para avaliar as teorias psicológicas. A teoria psicológica é uma capacidade humana central de prever e raciocinar sobre os estados mentais dos outros. “Dada a amplitude e profundidade das capacidades do GPT-4, temos motivos para acreditar que ele já representa uma versão inicial (mas ainda não perfeita) de um sistema de inteligência artificial geral (AGI)”, escreveram eles no artigo.

Mas o próprio Bubeck esclareceu mais tarde, enfatizando que "o GPT-4 certamente não pensa como um humano e tem sua própria maneira única e diferente de implementar qualquer função que exiba".

Mitchell acredita que, embora o relatório seja bastante radical, ele não explora sistematicamente as capacidades de grandes modelos de linguagem. "Isso é mais como um estudo antropológico." Ullman também disse que, para provar que as máquinas podem dominar as teorias psicológicas, pelo menos elas devem fornecer evidências do processo cognitivo subjacente correspondente, em vez de simplesmente confiar na máquina para produzir a mesma resposta. como humanos. Afirmação grosseira.

Pesquisadores de IA acreditam que é necessário um escrutínio mais amplo e rigoroso para entender os pontos fortes e fracos de grandes modelos de linguagem. O problema da lógica das cores pode ser uma parte importante disso.

Novos quebra-cabeças

Em 2019, pouco antes da explosão de grandes modelos de linguagem, Chollet lançou um novo conjunto de testes lógicos especialmente compilados para sistemas de IA na Internet, chamado Abstract and Reasoning Corpus (ARC). O solucionador é apresentado a uma demonstração visual na qual várias grades quadradas se transformam em outro padrão, que instrui a próxima grade como mudar para demonstrar que eles entenderam as regras de mudança. "É um teste de nossa capacidade de adaptação a coisas que nunca vimos antes", diz Chollet, que acredita que essa capacidade de encontrar padrões é a essência da inteligência.

De acordo com Lake, o ARC captura "a marca registrada da inteligência humana": abstrair do conhecimento cotidiano e aplicá-lo a problemas nunca antes vistos.

Chollet organizou uma competição de robótica ARC em 2020, antes que grandes modelos de linguagem ganhassem força generalizada. O sistema de IA vencedor foi especificamente treinado para ser bom em tarefas como ARC. Mas, ao contrário do modelo de linguagem grande, ele não tem uma função geral e respondeu corretamente a apenas 21% das perguntas. Em comparação, os humanos resolvem problemas de ARC corretamente em 80% das vezes7. Atualmente, várias equipes de pesquisa estão usando o ARC para testar os recursos de grandes modelos de linguagem e nenhuma chegou perto do desempenho humano.

Mitchell e seus colegas desenvolveram um novo conjunto de quebra-cabeças (chamado ConceptARC) inspirado no ARC, com duas diferenças principais. O ConceptARC é ainda mais fácil: a equipe de Mitchell queria que os benchmarks refletissem os avanços nas capacidades da máquina, mesmo que apenas um pouco. Em segundo lugar, a equipe selecionou conceitos específicos para testar e, em seguida, criou uma série de variações de quebra-cabeça relacionadas ao tema de cada conceito.

Por exemplo, para testar o conceito de identidade, um problema exige que o solucionador mantenha objetos da mesma forma no lugar e outro problema exige que o solucionador alinhe objetos da mesma forma ao longo de um eixo. A ideia é reduzir as chances de um sistema de IA passar em um teste sem entender o conceito.

O que significa baixo desempenho?

Os pesquisadores lançaram a tarefa ConceptARC para GPT-4 e recrutaram 400 indivíduos. Os seres humanos obtiveram uma média de 91% em todos os grupos de conceitos (97% para o grupo de pontuação mais alta); 33% para o grupo GPT-4 com pontuação mais alta e não mais que 30% para os grupos de conceitos restantes.

"Mostramos que a máquina ainda fica aquém da inteligência humana", disse Mitchell, "mas, surpreendentemente, ela foi capaz de resolver alguns desses problemas, apesar de nunca ter sido treinada neles".

A equipe também testou robôs que venceram a competição Chollet, que não são sistemas de capacidade geral como modelos de linguagem grande, mas foram treinados especificamente para problemas de visão como o ARC. No geral, eles tiveram um desempenho melhor do que o GPT-4, mas ainda inferior aos humanos, marcando 77% no grupo de melhor conceito, mas abaixo de 60% na maioria dos grupos de conceito1.

No entanto, Bowman acredita que o fracasso do GPT-4 em passar no treinamento do ConceptARC não prova que ele carece de capacidades de raciocínio abstrato em potencial. Em sua opinião, há um viés entre o ConceptARC e o GPT-4, que afinal é um teste visual. "Mesmo que esses modelos sejam realmente bons nesse tipo de raciocínio conceitual, é improvável que eles se saiam bem em tais testes na primeira vez."

A limitação do método de teste também pode ser o fator de influência do mau desempenho do GPT-4. A versão pública do Big Language Model só pode aceitar entrada de texto, então os pesquisadores enviaram matrizes de números que descrevem as imagens. (Por exemplo, um pixel em branco pode ser representado por um 0 e um quadrado colorido pode ser representado por um número correspondente.) Em contraste, sujeitos humanos foram capazes de ver a imagem diretamente. Mitchell também admite: "Estamos comparando um sistema de linguagem puro com um humano, e os humanos têm um sistema visual altamente desenvolvido, então temo que a comparação não seja totalmente justa."

A OpenAI construiu uma versão "multimodal" do GPT-4 que pode aceitar entrada de imagem diretamente. A equipe de Mitchell está esperando que a tecnologia seja formalmente divulgada para que possa fazer outra rodada do ConceptARC. Mas ela não acha que o GPT-4 multimodal seja muito melhor: "Não acho que esses sistemas ainda tenham o nível de abstração e raciocínio comparável aos humanos".

Sam Acquaviva, um cientista cognitivo computacional do Instituto de Tecnologia de Massachusetts, concorda. E o padrão é limitado a uma única linha em vez de grade8. Isso deve remover alguns dos problemas de injustiça, mas Acquaviva vê que, embora o desempenho do GPT-4 tenha melhorado, também não é suficiente para demonstrar entendimento de regra confiável e raciocínio para grandes modelos de linguagem.

argumento de raciocínio

Bowman também mencionou alguns outros experimentos.De acordo com os resultados abrangentes, o modelo de linguagem grande pelo menos dominou a capacidade básica de raciocinar sobre conceitos abstratos. Em um caso, o cientista da computação de Harvard Kenneth Li e seus colegas usaram uma versão digital do Reversi, na qual os jogadores colocam peças em preto e branco em uma grade de 8 x 8. Eles esperam avaliar se grandes modelos de linguagem dependem de relações estatísticas linguísticas memorizadas para gerar texto ou se podem realmente construir representações internas de fenômenos como os humanos.

Após submeter um conjunto de treinamento de ações de jogadores humanos ao grande modelo de linguagem, a IA dominou rapidamente a capacidade de escolher a estratégia correta para o próximo movimento. Os pesquisadores acreditam que isso mostra que o modelo de linguagem grande pode até entender a situação no tabuleiro de xadrez e dar sugestões de jogadas de xadrez com base nos recursos atuais, o que obviamente rompe os grilhões da forma de texto9.

Bowman admite que a capacidade de raciocínio de grandes modelos de linguagem pode ser descrita como "vária" em geral e não atinge o auge do raciocínio humano. Mas ele acha que a capacidade de raciocínio existe e parece melhorar com o tamanho do modelo. Em outras palavras, os futuros modelos de linguagem grande terão um desempenho cada vez melhor. "Esses sistemas não são tão confiáveis ou gerais quanto gostaríamos que fossem, e eles estão completamente confusos sobre certos tipos de raciocínio abstrato. Mas acho que suas habilidades fundamentais de raciocínio existem objetivamente."

Pesquisadores como Bowman e Mitchell também concordam que a melhor forma de testar grandes modelos de linguagem para raciocínio abstrato e outros indicadores de inteligência permanece uma questão em aberto. Michael Frank, um cientista cognitivo da Universidade de Stanford, acredita que não existe um único teste abrangente que possa substituir completamente o teste de Turing. Em vez disso, ele argumenta que os pesquisadores precisam elaborar testes extensivos para quantificar os pontos fortes e fracos de vários sistemas. "Esses agentes são ótimos, eles são falhos de várias maneiras, então o mais importante é explorar isso sistematicamente."

Wortham aconselha aqueles que são novos em sistemas de IA a ficarem longe da obsessão com o antropomorfismo. "Sempre tentamos entender qualquer coisa que mostre inteligência como humano, o que é realmente desnecessário."

"É até amaldiçoado, o que significa que não podemos imaginar nenhuma forma de inteligência que exiba uma orientação de objetivo clara diferente da nossa. Estamos sempre pensando que isso acontece da mesma maneira profunda de pensar que nós."

referências:

Moskvichev, A., Odouard, VV & Mitchell, M. Pré-impressão em (2023).

Turing, AM Mind LIX, 433-460 (1950).

Artigo Google Acadêmico

Jannai, D., Meron, A., Lenz, B., Levine, Y. & Shoham, Y. Pré-impressão em (2023).

OpenAI. Pré-impressão em (2023).

Bubeck, S. et ai. Pré-impressão em (2023).

Chollet, F. Pré-impressão em (2019).

Johnson, A., Vong, WK, Lake, BM & Gureckis, TM Pré-impressão em (2021).

Xu, Y., Li, W., Vaezipoor, P., Sanner. S. & Khalil, EB Preprint at (2023).

Li, K. et ai. Proc. Décima Primeira Int. conf. Aprender. Representar. (2023).

Link original:

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
BTC Hits New High
74k Popularidade
ETH Breaks $3,000
28k Popularidade
VIP Exclusive Airdrop Carnival
9k Popularidade
4Pump.Fun Debuts on Gate
4k Popularidade
5Fed June Meeting Minutes
4k Popularidade
6Join Gate VIP to Win MacBook
29k Popularidade
7Trump Tariff Hikes
16k Popularidade
8Gate xStocks Trading Share
22k Popularidade
9HK Stablecoin Rules
12k Popularidade
10Truth Social Crypto ETF
2k Popularidade

Pino