A IA consegue entender o que ela gera? Depois de experiências com GPT-4 e Midjourney, alguém resolveu o caso

Question

Fonte do artigo: Heart of the MachineEditar: Prato grande de frango, molho de ovo> Sem «compreensão», não pode haver «criação».![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1699088713/Frj5XEx_RLitHEYwOR5CssjlqHEX.png) *Fonte da imagem: Gerada por Unbounded AI*Do ChatGPT ao GPT4, do DALL・E 2/3 ao Midjourney, a IA generativa atraiu uma atenção global sem precedentes. O potencial da IA é enorme, mas uma grande inteligência também pode causar medo e preocupação. Recentemente, tem havido um debate aceso sobre esta questão. Primeiro, os vencedores de Turing "brigaram", e depois Andrew Ng se juntou.No campo da linguagem e da visão, os modelos generativos de hoje podem ser produzidos em questão de segundos e podem desafiar até mesmo especialistas com anos de habilidades e conhecimentos. Isso parece fornecer uma motivação convincente para a alegação de que os modelos superaram a inteligência humana. No entanto, também é importante notar que muitas vezes há erros básicos de compreensão na saída do modelo.Desta forma, um paradoxo parece emergir: como conciliar as habilidades aparentemente sobre-humanas desses modelos com os erros fundamentais que persistem e que a maioria dos humanos pode corrigir?Recentemente, a Universidade de Washington e o Allen Institute for AI lançaram conjuntamente um artigo para estudar este paradoxo.![](https://appserversrc.8btc.cn/FpX4d1rJntUgGSw_gBBuHxgGsGPX) Endereço:Este artigo argumenta que esse fenômeno ocorre porque a configuração de capacidade nos modelos generativos atuais se desvia da configuração da inteligência humana. Este artigo propõe e testa a hipótese paradoxal da IA generativa: os modelos generativos são treinados para produzir diretamente resultados semelhantes aos dos especialistas, um processo que ignora a capacidade de compreender a capacidade de gerar essa saída de qualidade. No entanto, para os seres humanos, isso é muito diferente, e a compreensão básica é muitas vezes um pré-requisito para capacidades de saída de nível especializado.Neste artigo, os pesquisadores testam essa hipótese por meio de experimentos controlados e analisam a capacidade do modelo generativo de gerar e entender texto e visão. Neste artigo, falaremos primeiramente sobre a conceituação de "compreensão" de modelos generativos a partir de duas perspetivas:* 1) Dada uma tarefa de geração, até que ponto o modelo pode selecionar a resposta correta na versão discriminante da mesma tarefa;* 2) Dada uma resposta gerada corretamente, até que ponto o modelo pode responder ao conteúdo e às perguntas sobre essa resposta. Isso resulta em duas configurações experimentais, seletiva e interrogatória.Os pesquisadores descobriram que, na avaliação seletiva, o modelo muitas vezes teve um desempenho tão bom ou melhor do que os humanos na configuração da tarefa de geração, mas na configuração discriminante (compreensão), o modelo teve um desempenho menor do que os humanos. Uma análise mais aprofundada mostra que, em comparação com o GPT-4, a capacidade de discriminação humana está mais intimamente relacionada com a capacidade generativa, e a capacidade de discriminação humana é mais robusta para a entrada adversarial, e a lacuna entre o modelo e a capacidade de discriminação humana aumenta com o aumento da dificuldade da tarefa.Da mesma forma, em avaliações interrogativas, enquanto os modelos podem produzir resultados de alta qualidade em diferentes tarefas, os pesquisadores observaram que os modelos muitas vezes cometem erros ao responder perguntas sobre esses resultados, e que a compreensão do modelo é novamente menor do que a dos seres humanos. Este artigo discute uma série de razões potenciais para a divergência entre modelos generativos e humanos em termos de configuração de capacidade, incluindo objetivos de treinamento de modelos, o tamanho e a natureza dos inputs.O significado desta pesquisa é que, em primeiro lugar, significa que os conceitos existentes de inteligência derivados da experiência humana podem não ser generalizáveis para a IA, e mesmo que as capacidades da IA pareçam imitar ou superar a inteligência humana de muitas maneiras, suas capacidades podem ser fundamentalmente diferentes dos padrões esperados dos seres humanos. Por outro lado, as descobertas deste artigo também sugerem cautela ao estudar modelos generativos para obter informações sobre a inteligência e cognição humanas, já que saídas aparentemente semelhantes a humanos de nível especializado podem obscurecer mecanismos não humanos. Em conclusão, o paradoxo da IA generativa encoraja as pessoas a estudar modelos como uma antítese interessante da inteligência humana, em vez de como uma antítese paralela."O paradoxo da IA generativa destaca a noção interessante de que os modelos de IA podem criar conteúdo que eles próprios podem não entender completamente. Isso levanta os problemas potenciais por trás das limitações da compreensão da IA e suas poderosas capacidades geradoras." Internautas disseram.![](https://appserversrc.8btc.cn/Fm7pO0ct1pT3ENFgSqZgauWjdNNw)   ## **O que é o paradoxo da IA generativa**  Vamos começar olhando para o paradoxo da IA generativa e o design experimental para testá-lo.![](https://appserversrc.8btc.cn/FmhVyTSB8JioRLI95KhTkAXJMf5A) *Figura 1: A IA generativa na linguagem e na visão pode produzir resultados de alta qualidade. Paradoxalmente, no entanto, o modelo tem dificuldade em demonstrar uma compreensão seletiva (A,C) ou interrogativa (B,D) desses padrões. *Os modelos generativos parecem ser mais eficazes na aquisição de capacidades generativas do que a compreensão, em contraste com a inteligência humana, que é muitas vezes mais difícil de adquirir.Para testar esta hipótese, é necessária uma definição operacional de vários aspetos do paradoxo. Primeiro, para um dado modelo e tarefa t, com a inteligência humana como base, o que significa ser "mais eficaz" do que compreender a capacidade. Usando g e u como alguns dos indicadores de desempenho para geração e compreensão, os pesquisadores formalizaram a hipótese do paradoxo da IA generativa como:![](https://appserversrc.8btc.cn/Fvp6z1bdmtv-GHGupI571K0D8fiw) Para simplificar, para uma tarefa t, se o desempenho generativo humano g é o mesmo que o modelo, então o desempenho de compreensão humana você será significativamente maior do que o modelo (> ε sob uma ε razoável). Em outras palavras, o modelo teve um desempenho pior em termos de compreensão do que os pesquisadores esperariam de humanos com habilidades generativas igualmente poderosas.A definição operacional de geração é simples: dada uma entrada de tarefa (pergunta/prompt), a geração consiste em gerar conteúdo observável para satisfazer essa entrada. Como resultado, o desempenho g (por exemplo, estilo, correção, preferência) pode ser avaliado automaticamente ou por humanos. Embora a compreensão não seja definida por alguns resultados observáveis, ela pode ser testada definindo claramente seus efeitos:1. Avaliação seletiva. Em que medida o modelo ainda pode selecionar uma resposta precisa do conjunto fornecido de candidatos em uma versão discriminante da mesma tarefa para uma determinada tarefa que pode gerar uma resposta? Um exemplo comum são as respostas de escolha múltipla, que são uma das formas mais comuns de testar a compreensão humana e a compreensão da linguagem natural em modelos de linguagem. (Fig. 1, colunas A, C)2. Avaliação baseada em perguntas. Até que ponto o modelo pode responder com precisão a perguntas sobre o conteúdo e a adequação de uma determinada saída de modelo gerada? Isto é semelhante a um exame oral em educação. (Figura 1, colunas B, D).Essas definições de compreensão fornecem um plano para avaliar o "paradoxo da IA generativa" e permitem que os pesquisadores testem se a Hipótese 1 é verdadeira em diferentes padrões, tarefas e modelos.  ## Quando os modelos podem ser gerados, podem ser discriminados? **  Primeiro, os pesquisadores realizaram uma análise de desempenho lado a lado das variantes da tarefa generativa e da tarefa discriminativa na avaliação seletiva para avaliar a geração do modelo e a capacidade de compreensão nos modos visual e de linguagem. Eles compararam esse desempenho de geração e discriminação com os seres humanos.A Figura 2 abaixo compara o desempenho de geração e discriminação de GPT-3.5, GPT-4 e humanos. Você pode ver que em 10 dos 13 conjuntos de dados, há pelo menos um modelo que suporta a subhipótese 1, com modelos que são melhores do que os humanos em termos de geração, mas menos discriminativos do que os humanos. Dos 13 conjuntos de dados, 7 suportam a subhipótese 1 para ambos os modelos.![](https://appserversrc.8btc.cn/Fo1PsqIi-GHyNYkr3Ydj6dU_r0lC) Esperar que os humanos gerem imagens detalhadas como modelos visuais é irrealista, e a pessoa média não pode igualar a qualidade estilística de modelos como Midjourney, então supõe-se que os humanos tenham um desempenho generativo mais baixo. Apenas a precisão de geração e discriminação do modelo é comparada com a precisão de discriminação dos seres humanos. Semelhante ao domínio da linguagem, a Figura 3 ilustra que CLIP e OpenCLIP também são menos precisos do que os humanos em termos de desempenho discriminante. Supõe-se que os humanos são menos capazes de gerar, o que é consistente com a subhipótese 1: A IA de visão está acima da média humana em termos de geração, mas ficando atrás dos humanos em termos de compreensão.![](https://appserversrc.8btc.cn/Ftpy7pu3_t4-mbeDfTq8jLXRWZxD) A Figura 4 (à esquerda) mostra o GPT-4 em comparação com os seres humanos. Ao analisá-lo, pode-se ver que quando as respostas são longas e desafiadoras, como resumir um documento longo, o modelo tende a cometer mais erros na tarefa discriminante. **Os seres humanos, por outro lado, são capazes de manter uma taxa de precisão consistentemente alta em tarefas de dificuldade variável.A Figura 4 (à direita) mostra o desempenho discriminante do OpenCLIP em comparação com humanos em diferentes níveis de dificuldade. Em conjunto, esses resultados destacam a capacidade dos seres humanos de discernir a resposta correta mesmo diante de amostras desafiadoras ou adversárias, mas essa capacidade não é tão forte em modelos de linguagem. Esta discrepância levanta questões sobre até que ponto estes modelos são verdadeiramente compreendidos.![](https://appserversrc.8btc.cn/Fn6ptJJYnqmdCsVa0AYaIhpfgwBF) A Figura 5 ilustra uma tendência notável: os avaliadores tendem a favorecer as respostas GPT-4 em detrimento das respostas geradas por humanos.![](https://appserversrc.8btc.cn/FqryMtoaUeoLZvTHEKUHdcMX4szq)   ## O modelo compreende os resultados que gera? **  A seção anterior mostrou que os modelos geralmente são bons em gerar respostas precisas, mas ficam atrás dos humanos na tarefa de discriminação. Agora, em avaliações baseadas em perguntas, os pesquisadores fazem perguntas ao modelo diretamente sobre o conteúdo gerado para investigar até que ponto o modelo pode demonstrar uma compreensão significativa do conteúdo gerado – que é a força dos seres humanos.![](https://appserversrc.8btc.cn/Fho2w3W3iisqzkVZsOD330WpurNL) A Figura 6 (à esquerda) mostra os resultados da modalidade de linguagem. Embora o modelo se destaque na geração, ele muitas vezes comete erros ao responder perguntas sobre sua geração, sugerindo que o modelo está cometendo erros de compreensão. Supondo que um ser humano não pode gerar tal texto na mesma velocidade ou escala, embora a questão seja sobre a saída do próprio modelo, a precisão da garantia de qualidade humana tem sido consistentemente alta em comparação com o modelo. Conforme descrito na subhipótese 2, os investigadores esperam que os seres humanos alcancem maior precisão em seu próprio texto gerado. Ao mesmo tempo, pode-se notar que os humanos neste estudo não são especialistas, e pode ser um enorme desafio produzir texto tão complexo quanto a saída do modelo.Como resultado, os pesquisadores esperam que, se o modelo for comparado a um especialista humano, a lacuna de desempenho na compreensão do conteúdo que eles geram aumentará, já que o especialista humano provavelmente responderá a essas perguntas com precisão quase perfeita.A Figura 6 (à direita) mostra os resultados de uma pergunta no modo visual. Como você pode ver, os modelos de compreensão de imagem ainda não podem ser comparados aos humanos em precisão ao responder perguntas simples sobre os elementos nas imagens geradas. Ao mesmo tempo, os modelos SOTA de geração de imagens superam a maioria das pessoas comuns em termos de qualidade e velocidade de geração de imagens (espera-se que seja difícil para as pessoas comuns gerar imagens realistas semelhantes), sugerindo que a IA visual está relativamente atrás dos humanos em termos de geração (mais forte) e compreensão (mais fraca). Surpreendentemente, há uma diferença de desempenho menor entre modelos simples e humanos em comparação com LLMs multimodais avançados (ou seja, Bard e BingChat), que têm alguma compreensão visual fascinante, mas ainda lutam para responder a perguntas simples sobre as imagens geradas.