O objetivo de tornar o modelo da grande linguagem mais perfeito é a primeira vez na minha vida que vejo tantas pessoas inteligentes trabalhando duro para um objetivo comum ao mesmo tempo. Depois de me comunicar com muitas pessoas da indústria e da academia, percebi que surgiram dez principais direções de pesquisa. As duas direções que atualmente recebem mais atenção são as Alucinações (alucinações de saída) e a Aprendizagem Contextual.
Para mim, os mais interessantes são a 3ª direção (modo de dados multimodalidade multimodal), a 5ª direção (nova arquitetura) e a 6ª direção (desenvolvimento de alternativas de GPU de alternativas de GPU) listadas abaixo.
Dez desafios abertos para pesquisa LLM
Reduzir e avaliar resultados (informações fictícias)
Comprimento de contexto e construção de contexto otimizados
Integrar outros formulários de dados
Maior velocidade e custo-benefício dos modelos de linguagem
Projetar nova arquitetura de modelo
Desenvolver soluções alternativas de GPU
Melhorar a usabilidade dos agentes (inteligência artificial)
Melhor capacidade de aprender com as preferências humanas
Melhore a eficiência da interface de chat
Construir modelos de linguagem para idiomas diferentes do inglês
1. Redução e avaliação de alucinações
O ambiente de saída é um tema que tem sido muito discutido, então vou resumir aqui uma longa história. As alucinações ocorrem quando os modelos de IA inventam coisas. Para muitos casos de uso criativos, a ilusão é uma função. No entanto, as alucinações são um erro na maioria dos casos de uso. Recentemente participei de um painel de discussão sobre LLM com especialistas do Dropbox, Langchain, Elastics e Anthropic. Segundo eles, o primeiro obstáculo que as empresas precisam superar para aplicar o LLM na produção real é a produção de alucinações.
Reduzir a produção de alucinações de modelos e desenvolver métricas para avaliar a produção de alucinações é um tópico de pesquisa em expansão, e muitas startups estão atualmente se concentrando neste problema. Existem também truques para reduzir a probabilidade de resultados alucinantes, como adicionar mais contexto à palavra-chave, CoT, autoconsistência ou requisitos específicos para que a resposta do modelo seja concisa.
A seguir está uma série de artigos e materiais de referência sobre resultados de alucinações:
Pesquisa de alucinações na geração de linguagem natural (Ji et al., 2022)
Como as alucinações do modelo de linguagem podem crescer como uma bola de neve (Zhang et al., 2023)
Uma versão multitarefa, multilíngue e multimodal do ChatGPT sobre raciocínio, alucinação e interatividade (Bang et al., 2023)
A aprendizagem contrastiva reduz as alucinações nas conversas (Sun et al., 2022)
A autoconsistência melhora o raciocínio da cadeia de pensamento em modelos de linguagem (Wang et al., 2022)
SelfCheckGPT: detecção de alucinações de caixa preta com recurso zero para modelos generativos de grandes linguagens (Manakul et al., 2023)
Um exemplo simples de verificação de fatos e alucinação pelo NeMo-Guardrails da NVIDIA
2. Otimize o comprimento e a construção do contexto
A maioria das perguntas requer contexto. Por exemplo, se perguntarmos ao ChatGPT: “Qual restaurante vietnamita é o melhor?” o contexto necessário será “Onde está o escopo deste restaurante?”, porque o melhor restaurante no Vietnã é o mesmo que o melhor restaurante vietnamita nos Estados Unidos. Estados.Restaurantes, a dimensão do problema é diferente.
De acordo com o artigo interessante abaixo, SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA (Zhang & Choi, 2021), uma parte significativa das respostas às perguntas de busca de informações são contextuais, por exemplo, aproximadamente 10% das respostas nas Perguntas Naturais Conjunto de dados NQ-Open 16,5%.
(NQ-Aberto:
Pessoalmente, penso que a percentagem será maior nos casos que as empresas realmente enfrentam. Por exemplo, digamos que uma empresa crie um chatbot para suporte ao cliente. Para que esse chatbot responda a qualquer pergunta que um cliente tenha sobre qualquer produto, o contexto necessário provavelmente será o histórico do cliente ou informações sobre o produto. Como o modelo de linguagem “aprende” com o contexto que lhe é fornecido, esse processo também é conhecido como aprendizagem contextual.
Contexto necessário da imagem para consultas de suporte ao cliente
O comprimento do contexto é muito importante para RAG (Retrieval Enhanced Generation), e o RAG se tornou o principal modo de cenários de aplicação da indústria de grandes modelos de linguagem. Especificamente, a geração de aprimoramento de recuperação é dividida principalmente em dois estágios:
**Fase 1: Chunking (também conhecido como indexação)**Chunking (também conhecido como indexação)
Colete todos os documentos usados pelo LLM, divida esses documentos em partes que podem ser alimentadas em um modelo maior para gerar embeddings e armazene esses embeddings em um banco de dados vetorial.
Fase 2: Consulta
Quando um usuário envia uma consulta, como "minha apólice de seguro cobre um determinado medicamento X", o modelo de linguagem grande converterá essa consulta em uma incorporação, que chamamos de QUERY_EMBEDDING. O banco de dados vetorial obterá o bloco cuja incorporação é mais semelhante a QUERY_EMBEDDING.
Quanto maior o comprimento do contexto, mais pedaços podemos comprimir no contexto. Quanto mais informações um modelo adquirir, maior será a qualidade de seus resultados e respostas, certo?
Nem sempre. Quanto contexto um modelo pode usar e quão eficientemente o modelo usa o contexto são duas questões diferentes. Ao mesmo tempo que trabalhamos para aumentar o comprimento do contexto do modelo, também estamos trabalhando para melhorar a eficiência do contexto. Algumas pessoas chamam isso de “engenharia” ou “construção”. Por exemplo, um artigo recente fala sobre como os modelos podem compreender melhor o início e o fim dos índices, em vez de apenas as informações no meio - Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).
3. Outra integração de modelo de dados (multimodal)
Na minha opinião, a multimodalidade é muito poderosa, mas também é subestimada. Aqui está uma explicação dos motivos da aplicação da multimodalidade:
Primeiro, muitos cenários de aplicação específicos exigem dados multimodais, especialmente em setores com modalidades de dados mistas, como saúde, robótica, comércio eletrônico, varejo, jogos e entretenimento. por exemplo:
Os exames médicos geralmente exigem texto (por exemplo, anotações médicas, questionários de pacientes) e imagens (por exemplo, tomografia computadorizada, raios X, ressonância magnética).
Os metadados do produto geralmente contêm imagens, vídeos, descrições e até dados tabulares (como data de produção, peso, cor), porque, do ponto de vista da demanda, pode ser necessário preencher automaticamente as informações ausentes do produto com base nos comentários dos usuários ou nas fotos do produto, ou você pode permitir que os usuários realizem pesquisas de produtos usando informações visuais, como forma ou cor.
Em segundo lugar, espera-se que a multimodalidade melhore significativamente o desempenho do modelo. Um modelo que entende texto e imagens não deveria ter melhor desempenho do que um modelo que entende apenas texto? Os modelos baseados em texto exigem tanto texto que nos preocupamos com a possibilidade de em breve ficarmos sem dados da Internet para treinar modelos baseados em texto. Esgotado o texto, precisamos aproveitar outros padrões de dados.
Um caso de uso que me entusiasma particularmente é aquele em que a tecnologia multimodal permite que pessoas com deficiência visual naveguem na Internet e no mundo real.
Aqui está uma série de artigos e referências relacionadas à multimodalidade:
[CLIP] Aprendendo modelos visuais transferíveis com supervisão de linguagem natural (OpenAI, 2021)
Flamingo: um modelo de linguagem visual para aprendizagem rápida (DeepMind, 2022)
BLIP-2: Inicialização do pré-treinamento de linguagem-imagem com codificadores de imagem congelada e modelos de linguagem grandes (Salesforce, 2023)
KOSMOS-1: A linguagem não é tudo que você precisa: Alinhando a percepção com os modelos de linguagem (Microsoft, 2023)
PaLM-E: um modelo de linguagem multimodal incorporado (Google, 2023)
LLaVA: Ajuste de Instrução Visual (Liu et al., 2023)
NeVA: NeMo Vision e assistente de linguagem (NVIDIA, 2023)
4. Torne o LLM mais rápido e barato
Quando o GPT-3.5 foi lançado pela primeira vez no final de novembro de 2022, muitas pessoas expressaram preocupação com os atrasos e custos de seu uso na produção. No entanto, a análise de latência/custo mudou rapidamente desde então. Em menos de meio ano, a comunidade encontrou uma maneira de criar um modelo com desempenho muito próximo do GPT-3.5, mas que requer apenas cerca de 2% do consumo de memória do GPT-3.5.
A conclusão aqui é: se você criar algo bom o suficiente, as pessoas encontrarão uma maneira de torná-lo rápido e econômico.
Abaixo estão os dados de desempenho do Guanaco 7B, em comparação com o desempenho do ChatGPT GPT-3.5 e GPT-4, conforme relatado no artigo do Guanco. Observação: no geral, as comparações de desempenho a seguir estão longe de ser perfeitas e o LLM é muito, muito difícil de avaliar.
Comparação de desempenho do Guanaco 7B com ChatGPT GPT-3.5 e GPT-4:
Quatro anos atrás, quando comecei a escrever as notas para o que viria a ser a seção "Compressão de Modelo" do livro Projetando Sistemas de Aprendizado de Máquina, escrevi sobre quatro técnicas principais para otimização/compressão de modelo:
Quantização: O método de otimização de modelo mais geral até agora. A quantização reduz o tamanho de um modelo usando menos bits para representar seus parâmetros, por exemplo, em vez de usar 32 bits, 16 bits ou mesmo 4 bits podem ser usados para representar números de ponto flutuante.
Destilação de conhecimento: Um método de treinar pequenos modelos para imitar um grande modelo ou coleção de modelos.
Fatoração de baixa classificação: A ideia principal aqui é substituir tensores de alta dimensão por tensores de baixa dimensão para reduzir o número de parâmetros. Por exemplo, um tensor 3x3 pode ser decomposto em um produto de tensores 3x1 e 1x3, de modo que em vez de 9 parâmetros, apenas 6 sejam necessários.
Poda
Todas as quatro técnicas acima ainda são aplicáveis e populares hoje. Alpaca usa destilação de Conhecimento para treinamento. QLoRA usa uma combinação de fatoração e quantização de classificação baixa.
5. Projete uma nova arquitetura de modelo
Desde AlexNet em 2012, vimos a ascensão e queda de muitas arquiteturas, incluindo LSTM, seq2seq, etc. Comparado a estes, o impacto do Transformer é incrível. O Transformer existe desde 2017, e por quanto tempo essa arquitetura permanecerá popular é uma questão em aberto.
Desenvolver uma nova arquitetura para superar o Transformer não é fácil. O Transformer passou por muitas otimizações nos últimos 6 anos, e essa nova arquitetura deve ser executada no hardware que interessa às pessoas, na escala com que se preocupam hoje.
Observação: o Google projetou originalmente o Transformer para rodar rapidamente em TPU e, posteriormente, otimizou-o em GPU.
Em 2021, o S4 do laboratório de Chris Ré atraiu ampla atenção, consulte "Modelagem eficiente de sequências longas com espaços de estados estruturados" (Gu et al., 2021) para obter detalhes). O laboratório de Chris Ré ainda desenvolve vigorosamente novas arquiteturas, mais recentemente Monarch Mixer (Fu, 2023), desenvolvido em colaboração com a startup Together, é uma delas.
A ideia principal deles é que, para a arquitetura Transformer existente, a complexidade da atenção é quadrática do comprimento da sequência, enquanto a complexidade do MLP é quadrática da dimensão do modelo. Arquiteturas com complexidade subquadrática serão mais eficientes.
Misturador Monarca
6. Desenvolva alternativas de GPU
As GPUs têm sido o hardware dominante para aprendizado profundo desde AlexNet em 2012. Na verdade, uma das razões geralmente reconhecidas para a popularidade do AlexNet é que ele foi o primeiro artigo a usar GPUs com sucesso para treinar uma rede neural. Antes do advento das GPUs, se você quisesse treinar um modelo na escala do AlexNet, seria necessário usar milhares de CPUs, como a que o Google lançou alguns meses antes do AlexNet. Algumas GPUs tornaram-se mais acessíveis para estudantes de doutorado e pesquisadores do que milhares de CPUs, provocando um boom na pesquisa em aprendizagem profunda.
Na última década, muitas empresas, tanto grandes como startups, tentaram criar novo hardware para inteligência artificial. As tentativas mais notáveis incluem a TPU do Google, a IPU da Graphcore (como vai a IPU?) e a Cerebras. A SambaNova arrecadou mais de mil milhões de dólares para desenvolver novos chips de IA, mas parece ter evoluído para se tornar uma plataforma de IA generativa.
Por um tempo, havia grandes expectativas para a computação quântica, com os principais participantes incluindo:
QPU da IBM
*O computador quântico do Google alcançou um marco importante na redução de erros quânticos, relatado na Nature no início deste ano. Sua máquina virtual quântica é acessível publicamente por meio do Google Colab. *
*Laboratórios de pesquisa como Centro de Engenharia Quântica do MIT, Instituto Max Planck de Óptica Quântica, Chicago Quantum Exchange, Laboratório Nacional Oakridge, etc. *
Outra direção igualmente interessante são os chips fotônicos. Não sei muito sobre esta área, então corrija-me se estiver errado. Os chips existentes usam eletricidade para transmitir dados, o que consome muita energia e cria atrasos. Os chips fotônicos, por outro lado, usam fótons para transmitir dados, aproveitando a velocidade da luz para uma computação mais rápida e eficiente. Várias startups neste espaço levantaram centenas de milhões de dólares, incluindo Lightmatter (US$ 270 milhões), Ayar Labs (US$ 220 milhões), Lightelligence (US$ 200 milhões+) e Luminous Computing (US$ 115 milhões).
A seguir está o cronograma de progresso dos três métodos principais de cálculo da matriz de fótons, retirado do artigo "A multiplicação da matriz fotônica ilumina o acelerador fotônico e além" (Zhou, Nature 2022). Os três métodos diferentes são Conversão Planar de Luz (PLC), Interferômetro Mach-Zehnder (MZI) e Multiplexação por Divisão de Comprimento de Onda (WDM).
7. Melhore a disponibilidade dos agentes
Agente refere-se a um grande modelo de linguagem que pode realizar ações (pode ser entendido como agentes que podem realizar diversas tarefas em seu nome, por isso é chamado de Agente), como navegar na Internet, enviar e-mails, fazer reservas, etc. Esta é provavelmente uma das direções mais recentes em comparação com outras direções de pesquisa neste artigo. As pessoas estão entusiasmadas com os Agentes devido à sua novidade e enorme potencial. Auto-GPT é agora o 25º repositório mais popular com o número de estrelas no GitHub. GPT-Engineering é outro repositório popular.
Apesar do entusiasmo nessa direção, permanecem dúvidas sobre se os grandes modelos de linguagem são confiáveis e têm desempenho suficiente para serem capacitados para a ação. No entanto, surgiu um cenário de aplicação onde os Agentes são usados para pesquisa social, como o famoso experimento de Stanford, que mostrou que um pequeno grupo de Agentes generativos produziu comportamentos sociais emergentes: por exemplo, a partir de uma ideia especificada pelo usuário, um Agente Quer para realizar uma festa de Dia dos Namorados, o Agente distribui automaticamente os convites para a festa dos próximos dois dias, faz novos amigos e se convida para a festa... (Agentes Geradores: Simulacros Interativos do Comportamento Humano, Park et al., 2023),
Talvez a startup mais notável neste espaço seja a Adept, fundada por dois ex-coautores do Transformer e um ex-vice-presidente da OpenAI, e que arrecadou quase US$ 500 milhões até o momento. No ano passado, eles mostraram como seu agente poderia navegar na Internet e como adicionar uma nova conta ao Salesforce.
8. Iterar RLHF
RLHF (Aprendizagem por Reforço com Feedback Humano) é legal, mas um pouco complicado. Não seria surpreendente se as pessoas encontrassem maneiras melhores de treinar LLM. No entanto, ainda existem muitas questões não resolvidas no RLHF, tais como:
①Como expressar matematicamente as preferências humanas?
Atualmente, as preferências humanas são determinadas através de comparação: um anotador humano determina se a resposta A é melhor que a resposta B. No entanto, não leva em consideração o quão melhor a resposta A é do que a resposta B.
②O que é preferência humana?
A Anthropic mede a qualidade de seus modelos com base no resultado em três dimensões: útil, honesto e inofensivo. Consulte IA Constitucional: Inocuidade do Feedback de IA (Bai et al., 2022).
DeepMind tenta gerar respostas que agradem ao maior número de pessoas. Consulte Ajustando modelos de linguagem para encontrar acordo entre humanos com preferências diversas (Bakker et al., 2022).
Além disso, queremos uma IA que possa tomar uma posição ou uma IA tradicional que evite qualquer tópico potencialmente controverso?
③De quem são as preferências “humanas”? Devem ser levadas em conta as diferenças de cultura, religião, tendências políticas, etc.? Existem muitos desafios na obtenção de dados de formação que sejam suficientemente representativos de todos os potenciais utilizadores.
Por exemplo, para dados InstructGPT da OpenAI, não há anotadores com mais de 65 anos. Os anotadores são principalmente filipinos e bangladeshianos. Consulte InstructGPT: Treinamento de modelos de linguagem para seguir instruções com feedback humano (Ouyang et al., 2022).
Estatísticas de nacionalidade dos anotadores do InstructGPT
Embora os esforços liderados pela comunidade sejam louváveis na sua intenção, podem levar a dados tendenciosos. Por exemplo, para o conjunto de dados OpenAssistant, 201 de 222 (90,5%) entrevistados se identificaram como homens. Jeremy Howard tem um ótimo tópico no Twitter:
9. Melhore a eficiência da interface de chat
Desde o ChatGPT, tem havido discussão sobre se o chat é uma interface adequada para uma variedade de tarefas.
Ver:
A linguagem natural é a interface de usuário preguiçosa (Austin Z. Henley, 2023)
Por que os chatbots não são o futuro(Amelia Wattenberger, 2023)
Que tipos de perguntas exigem conversa para serem respondidas? Um estudo de caso de perguntas do AskReddit (Huang et al., 2023)
As interfaces de chat de IA podem se tornar a principal interface de usuário para leitura de documentação (Tom Johnson, 2023)
Interagindo com LLMs com bate-papo mínimo (Eugene Yan, 2023)
No entanto, este não é um tema novo. Em muitos países, especialmente na Ásia, o chat tem sido usado como interface de superaplicativos há cerca de dez anos, como escreveu Dan Grover em 2014.
Em 2016, quando muitos pensavam que os aplicativos estavam mortos e os chatbots eram o futuro, a discussão esquentou novamente:
No chat como interface(Alistair Croll, 2016)
A tendência do Chatbot é um grande mal-entendido? (Will Knight, 2016)
Os bots não substituirão os aplicativos. Melhores aplicativos substituirão os aplicativos (Dan Grover, 2016)
Pessoalmente, gosto da interface de bate-papo pelos seguintes motivos:
①A interface de chat é uma interface que todos, mesmo aqueles que não tiveram contato anterior com computadores ou com a Internet, podem aprender rapidamente a usar (universalidade). No início da década de 2010, quando fazia voluntariado num bairro de baixos rendimentos no Quénia, fiquei impressionado ao ver como todos estavam familiarizados com a realização de operações bancárias através do telefone, através de mensagens de texto. Ninguém naquela comunidade tinha computador.
② A interface do chat é de fácil acesso. Use voz em vez de texto se suas mãos estiverem preocupadas com outras coisas.
③ O bate-papo também é uma interface muito poderosa - você pode fazer qualquer solicitação e ele responderá, mesmo que a resposta não seja necessariamente perfeita
Porém, o autor acredita que a interface do chat pode continuar a ser aprimorada em alguns aspectos:
① Várias mensagens podem ser trocadas ao mesmo tempo
Atualmente, assumimos basicamente que existe apenas uma única rodada de mensagens por comunicação. Mas não é assim que meus amigos e eu enviamos mensagens. Normalmente, preciso de várias mensagens para completar meu pensamento, pois preciso inserir dados diferentes (como imagens, locais, links), posso ter perdido alguma coisa na mensagem anterior, ou simplesmente não quero colocar tudo em uma única parágrafo grande.
②Entrada multimodal
No campo das aplicações multimodais, a maior parte dos esforços é despendida na construção de melhores modelos e menos na construção de melhores interfaces. Veja o chatbot NeVA da Nvidia, por exemplo. Não sou especialista em experiência do usuário, mas acho que pode haver espaço para melhorias aqui.
PS: Desculpe por mencionar a equipe NeVA aqui, mesmo assim seu trabalho continua muito legal!
③Integre IA generativa ao fluxo de trabalho
Linus Lee cobre isso bem em seu compartilhamento “Interface de IA generativa além dos bate-papos”. Por exemplo, se você quiser fazer uma pergunta sobre uma coluna de um gráfico em que está trabalhando, basta apontar para essa coluna e perguntar.
④Edição e exclusão de mensagens
Como a edição ou exclusão da entrada do usuário altera o fluxo da conversa com o chatbot?
10. Crie LLM para idiomas diferentes do inglês
Sabemos que os atuais LLMs de inglês como primeira língua não se adaptam bem a muitos outros idiomas em termos de desempenho, latência e velocidade. Ver:
ChatGPT além do inglês: rumo a uma utilização abrangente de grandes modelos linguísticos na aprendizagem multilíngue (Lai et al., 2023)
Todos os idiomas NÃO são criados (tokenizados) iguais (Yennie Jun, 2023)
Só estou ciente de tentativas de treinar vietnamitas (como a tentativa da comunidade Symato), no entanto, vários dos primeiros leitores deste artigo me disseram que não achavam que eu deveria incluir esta orientação pelos seguintes motivos:
Esta não é tanto uma questão de pesquisa, mas sim uma questão de logística. Já sabemos como fazer, só precisamos de alguém que invista dinheiro e energia. No entanto, isso não está totalmente correto. A maioria dos idiomas são considerados idiomas de poucos recursos, por exemplo, muitos idiomas têm dados de muito menos qualidade do que o inglês ou o chinês e, portanto, podem exigir técnicas diferentes para treinar grandes modelos de idiomas. ver:
Línguas de poucos recursos: uma revisão de trabalhos anteriores e desafios futuros (Magueresse et al., 2020)
JW300: Um Corpus Paralelo de Ampla Cobertura para Idiomas de Poucos Recursos (Agić et al., 2019)
Os mais pessimistas acreditam que no futuro muitas línguas desaparecerão e a Internet será composta por dois universos de duas línguas: inglês e chinês. Esta tendência não é nova – alguém se lembra do Esperanto?
O impacto das ferramentas de inteligência artificial, como a tradução automática e os chatbots, na aprendizagem de línguas permanece pouco claro. Eles ajudarão as pessoas a aprender novos idiomas mais rapidamente ou eliminarão totalmente a necessidade de aprender novos idiomas?
para concluir
Deixe-me saber se perdi alguma coisa neste artigo e, para perspectivas adicionais, consulte este artigo abrangente Desafios e aplicações de grandes modelos de linguagem (Kaddour et al., 2023).
As questões acima são mais difíceis que outras. Por exemplo, penso que a questão 10 acima, configurar um LLM num idioma diferente do inglês, seria relativamente simples, dado tempo e recursos suficientes.
O primeiro problema acima é reduzir a produção de alucinações, o que será muito mais difícil, porque a alucinação é apenas o LLM fazendo coisas probabilísticas.
Quarto, tornar o LLM mais rápido e barato nunca pode ser completamente resolvido. Foram feitos grandes progressos nesta área e haverá mais progressos no futuro, mas as melhorias nesta direcção continuarão.
Os itens 5 e 6, nova arquitetura e novo hardware, são muito desafiadores, mas são inevitáveis ao longo do tempo. Devido à relação simbiótica entre arquitetura e hardware – a nova arquitetura precisa ser otimizada para hardware comum, e o hardware precisa suportar a arquitetura comum, elas provavelmente serão feitas pela mesma empresa.
Alguns problemas não podem ser resolvidos apenas com conhecimento técnico. Por exemplo, a Questão 8, melhorar os métodos de aprendizagem a partir das preferências humanas, pode ser mais uma questão política do que técnica. A questão nº 9 é melhorar a eficiência da interface de bate-papo, que é mais uma questão de experiência do usuário. Precisamos de mais pessoas com formação não técnica para trabalhar conosco nessas questões.
Em qual direção de pesquisa você está mais interessado? Qual você acha que é a solução mais promissora para esses problemas? Adoraria ouvir sua opinião.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Interpretação de 6.000 palavras: 10 desafios do atual modelo de grande linguagem de pesquisa LLM
Autor: Chip Huyen
Tradução: Coelho Alfa
Link da fonte:
O objetivo de tornar o modelo da grande linguagem mais perfeito é a primeira vez na minha vida que vejo tantas pessoas inteligentes trabalhando duro para um objetivo comum ao mesmo tempo. Depois de me comunicar com muitas pessoas da indústria e da academia, percebi que surgiram dez principais direções de pesquisa. As duas direções que atualmente recebem mais atenção são as Alucinações (alucinações de saída) e a Aprendizagem Contextual.
Para mim, os mais interessantes são a 3ª direção (modo de dados multimodalidade multimodal), a 5ª direção (nova arquitetura) e a 6ª direção (desenvolvimento de alternativas de GPU de alternativas de GPU) listadas abaixo.
1. Redução e avaliação de alucinações
O ambiente de saída é um tema que tem sido muito discutido, então vou resumir aqui uma longa história. As alucinações ocorrem quando os modelos de IA inventam coisas. Para muitos casos de uso criativos, a ilusão é uma função. No entanto, as alucinações são um erro na maioria dos casos de uso. Recentemente participei de um painel de discussão sobre LLM com especialistas do Dropbox, Langchain, Elastics e Anthropic. Segundo eles, o primeiro obstáculo que as empresas precisam superar para aplicar o LLM na produção real é a produção de alucinações.
Reduzir a produção de alucinações de modelos e desenvolver métricas para avaliar a produção de alucinações é um tópico de pesquisa em expansão, e muitas startups estão atualmente se concentrando neste problema. Existem também truques para reduzir a probabilidade de resultados alucinantes, como adicionar mais contexto à palavra-chave, CoT, autoconsistência ou requisitos específicos para que a resposta do modelo seja concisa.
A seguir está uma série de artigos e materiais de referência sobre resultados de alucinações:
Pesquisa de alucinações na geração de linguagem natural (Ji et al., 2022)
Como as alucinações do modelo de linguagem podem crescer como uma bola de neve (Zhang et al., 2023)
Uma versão multitarefa, multilíngue e multimodal do ChatGPT sobre raciocínio, alucinação e interatividade (Bang et al., 2023)
A aprendizagem contrastiva reduz as alucinações nas conversas (Sun et al., 2022)
A autoconsistência melhora o raciocínio da cadeia de pensamento em modelos de linguagem (Wang et al., 2022)
SelfCheckGPT: detecção de alucinações de caixa preta com recurso zero para modelos generativos de grandes linguagens (Manakul et al., 2023)
Um exemplo simples de verificação de fatos e alucinação pelo NeMo-Guardrails da NVIDIA
2. Otimize o comprimento e a construção do contexto
A maioria das perguntas requer contexto. Por exemplo, se perguntarmos ao ChatGPT: “Qual restaurante vietnamita é o melhor?” o contexto necessário será “Onde está o escopo deste restaurante?”, porque o melhor restaurante no Vietnã é o mesmo que o melhor restaurante vietnamita nos Estados Unidos. Estados.Restaurantes, a dimensão do problema é diferente.
De acordo com o artigo interessante abaixo, SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA (Zhang & Choi, 2021), uma parte significativa das respostas às perguntas de busca de informações são contextuais, por exemplo, aproximadamente 10% das respostas nas Perguntas Naturais Conjunto de dados NQ-Open 16,5%.
(NQ-Aberto:
Pessoalmente, penso que a percentagem será maior nos casos que as empresas realmente enfrentam. Por exemplo, digamos que uma empresa crie um chatbot para suporte ao cliente. Para que esse chatbot responda a qualquer pergunta que um cliente tenha sobre qualquer produto, o contexto necessário provavelmente será o histórico do cliente ou informações sobre o produto. Como o modelo de linguagem “aprende” com o contexto que lhe é fornecido, esse processo também é conhecido como aprendizagem contextual.
Contexto necessário da imagem para consultas de suporte ao cliente
O comprimento do contexto é muito importante para RAG (Retrieval Enhanced Generation), e o RAG se tornou o principal modo de cenários de aplicação da indústria de grandes modelos de linguagem. Especificamente, a geração de aprimoramento de recuperação é dividida principalmente em dois estágios:
**Fase 1: Chunking (também conhecido como indexação)**Chunking (também conhecido como indexação)
Colete todos os documentos usados pelo LLM, divida esses documentos em partes que podem ser alimentadas em um modelo maior para gerar embeddings e armazene esses embeddings em um banco de dados vetorial.
Fase 2: Consulta
Quando um usuário envia uma consulta, como "minha apólice de seguro cobre um determinado medicamento X", o modelo de linguagem grande converterá essa consulta em uma incorporação, que chamamos de QUERY_EMBEDDING. O banco de dados vetorial obterá o bloco cuja incorporação é mais semelhante a QUERY_EMBEDDING.
Nem sempre. Quanto contexto um modelo pode usar e quão eficientemente o modelo usa o contexto são duas questões diferentes. Ao mesmo tempo que trabalhamos para aumentar o comprimento do contexto do modelo, também estamos trabalhando para melhorar a eficiência do contexto. Algumas pessoas chamam isso de “engenharia” ou “construção”. Por exemplo, um artigo recente fala sobre como os modelos podem compreender melhor o início e o fim dos índices, em vez de apenas as informações no meio - Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).
3. Outra integração de modelo de dados (multimodal)
Na minha opinião, a multimodalidade é muito poderosa, mas também é subestimada. Aqui está uma explicação dos motivos da aplicação da multimodalidade:
Primeiro, muitos cenários de aplicação específicos exigem dados multimodais, especialmente em setores com modalidades de dados mistas, como saúde, robótica, comércio eletrônico, varejo, jogos e entretenimento. por exemplo:
Os exames médicos geralmente exigem texto (por exemplo, anotações médicas, questionários de pacientes) e imagens (por exemplo, tomografia computadorizada, raios X, ressonância magnética).
Os metadados do produto geralmente contêm imagens, vídeos, descrições e até dados tabulares (como data de produção, peso, cor), porque, do ponto de vista da demanda, pode ser necessário preencher automaticamente as informações ausentes do produto com base nos comentários dos usuários ou nas fotos do produto, ou você pode permitir que os usuários realizem pesquisas de produtos usando informações visuais, como forma ou cor.
Em segundo lugar, espera-se que a multimodalidade melhore significativamente o desempenho do modelo. Um modelo que entende texto e imagens não deveria ter melhor desempenho do que um modelo que entende apenas texto? Os modelos baseados em texto exigem tanto texto que nos preocupamos com a possibilidade de em breve ficarmos sem dados da Internet para treinar modelos baseados em texto. Esgotado o texto, precisamos aproveitar outros padrões de dados.
Aqui está uma série de artigos e referências relacionadas à multimodalidade:
[CLIP] Aprendendo modelos visuais transferíveis com supervisão de linguagem natural (OpenAI, 2021)
Flamingo: um modelo de linguagem visual para aprendizagem rápida (DeepMind, 2022)
BLIP-2: Inicialização do pré-treinamento de linguagem-imagem com codificadores de imagem congelada e modelos de linguagem grandes (Salesforce, 2023)
KOSMOS-1: A linguagem não é tudo que você precisa: Alinhando a percepção com os modelos de linguagem (Microsoft, 2023)
PaLM-E: um modelo de linguagem multimodal incorporado (Google, 2023)
LLaVA: Ajuste de Instrução Visual (Liu et al., 2023)
NeVA: NeMo Vision e assistente de linguagem (NVIDIA, 2023)
4. Torne o LLM mais rápido e barato
Quando o GPT-3.5 foi lançado pela primeira vez no final de novembro de 2022, muitas pessoas expressaram preocupação com os atrasos e custos de seu uso na produção. No entanto, a análise de latência/custo mudou rapidamente desde então. Em menos de meio ano, a comunidade encontrou uma maneira de criar um modelo com desempenho muito próximo do GPT-3.5, mas que requer apenas cerca de 2% do consumo de memória do GPT-3.5.
A conclusão aqui é: se você criar algo bom o suficiente, as pessoas encontrarão uma maneira de torná-lo rápido e econômico.
Comparação de desempenho do Guanaco 7B com ChatGPT GPT-3.5 e GPT-4:
5. Projete uma nova arquitetura de modelo
Desde AlexNet em 2012, vimos a ascensão e queda de muitas arquiteturas, incluindo LSTM, seq2seq, etc. Comparado a estes, o impacto do Transformer é incrível. O Transformer existe desde 2017, e por quanto tempo essa arquitetura permanecerá popular é uma questão em aberto.
Desenvolver uma nova arquitetura para superar o Transformer não é fácil. O Transformer passou por muitas otimizações nos últimos 6 anos, e essa nova arquitetura deve ser executada no hardware que interessa às pessoas, na escala com que se preocupam hoje.
Observação: o Google projetou originalmente o Transformer para rodar rapidamente em TPU e, posteriormente, otimizou-o em GPU.
Em 2021, o S4 do laboratório de Chris Ré atraiu ampla atenção, consulte "Modelagem eficiente de sequências longas com espaços de estados estruturados" (Gu et al., 2021) para obter detalhes). O laboratório de Chris Ré ainda desenvolve vigorosamente novas arquiteturas, mais recentemente Monarch Mixer (Fu, 2023), desenvolvido em colaboração com a startup Together, é uma delas.
A ideia principal deles é que, para a arquitetura Transformer existente, a complexidade da atenção é quadrática do comprimento da sequência, enquanto a complexidade do MLP é quadrática da dimensão do modelo. Arquiteturas com complexidade subquadrática serão mais eficientes.
6. Desenvolva alternativas de GPU
As GPUs têm sido o hardware dominante para aprendizado profundo desde AlexNet em 2012. Na verdade, uma das razões geralmente reconhecidas para a popularidade do AlexNet é que ele foi o primeiro artigo a usar GPUs com sucesso para treinar uma rede neural. Antes do advento das GPUs, se você quisesse treinar um modelo na escala do AlexNet, seria necessário usar milhares de CPUs, como a que o Google lançou alguns meses antes do AlexNet. Algumas GPUs tornaram-se mais acessíveis para estudantes de doutorado e pesquisadores do que milhares de CPUs, provocando um boom na pesquisa em aprendizagem profunda.
Na última década, muitas empresas, tanto grandes como startups, tentaram criar novo hardware para inteligência artificial. As tentativas mais notáveis incluem a TPU do Google, a IPU da Graphcore (como vai a IPU?) e a Cerebras. A SambaNova arrecadou mais de mil milhões de dólares para desenvolver novos chips de IA, mas parece ter evoluído para se tornar uma plataforma de IA generativa.
Por um tempo, havia grandes expectativas para a computação quântica, com os principais participantes incluindo:
Outra direção igualmente interessante são os chips fotônicos. Não sei muito sobre esta área, então corrija-me se estiver errado. Os chips existentes usam eletricidade para transmitir dados, o que consome muita energia e cria atrasos. Os chips fotônicos, por outro lado, usam fótons para transmitir dados, aproveitando a velocidade da luz para uma computação mais rápida e eficiente. Várias startups neste espaço levantaram centenas de milhões de dólares, incluindo Lightmatter (US$ 270 milhões), Ayar Labs (US$ 220 milhões), Lightelligence (US$ 200 milhões+) e Luminous Computing (US$ 115 milhões).
A seguir está o cronograma de progresso dos três métodos principais de cálculo da matriz de fótons, retirado do artigo "A multiplicação da matriz fotônica ilumina o acelerador fotônico e além" (Zhou, Nature 2022). Os três métodos diferentes são Conversão Planar de Luz (PLC), Interferômetro Mach-Zehnder (MZI) e Multiplexação por Divisão de Comprimento de Onda (WDM).
7. Melhore a disponibilidade dos agentes
Agente refere-se a um grande modelo de linguagem que pode realizar ações (pode ser entendido como agentes que podem realizar diversas tarefas em seu nome, por isso é chamado de Agente), como navegar na Internet, enviar e-mails, fazer reservas, etc. Esta é provavelmente uma das direções mais recentes em comparação com outras direções de pesquisa neste artigo. As pessoas estão entusiasmadas com os Agentes devido à sua novidade e enorme potencial. Auto-GPT é agora o 25º repositório mais popular com o número de estrelas no GitHub. GPT-Engineering é outro repositório popular.
Apesar do entusiasmo nessa direção, permanecem dúvidas sobre se os grandes modelos de linguagem são confiáveis e têm desempenho suficiente para serem capacitados para a ação. No entanto, surgiu um cenário de aplicação onde os Agentes são usados para pesquisa social, como o famoso experimento de Stanford, que mostrou que um pequeno grupo de Agentes generativos produziu comportamentos sociais emergentes: por exemplo, a partir de uma ideia especificada pelo usuário, um Agente Quer para realizar uma festa de Dia dos Namorados, o Agente distribui automaticamente os convites para a festa dos próximos dois dias, faz novos amigos e se convida para a festa... (Agentes Geradores: Simulacros Interativos do Comportamento Humano, Park et al., 2023),
Talvez a startup mais notável neste espaço seja a Adept, fundada por dois ex-coautores do Transformer e um ex-vice-presidente da OpenAI, e que arrecadou quase US$ 500 milhões até o momento. No ano passado, eles mostraram como seu agente poderia navegar na Internet e como adicionar uma nova conta ao Salesforce.
8. Iterar RLHF
RLHF (Aprendizagem por Reforço com Feedback Humano) é legal, mas um pouco complicado. Não seria surpreendente se as pessoas encontrassem maneiras melhores de treinar LLM. No entanto, ainda existem muitas questões não resolvidas no RLHF, tais como:
①Como expressar matematicamente as preferências humanas?
Atualmente, as preferências humanas são determinadas através de comparação: um anotador humano determina se a resposta A é melhor que a resposta B. No entanto, não leva em consideração o quão melhor a resposta A é do que a resposta B.
②O que é preferência humana?
A Anthropic mede a qualidade de seus modelos com base no resultado em três dimensões: útil, honesto e inofensivo. Consulte IA Constitucional: Inocuidade do Feedback de IA (Bai et al., 2022).
DeepMind tenta gerar respostas que agradem ao maior número de pessoas. Consulte Ajustando modelos de linguagem para encontrar acordo entre humanos com preferências diversas (Bakker et al., 2022).
Além disso, queremos uma IA que possa tomar uma posição ou uma IA tradicional que evite qualquer tópico potencialmente controverso?
③De quem são as preferências “humanas”? Devem ser levadas em conta as diferenças de cultura, religião, tendências políticas, etc.? Existem muitos desafios na obtenção de dados de formação que sejam suficientemente representativos de todos os potenciais utilizadores.
Por exemplo, para dados InstructGPT da OpenAI, não há anotadores com mais de 65 anos. Os anotadores são principalmente filipinos e bangladeshianos. Consulte InstructGPT: Treinamento de modelos de linguagem para seguir instruções com feedback humano (Ouyang et al., 2022).
Embora os esforços liderados pela comunidade sejam louváveis na sua intenção, podem levar a dados tendenciosos. Por exemplo, para o conjunto de dados OpenAssistant, 201 de 222 (90,5%) entrevistados se identificaram como homens. Jeremy Howard tem um ótimo tópico no Twitter:
9. Melhore a eficiência da interface de chat
Desde o ChatGPT, tem havido discussão sobre se o chat é uma interface adequada para uma variedade de tarefas.
Ver:
A linguagem natural é a interface de usuário preguiçosa (Austin Z. Henley, 2023)
Por que os chatbots não são o futuro(Amelia Wattenberger, 2023)
Que tipos de perguntas exigem conversa para serem respondidas? Um estudo de caso de perguntas do AskReddit (Huang et al., 2023)
As interfaces de chat de IA podem se tornar a principal interface de usuário para leitura de documentação (Tom Johnson, 2023)
Interagindo com LLMs com bate-papo mínimo (Eugene Yan, 2023)
No entanto, este não é um tema novo. Em muitos países, especialmente na Ásia, o chat tem sido usado como interface de superaplicativos há cerca de dez anos, como escreveu Dan Grover em 2014.
No chat como interface(Alistair Croll, 2016)
A tendência do Chatbot é um grande mal-entendido? (Will Knight, 2016)
Os bots não substituirão os aplicativos. Melhores aplicativos substituirão os aplicativos (Dan Grover, 2016)
Pessoalmente, gosto da interface de bate-papo pelos seguintes motivos:
①A interface de chat é uma interface que todos, mesmo aqueles que não tiveram contato anterior com computadores ou com a Internet, podem aprender rapidamente a usar (universalidade). No início da década de 2010, quando fazia voluntariado num bairro de baixos rendimentos no Quénia, fiquei impressionado ao ver como todos estavam familiarizados com a realização de operações bancárias através do telefone, através de mensagens de texto. Ninguém naquela comunidade tinha computador.
② A interface do chat é de fácil acesso. Use voz em vez de texto se suas mãos estiverem preocupadas com outras coisas.
③ O bate-papo também é uma interface muito poderosa - você pode fazer qualquer solicitação e ele responderá, mesmo que a resposta não seja necessariamente perfeita
Porém, o autor acredita que a interface do chat pode continuar a ser aprimorada em alguns aspectos:
① Várias mensagens podem ser trocadas ao mesmo tempo
Atualmente, assumimos basicamente que existe apenas uma única rodada de mensagens por comunicação. Mas não é assim que meus amigos e eu enviamos mensagens. Normalmente, preciso de várias mensagens para completar meu pensamento, pois preciso inserir dados diferentes (como imagens, locais, links), posso ter perdido alguma coisa na mensagem anterior, ou simplesmente não quero colocar tudo em uma única parágrafo grande.
②Entrada multimodal
No campo das aplicações multimodais, a maior parte dos esforços é despendida na construção de melhores modelos e menos na construção de melhores interfaces. Veja o chatbot NeVA da Nvidia, por exemplo. Não sou especialista em experiência do usuário, mas acho que pode haver espaço para melhorias aqui.
PS: Desculpe por mencionar a equipe NeVA aqui, mesmo assim seu trabalho continua muito legal!
Linus Lee cobre isso bem em seu compartilhamento “Interface de IA generativa além dos bate-papos”. Por exemplo, se você quiser fazer uma pergunta sobre uma coluna de um gráfico em que está trabalhando, basta apontar para essa coluna e perguntar.
④Edição e exclusão de mensagens
Como a edição ou exclusão da entrada do usuário altera o fluxo da conversa com o chatbot?
10. Crie LLM para idiomas diferentes do inglês
Sabemos que os atuais LLMs de inglês como primeira língua não se adaptam bem a muitos outros idiomas em termos de desempenho, latência e velocidade. Ver:
ChatGPT além do inglês: rumo a uma utilização abrangente de grandes modelos linguísticos na aprendizagem multilíngue (Lai et al., 2023)
Todos os idiomas NÃO são criados (tokenizados) iguais (Yennie Jun, 2023)
Esta não é tanto uma questão de pesquisa, mas sim uma questão de logística. Já sabemos como fazer, só precisamos de alguém que invista dinheiro e energia. No entanto, isso não está totalmente correto. A maioria dos idiomas são considerados idiomas de poucos recursos, por exemplo, muitos idiomas têm dados de muito menos qualidade do que o inglês ou o chinês e, portanto, podem exigir técnicas diferentes para treinar grandes modelos de idiomas. ver:
Línguas de poucos recursos: uma revisão de trabalhos anteriores e desafios futuros (Magueresse et al., 2020)
JW300: Um Corpus Paralelo de Ampla Cobertura para Idiomas de Poucos Recursos (Agić et al., 2019)
Os mais pessimistas acreditam que no futuro muitas línguas desaparecerão e a Internet será composta por dois universos de duas línguas: inglês e chinês. Esta tendência não é nova – alguém se lembra do Esperanto?
O impacto das ferramentas de inteligência artificial, como a tradução automática e os chatbots, na aprendizagem de línguas permanece pouco claro. Eles ajudarão as pessoas a aprender novos idiomas mais rapidamente ou eliminarão totalmente a necessidade de aprender novos idiomas?
para concluir
Deixe-me saber se perdi alguma coisa neste artigo e, para perspectivas adicionais, consulte este artigo abrangente Desafios e aplicações de grandes modelos de linguagem (Kaddour et al., 2023).
As questões acima são mais difíceis que outras. Por exemplo, penso que a questão 10 acima, configurar um LLM num idioma diferente do inglês, seria relativamente simples, dado tempo e recursos suficientes.
O primeiro problema acima é reduzir a produção de alucinações, o que será muito mais difícil, porque a alucinação é apenas o LLM fazendo coisas probabilísticas.
Quarto, tornar o LLM mais rápido e barato nunca pode ser completamente resolvido. Foram feitos grandes progressos nesta área e haverá mais progressos no futuro, mas as melhorias nesta direcção continuarão.
Os itens 5 e 6, nova arquitetura e novo hardware, são muito desafiadores, mas são inevitáveis ao longo do tempo. Devido à relação simbiótica entre arquitetura e hardware – a nova arquitetura precisa ser otimizada para hardware comum, e o hardware precisa suportar a arquitetura comum, elas provavelmente serão feitas pela mesma empresa.
Alguns problemas não podem ser resolvidos apenas com conhecimento técnico. Por exemplo, a Questão 8, melhorar os métodos de aprendizagem a partir das preferências humanas, pode ser mais uma questão política do que técnica. A questão nº 9 é melhorar a eficiência da interface de bate-papo, que é mais uma questão de experiência do usuário. Precisamos de mais pessoas com formação não técnica para trabalhar conosco nessas questões.
Em qual direção de pesquisa você está mais interessado? Qual você acha que é a solução mais promissora para esses problemas? Adoraria ouvir sua opinião.