Por que o modelo grande é tão lento? Acontece que penso demais: a nova direção é o mesmo algoritmo de pensamento dos seres humanos

Fonte da imagem: gerada por Unbounded AI

A intuição humana é uma habilidade frequentemente ignorada pelos pesquisadores de IA, mas é tão sutil que nem nós mesmos a compreendemos completamente. Uma equipe de pesquisa da Virginia Tech e da Microsoft propôs o Algoritmo de Pensamento (AoT) em um artigo recente, que combina a intuição e a ordem dos métodos algorítmicos para economizar muito custos e, ao mesmo tempo, garantir o desempenho do LLM.

Modelos de linguagem em larga escala têm se desenvolvido recentemente em ritmo acelerado, demonstrando capacidades notáveis na resolução de problemas gerais, na geração de código e no seguimento de instruções.

Embora os primeiros modelos se baseassem em estratégias de resposta direta, a investigação atual avançou para um caminho de raciocínio linear, decompondo o problema em subtarefas para descobrir soluções ou modificando o contexto para explorar mecanismos externos para alterar a geração de tokens.

Semelhante à cognição humana, as primeiras estratégias LLM pareciam imitar o imediato 1 (reações rápidas), caracterizado pela tomada de decisão impulsiva. Em contraste, métodos mais recentes, como Cadeia de Pensamentos (CoT) e do mínimo para o máximo (L2M), refletem a natureza introspectiva do 2 (pensamento lento). É importante notar que a capacidade de raciocínio aritmético do LLM pode ser melhorada através da integração de etapas intermediárias de raciocínio.

Contudo, se a tarefa exigir um planeamento mais profundo e uma exploração mental mais ampla, as limitações destes métodos tornam-se aparentes. Embora o CoT integrado e autoconsistente (CoT-SC) possa utilizar múltiplos resultados do LLM para alcançar resultados consensuais, a falta de avaliação detalhada pode levar o modelo a ir na direcção errada. A Árvore do Pensamento (ToT) emergente em 2023 é uma solução digna de nota. Um LLM é usado para gerar ideias e outro LLM é usado para avaliar os méritos dessas ideias, seguido por um ciclo “pausar-avaliar-continuar”. Este processo iterativo baseado na busca em árvore é claramente eficaz, especialmente para tarefas com longas continuações. Os investigadores acreditam que este desenvolvimento é a utilização de ferramentas externas para melhorar o LLM, semelhante aos humanos que utilizam ferramentas para contornar as limitações da sua própria memória de trabalho.

Por outro lado, este método LLM aprimorado não apresenta falhas. Uma desvantagem óbvia é que o número de consultas e requisitos computacionais pode disparar. Cada consulta a uma API LLM on-line, como o GPT-4, incorre em despesas monetárias consideráveis e aumenta a latência, uma limitação que é particularmente crítica para aplicativos em tempo real. A latência acumulada destas consultas pode prejudicar a eficiência geral do cenário. Em termos de infraestrutura, as interações constantes podem sobrecarregar o sistema, o que pode limitar a largura de banda e reduzir a disponibilidade do modelo. Além disso, o impacto no meio ambiente não pode ser ignorado: consultas contínuas aumentarão o consumo de energia do data center que já consome muita energia, aumentando ainda mais a pegada de carbono.

Com base nessas considerações, o objetivo de otimização dos pesquisadores é reduzir significativamente o número de consultas usadas pelos atuais métodos de inferência de múltiplas consultas, mantendo ao mesmo tempo desempenho suficiente para permitir que o modelo lide com tarefas que exigem o uso qualificado do conhecimento mundial, orientando assim as pessoas para ser mais responsável e proficiente. Use os recursos de IA de forma eficiente.

Ao pensar na evolução do LLM de 1 para 2, pode-se ver um fator-chave emergindo: algoritmos. Os algoritmos são estruturados e fornecem uma maneira de ajudar as pessoas a explorar espaços problemáticos, desenvolver estratégias e construir soluções. Embora grande parte da literatura convencional trate algoritmos como ferramentas externas ao LLM, considerando a reprodutibilidade generativa inerente ao LLM, podemos guiar esta lógica iterativa para internalizar um algoritmo no LLM?

Uma equipe de pesquisa da Virginia Tech e da Microsoft reuniu a sofisticação do raciocínio humano e a precisão metódica dos métodos algorítmicos na tentativa de aprimorar o raciocínio dentro do LLM, mesclando os dois aspectos.

A investigação existente enfatiza que os humanos recorrem instintivamente a experiências passadas ao resolver problemas complexos para garantir que pensam de forma holística, em vez de se concentrarem estritamente num detalhe. O alcance da geração de LLM é limitado apenas pelo seu limite de tokens e parece destinado a romper os obstáculos da memória de trabalho humana.

Inspirados por esta observação, os investigadores exploraram se o LLM poderia permitir uma exploração hierárquica semelhante de ideias, filtrando opções inviáveis referindo-se a passos intermédios anteriores – tudo dentro do ciclo de geração do LLM. Embora os humanos sejam bons em intuição e perspicácia, os algoritmos são bons na exploração organizada e sistemática. As tecnologias atuais, como o CoT, tendem a fugir deste potencial sinérgico e a concentrar-se demasiado na precisão de campo do LLM. Ao explorar as capacidades recursivas do LLM, os pesquisadores construíram uma abordagem híbrida humano-algorítmica. Isto é feito através do uso de exemplos algorítmicos que capturam a essência da exploração – desde candidatos iniciais até soluções comprovadas.

Com base nessas observações, os pesquisadores propuseram o Algoritmo de Pensamentos (AoT).

papel:

Numa escala mais ampla, espera-se que esta nova abordagem inaugure um novo paradigma de aprendizagem contextual. Em vez de utilizar o modelo tradicional de aprendizagem supervisionada de [pergunta, resposta] ou [pergunta, etapas subsequentes para obter a resposta], esta nova abordagem adota um novo modelo [pergunta, processo de pesquisa, resposta]. Naturalmente, quando dizemos ao LLM para usar um algoritmo por meio de instruções, geralmente esperamos que o LLM simplesmente imite o pensamento iterativo do algoritmo. Porém, o interessante é que o LLM tem a capacidade de injetar sua própria “intuição”, tornando até mesmo sua busca mais eficiente que o próprio algoritmo.

Algoritmo de pensamento

Os investigadores dizem que o núcleo da sua estratégia de investigação é reconhecer as principais deficiências do actual paradigma de aprendizagem contextual. Embora o CoT possa melhorar a consistência das conexões mentais, ocasionalmente pode dar errado e dar passos intermediários errados.

Para ilustrar esse fenômeno, os pesquisadores desenvolveram um experimento. Ao consultar text-davinci-003 com uma tarefa aritmética (como 11 − 2 =), o pesquisador adicionará múltiplas equações de contexto na frente que obterão o mesmo resultado de saída (como 15 − 5 = 10, 8 + 2 = 10 ).

Descobriu-se que a precisão caiu vertiginosamente, sugerindo que simplesmente fornecer o raciocínio correto no contexto pode inadvertidamente prejudicar as habilidades aritméticas subjacentes do LLM.

Para reduzir este enviesamento, tornar os exemplos mais diversificados pode ser uma solução viável, mas isto pode alterar ligeiramente a distribuição dos resultados. A simples adição de algumas tentativas malsucedidas (como uma pesquisa aleatória) pode inadvertidamente encorajar o modelo a tentar novamente sem realmente resolver o problema. Compreendendo a verdadeira natureza do comportamento algorítmico (onde as pesquisas falhadas e as recuperações subsequentes são importantes, bem como aprendendo com essas tentativas), a forma como os investigadores incorporam exemplos contextuais é seguindo o padrão dos algoritmos de pesquisa, especialmente a pesquisa em profundidade (DFS) e Amplitude da primeira pesquisa (BFS). A Figura 1 dá um exemplo.

Este artigo enfoca uma grande classe de tarefas semelhantes a problemas de busca em árvore.

Esse tipo de tarefa exige decompor o problema principal, construir uma solução viável para cada parte e decidir adotar ou abandonar determinados caminhos, com a opção de reavaliar as partes com maior potencial.

Em vez de fornecer consultas separadas para cada subconjunto, os pesquisadores aproveitaram os recursos iterativos do LLM para resolvê-los em uma varredura generativa unificada. Ao limitar-se a apenas uma ou duas interações LLM, a abordagem pode integrar naturalmente insights de candidatos contextuais anteriores e resolver problemas complexos que exigem uma exploração profunda do domínio da solução. Os pesquisadores também deram seus próprios insights sobre o tamanho desses pensamentos e que tipo de exemplos contextuais devem ser fornecidos para o LLM melhorar a eficiência do token. Os principais componentes do algoritmo de busca em árvore e sua representação na nova estrutura são fornecidos abaixo.

**1. Decomponha-o em subproblemas. **Dado um problema, construir uma árvore de busca descrevendo caminhos de raciocínio viáveis já é uma tarefa difícil, mesmo sem olhar para o aspecto real da resolução do problema. Qualquer decomposição deve considerar não apenas as inter-relações entre as subtarefas, mas também a facilidade de resolução de cada problema.

Veja a adição simples de vários dígitos, por exemplo: embora seja eficiente para os computadores converterem valores numéricos em números binários, os humanos costumam achar os números decimais mais intuitivos. Além disso, mesmo que os subproblemas sejam iguais, os métodos de execução podem ser diferentes. A intuição pode encontrar atalhos entre as etapas para uma solução e, sem intuição, podem ser necessárias etapas mais detalhadas.

Para criar exemplos corretos (ou seja, de algoritmos contextuais), essas sutilezas são importantes e determinam o número mínimo de tokens exigidos pelo LLM para um desempenho confiável. Isso não apenas satisfaz as restrições de contexto do LLM, mas também é importante para a capacidade do LLM, porque esperamos que o LLM possa usar uma quantidade semelhante de tokens para resolver problemas que ressoem com seu contexto.

**2. Proponha uma solução para o subproblema. **Um dos métodos convencionais atuais envolve a amostragem direta da probabilidade de saída do token LLM. Embora este método seja eficaz para respostas únicas (com certas limitações), também é incapaz de lidar com alguns cenários, como quando a sequência da amostra precisa ser integrada no acompanhamento ou avaliada no acompanhamento. Para minimizar as consultas do modelo, os pesquisadores usaram um processo ininterrupto de criação de soluções. Ou seja, gerar soluções direta e continuamente para os principais subproblemas, sem qualquer pausa de geração.

Há muitos benefícios nessa abordagem. Primeiro, todas as soluções geradas estão no mesmo contexto compartilhado, eliminando a necessidade de gerar consultas de modelo separadas para avaliar cada solução. Em segundo lugar, embora possa parecer contra-intuitivo à primeira vista, tokens isolados ou probabilidades de agrupamento de tokens nem sempre podem levar a escolhas significativas. A Figura 4 fornece um diagrama esquemático simples.

**3. Meça as perspectivas dos subproblemas. **Conforme mencionado acima, as técnicas existentes dependem de pistas adicionais para identificar o potencial dos nós das árvores para ajudar a tomar decisões sobre as direções de exploração. Nossas observações indicam que o LLM tende inerentemente a priorizar candidatos promissores se eles puderem ser encapsulados em exemplos contextuais. Isto reduz a necessidade de engenharia complexa e permite a integração de heurísticas sofisticadas, sejam elas intuitivas ou orientadas pelo conhecimento. Da mesma forma, não há desconexões na nova abordagem, o que permite uma avaliação imediata da viabilidade do candidato dentro dos mesmos resultados gerados.

**4. Volte para um nó melhor. **A decisão sobre qual nó explorar em seguida (incluindo retrocesso para nós anteriores) depende essencialmente do algoritmo de busca em árvore escolhido. Embora pesquisas anteriores tenham empregado métodos externos, como mecanismos de codificação para o processo de pesquisa, isso limitaria seu apelo mais amplo e exigiria personalização adicional. O novo desenho proposto neste artigo adota principalmente o método DFS complementado por poda. O objetivo é manter a proximidade entre nós filhos com o mesmo nó pai, incentivando assim o LLM a priorizar recursos locais em detrimento de recursos remotos. Além disso, os pesquisadores também propuseram indicadores de desempenho do método AoT baseado em BFS. Os pesquisadores dizem que a necessidade de mecanismos adicionais de personalização pode ser eliminada aproveitando a capacidade inerente do modelo de obter insights de exemplos contextuais.

experimentar

Os pesquisadores realizaram experimentos em minijogos de palavras cruzadas de 24 pontos e 5x5, e os resultados mostraram a superioridade do método AoT - seu desempenho se deveu a um único método (como método padrão, CoT, CoT-SC), e também foi comparável ao uso de métodos de mecanismos externos (como ToT).

É evidente na Tabela 1 que o método de projeto padrão que incorpora CoT/CoT-SC fica claramente atrás do método de busca em árvore usado através do LLM.

A Tabela 3 destaca a eficácia do AoT na tarefa de minipreenchimento de palavras, com sua taxa de sucesso no preenchimento de palavras excedendo os métodos anteriores usando várias técnicas.

No entanto, é pior que o ToT. Uma observação importante é que o volume de consultas utilizadas pelo ToT é enorme, ultrapassando o AoT em mais de cem vezes. Outro fator que torna o AoT inferior ao ToT é que as capacidades de retrocesso inerentes aos exemplos de algoritmo não estão totalmente ativadas. Se esta capacidade pudesse ser totalmente desbloqueada, resultaria numa fase de geração significativamente mais longa. Em contraste, o ToT tem a vantagem de usar memória externa para retrocesso.

discutir

O AoT pode superar o DFS que emula?

Conforme mostrado na Figura 5, o AoT usa menos nós em geral do que a versão DFS. O DFS adota uma estratégia unificada ao selecionar subárvores para explorar posteriormente, enquanto o LLM do AoT integra sua heurística inerente. Esta amplificação do algoritmo básico reflete a vantagem das capacidades de raciocínio recursivo do LLM.

Como a escolha do algoritmo afeta o desempenho do AoT?

A Tabela 5 apresenta os resultados experimentais e pode-se observar que todas as três variantes do AoT superam o CoT de consulta única.

Este resultado é esperado, pois qualquer que seja o algoritmo, ele busca e revisita possíveis erros - seja através de tentativas aleatórias na variante de busca aleatória, seja através de retrocesso em configurações DFS ou BFS. Vale ressaltar que ambas as versões de busca estruturada, AoT (DFS) e AoT (BFS), são mais eficientes que AoT (Random), o que destaca as vantagens dos insights algorítmicos na descoberta de soluções. No entanto, o AoT (BFS) está atrás do AoT (DFS). Ao analisar ainda mais os erros do AoT (BFS), os pesquisadores descobriram que, em comparação com o AoT (DFS), o AoT (BFS) é mais difícil de identificar as operações ideais.

Então, como o número de etapas de pesquisa no exemplo do algoritmo ajusta o comportamento do AoT?

A Figura 6 mostra o impacto do número total de etapas de pesquisa. Entre eles, AoT (Long) e AoT (Short) são respectivamente versões mais longas e mais curtas dos resultados gerados em relação ao AoT original.

Os resultados mostram que o número de etapas de pesquisa introduz um viés implícito na velocidade de pesquisa do LLM. É importante ressaltar que mesmo ao dar passos errados, é importante enfatizar a exploração de direções com potencial.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)