A Meta Princeton propõe a solução definitiva para o contexto LLM! Deixe o modelo se tornar um agente autônomo e leia a árvore de nós de contexto por si só
Qual é a solução definitiva para modelos de contexto longo LLM?
Uma solução recentemente proposta por pesquisadores da Universidade de Princeton e da Meta AI é pensar no LLM como um agente interativo que permite decidir como ler texto por meio de prompts iterativos.
Endereço em papel:
Eles projetaram um sistema chamado MemWalker que pode processar contextos longos em uma árvore de nós de resumo.
Quando uma consulta é recebida, o modelo pode recuperar essa árvore de nós para encontrar informações relevantes e responder quando tiver coletado informações suficientes. Em tarefas de resposta a perguntas de texto longo, esse método é significativamente melhor do que o método de linha de base usando janelas de contexto longas, recursão e recuperação.
LeCun também tuitou apoio à sua pesquisa.
MemWalker consiste em duas partes principais:
Primeiro você precisa construir a árvore de memória:
Corte o texto longo em nós de resumo. Os nós de rollup são resumidos em nós de nível superior e, finalmente, alcançam a raiz.
A segunda parte é Navegação:
Depois de aceitar a consulta, o LLM navega pela árvore para encontrar informações relevantes e responder adequadamente. LLM realiza esse processo através do raciocínio – talvez trabalhando para encontrar uma resposta, escolhendo ir mais longe em um caminho, ou encontrando-se equivocado e recuando da mesma maneira.
Esse processo de navegação pode ser implementado com prompts de amostra zero e é facilmente adaptado a qualquer um dos modelos de linguagem grandes especificados.
A equipe de pesquisa mostrou que, através da leitura interativa da árvore de memória construída por este modelo, MemWalker superou outras linhas de base de contexto longo e variantes de recuperação e loop, especialmente para exemplos mais longos.
A eficácia do MemWalker depende de duas partes principais:
Tamanho da memória de trabalho – O LLM tem melhores capacidades de contexto global ao permitir que o LLM obtenha mais informações ao longo do caminho que recupera.
2) A capacidade de raciocínio do LLM - Quando o LLM atinge o limiar de inferência, o MemWalker é eficaz. Quando a capacidade de inferência está abaixo do limite, a taxa de erro durante a navegação é alta.
MEMWALKER: UM LEITOR INTERATIVO**
A equipa de investigação investiga tarefas relacionadas com a resposta a perguntas de contexto longo — dado texto longo x e consulta q, o objetivo do modelo é gerar uma resposta r.
MEMWALKER SEGUE DOIS PASSOS:
Construção da árvore de memória, onde contextos longos são divididos em estruturas de dados em forma de árvore. Esta construção não depende de consultas, portanto, se houver dados de sequência de antemão, eles podem ser calculados antecipadamente.
Navegação, onde o modelo navega nesta estrutura quando recebe uma consulta, recolhendo informação para formular uma resposta adequada.
MEMWALKER assume o acesso ao LLM subjacente e implementa a compilação e navegação iterando em prompts LLM.
Navegação
Depois de receber a consulta Q, o modelo de linguagem é removido do nó raiz
Comece a navegar na árvore para gerar uma resposta.
O nó percorrido em LLM
, observa o próximo nível de nós
Resumo de .
LLM decidido em
+ Escolha uma das 1 ações - Selecione um nó filho para inspeção adicional ou retorne ao nó pai.
No nó da folha
O LLM pode decidir sobre uma de duas ações: enviar o nó folha e responder à consulta, ou se o nó folha contém informações
(ou seja,
) não é suficiente, retorne ao nó pai
。
Para tomar decisões de navegação, a equipe de pesquisa também poderia pedir ao LLM para primeiro gerar uma justificativa em linguagem natural, solicitando a ação, seguida pela própria escolha da ação.
Especificamente, em cada nó, o modelo gera uma resposta r ∼ LLM(r | s, q), onde a resposta é uma de duas tuplas: 1) r = (raciocínio, ação, resposta) quando LLM está em um nó folha ou 2) r = (raciocínio, ação) quando LLM está em um nó não-folha.
Design de Dicas de Navegação
A equipe de pesquisa habilitou a navegação LLM com prompts de amostra zero. Existem dois tipos de dicas que você precisa:
Pontas de triagem e 2) pontas de folha (destacadas na tabela abaixo).
O prompt de triagem contém a consulta, um resumo dos nós filho e instruções que o LLM deve seguir. As pontas de triagem são usadas para nós não foliares.
O prompt folha contém conteúdo de parágrafo, consultas (e opções) e instruções que exigem que o LLM gere uma resposta ou retorne ao nó pai.
Tanto as dicas de triagem quanto as dicas de folha especificam o formato de saída que o LLM precisa seguir. A não adesão ao formato resulta em ações inválidas e o LLM precisa ser regenerado. Se o LLM não conseguir produzir saída resolúvel três vezes seguidas, a navegação será encerrada e retornará "Sem resposta".
Memória de trabalho
Quando o LLM termina de recuperar a árvore, ele pode armazenar as informações na trilha de navegação e adicioná-las ao contexto.
Para ser preciso, LLM gera uma resposta r ∼ LLM(r | s, q, m) com memória de trabalho adicional
Vazio ou contém conteúdo de nós visitados anteriormente.
A equipe de pesquisa truncou a memória de trabalho para que ela pudesse se encaixar na janela de contexto do LLM.
A TABELA ACIMA TAMBÉM MOSTRA COMO ADICIONAR MEMÓRIA DE TRABALHO AO PROMPT ATRAVÉS DA MEMÓRIA DE TRABALHO.
Configuração experimental
Conjuntos de dados e avaliações
A equipe de pesquisa usou três conjuntos de dados: QuALITY, SummScreenFD e GovReport, que vieram do benchmark SCROLLS. A equipe de pesquisa demonstrou a precisão de todos os conjuntos de dados.
QuALITY
QuALITY é um conjunto de dados de perguntas e respostas de escolha múltipla.
O conjunto de dados contém histórias longas do Project Gutenberg e perguntas anotadas por anotadores humanos. A equipe de pesquisa experimentou usando um subconjunto de 187 exemplos.
SummScreenFD
SummScreenFD é um conjunto de dados de scripts de TV e filmes originalmente projetado para sumarização.
Estes guiões são apresentados sob a forma de diálogos entre atores. A equipe de pesquisa converteu esse conjunto de dados em uma tarefa de perguntas e respostas, na qual o texto resumido básico fornecido foi usado para gerar uma pergunta "quem" usando o Stable Beluga 2, que foi então verificado por um especialista humano.
A pergunta emparelhada com o texto longo original tornou-se 306 exemplos de tarefas de QA reposicionadas.
GovReport
O conjunto de dados GovReport reúne documentos do Serviço de Pesquisa do Congresso e do U.S. Government Accountability Office, bem como resumos fornecidos por especialistas.
A equipa de investigação converteu este conjunto de dados num conjunto de dados de perguntas e respostas com 101 exemplos da mesma forma que o SummScreenFD.
Todos os três conjuntos de dados são caracterizados por contextos longos de comprimentos diferentes, alguns exemplos mais curtos e algumas sequências mais longas.
Portanto, a equipe de pesquisa apresentou resultados tanto no conjunto de dados original quanto em um subconjunto das sequências mais longas contidas em cada tarefa para avaliar melhor o acesso à memória em situações de contexto mais difíceis e mais longas.
Os limites são os 8.000 tokens do QuALITY, os 6.000 tokens do SummScreenFD e os 12.000 tokens do GovReport.
Modelo
A equipe de pesquisa usou o Stable Beluga 2 como LLM base na maioria de seus experimentos porque oferece desempenho de última geração em comparação com várias outras variantes de LLM, que a equipe de pesquisa demonstrará.
Stable Beluga 2 é um modelo de ajuste de instrução baseado em 70B LLaMA-2 no qual o ajuste fino não se sobrepõe à tarefa de avaliação da equipe de pesquisa.
Tem um comprimento máximo de contexto de 4.096 tokens. A equipa de investigação utilizou o modelo de uma forma zero-shot, sem mais ajustes finos ou fornecendo um pequeno número de exemplos da tarefa da equipa de investigação no contexto.
A equipe de pesquisa usou amostragem p superior para a construção da árvore de memória, bem como ações e inferência para gerar navegação.
A equipe de pesquisa definiu o número máximo de nós para QuALITY, SummScreenFD e GovReport, maxt Mt = 8, 5, 8 e tamanho do segmento|c|, respectivamente = 1000, 1000, 1200。
Parâmetros de referência
A equipa de investigação comparou três tecnologias de memória baseadas no mesmo LLM subjacente com o Stable Beluga 2:
Janela de contexto completa
Recursão
Recuperação
A linha de base da janela de contexto completo usa todos os 4.096 tokens para processar texto de entrada longa e geração. Como as instâncias no conjunto de dados geralmente excedem os limites de contexto, a equipe de pesquisa truncou o comprimento, tomando a direita (mais próxima) ou a esquerda (menos próxima) do texto como entrada, e avaliou ambos os métodos.
Para a pesquisa, a equipe de pesquisa usou Contriever (Izacard et al., 2022) para selecionar parágrafos de contextos longos com base em consultas. As passagens com as pontuações mais altas são concatenadas no contexto de entrada do LLM até preencherem o contexto.
Finalmente, a equipe de pesquisa implementou uma linha de base que percorre o resumo até o parágrafo atual de informações dos tokens de parágrafo anterior, onde cada parágrafo é de 2.500 tokens e o tamanho abstrato máximo é de 500 tokens.
Resultados & Análise
Principais Resultados
A Tabela 2 abaixo mostra uma comparação entre MEMWALKER e outras linhas de base.
MEMWALKER EXCEDEU SIGNIFICATIVAMENTE A LINHA DE BASE RECURSIVA EM TODAS AS TAREFAS.
Isso mostra a limitação da recursão, onde informações relevantes para a consulta são perdidas após algumas etapas.
MEMWALKER TAMBÉM VAI ALÉM DA PESQUISA, ONDE AS PASSAGENS VÊM DE UMA HISTÓRIA COERENTE E LONGA, EM VEZ DE UM DOCUMENTO SEPARADO.
Nessas tarefas, a linha de base de contexto completo pode ter um bom desempenho na configuração de tarefa "bruta", que pode conter sequências relativamente curtas, embora a escolha do truncamento esquerdo ou direito para obter o melhor desempenho pareça depender do conjunto de dados.
No entanto, com exceção da variável hold-right no QuALITY e da variável hold-left no GovReport, o MEMWALKER alcança um desempenho maior na configuração original do que a linha de base de contexto completo, o que pode ser devido ao viés posicional no conjunto de dados, onde parágrafos relevantes normalmente aparecem no início ou no final do texto.
NO ENTANTO, EM VERSÕES LONGAS DE TODAS AS TRÊS TAREFAS, MEMWALKER EXCEDEU TODAS AS LINHAS DE BASE, OU SEJA, MOSTROU UM FORTE DESEMPENHO À MEDIDA QUE O ACESSO À MEMÓRIA SE TORNOU MAIS CRÍTICO.
MEMWALKER também supera outros modelos disponíveis publicamente, incluindo LongChat e MPT.
MEMWALKER melhora o desempenho em sequências longas. A equipe de pesquisa forneceu um detalhamento de desempenho do comprimento da sequência de entrada para cada tarefa na Figura 2 acima.
QUANDO O COMPRIMENTO DO TEXTO É MENOR, O MEMWALKER É INFERIOR À LINHA DE BASE DE CONTEXTO COMPLETO (TRUNCAMENTO ESQUERDO OU DIREITO), MAS SUPERA AMBOS OS TIPOS DE TRUNCAMENTO EM SEQUÊNCIAS MAIS LONGAS PARA TODAS AS TAREFAS.
O benefício da leitura interativa é que o aumento apropriado no comprimento do texto torna-se aparente, ou seja, um melhor desempenho é mostrado quando o comprimento da sequência é significativamente maior do que 4.096 LLM de comprimento de contexto.
A inferência é essencial para a navegação na árvore de memória.
A EFICÁCIA DO MEMWALKER É ALTAMENTE DEPENDENTE DAS CAPACIDADES DE RACIOCÍNIO DO LLM SUBJACENTE. Para cada decisão de navegação, a equipe de pesquisa usou um prompt LLM que pediu ao LLM para primeiro gerar uma justificativa em linguagem natural para justificar a próxima ação prevista, como mostrado na Tabela 1 abaixo.
A equipe de pesquisa mostra na Tabela 3 abaixo como o raciocínio afeta o desempenho comparando o Llama 2 Chat (variantes de parâmetros 13B e 70B) com o Beluga Estável 2 (70B) e removendo a linha "Fornecer raciocínio antes de tomar uma decisão..." do prompt.
Para modelos menores e menos capazes (13B), o desempenho fica significativamente atrás dos modelos 70B devido à incapacidade de seguir instruções. Na verdade, exigir justificativas de inferência para modelos mais fracos pode degradar o desempenho, talvez porque eles não possam gerar e alavancar essas justificativas.
O Stable Beluga 2 superou o Llama 2 Chat do mesmo tamanho LLM e também mostrou capacidades de raciocínio aprimoradas.
Para o Beluga Estável 2, exigir justificativas de raciocínio em todas as tarefas melhora o desempenho. ISSO DESTACA A PRINCIPAL CARACTERÍSTICA DO MEMWALKER: SE O LLM ULTRAPASSAR O LIMITE DE CAPACIDADE DE RACIOCÍNIO CRÍTICO, ELE PODE RACIOCINAR SOBRE ENTRADAS LONGAS EM VÁRIAS RODADAS SEM GERAR RAPIDAMENTE ERROS ENTRE AS RODADAS.
Para LLMs fracos que não tomam boas decisões de navegação, os erros podem se acumular e o desempenho geral é prejudicado.
À MEDIDA QUE AS CAPACIDADES DE RACIOCÍNIO DO LLM CONTINUAM A MELHORAR NOS PRÓXIMOS ANOS, A EQUIPE DE PESQUISA ESPERA QUE MÉTODOS COMO O MEMWALKER SE TORNEM MAIS EFICAZES.
A memória de trabalho é necessária para navegar na árvore de memória. QUANDO MEMWALKER TOMA DECISÕES PARA ATRAVESSAR A ÁRVORE DA MEMÓRIA E LER PARÁGRAFOS RELACIONADOS, ELE PODE PERDER O CONHECIMENTO DO CONTEXTO GERAL.
Portanto, o modelo carrega informações do nó ao longo do caminho de navegação como memória de trabalho, onde o conteúdo da memória de trabalho é atualizado quando o modelo escolhe o próximo caminho.
A EQUIPE DE PESQUISA AVALIOU O DESEMPENHO DE MEMWALKER COM OU SEM MEMÓRIA DE TRABALHO, E OS RESULTADOS SÃO MOSTRADOS NA FIGURA 3 ABAIXO.
A equipa de investigação descobriu que a exaustão da memória de trabalho resultou numa diminuição significativa no desempenho em todas as tarefas, com uma queda de 5-13% na precisão, demonstrando a importância deste componente.
MEMWALKER pode se recuperar do caminho errado.
QUANDO MEMWALKER NAVEGA NA ÁRVORE DE MEMÓRIA, ELE NÃO SÓ PRECISA ENCONTRAR SEU CAMINHO PARA OS PARÁGRAFOS MAIS RELEVANTES, MAS TAMBÉM PODE PRECISAR SE RECUPERAR DE TODOS OS ERROS DE RECUPERAÇÃO.
A equipe de pesquisa apresenta as estatísticas de recuperação na Tabela 4 abaixo. MEMWALKER executa operações de navegação de recuperação (e, portanto, muda caminhos) em aproximadamente 15% - 20% das amostras, mas nesses exemplos é possível recuperá-las e obtê-las corretamente em QuALITY, 60% para SummScreenFD e ∼ 80% para GovReport.
MEMWALKER permite uma leitura eficiente. COMO MEMWALKER DETERMINA QUAIS PARTES DO TEXTO LONGO PRECISAM SER LIDAS, A CARGA ÚTIL QUE PRECISA SER LIDA PODE SER MENOR DO QUE TODA A SEQUÊNCIA.
A equipe de pesquisa mostra a média das porcentagens de leituras longas de contexto para todos os exemplos, como mostrado na Figura 4 abaixo para cada uma das três tarefas. A equipe de pesquisa descobriu que, em média, apenas 63-69% do texto precisava ser lido para responder a perguntas, incluindo o conteúdo dos nós das árvores.
No caminho para o sucesso, a leitura obrigatória é ainda reduzida para 59% – 64%.
Compensações para a construção da árvore de memória
Quando a equipe de pesquisa constrói a árvore de memória, surge uma troca fundamental – resumir parágrafos maiores em nós para reduzir a profundidade da árvore, mas potencialmente perder a precisão do conteúdo.
Da mesma forma, conectar muitos nós de nível inferior aos nós acima pode ajudar a achatar a árvore, mas pode tornar as tarefas de navegação LLM em cada nó mais difíceis.
A Figura 5 abaixo mostra o desempenho de diferentes configurações da árvore de memória no QuALITY. Resumir parágrafos maiores geralmente é mais benéfico do que resumir parágrafos menores e conectar mais nós filhos ao nó pai.
No entanto, o desempenho estabilizou à medida que o número máximo de nós aumentou, mostrando a compensação de quanta informação pode ser empacotada em nós durante a construção da árvore de memória.
Recursos:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
A Meta Princeton propõe a solução definitiva para o contexto LLM! Deixe o modelo se tornar um agente autônomo e leia a árvore de nós de contexto por si só
Fonte original: Shin Ji Yuan
Qual é a solução definitiva para modelos de contexto longo LLM?
Uma solução recentemente proposta por pesquisadores da Universidade de Princeton e da Meta AI é pensar no LLM como um agente interativo que permite decidir como ler texto por meio de prompts iterativos.
Eles projetaram um sistema chamado MemWalker que pode processar contextos longos em uma árvore de nós de resumo.
Quando uma consulta é recebida, o modelo pode recuperar essa árvore de nós para encontrar informações relevantes e responder quando tiver coletado informações suficientes. Em tarefas de resposta a perguntas de texto longo, esse método é significativamente melhor do que o método de linha de base usando janelas de contexto longas, recursão e recuperação.
LeCun também tuitou apoio à sua pesquisa.
Primeiro você precisa construir a árvore de memória:
Corte o texto longo em nós de resumo. Os nós de rollup são resumidos em nós de nível superior e, finalmente, alcançam a raiz.
Depois de aceitar a consulta, o LLM navega pela árvore para encontrar informações relevantes e responder adequadamente. LLM realiza esse processo através do raciocínio – talvez trabalhando para encontrar uma resposta, escolhendo ir mais longe em um caminho, ou encontrando-se equivocado e recuando da mesma maneira.
A eficácia do MemWalker depende de duas partes principais:
A equipa de investigação investiga tarefas relacionadas com a resposta a perguntas de contexto longo — dado texto longo x e consulta q, o objetivo do modelo é gerar uma resposta r.
MEMWALKER SEGUE DOIS PASSOS:
Construção da árvore de memória, onde contextos longos são divididos em estruturas de dados em forma de árvore. Esta construção não depende de consultas, portanto, se houver dados de sequência de antemão, eles podem ser calculados antecipadamente.
Navegação, onde o modelo navega nesta estrutura quando recebe uma consulta, recolhendo informação para formular uma resposta adequada.
MEMWALKER assume o acesso ao LLM subjacente e implementa a compilação e navegação iterando em prompts LLM.
Navegação
Depois de receber a consulta Q, o modelo de linguagem é removido do nó raiz
O nó percorrido em LLM
LLM decidido em
No nó da folha
(ou seja,
Para tomar decisões de navegação, a equipe de pesquisa também poderia pedir ao LLM para primeiro gerar uma justificativa em linguagem natural, solicitando a ação, seguida pela própria escolha da ação.
Especificamente, em cada nó, o modelo gera uma resposta r ∼ LLM(r | s, q), onde a resposta é uma de duas tuplas: 1) r = (raciocínio, ação, resposta) quando LLM está em um nó folha ou 2) r = (raciocínio, ação) quando LLM está em um nó não-folha.
Design de Dicas de Navegação
A equipe de pesquisa habilitou a navegação LLM com prompts de amostra zero. Existem dois tipos de dicas que você precisa:
O prompt folha contém conteúdo de parágrafo, consultas (e opções) e instruções que exigem que o LLM gere uma resposta ou retorne ao nó pai.
Tanto as dicas de triagem quanto as dicas de folha especificam o formato de saída que o LLM precisa seguir. A não adesão ao formato resulta em ações inválidas e o LLM precisa ser regenerado. Se o LLM não conseguir produzir saída resolúvel três vezes seguidas, a navegação será encerrada e retornará "Sem resposta".
Memória de trabalho
Quando o LLM termina de recuperar a árvore, ele pode armazenar as informações na trilha de navegação e adicioná-las ao contexto.
Para ser preciso, LLM gera uma resposta r ∼ LLM(r | s, q, m) com memória de trabalho adicional
A equipe de pesquisa truncou a memória de trabalho para que ela pudesse se encaixar na janela de contexto do LLM.
A TABELA ACIMA TAMBÉM MOSTRA COMO ADICIONAR MEMÓRIA DE TRABALHO AO PROMPT ATRAVÉS DA MEMÓRIA DE TRABALHO.
Configuração experimental
Conjuntos de dados e avaliações
A equipe de pesquisa usou três conjuntos de dados: QuALITY, SummScreenFD e GovReport, que vieram do benchmark SCROLLS. A equipe de pesquisa demonstrou a precisão de todos os conjuntos de dados.
QuALITY
QuALITY é um conjunto de dados de perguntas e respostas de escolha múltipla.
O conjunto de dados contém histórias longas do Project Gutenberg e perguntas anotadas por anotadores humanos. A equipe de pesquisa experimentou usando um subconjunto de 187 exemplos.
SummScreenFD
SummScreenFD é um conjunto de dados de scripts de TV e filmes originalmente projetado para sumarização.
Estes guiões são apresentados sob a forma de diálogos entre atores. A equipe de pesquisa converteu esse conjunto de dados em uma tarefa de perguntas e respostas, na qual o texto resumido básico fornecido foi usado para gerar uma pergunta "quem" usando o Stable Beluga 2, que foi então verificado por um especialista humano.
A pergunta emparelhada com o texto longo original tornou-se 306 exemplos de tarefas de QA reposicionadas.
GovReport
O conjunto de dados GovReport reúne documentos do Serviço de Pesquisa do Congresso e do U.S. Government Accountability Office, bem como resumos fornecidos por especialistas.
A equipa de investigação converteu este conjunto de dados num conjunto de dados de perguntas e respostas com 101 exemplos da mesma forma que o SummScreenFD.
Todos os três conjuntos de dados são caracterizados por contextos longos de comprimentos diferentes, alguns exemplos mais curtos e algumas sequências mais longas.
Portanto, a equipe de pesquisa apresentou resultados tanto no conjunto de dados original quanto em um subconjunto das sequências mais longas contidas em cada tarefa para avaliar melhor o acesso à memória em situações de contexto mais difíceis e mais longas.
Os limites são os 8.000 tokens do QuALITY, os 6.000 tokens do SummScreenFD e os 12.000 tokens do GovReport.
Modelo
A equipe de pesquisa usou o Stable Beluga 2 como LLM base na maioria de seus experimentos porque oferece desempenho de última geração em comparação com várias outras variantes de LLM, que a equipe de pesquisa demonstrará.
Stable Beluga 2 é um modelo de ajuste de instrução baseado em 70B LLaMA-2 no qual o ajuste fino não se sobrepõe à tarefa de avaliação da equipe de pesquisa.
Tem um comprimento máximo de contexto de 4.096 tokens. A equipa de investigação utilizou o modelo de uma forma zero-shot, sem mais ajustes finos ou fornecendo um pequeno número de exemplos da tarefa da equipa de investigação no contexto.
A equipe de pesquisa usou amostragem p superior para a construção da árvore de memória, bem como ações e inferência para gerar navegação.
A equipe de pesquisa definiu o número máximo de nós para QuALITY, SummScreenFD e GovReport, maxt Mt = 8, 5, 8 e tamanho do segmento|c|, respectivamente = 1000, 1000, 1200。
Parâmetros de referência
A equipa de investigação comparou três tecnologias de memória baseadas no mesmo LLM subjacente com o Stable Beluga 2:
Janela de contexto completa
Recursão
Recuperação
A linha de base da janela de contexto completo usa todos os 4.096 tokens para processar texto de entrada longa e geração. Como as instâncias no conjunto de dados geralmente excedem os limites de contexto, a equipe de pesquisa truncou o comprimento, tomando a direita (mais próxima) ou a esquerda (menos próxima) do texto como entrada, e avaliou ambos os métodos.
Para a pesquisa, a equipe de pesquisa usou Contriever (Izacard et al., 2022) para selecionar parágrafos de contextos longos com base em consultas. As passagens com as pontuações mais altas são concatenadas no contexto de entrada do LLM até preencherem o contexto.
Finalmente, a equipe de pesquisa implementou uma linha de base que percorre o resumo até o parágrafo atual de informações dos tokens de parágrafo anterior, onde cada parágrafo é de 2.500 tokens e o tamanho abstrato máximo é de 500 tokens.
Resultados & Análise
Principais Resultados
A Tabela 2 abaixo mostra uma comparação entre MEMWALKER e outras linhas de base.
Isso mostra a limitação da recursão, onde informações relevantes para a consulta são perdidas após algumas etapas.
MEMWALKER TAMBÉM VAI ALÉM DA PESQUISA, ONDE AS PASSAGENS VÊM DE UMA HISTÓRIA COERENTE E LONGA, EM VEZ DE UM DOCUMENTO SEPARADO.
Nessas tarefas, a linha de base de contexto completo pode ter um bom desempenho na configuração de tarefa "bruta", que pode conter sequências relativamente curtas, embora a escolha do truncamento esquerdo ou direito para obter o melhor desempenho pareça depender do conjunto de dados.
No entanto, com exceção da variável hold-right no QuALITY e da variável hold-left no GovReport, o MEMWALKER alcança um desempenho maior na configuração original do que a linha de base de contexto completo, o que pode ser devido ao viés posicional no conjunto de dados, onde parágrafos relevantes normalmente aparecem no início ou no final do texto.
NO ENTANTO, EM VERSÕES LONGAS DE TODAS AS TRÊS TAREFAS, MEMWALKER EXCEDEU TODAS AS LINHAS DE BASE, OU SEJA, MOSTROU UM FORTE DESEMPENHO À MEDIDA QUE O ACESSO À MEMÓRIA SE TORNOU MAIS CRÍTICO.
MEMWALKER também supera outros modelos disponíveis publicamente, incluindo LongChat e MPT.
QUANDO O COMPRIMENTO DO TEXTO É MENOR, O MEMWALKER É INFERIOR À LINHA DE BASE DE CONTEXTO COMPLETO (TRUNCAMENTO ESQUERDO OU DIREITO), MAS SUPERA AMBOS OS TIPOS DE TRUNCAMENTO EM SEQUÊNCIAS MAIS LONGAS PARA TODAS AS TAREFAS.
O benefício da leitura interativa é que o aumento apropriado no comprimento do texto torna-se aparente, ou seja, um melhor desempenho é mostrado quando o comprimento da sequência é significativamente maior do que 4.096 LLM de comprimento de contexto.
A inferência é essencial para a navegação na árvore de memória.
A EFICÁCIA DO MEMWALKER É ALTAMENTE DEPENDENTE DAS CAPACIDADES DE RACIOCÍNIO DO LLM SUBJACENTE. Para cada decisão de navegação, a equipe de pesquisa usou um prompt LLM que pediu ao LLM para primeiro gerar uma justificativa em linguagem natural para justificar a próxima ação prevista, como mostrado na Tabela 1 abaixo.
O Stable Beluga 2 superou o Llama 2 Chat do mesmo tamanho LLM e também mostrou capacidades de raciocínio aprimoradas.
Para o Beluga Estável 2, exigir justificativas de raciocínio em todas as tarefas melhora o desempenho. ISSO DESTACA A PRINCIPAL CARACTERÍSTICA DO MEMWALKER: SE O LLM ULTRAPASSAR O LIMITE DE CAPACIDADE DE RACIOCÍNIO CRÍTICO, ELE PODE RACIOCINAR SOBRE ENTRADAS LONGAS EM VÁRIAS RODADAS SEM GERAR RAPIDAMENTE ERROS ENTRE AS RODADAS.
Para LLMs fracos que não tomam boas decisões de navegação, os erros podem se acumular e o desempenho geral é prejudicado.
À MEDIDA QUE AS CAPACIDADES DE RACIOCÍNIO DO LLM CONTINUAM A MELHORAR NOS PRÓXIMOS ANOS, A EQUIPE DE PESQUISA ESPERA QUE MÉTODOS COMO O MEMWALKER SE TORNEM MAIS EFICAZES.
A memória de trabalho é necessária para navegar na árvore de memória. QUANDO MEMWALKER TOMA DECISÕES PARA ATRAVESSAR A ÁRVORE DA MEMÓRIA E LER PARÁGRAFOS RELACIONADOS, ELE PODE PERDER O CONHECIMENTO DO CONTEXTO GERAL.
Portanto, o modelo carrega informações do nó ao longo do caminho de navegação como memória de trabalho, onde o conteúdo da memória de trabalho é atualizado quando o modelo escolhe o próximo caminho.
A EQUIPE DE PESQUISA AVALIOU O DESEMPENHO DE MEMWALKER COM OU SEM MEMÓRIA DE TRABALHO, E OS RESULTADOS SÃO MOSTRADOS NA FIGURA 3 ABAIXO.
MEMWALKER pode se recuperar do caminho errado.
QUANDO MEMWALKER NAVEGA NA ÁRVORE DE MEMÓRIA, ELE NÃO SÓ PRECISA ENCONTRAR SEU CAMINHO PARA OS PARÁGRAFOS MAIS RELEVANTES, MAS TAMBÉM PODE PRECISAR SE RECUPERAR DE TODOS OS ERROS DE RECUPERAÇÃO.
A equipe de pesquisa apresenta as estatísticas de recuperação na Tabela 4 abaixo. MEMWALKER executa operações de navegação de recuperação (e, portanto, muda caminhos) em aproximadamente 15% - 20% das amostras, mas nesses exemplos é possível recuperá-las e obtê-las corretamente em QuALITY, 60% para SummScreenFD e ∼ 80% para GovReport.
A equipe de pesquisa mostra a média das porcentagens de leituras longas de contexto para todos os exemplos, como mostrado na Figura 4 abaixo para cada uma das três tarefas. A equipe de pesquisa descobriu que, em média, apenas 63-69% do texto precisava ser lido para responder a perguntas, incluindo o conteúdo dos nós das árvores.
Compensações para a construção da árvore de memória
Quando a equipe de pesquisa constrói a árvore de memória, surge uma troca fundamental – resumir parágrafos maiores em nós para reduzir a profundidade da árvore, mas potencialmente perder a precisão do conteúdo.
Da mesma forma, conectar muitos nós de nível inferior aos nós acima pode ajudar a achatar a árvore, mas pode tornar as tarefas de navegação LLM em cada nó mais difíceis.
A Figura 5 abaixo mostra o desempenho de diferentes configurações da árvore de memória no QuALITY. Resumir parágrafos maiores geralmente é mais benéfico do que resumir parágrafos menores e conectar mais nós filhos ao nó pai.
No entanto, o desempenho estabilizou à medida que o número máximo de nós aumentou, mostrando a compensação de quanta informação pode ser empacotada em nós durante a construção da árvore de memória.