Duas linhas de código para resolver as limitações do diálogo de modelo de linguagem grande! A equipe do chinês Jia Jiaya de Hong Kong e o MIT lançaram tecnologia de extensão de texto ultralonga
Perdido no meio do caminho, o modelo é preguiçoso, quanto mais longo o contexto, mais burro o modelo fica... Se você experimentou produtos de modelo de linguagem grande, os usuários sentirão a limitação do comprimento da entrada de texto até certo ponto, como quando você quiser discutir algum conteúdo um pouco mais longo com o modelo grande, você precisa dividir a entrada, e os pontos principais da entrada anterior logo serão esquecidos pelo modelo grande.
Este é um típico defeito de diálogo de modelo de linguagem grande! Tal como as crianças que nascem com défices de atenção, é difícil concentrarmo-nos em terminar um novo livro. A chave para o defeito é que o modelo não tem longos recursos de processamento de texto. Isso foi agora quebrado.
Recentemente, as novas tecnologias e novos modelos lançados pela equipe de Jia Jiaya e MIT silenciosamente apareceram nas listas quentes dos principais sites de código aberto: abraçando cara hot list primeiro, paperwithcode hot primeiro, Github todos os projetos python hot quinto, estrelas do GitHub ultrapassaram 1.000 em uma semana, e posts técnicos relacionados no Twitter foram vistos quase 180.000...
GitHub Stars atingiu 1.3K
Publicações relacionadas a tecnologia no Twitter receberam quase 180.000 visualizações
A tecnologia, chamada LongLoRA, é prática, mas surpreendentemente simples: com apenas duas linhas de código e uma máquina A100 de 8 cartões, o comprimento do texto do modelo 7B pode ser estendido para 100k tokens, e o comprimento do texto do modelo 70B pode ser estendido para 32k tokens; Ao mesmo tempo, a equipe de pesquisa também lançou LongAlpaca, o primeiro modelo de diálogo de texto longo em grande linguagem com parâmetros 70B.
Lançamento do primeiro modelo de linguagem grande de texto longo 70B do mundo
A proposta do LongLoRA resolveu os defeitos de diálogo do modelo global de grandes linguagens pela primeira vez e, desde então, dezenas de páginas de artigos, centenas de páginas de relatórios e livros enormes não se tornaram mais o ponto cego dos grandes modelos.
A este respeito, alguns profissionais animadamente disseram que LongLoRA é uma lâmpada de esperança no labirinto de grandes modelos de linguagem! Representa o repensar e a atenção da indústria aos modelos de linguagem grande de texto longo, expande efetivamente a janela de contexto de modelos de linguagem grande, permite que o modelo considere e processe sequências de texto longas e é uma invenção inovadora de modelos de linguagem grande.
Além das inovações tecnológicas, uma das dificuldades dos grandes modelos linguísticos em lidar com problemas de texto longo é a falta de dados de diálogo de texto longo disponíveis publicamente.
Para este fim, a equipe de pesquisa coletou especialmente 9K pares de corpus de texto longo, incluindo várias perguntas e respostas sobre livros famosos, papéis, relatórios aprofundados e até demonstrações financeiras.
Não foi suficiente para responder a perguntas longas, a equipe selecionou um corpus de perguntas e respostas curtas de 3K misturado com um corpus de perguntas e respostas longas de 9K para treinamento, de modo que o modelo de texto longo grande tenha recursos de diálogo de texto curto ao mesmo tempo. Este conjunto de dados completo, chamado LongAlpaca-12k, é atualmente de código aberto.
Com base no conjunto de dados LongAlpaca-12k, a equipe de pesquisa treinou e avaliou diferentes tamanhos de parâmetros 7B, 13B, 70B e modelos de código aberto, incluindo LongAlpaca-7B, LongAlpaca-13B e LongAlpaca-70B.
Ler romances, mudar papéis e apontar que a economia é o rei geral
Sem mais delongas, selecione cegamente algumas demonstrações para ver o efeito LongAlpaca de um modelo grande que aplica a tecnologia LongLoRA sobreposta a um corpus de perguntas e respostas de 12K.
让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率。LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标) , aplicação mais ampla e orientação futura, centrando-se nas principais contribuições e impactos, e as hipóteses de o documento ser aceite serão melhoradas.
Agora, deixe o sistema ler dois novos artigos diferentes e deixe LongAlpaca resumir as diferenças estilísticas entre as conferências ICLR e CVPR. LongAlpaca conclui que os artigos CVPR tendem a ser mais estruturados e experimentais, focando na praticidade e tecnicidade. O estilo de ensaio da ICLR, por outro lado, é mais flexível, concentrando-se em análises teóricas chave e derivações matemáticas em vez de formatos padrão.
Pode-se ver que o modelo LongAlpaca treinado pode facilmente aceitar novos trabalhos acadêmicos de longa duração, e é bastante preciso na resposta a perguntas academicamente relevantes.
Em seguida, vejamos a interpretação do modelo LongAlpaca no campo econômico com um alto limiar de leitura e compreensão.
Com base na recolha geral das perspetivas económicas mundiais do FMI de 2012 a 2023, resume a situação económica ano a ano e prevê as tendências económicas futuras. LongAlpaca nos disse que a situação econômica global em 2023 é incerta, e o crescimento deve desacelerar em comparação com 2022; Nos próximos anos, a expansão económica mundial será moderada e inferior ao esperado, enquanto subsistem desafios importantes, como as tensões geopolíticas e a volatilidade dos mercados financeiros, que devem ser cuidadosamente abordados através da cooperação multilateral e de reformas estruturais.
LongAlpaca também pode ler novos romances e analisar o conteúdo depois de lê-los. Os modelos de comparação selecionados abaixo são LongAlpaca e Llama2 com parâmetros 13B, e olhar para seus respetivos desempenhos.
No famoso livro "Viagem ao Ocidente", por que Sun Wukong é muito poderoso quando ele cria problemas no Palácio Celestial, mas ele tem sido repetidamente frustrado no caminho para obter as escrituras? LongAlpaca deu 5 razões, que podem ser resumidas aproximadamente como "a imaturidade do Rei Macaco, oponentes fortes, força limitada, engano inimigo, falta inicial de companheiros e outros fatores levaram ao seu fracasso na jornada". Mas, com o tempo, ele ganhou sabedoria, experiência e camaradas, o que lhe permitiu derrotar seus inimigos mais formidáveis. "
A resposta de Llama2 é mais simples. "Embora ele faça barulho sobre o Palácio Celestial, não é necessariamente correto dizer que ele representa uma força invicta. Na verdade, ele acabou sendo derrotado pelo poderoso Tang Sanzang em Journey to the West. Llama2 não deu a resposta certa e também levantou a necessidade de mais informações de conteúdo.
Desta vez, deixe o sistema ler "O Problema dos Três Corpos" novamente e, em seguida, pergunte por que Ye Wenjie entrou em contato com os alienígenas na primeira parte, e por que ele se arrependeu na fase posterior? Long Alpaca acredita que o contato inicial de Ye Wenjie com alienígenas foi motivado por idealismo e vingança, mas com o tempo, sua visão da humanidade mudou, percebendo o perigo que ela pode trazer para toda a humanidade, e seu remorso cresce dia após dia. A resposta foi muito clara.
A resposta de Llama2 foi: "Através da interação com alienígenas, ela espera obter uma compreensão mais profunda da natureza do universo e seu lugar nele." Ye Wenjie gradualmente percebeu que alienígenas e sua tecnologia não poderiam resolver seu problema. A resposta foi geral, e então ele começou a comentar o romance como um todo, respondendo a não-perguntas.
A partir das respostas dadas pelos modelos, pode-se ver que alguns modelos como Llama2 [2] Você pode ter visto o romance durante o processo de pré-treinamento, mas se você fizer uma pergunta de texto curto baseado apenas no tema do romance, a resposta não é ideal.
As respostas dos dois modelos são contrastadas, e o alto e o baixo são altos. LongAlpaca é uma boa mão para mudar artigos acadêmicos, comentar tendências econômicas globais e ler romances, superando Llama2.
Duas linhas de código e três conclusões principais
Llama2 é indiscutivelmente um dos modelos de código aberto mais poderosos na comunidade de IA, liderando a indústria, e LongAlpaca pode realmente ganhar. A tecnologia LongLoRA por trás dele atraiu com sucesso a atenção dos internautas, como ele fez isso?
Acontece que, no processo de processamento de texto longo em modelos de linguagem grande, o principal custo da computação está concentrado no mecanismo de auto-atenção, e sua sobrecarga aumenta ao quadrado com o comprimento do texto.
Em resposta a este problema, a equipa de investigação propôs a tecnologia LongLoRA e simulou o mecanismo global de auto-atenção por agrupamento e compensação.
Simplificando, é dividir os tokens correspondentes ao texto longo em diferentes grupos, fazer cálculos de auto-atenção dentro de cada grupo, e a maneira de agrupar é deslocada de diferentes cabeças de atenção. Este método pode não só economizar muito a quantidade de cálculo, mas também manter a transmissão do campo recetivo global.
E este método de implementação também é muito conciso, apenas duas linhas de código podem ser concluídas!
[5]LongLoRA também explora maneiras de treinar em escalões baixos. Métodos originais de treinamento de baixa classificação, como LoRA , não alcança bons resultados na migração do comprimento do texto. Com base no treinamento de baixa classificação, LongLoRA introduz camadas de incorporação (camada de incorporação e camadas de normalização) para ajuste fino, de modo a alcançar o efeito de ajuste fino completo.
Ao realizar expansão de texto e treinamento de diferentes comprimentos, os efeitos específicos de LongLoRA, LoRA e técnicas de ajuste fino de todos os parâmetros podem ser referidos em três dimensões:
Em termos de perplexidade-perplexidade, o desempenho do método LoRA original está se deteriorando, enquanto LongLoRA e ajuste fino de todos os parâmetros podem manter bons resultados sob vários comprimentos de texto.
Em termos de consumo de memória, o LongLoRA e o LoRA original têm economias significativas em comparação com o ajuste fino de parâmetros completos. Por exemplo, para treinamento de modelo com um comprimento de 8k, o LongLoRA reduz o consumo de memória de 46,3 GB para 25,6 GB em comparação com o ajuste fino de parâmetros completos.
Em termos de tempo de treinamento, para o treinamento do modelo de 64k de comprimento, em comparação com o LoRA convencional, o LongLoRA reduz o tempo de treinamento de cerca de 90~100 horas para 52,4 horas, enquanto o ajuste fino do parâmetro completo excede 1000 horas.
O método de treinamento minimalista, recursos de computação mínimos e consumo de tempo, e excelente precisão tornam LongLoRA possível em grande escala. Atualmente, as tecnologias e modelos relevantes têm sido todos de código aberto, e os usuários interessados podem implantar sua própria experiência.
Vale a pena mencionar que esta é mais uma obra-prima da equipe Jajaya seguindo o modelo multimodal grande LISA que "pode dividir tudo" lançado em 9 de agosto. Com apenas dois meses de intervalo, é preciso dizer que a velocidade e a capacidade desta pesquisa são tão incríveis quanto LongLoRA.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Duas linhas de código para resolver as limitações do diálogo de modelo de linguagem grande! A equipe do chinês Jia Jiaya de Hong Kong e o MIT lançaram tecnologia de extensão de texto ultralonga
Perdido no meio do caminho, o modelo é preguiçoso, quanto mais longo o contexto, mais burro o modelo fica... Se você experimentou produtos de modelo de linguagem grande, os usuários sentirão a limitação do comprimento da entrada de texto até certo ponto, como quando você quiser discutir algum conteúdo um pouco mais longo com o modelo grande, você precisa dividir a entrada, e os pontos principais da entrada anterior logo serão esquecidos pelo modelo grande.
Este é um típico defeito de diálogo de modelo de linguagem grande! Tal como as crianças que nascem com défices de atenção, é difícil concentrarmo-nos em terminar um novo livro. A chave para o defeito é que o modelo não tem longos recursos de processamento de texto. Isso foi agora quebrado.
Recentemente, as novas tecnologias e novos modelos lançados pela equipe de Jia Jiaya e MIT silenciosamente apareceram nas listas quentes dos principais sites de código aberto: abraçando cara hot list primeiro, paperwithcode hot primeiro, Github todos os projetos python hot quinto, estrelas do GitHub ultrapassaram 1.000 em uma semana, e posts técnicos relacionados no Twitter foram vistos quase 180.000...
A tecnologia, chamada LongLoRA, é prática, mas surpreendentemente simples: com apenas duas linhas de código e uma máquina A100 de 8 cartões, o comprimento do texto do modelo 7B pode ser estendido para 100k tokens, e o comprimento do texto do modelo 70B pode ser estendido para 32k tokens; Ao mesmo tempo, a equipe de pesquisa também lançou LongAlpaca, o primeiro modelo de diálogo de texto longo em grande linguagem com parâmetros 70B.
Lançamento do primeiro modelo de linguagem grande de texto longo 70B do mundo
A proposta do LongLoRA resolveu os defeitos de diálogo do modelo global de grandes linguagens pela primeira vez e, desde então, dezenas de páginas de artigos, centenas de páginas de relatórios e livros enormes não se tornaram mais o ponto cego dos grandes modelos.
A este respeito, alguns profissionais animadamente disseram que LongLoRA é uma lâmpada de esperança no labirinto de grandes modelos de linguagem! Representa o repensar e a atenção da indústria aos modelos de linguagem grande de texto longo, expande efetivamente a janela de contexto de modelos de linguagem grande, permite que o modelo considere e processe sequências de texto longas e é uma invenção inovadora de modelos de linguagem grande.
Para este fim, a equipe de pesquisa coletou especialmente 9K pares de corpus de texto longo, incluindo várias perguntas e respostas sobre livros famosos, papéis, relatórios aprofundados e até demonstrações financeiras.
Não foi suficiente para responder a perguntas longas, a equipe selecionou um corpus de perguntas e respostas curtas de 3K misturado com um corpus de perguntas e respostas longas de 9K para treinamento, de modo que o modelo de texto longo grande tenha recursos de diálogo de texto curto ao mesmo tempo. Este conjunto de dados completo, chamado LongAlpaca-12k, é atualmente de código aberto.
Com base no conjunto de dados LongAlpaca-12k, a equipe de pesquisa treinou e avaliou diferentes tamanhos de parâmetros 7B, 13B, 70B e modelos de código aberto, incluindo LongAlpaca-7B, LongAlpaca-13B e LongAlpaca-70B.
Ler romances, mudar papéis e apontar que a economia é o rei geral
Sem mais delongas, selecione cegamente algumas demonstrações para ver o efeito LongAlpaca de um modelo grande que aplica a tecnologia LongLoRA sobreposta a um corpus de perguntas e respostas de 12K.
Pode-se ver que o modelo LongAlpaca treinado pode facilmente aceitar novos trabalhos acadêmicos de longa duração, e é bastante preciso na resposta a perguntas academicamente relevantes.
Em seguida, vejamos a interpretação do modelo LongAlpaca no campo econômico com um alto limiar de leitura e compreensão.
LongAlpaca também pode ler novos romances e analisar o conteúdo depois de lê-los. Os modelos de comparação selecionados abaixo são LongAlpaca e Llama2 com parâmetros 13B, e olhar para seus respetivos desempenhos.
A resposta de Llama2 é mais simples. "Embora ele faça barulho sobre o Palácio Celestial, não é necessariamente correto dizer que ele representa uma força invicta. Na verdade, ele acabou sendo derrotado pelo poderoso Tang Sanzang em Journey to the West. Llama2 não deu a resposta certa e também levantou a necessidade de mais informações de conteúdo.
A resposta de Llama2 foi: "Através da interação com alienígenas, ela espera obter uma compreensão mais profunda da natureza do universo e seu lugar nele." Ye Wenjie gradualmente percebeu que alienígenas e sua tecnologia não poderiam resolver seu problema. A resposta foi geral, e então ele começou a comentar o romance como um todo, respondendo a não-perguntas.
A partir das respostas dadas pelos modelos, pode-se ver que alguns modelos como Llama2 [2] Você pode ter visto o romance durante o processo de pré-treinamento, mas se você fizer uma pergunta de texto curto baseado apenas no tema do romance, a resposta não é ideal.
As respostas dos dois modelos são contrastadas, e o alto e o baixo são altos. LongAlpaca é uma boa mão para mudar artigos acadêmicos, comentar tendências econômicas globais e ler romances, superando Llama2.
Duas linhas de código e três conclusões principais
Llama2 é indiscutivelmente um dos modelos de código aberto mais poderosos na comunidade de IA, liderando a indústria, e LongAlpaca pode realmente ganhar. A tecnologia LongLoRA por trás dele atraiu com sucesso a atenção dos internautas, como ele fez isso?
Acontece que, no processo de processamento de texto longo em modelos de linguagem grande, o principal custo da computação está concentrado no mecanismo de auto-atenção, e sua sobrecarga aumenta ao quadrado com o comprimento do texto.
Em resposta a este problema, a equipa de investigação propôs a tecnologia LongLoRA e simulou o mecanismo global de auto-atenção por agrupamento e compensação.
E este método de implementação também é muito conciso, apenas duas linhas de código podem ser concluídas!
Em termos de perplexidade-perplexidade, o desempenho do método LoRA original está se deteriorando, enquanto LongLoRA e ajuste fino de todos os parâmetros podem manter bons resultados sob vários comprimentos de texto.
Em termos de consumo de memória, o LongLoRA e o LoRA original têm economias significativas em comparação com o ajuste fino de parâmetros completos. Por exemplo, para treinamento de modelo com um comprimento de 8k, o LongLoRA reduz o consumo de memória de 46,3 GB para 25,6 GB em comparação com o ajuste fino de parâmetros completos.
Em termos de tempo de treinamento, para o treinamento do modelo de 64k de comprimento, em comparação com o LoRA convencional, o LongLoRA reduz o tempo de treinamento de cerca de 90~100 horas para 52,4 horas, enquanto o ajuste fino do parâmetro completo excede 1000 horas.
O método de treinamento minimalista, recursos de computação mínimos e consumo de tempo, e excelente precisão tornam LongLoRA possível em grande escala. Atualmente, as tecnologias e modelos relevantes têm sido todos de código aberto, e os usuários interessados podem implantar sua própria experiência.
Vale a pena mencionar que esta é mais uma obra-prima da equipe Jajaya seguindo o modelo multimodal grande LISA que "pode dividir tudo" lançado em 9 de agosto. Com apenas dois meses de intervalo, é preciso dizer que a velocidade e a capacidade desta pesquisa são tão incríveis quanto LongLoRA.