Há pouco, Baichuan Intelligent Baichuan2-192K foi lançado, com a janela de contexto mais longa do mundo! Depois de ler "O Problema dos Três Corpos" de uma só vez, ganhei 7 SOTAs
A janela de contexto mais longa do mundo está aqui! Hoje, a Baichuan Intelligent lançou o modelo grande Baichuan2-192K, com um comprimento de janela de contexto de até 192K (350.000 caracteres chineses), que é 4,4 vezes o de Claude 2 e 14 vezes o do GPT-4!
Uma nova referência no campo das janelas de contexto longas, aqui!
Hoje, Baichuan Intelligent lançou oficialmente o modelo grande com a janela de contexto mais longa do mundo - Baichuan2-192K.
Ao contrário do modelo anterior, o comprimento da janela de contexto deste modelo é tão alto quanto 192K, o que equivale a cerca de 350.000 caracteres chineses.
Para ser mais específico, Baichuan2-192K pode processar 14 vezes mais caracteres chineses do que GPT-4 (contexto de 32K, cerca de 25.000 palavras) e Claude 2 (contexto de 100K, cerca de 80.000 palavras), e pode ler uma cópia de "O Problema dos Três Corpos" em uma sessão.
O registro da janela de contexto que Claude vinha mantendo há muito tempo foi atualizado hoje
Jogando a primeira parte do Problema dos Três Corpos "Era Uma Vez na Terra", Baichuan2-192K mastigou um pouco, e imediatamente conheceu bem toda a história.
Qual é o número na foto 36 na contagem regressiva que Wang Miao viu? Resposta: 1194:16:37. Que modelo de câmera ele está usando? R: Leica M2. Quantas vezes ele e Dashi beberam no total? Resposta: Duas vezes.
Olhando para a segunda "Floresta Escura", Baichuan2-192K não só respondeu de imediato que a Organização dos Três Corpos da Terra tinha estabelecido duas bases do Banco Vermelho, e as "Gotículas de Água" eram feitas de materiais com fortes interações.
Além disso, mesmo as perguntas impopulares que o "Problema dos Três Corpos e Estudiosos de dez Níveis" podem não ser capazes de responder, Baichuan2-192K também é fluente em respostas, e é fácil de responder.
Quem tem mais aparências do seu nome? Resposta: Luo Ji.
Pode-se dizer que quando a janela de contexto é expandida para 350.000 palavras, a experiência de usar o modelo grande parece ter subitamente aberto um novo mundo!
O contexto mais longo do mundo, liderando Claude 2 em toda a linha
Modelo grande, o que vai ficar preso no pescoço?
Tomando o ChatGPT como exemplo, embora suas capacidades sejam incríveis, este modelo "onipotente" tem uma restrição inevitável - ele suporta apenas um máximo de 32K tokens (25.000 caracteres chineses) no contexto. Profissões como advogados, analistas, etc., precisam lidar com textos que levam muito mais tempo do que isso na maioria das vezes.
Uma janela de contexto maior permite que o modelo obtenha informações semânticas mais ricas da entrada e até mesmo execute diretamente perguntas e respostas e processamento de informações com base na compreensão de texto completo.
Como resultado, o modelo pode não só capturar melhor a relevância do contexto, eliminar a ambiguidade, mas também gerar conteúdo com mais precisão, aliviar o problema da "ilusão" e melhorar o desempenho. Além disso, com a bênção de um contexto longo, também pode ser profundamente combinado com cenas mais verticais e realmente desempenhar um papel no trabalho, na vida e no aprendizado das pessoas.
Recentemente, o unicórnio Anthropic, do Vale do Silício, recebeu 4 bilhões de investimentos da Amazon e 2 bilhões do Google. O favor dos dois gigantes está, claro, relacionado à posição de liderança de Claude em tecnologia de capacidade de longo contexto.
Desta vez, o modelo de janela longa Baichuan-192K lançado pela Baichuan Intelligence excede em muito o Claude 2-100K no comprimento da janela de contexto, e também alcançou uma liderança abrangente na avaliação de múltiplas dimensões, como qualidade de geração de texto, compreensão de contexto e capacidade de perguntas e respostas.
10 avaliações autorizadas, 7 SOTAs
Long é uma lista divulgada pela Universidade da Califórnia, Berkeley e outras universidades para a avaliação de modelos de janelas longas, que mede principalmente a capacidade do modelo de lembrar e entender o conteúdo de janelas longas.
Em termos de compreensão contextual, Baichuan2-192K está significativamente à frente de outros modelos na lista autorizada de avaliação de compreensão de texto de janela longa Long, e ainda pode manter um desempenho muito forte após um comprimento de janela de mais de 100K.
Em contraste, o efeito geral cai muito mal depois que o comprimento da janela Claude 2 excede 80K.
Além disso, Baichuan2-192K também teve um bom desempenho em 10 conjuntos de avaliação de perguntas e respostas e resumos de textos longos em chinês e inglês, como Dureader, NarrativeQA, LSHT e TriviaQA.
Entre eles, 7 alcançaram SOTA, que superou significativamente outros modelos de janelas longas.
A confusão é um critério muito importante quando se trata da qualidade da geração de texto.
Pode-se simplesmente entender que, quando um documento de alta qualidade que está em conformidade com os hábitos humanos de linguagem natural é usado como um conjunto de testes, maior a probabilidade de que o modelo gere a versão chinesa do conjunto de testes, menor a confusão do modelo e melhor o modelo.
De acordo com os resultados do teste do "Language Modeling Benchmark Dataset PG-19" divulgado pela DeepMind, o nível de confusão do Baichuan2-192K foi excelente no estágio inicial, e a capacidade de modelagem de sequência do Baichuan2-192K continuou a melhorar à medida que o comprimento da janela se expandia.
### Otimização conjunta de algoritmos de engenharia, melhoria síncrona do desempenho do comprimento
Enquanto contextos longos podem melhorar o desempenho do modelo, janelas longas também significam mais poder de computação e mais memória de vídeo.
Atualmente, a prática comum na indústria é deslizar a janela, reduzir a amostragem, encolher o modelo e assim por diante.
No entanto, todas essas abordagens sacrificam outros aspetos do modelo em graus variados.
A fim de resolver este problema, Baichuan2-192K alcança um equilíbrio entre o comprimento da janela e o desempenho do modelo através da otimização extrema de algoritmos e engenharia, e alcança a melhoria simultânea do comprimento da janela e do desempenho do modelo.
Em primeiro lugar, em termos de algoritmos, Baichuan Intelligent propõe um esquema de extrapolação para codificação de posição dinâmica RoPE e ALiBi, que pode realizar diferentes graus de interpolação dinâmica de máscara de atenção para codificação de posição ALiBi de diferentes comprimentos, o que pode melhorar a capacidade de modelagem do modelo de confiar em sequências longas, garantindo a resolução.
Em segundo lugar, em termos de engenharia, com base na estrutura de treinamento distribuído auto-desenvolvida, Baichuan Intelligence integra quase todas as tecnologias avançadas de otimização no mercado, incluindo paralelismo tensor, paralelismo de fluxo, paralelismo de sequência, recomputação e Offload, e criou um conjunto abrangente de esquemas distribuídos paralelos 4D, que podem encontrar automaticamente a estratégia distribuída mais adequada de acordo com a situação de carga específica do modelo, o que reduz muito a ocupação de memória no processo de treinamento e inferência de janela longa.
O teste interno é oficialmente aberto e a experiência em primeira mão é liberada
Agora, Baichuan2-192K começou oficialmente o beta fechado!
Baichuan2-192K tem sido conectado a seus próprios aplicativos e negócios através de chamadas de API, e agora mídia financeira, escritórios de advocacia e outras instituições chegaram a cooperação com Baichuan Intelligence.
É concebível que, com a aplicação das capacidades de contexto longo líderes mundiais do Baichuan2-192K a cenários específicos, como mídia, finanças e direito, sem dúvida expandirá um espaço mais amplo para a implementação de grandes modelos.
Através de APIs, Baichuan2-192K pode ser efetivamente integrado em cenas mais verticais e profundamente integrado com eles.
No passado, documentos com enormes quantidades de conteúdo muitas vezes se tornaram uma montanha que não podíamos atravessar em nosso trabalho e estudo.
Com Baichuan2-192K, centenas de páginas de material podem ser processadas e analisadas de uma só vez, e informações críticas podem ser extraídas e analisadas.
Quer se trate de um longo resumo/revisão de documentos, um longo artigo ou relatório, ou uma ajuda de programação complexa, Baichuan2-192K fornecerá um enorme impulso.
Para os gestores de fundos, pode ajudar a resumir e interpretar demonstrações financeiras, analisar os riscos e oportunidades da empresa.
Para os advogados, pode ajudar a identificar riscos em vários documentos legais, rever contratos e documentos legais.
Para desenvolvedores, ele pode ajudar a ler centenas de páginas de documentação de desenvolvimento e responder a perguntas técnicas.
Desde então, a maioria dos pesquisadores científicos também tem uma ferramenta de pesquisa científica, e eles podem navegar rapidamente por um grande número de artigos e resumir os últimos progressos de ponta.
Além disso, um contexto mais longo tem um potencial ainda maior.
As aplicações de agentes e multimodais são os focos de investigação de fronteira na indústria atual. Com capacidades contextuais mais longas, os grandes modelos podem processar e compreender melhor entradas multimodais complexas, permitindo uma melhor aprendizagem de transferência.
Duração do contexto, um campo de batalha para soldados
Pode-se dizer que o comprimento da janela de contexto é uma das principais tecnologias dos modelos grandes.
Agora, muitas equipes estão começando com "entrada de texto longo" para construir a competitividade diferenciada do modelo base. Se o número de parâmetros determina o quão complexo o modelo grande pode fazer, o comprimento da janela de contexto determina quanta "memória" o modelo grande tem.
Sam Altman disse uma vez que pensávamos que queríamos um carro voador, não 140/280 caracteres, mas na realidade queríamos 32.000 tokens.
No país e no exterior, pesquisas e produtos para expandir a janela de contexto podem ser descritos como infinitos.
Em maio deste ano, o GPT-4, que tem um contexto de 32K, provocou uma discussão acalorada.
Naquela época, os internautas que tinham desbloqueado esta versão elogiaram GPT-4 32K como o melhor gerente de produto do mundo.
Logo, a startup Anthropic anunciou que Claude tinha sido capaz de suportar um comprimento de token de contexto de 100K, que é cerca de 75.000 palavras.
Em outras palavras, depois que uma pessoa média leu a mesma quantidade de conteúdo em cerca de 5 horas, ela tem que gastar mais tempo digerindo, memorizando e analisando. Para Claude, leva menos de 1 minuto.
Na comunidade de código aberto, a Meta também propôs um método que pode efetivamente estender os recursos de contexto, o que pode fazer com que a janela de contexto do modelo básico atinja 32.768 tokens, e alcançou melhorias significativas de desempenho em várias tarefas de deteção de contexto sintético e modelagem de linguagem.
Os resultados mostram que o modelo com parâmetros 70B alcançou desempenho além do gpt-3.5-turbo-16K em várias tarefas de longo contexto.
Endereço:
O método LongLoRA proposto por pesquisadores das equipes chinesas e do MIT de Hong Kong pode estender o comprimento do texto do modelo 7B para 100k tokens e o comprimento do texto do modelo 70B para 32k tokens com apenas duas linhas de código e uma máquina A100 de 8 cartões.
Endereço:
Pesquisadores da DeepPavlov, AIRI e do Instituto de Ciências Matemáticas de Londres usaram o método Recurrent Memory Transformer (RMT) para aumentar o comprimento efetivo do contexto do BERT para "2 milhões de tokens sem precedentes" e manter uma alta precisão de recuperação de memória.
No entanto, embora o RMT possa ser dimensionado para comprimentos de sequência quase infinitos sem aumentar o consumo de memória, ainda há um problema de decaimento de memória em RNNs e tempos de inferência mais longos.
Endereço:
Atualmente, o comprimento da janela de contexto dos LLMs está principalmente na faixa de 4.000-100.000 tokens, e continua a crescer.
Através da pesquisa multifacetada sobre a janela de contexto na indústria de IA e na academia, mostra sua importância para LLMs.
E desta vez, o modelo doméstico de grande porte inaugurou o momento de destaque histórico da janela de contexto mais longa.
A janela de contexto de 192K, que atualizou o recorde da indústria, não só representa outro avanço na tecnologia de modelo em larga escala da Baichuan Intelligence, mas também outro marco no desenvolvimento do modelo em grande escala. Isto trará inevitavelmente uma nova ronda de choque à reforma da forma do lado do produto.
Fundada em abril de 2023, a Baichuan Intelligent lançou sucessivamente quatro modelos comerciais de código aberto e livres de Baichuan-7B/13B e Baichuan2-7B/13B em apenas 6 meses, bem como dois modelos grandes de código fechado de Baichuan-53B e Baichuan2-53B.
Desta forma, é basicamente um LLM no primeiro dia de janeiro.
Agora, com o lançamento do Baichuan2-192K, a tecnologia de janela de contexto longo modelo grande também entrará totalmente na era chinesa!
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Há pouco, Baichuan Intelligent Baichuan2-192K foi lançado, com a janela de contexto mais longa do mundo! Depois de ler "O Problema dos Três Corpos" de uma só vez, ganhei 7 SOTAs
Fonte do artigo: New Zhiyuan
Uma nova referência no campo das janelas de contexto longas, aqui!
Hoje, Baichuan Intelligent lançou oficialmente o modelo grande com a janela de contexto mais longa do mundo - Baichuan2-192K.
Ao contrário do modelo anterior, o comprimento da janela de contexto deste modelo é tão alto quanto 192K, o que equivale a cerca de 350.000 caracteres chineses.
Para ser mais específico, Baichuan2-192K pode processar 14 vezes mais caracteres chineses do que GPT-4 (contexto de 32K, cerca de 25.000 palavras) e Claude 2 (contexto de 100K, cerca de 80.000 palavras), e pode ler uma cópia de "O Problema dos Três Corpos" em uma sessão.
Jogando a primeira parte do Problema dos Três Corpos "Era Uma Vez na Terra", Baichuan2-192K mastigou um pouco, e imediatamente conheceu bem toda a história.
Além disso, mesmo as perguntas impopulares que o "Problema dos Três Corpos e Estudiosos de dez Níveis" podem não ser capazes de responder, Baichuan2-192K também é fluente em respostas, e é fácil de responder.
O contexto mais longo do mundo, liderando Claude 2 em toda a linha
Modelo grande, o que vai ficar preso no pescoço?
Tomando o ChatGPT como exemplo, embora suas capacidades sejam incríveis, este modelo "onipotente" tem uma restrição inevitável - ele suporta apenas um máximo de 32K tokens (25.000 caracteres chineses) no contexto. Profissões como advogados, analistas, etc., precisam lidar com textos que levam muito mais tempo do que isso na maioria das vezes.
Como resultado, o modelo pode não só capturar melhor a relevância do contexto, eliminar a ambiguidade, mas também gerar conteúdo com mais precisão, aliviar o problema da "ilusão" e melhorar o desempenho. Além disso, com a bênção de um contexto longo, também pode ser profundamente combinado com cenas mais verticais e realmente desempenhar um papel no trabalho, na vida e no aprendizado das pessoas.
Recentemente, o unicórnio Anthropic, do Vale do Silício, recebeu 4 bilhões de investimentos da Amazon e 2 bilhões do Google. O favor dos dois gigantes está, claro, relacionado à posição de liderança de Claude em tecnologia de capacidade de longo contexto.
Desta vez, o modelo de janela longa Baichuan-192K lançado pela Baichuan Intelligence excede em muito o Claude 2-100K no comprimento da janela de contexto, e também alcançou uma liderança abrangente na avaliação de múltiplas dimensões, como qualidade de geração de texto, compreensão de contexto e capacidade de perguntas e respostas.
10 avaliações autorizadas, 7 SOTAs
Long é uma lista divulgada pela Universidade da Califórnia, Berkeley e outras universidades para a avaliação de modelos de janelas longas, que mede principalmente a capacidade do modelo de lembrar e entender o conteúdo de janelas longas.
Em termos de compreensão contextual, Baichuan2-192K está significativamente à frente de outros modelos na lista autorizada de avaliação de compreensão de texto de janela longa Long, e ainda pode manter um desempenho muito forte após um comprimento de janela de mais de 100K.
Em contraste, o efeito geral cai muito mal depois que o comprimento da janela Claude 2 excede 80K.
Entre eles, 7 alcançaram SOTA, que superou significativamente outros modelos de janelas longas.
Pode-se simplesmente entender que, quando um documento de alta qualidade que está em conformidade com os hábitos humanos de linguagem natural é usado como um conjunto de testes, maior a probabilidade de que o modelo gere a versão chinesa do conjunto de testes, menor a confusão do modelo e melhor o modelo.
Enquanto contextos longos podem melhorar o desempenho do modelo, janelas longas também significam mais poder de computação e mais memória de vídeo.
Atualmente, a prática comum na indústria é deslizar a janela, reduzir a amostragem, encolher o modelo e assim por diante.
No entanto, todas essas abordagens sacrificam outros aspetos do modelo em graus variados.
Em primeiro lugar, em termos de algoritmos, Baichuan Intelligent propõe um esquema de extrapolação para codificação de posição dinâmica RoPE e ALiBi, que pode realizar diferentes graus de interpolação dinâmica de máscara de atenção para codificação de posição ALiBi de diferentes comprimentos, o que pode melhorar a capacidade de modelagem do modelo de confiar em sequências longas, garantindo a resolução.
Em segundo lugar, em termos de engenharia, com base na estrutura de treinamento distribuído auto-desenvolvida, Baichuan Intelligence integra quase todas as tecnologias avançadas de otimização no mercado, incluindo paralelismo tensor, paralelismo de fluxo, paralelismo de sequência, recomputação e Offload, e criou um conjunto abrangente de esquemas distribuídos paralelos 4D, que podem encontrar automaticamente a estratégia distribuída mais adequada de acordo com a situação de carga específica do modelo, o que reduz muito a ocupação de memória no processo de treinamento e inferência de janela longa.
O teste interno é oficialmente aberto e a experiência em primeira mão é liberada
Agora, Baichuan2-192K começou oficialmente o beta fechado!
Baichuan2-192K tem sido conectado a seus próprios aplicativos e negócios através de chamadas de API, e agora mídia financeira, escritórios de advocacia e outras instituições chegaram a cooperação com Baichuan Intelligence.
É concebível que, com a aplicação das capacidades de contexto longo líderes mundiais do Baichuan2-192K a cenários específicos, como mídia, finanças e direito, sem dúvida expandirá um espaço mais amplo para a implementação de grandes modelos.
Através de APIs, Baichuan2-192K pode ser efetivamente integrado em cenas mais verticais e profundamente integrado com eles.
No passado, documentos com enormes quantidades de conteúdo muitas vezes se tornaram uma montanha que não podíamos atravessar em nosso trabalho e estudo.
Quer se trate de um longo resumo/revisão de documentos, um longo artigo ou relatório, ou uma ajuda de programação complexa, Baichuan2-192K fornecerá um enorme impulso.
Para os gestores de fundos, pode ajudar a resumir e interpretar demonstrações financeiras, analisar os riscos e oportunidades da empresa.
Para os advogados, pode ajudar a identificar riscos em vários documentos legais, rever contratos e documentos legais.
Desde então, a maioria dos pesquisadores científicos também tem uma ferramenta de pesquisa científica, e eles podem navegar rapidamente por um grande número de artigos e resumir os últimos progressos de ponta.
As aplicações de agentes e multimodais são os focos de investigação de fronteira na indústria atual. Com capacidades contextuais mais longas, os grandes modelos podem processar e compreender melhor entradas multimodais complexas, permitindo uma melhor aprendizagem de transferência.
Duração do contexto, um campo de batalha para soldados
Pode-se dizer que o comprimento da janela de contexto é uma das principais tecnologias dos modelos grandes.
Agora, muitas equipes estão começando com "entrada de texto longo" para construir a competitividade diferenciada do modelo base. Se o número de parâmetros determina o quão complexo o modelo grande pode fazer, o comprimento da janela de contexto determina quanta "memória" o modelo grande tem.
Sam Altman disse uma vez que pensávamos que queríamos um carro voador, não 140/280 caracteres, mas na realidade queríamos 32.000 tokens.
Em maio deste ano, o GPT-4, que tem um contexto de 32K, provocou uma discussão acalorada.
Naquela época, os internautas que tinham desbloqueado esta versão elogiaram GPT-4 32K como o melhor gerente de produto do mundo.
Em outras palavras, depois que uma pessoa média leu a mesma quantidade de conteúdo em cerca de 5 horas, ela tem que gastar mais tempo digerindo, memorizando e analisando. Para Claude, leva menos de 1 minuto.
Os resultados mostram que o modelo com parâmetros 70B alcançou desempenho além do gpt-3.5-turbo-16K em várias tarefas de longo contexto.
O método LongLoRA proposto por pesquisadores das equipes chinesas e do MIT de Hong Kong pode estender o comprimento do texto do modelo 7B para 100k tokens e o comprimento do texto do modelo 70B para 32k tokens com apenas duas linhas de código e uma máquina A100 de 8 cartões.
Pesquisadores da DeepPavlov, AIRI e do Instituto de Ciências Matemáticas de Londres usaram o método Recurrent Memory Transformer (RMT) para aumentar o comprimento efetivo do contexto do BERT para "2 milhões de tokens sem precedentes" e manter uma alta precisão de recuperação de memória.
No entanto, embora o RMT possa ser dimensionado para comprimentos de sequência quase infinitos sem aumentar o consumo de memória, ainda há um problema de decaimento de memória em RNNs e tempos de inferência mais longos.
Atualmente, o comprimento da janela de contexto dos LLMs está principalmente na faixa de 4.000-100.000 tokens, e continua a crescer.
E desta vez, o modelo doméstico de grande porte inaugurou o momento de destaque histórico da janela de contexto mais longa.
A janela de contexto de 192K, que atualizou o recorde da indústria, não só representa outro avanço na tecnologia de modelo em larga escala da Baichuan Intelligence, mas também outro marco no desenvolvimento do modelo em grande escala. Isto trará inevitavelmente uma nova ronda de choque à reforma da forma do lado do produto.
Desta forma, é basicamente um LLM no primeiro dia de janeiro.
Agora, com o lançamento do Baichuan2-192K, a tecnologia de janela de contexto longo modelo grande também entrará totalmente na era chinesa!