O modelo de texto longo mais poderoso do mundo, que pode ler 350.000 caracteres chineses de cada vez: Baichuan2-192K está online

Ler livros com modelos grandes nunca foi tão rápido.

Fonte da imagem: Gerado por Unbounded AI

As start-ups nacionais de modelos de grande escala estão a criar novos recordes na vanguarda da tecnologia.

Em 30 de outubro, a Baichuan Intelligence lançou oficialmente o modelo grande de janela longa Baichuan2-192K, que aumentou o comprimento da janela de contexto do modelo de linguagem grande (LLM) para o token 192K.

Isso equivale a ter o modelo grande processando cerca de 350.000 caracteres chineses de cada vez, o que é 14 vezes maior do que o GPT-4 (token de 32K, cerca de 25.000 caracteres) e 4,4 vezes mais do que o Claude 2.0 (token de 100K, cerca de 80.000 caracteres).

Em outras palavras, Baichuan2-192K pode ler uma cópia do Problema de Três Corpos 2 em uma sessão, tornando-o o maior modelo com a janela de contexto de processamento mais longa do mundo. Além disso, também supera significativamente seus concorrentes em várias dimensões, como qualidade de geração de texto, compreensão contextual e capacidade de perguntas e respostas.

O que pode um modelo grande que consegue compreender textos muito longos de cada vez? Baichuan Intelligent fez uma demonstração simples.

Carregue um arquivo PDF de todo o "Three-Body Problem 2: Dark Forest", e o modelo Baichuan tem 300.000 palavras. Em seguida, se você fizer alguma pergunta sobre o romance, o modelo pode dar uma resposta concisa e precisa.

Às vezes, recorremos à IA em busca de ajuda, não para usar sua imaginação, mas para extrair informações precisas. Com Baichuan2-192K, podemos decifrar rapidamente dezenas ou até centenas de páginas de documentos contratuais, e deixar a IA rapidamente dar um resumo conciso, completando é a leitura de velocidade quântica:

Então, e se de repente eu receber uma nova tarefa e tiver um monte de arquivos para ler?

Você pode empacotar e carregar diretamente juntos, e o modelo Baichuan pode facilmente integrar cinco artigos de notícias em um.

À medida que o conteúdo que o modelo grande pode entender se torna mais longo, mais e mais direções ele será aplicado. Como todos sabemos, a capacidade de modelar texto longo é um pré-requisito para a aplicação de muitos cenários. Desta vez, Baichuan assumiu a liderança no setor.

De dezenas de milhares de palavras a centenas de milhares de palavras, as principais startups estão correndo para aproveitar a "longa janela"

Se você prestar atenção à aplicação de grandes modelos na direção da compreensão do texto, você pode notar um fenômeno: no início, os textos usados para avaliar a capacidade do modelo podem ser alguns relatórios financeiros e relatórios técnicos, que geralmente variam de uma dúzia a dezenas de páginas, e o número de palavras geralmente é de dezenas de milhares de palavras. Mas depois, o texto do teste evoluiu gradualmente para várias horas de atas de reunião, ou centenas de milhares de palavras de romances, e a competição tornou-se cada vez mais intensa e difícil.

Ao mesmo tempo, grandes empresas modelo que afirmam ser capazes de entender contextos mais longos estão ganhando força. Por exemplo, há algum tempo, a Anthropic, a empresa por trás do Claude, que afirmou ser capaz de realizar uma janela de contexto de token de 100K, recebeu bilhões de dólares em financiamento da Microsoft e do Google, empurrando a corrida armamentista de grandes modelos a um novo nível.

Por que essas empresas estão desafiando textos longos?

Em primeiro lugar, do ponto de vista da aplicação, muitos trabalhadores que usam grandes modelos para melhorar a produtividade inevitavelmente têm que lidar com textos longos, como advogados, analistas, consultores, etc., e quanto maior a janela de contexto, maior a gama de coisas que essas pessoas podem fazer com grandes modelos; Em segundo lugar, do ponto de vista técnico, quanto mais informações a janela puder conter, mais informações o modelo poderá se referir ao gerar a próxima palavra, menor será a probabilidade de ocorrerem "alucinações" e mais precisas serão as informações, o que é uma condição necessária para a implementação da tecnologia de grandes modelos. Portanto, ao tentar melhorar o desempenho do modelo, as empresas também estão competindo para ver quem pode tornar a janela de contexto maior e, assim, colocá-la em mais cenários de aplicação.

Como você pode ver em alguns dos exemplos mostrados anteriormente, Baichuan2-192K se destaca tanto na qualidade de geração de texto quanto na compreensão contextual. E, além desses resultados qualitativos, também podemos ver isso em alguns dados quantitativos de avaliação.

Baichuan2-192K: Quanto maior o arquivo, mais óbvia a vantagem

Na avaliação da qualidade da geração de texto, uma métrica muito importante é chamada de "confusão": quando tomamos documentos de alta qualidade que estão de acordo com os hábitos humanos de linguagem natural como o conjunto de testes, maior a probabilidade de o modelo gerar a versão chinesa do conjunto de testes, menor a confusão do modelo e melhor o modelo.

O conjunto de testes usado para testar a perplexidade do modelo grande de Baichuan é chamado PG-19. Este conjunto de dados foi produzido por pesquisadores da DeepMind e foi feito usando materiais de livros do Project Gutenberg, então o PG-19 tem qualidade de livro.

Os resultados do teste são mostrados na figura abaixo. Como você pode ver, na fase inicial (à esquerda do eixo horizontal, quando o comprimento do contexto é menor), o nível de confusão de Baichuan2-192K está em um nível baixo. À medida que a extensão do contexto aumenta, as suas vantagens tornam-se mais evidentes e até a confusão continua a diminuir. Isso sugere que Baichuan2-192K é mais capaz de manter a qualidade de geração de texto em nível de livro em contextos longos.

Em termos de compreensão contextual, o desempenho de Baichuan2-192K também é muito impressionante.

Esta competência é avaliada usando Long, o referencial de compreensão de texto de janela longa autorizado. Long é uma lista divulgada pela Universidade da Califórnia, Berkeley e outras universidades para a avaliação de modelos de janelas longas, que mede principalmente a capacidade do modelo de lembrar e entender o conteúdo de janelas longas, e quanto maior a pontuação do modelo, melhor.

Como você pode ver nos resultados da avaliação no gráfico abaixo, Baichuan2-192K tem sido capaz de manter um alto desempenho consistente à medida que o comprimento do contexto aumenta, mesmo depois que o comprimento da janela excede 100K. Em contraste, o desempenho geral de Claude 2 cai drasticamente após uma janela de mais de 80K.

Além disso, o modelo foi testado em Dureader, NarrativeQA, TriviaQA, LSHT e outros conjuntos de avaliação de perguntas e respostas de texto longo e resumos em chinês e inglês. Os resultados mostram que o Baichuan 2-192K também tem um bom desempenho, superando outros modelos na maioria das tarefas de avaliação de texto longo.

Em suma, quanto mais longo for o conteúdo processado, melhor será o desempenho relativo do modelo grande de Baichuan.

**192K contexto super longo, como Baichuan fez isso? **

É um consenso na indústria de IA que expandir a janela de contexto pode efetivamente melhorar o desempenho de modelos grandes, mas a janela de contexto ultralonga significa maiores requisitos de poder de computação e maior pressão de memória.

A fim de aliviar esta pressão, surgiram alguns métodos de compromisso na indústria, tais como tornar o modelo mais pequeno; Deixe o modelo abandonar ativamente o texto anterior deslizando a janela, etc., e mantenha apenas o mecanismo de atenção para a entrada mais recente; Ao reduzir o contexto ou RAG (Retrieval Enhanced Generation), o mecanismo de atenção que retém apenas parte da entrada, e assim por diante.

Embora esses métodos possam aumentar o comprimento da janela de contexto, todos eles prejudicam o desempenho do modelo em graus variados. Em outras palavras, eles sacrificam o desempenho de outros aspetos do modelo em troca do comprimento da janela de contexto, como a incapacidade do modelo de responder a perguntas complexas com base em informações de texto completo e a dificuldade de considerar respostas em vários textos.

O Baichaun2-192K ** lançado pela Baichuan desta vez alcança um equilíbrio entre o comprimento da janela e o desempenho do modelo através da otimização final de algoritmos e engenharia, e alcança a melhoria simultânea do comprimento da janela e do desempenho do modelo**.

Em termos de algoritmos, Baichuan Intelligent propõe um esquema de extrapolação para codificação de posição dinâmica de RoPE e ALiBi, que pode realizar diferentes graus de interpolação dinâmica de máscara de atenção de ALiBi_mask de diferentes resoluções, o que pode melhorar a capacidade de modelagem do modelo para confiar em sequências longas, garantindo a resolução.

Em termos de engenharia, com base na estrutura de treinamento distribuído auto-desenvolvida, Baichuan Intelligent integra todas as tecnologias avançadas de otimização no mercado, incluindo paralelismo tensor, paralelismo de fluxo, paralelismo de sequência, funções de recomputação e descarga, etc., para criar um conjunto abrangente de soluções distribuídas paralelas 4D. Esta solução pode encontrar automaticamente a estratégia distribuída mais adequada de acordo com a situação de carga específica, o que reduz muito a ocupação da memória no processo de inferência de janela longa.

Lute na batalha dos modelos grandes, seja rápido

Fundada em abril deste ano, a Baichuan Intelligence quase pode ser considerada uma startup modelo de grande escala com a iteração de tecnologia mais rápida do setor. Em apenas meio ano desde a sua criação, a empresa lançou quatro modelos comerciais livres e de código aberto, Baichuan-7B/13B e Baichuan2-7B/13B, bem como dois modelos de código fechado, Baichuan-53B e Baichuan2-53B.

Em média, um novo modelo grande é lançado todos os meses.

A série Baichuan de grandes modelos integra a compreensão da intenção, a recuperação de informações e as tecnologias de aprendizagem por reforço, combinadas com o ajuste fino supervisionado e o alinhamento da intenção humana, e têm um bom desempenho nas áreas de conhecimento de resposta a perguntas e criação de texto. Esses grandes modelos também são favorecidos na indústria por causa de suas capacidades: o número acumulado de downloads da série Baichuan de modelos de código aberto nas principais comunidades de código aberto ultrapassou 6 milhões; Baichuan 2 está à frente do Llama 2 em todas as dimensões, liderando o desenvolvimento do ecossistema de código aberto da China.

Em 31 de agosto, a Baichuan Intelligent assumiu a liderança na aprovação das "Medidas Provisórias para a Gestão de Serviços de Inteligência Artificial Generativa", e foi a única empresa modelo de grande escala fundada este ano entre o primeiro lote de 8 empresas. Em 25 de setembro, a Baichuan Intelligent abriu a interface da API Baichuan, entrou oficialmente no campo To B e iniciou o processo de comercialização.

Pode-se dizer que, desde a pesquisa e desenvolvimento de tecnologia até o pouso, a velocidade de Baichuan é rápida o suficiente.

O recém-lançado Baichuan2-192K iniciou oficialmente o teste beta fechado e estará aberto aos principais parceiros na forma de chamadas de API. Baichuan disse que chegou a uma cooperação com a mídia financeira e escritórios de advocacia, e aplicou os principais recursos de contexto longo do Baichuan2-192K a cenários específicos, como mídia, finanças e direito, e em breve será fornecido aos usuários corporativos na forma de chamadas de API e implantação privatizada.

Depois de ser totalmente aberto na forma de APIs, o Baichuan2-192K pode ser profundamente integrado com um grande número de cenários verticais, desempenhar um papel no trabalho, na vida e no aprendizado das pessoas e ajudar os usuários do setor a melhorar significativamente a eficiência. Baichuan2-192K pode processar e analisar centenas de páginas de materiais ao mesmo tempo, o que é uma grande ajuda para cenários do mundo real, como resumo de documentos de forma longa, revisão de documentos de forma longa, redação de artigos ou relatórios de forma longa e assistência de programação complexa.

Anteriormente, Wang Xiaochuan, fundador e CEO da Baichuan Intelligence, havia revelado que no segundo semestre deste ano, Baichuan lançará um modelo grande de 100 bilhões de níveis, e espera-se que haja uma implantação de super aplicativo C-end no próximo ano.

Confrontado com a lacuna com a OpenAI, Wang Xiaochuan admitiu que existe de facto uma lacuna entre nós e a OpenAI em termos de ideais, o objetivo da OpenAI é explorar o teto da inteligência, e eles até esperam projetar uma tecnologia que conecte 10 milhões de GPUs juntas. No entanto, em termos de aplicação, estamos indo mais rápido do que os Estados Unidos, e a aplicação e experiência ecológica acumulada na era da Internet pode nos fazer ir mais rápido e mais longe, então o conceito de Baichuan para fazer um modelo grande é chamado de "Um passo mais lento no ideal, três passos mais rápidos no chão".

Deste ponto de vista, Baichuan2-192K é uma extensão deste conceito, e a janela de contexto mais longa do mundo irá, sem dúvida, acelerar o processo da tecnologia de modelo grande inteligente Baichuan.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)