Wang Xiaochuan anunciou o mais recente modelo grande, que é reivindicado para ser o mais longo do mundo, 14 vezes o GPT-4

2023-10-30 04:39:02

Fonte original: Titanium Media

Autor: Lin Zhijia

Fonte da imagem: Gerado por Unbounded AI

A concorrência da tecnologia nacional de modelos em grande escala acelerou, e após o lançamento dos mais recentes produtos pela iFLYTEK Xinghuo e Zhipu, Baichuan também inaugurou novas conquistas de modelos em grande escala.

Titanium Media aprendeuNa manhã de 30 de outubro, a empresa de modelos de IA "Baichuan Intelligence", fundada por Wang Xiaochuan, anunciou o lançamento do modelo grande Baichuan2-192K, que tem uma janela de contexto de até 192K e pode processar cerca de 350.000 caracteres chineses.

**Baichuan Intelligence disse que Baichuan2-192K é atualmente a janela de contexto mais longa do mundo, e também é 4,4 vezes a do Claude2, o melhor modelo grande que atualmente suporta janelas de contexto longas (suporta janelas de contexto de 100K, medido cerca de 80.000 palavras), e é 14 vezes (1400%) de GPT-4 (suporta janelas de contexto de 32K, medido cerca de 25.000 palavras). **Isso não só supera Claude2 no comprimento da janela de contexto, mas também leva Claude2 na qualidade de geração de texto de janela longa, compreensão de contexto longo e perguntas e respostas de texto longo, sumarização, etc.

É relatado que Baichuan2-192K será fornecido aos usuários corporativos na forma de chamadas de API e implantação privatizada. Atualmente, a Baichuan Intelligent lançou o teste interno da API do modelo de grande porte e o abriu para os principais parceiros nos setores jurídico, de mídia, financeiro e outros.

É relatado que a Baichuan Intelligence foi criada em 10 de abril de 2023 por Wang Xiaochuan, fundador e ex-CEO da Sogou. Sua equipe principal é composta pelos principais talentos de IA de empresas de tecnologia conhecidas, como Sogou, Google, Tencent, Baidu, Huawei, Microsoft e Byte. Atualmente, o tamanho da equipe da Baichuan Intelligent é de mais de 170 pessoas, das quais quase 70% são funcionários com mestrado ou superior, e mais de 80% são funcionários de P&D.

Nos últimos 200 dias, Baichuan Intelligent lançou um modelo grande a cada 28 dias, em média, e tem continuamente Baichuan-7B/13B, Baichuan2-7B/13B quatro open source livre comercial grandes modelos e Baichuan-53B, Baichuan2-53B dois modelos de código fechado grande, no campo da escrita, criação de texto e outros campos de habilidade atingiu um bom nível na indústria. Atualmente, os dois modelos de código aberto de Baichuan-7B e 13B estão entre os melhores em muitas listas de avaliação autorizadas, com um download cumulativo de mais de 6 milhões de vezes.

Quanto à empresa que constrói grandes modelos de IA, Wang Xiaochuan disse que as ferramentas técnicas existentes de sua equipe podem ser usadas para construir grandes modelos, e os concorrentes da empresa são as soluções de código aberto de grandes empresas. Wang Xiaochuan também acredita que toda a equipe não precisa ser muito grande, e 100 pessoas são suficientes.

Em 31 de agosto, a Baichuan Intelligent assumiu a liderança na aprovação das "Medidas Provisórias para a Gestão de Serviços de Inteligência Artificial Generativa" nacional para o registro, e foi a única start-up de modelo em grande escala estabelecida este ano entre as primeiras oito empresas, e abriu a interface API Baichuan2-53B em 25 de setembro, entrando oficialmente no campo empresarial To B e iniciando o processo de comercialização.

Em 17 de outubro, a Baichuan Intelligent anunciou que havia concluído a rodada A1 de financiamento estratégico de 300 milhões de dólares, e Alibaba, Tencent, Xiaomi e outros gigantes da tecnologia e várias instituições de investimento de alto nível participaram desta rodada. Com a adição da rodada anjo de 50 milhões de dólares americanos, o montante de financiamento acumulado da Baichuan Intelligent atingiu 350 milhões de dólares americanos (cerca de 2,543 bilhões de yuans).

A Baichuan Intelligent não divulgou o valuation específico atual, dizendo apenas que, após essa rodada de financiamento, a empresa se tornou um unicórnio de tecnologia. De acordo com a definição geral, a avaliação dos unicórnios é de mais de 1 bilhão de dólares americanos (cerca de 7,266 bilhões de yuans).

**No lançamento de Baichuan2-192K, Baichuan Intelligent disse que teve um bom desempenho em 10 Q&A de texto longo chinês e inglês e conjuntos de avaliação abstrata, como Dureader, NarrativeQA, LSHT e TriviaQA, e 7 deles alcançaram SOTA, superando significativamente outros modelos de janela longa e liderando o Claude2 de uma maneira geral. **

Baichuan apontou que é consenso da indústria de inteligência artificial que expandir a janela de contexto pode efetivamente melhorar o desempenho de modelos grandes, mas a janela de contexto ultralonga significa maiores requisitos de poder de computação e maior pressão de memória. Atualmente, existem muitas maneiras de aumentar o comprimento da janela de contexto na indústria, incluindo janelas de correr, downsampling, modelos pequenos, etc. Embora esses métodos possam aumentar o comprimento da janela de contexto, todos eles têm diferentes graus de comprometimento para o desempenho do modelo, em outras palavras, todos eles sacrificam o desempenho de outros aspetos do modelo em troca de uma janela de contexto mais longa. O Baichuan2-192K lançado desta vez alcança um equilíbrio entre o comprimento da janela e o desempenho do modelo através da otimização de algoritmo e engenharia, e alcança a melhoria simultânea do comprimento da janela e do desempenho do modelo.

Em termos de algoritmos, Baichuan Intelligent propõe um esquema de extrapolação para codificação de posição dinâmica RoPE e ALiBi, que aumenta a capacidade de modelagem do modelo para confiar em sequências longas, garantindo a resolução, e quando o comprimento da janela se expande, a capacidade de modelagem de sequência de Baichuan2-192K continua a aumentar. Em termos de engenharia, com base na estrutura de treinamento distribuído auto-desenvolvida, Baichuan Intelligent integra e otimiza várias tecnologias e cria um conjunto abrangente de soluções distribuídas paralelas 4D, que podem encontrar automaticamente a estratégia distribuída mais adequada de acordo com a carga específica do modelo, o que reduz muito a ocupação de memória no processo de treinamento de janela longa e inferência.

O Baichuan2-192K pode ser profundamente integrado com cenários mais verticais, realmente desempenhar um papel no trabalho, na vida e no aprendizado das pessoas e ajudar os usuários do setor a reduzir melhor os custos e aumentar a eficiência. Por exemplo, pode ajudar os gestores de fundos a resumir e interpretar demonstrações financeiras, analisar os riscos e oportunidades da empresa; Ajudar os advogados a identificar riscos em múltiplos documentos legais, revendo contratos e documentos legais; Ajudar os técnicos a ler centenas de páginas de documentação de desenvolvimento e responder a perguntas técnicas; Ele também pode ajudar a equipe a navegar rapidamente por um grande número de artigos e resumir o progresso mais recente de ponta.

Atualmente, o Baichuan2-192K está aberto aos principais parceiros da Baichuan Intelligence na forma de chamadas de API, e chegou a uma cooperação com a mídia financeira e escritórios de advocacia, dizendo que será totalmente aberto em breve.

A equipe de Wang Xiaochuan disse que o Baichuan Intelligent Baichuan2-192K inovou para janelas de contexto longo em algoritmos e engenharia, verificou a viabilidade de janelas de contexto longo e abriu um novo caminho de pesquisa científica para a melhoria de desempenho de modelos grandes. Ao mesmo tempo, o seu contexto mais alargado estabelecerá também uma boa base técnica para a indústria explorar domínios de ponta, como os agentes e as aplicações multimodais.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

1 Curtidas

Recompensa
1
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
#Show My Alpha Points
19k Popularidade
#SOL Futures Reach New High
2k Popularidade
#ETH ETF Sees 12 Weeks of Inflows
2k Popularidade
#Crypto Market Rebound
170k Popularidade
#CandyDrop Airdrop Event 6.0
96k Popularidade

Marcar

sitemap