Baichuan VS Zhipu, quem é a OpenAI da China?

Question

*Fonte do artigo: Light Cone Intelligence**Texto: Hao Xin**Editor: Liu Yuqi*No início de junho, a mídia estrangeira emitiu uma tortura de "quem é a OpenAI da China", e depois de experimentar a onda de empreendedorismo de grandes modelos, as ondas grandes correram para a areia, e apenas algumas pessoas foram deixadas no final.O Edifício Xaar alguns cruzamentos fora da Universidade de Tsinghua é a Inteligência Baichuan do empresário estrela Wang Xiaochuan, e o Edifício da Rede Sohu é o espectro de sabedoria IA enviado pela academia. Depois de passarem pelo teste do mercado, tornaram-se os dois candidatos mais promissores.A batalha pelos dois edifícios parece ter começado silenciosamente.** Do ponto de vista do financiamento, a Zhipu AI e a Baichuan Intelligent completaram várias rodadas de financiamento em larga escala este ano. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7e2e2823fa-dd1a6f-69ad2a) (Light Cone Intelligent Mapping: Organizado de acordo com informações públicas)Este ano, o montante total acumulado de financiamento de Zhipu AI excedeu 2,5 bilhões de yuans, e o montante total de financiamento de Baichuan Intelligent atingiu 350 milhões de dólares americanos (cerca de 2,3 bilhões de yuans). De acordo com informações públicas, a última avaliação de **Zhipu AI ultrapassou 10 bilhões de yuans, o mais alto ou 15 bilhões, que é uma das empresas domésticas mais rápidas com uma avaliação de mais de 10 bilhões de yuans; **Após a última rodada de financiamento, a Baichuan Intelligent foi avaliada em mais de 1 bilhão de dólares americanos (cerca de 6,6 bilhões de yuans).Do ponto de vista da composição da equipe, Zhipu AI e Baichuan Intelligent Master saem da mesma casa, e Wang Shaolan, presidente da Zhipu AI, e Wang Xiaochuan, fundador da Sogou, são equipes empreendedoras do Departamento de Tsinghua.**Do ponto de vista da velocidade de recuperação tecnológica, os dois também são indistinguíveis. **O GLM-130B da Zhipu AI derrotou o GPT-3 assim que saiu, e o recém-lançado Baichuan 2 está à frente do Llama 2 em todas as dimensões, sendo pioneiro no desenvolvimento do ecossistema de código aberto da China.Tudo indica que Zhipu AI e Baichuan Intelligence se tornaram os "cavalos escuros" da grande pista de modelos da China e, sob a feroz concorrência, quem é o veado morto?  ## **Crentes em OpenAI: Sabedoria AI**  A relação entre Zhipu AI e OpenAI pode ser rastreada até 2020, que foi considerado por Zhang Peng, CEO da Zhipu AI, como o verdadeiro "primeiro ano do modelo de linguagem grande IA" em seu coração.A relação entre Zhipu AI e OpenAI pode ser rastreada até 2020, que foi considerado por Zhang Peng, CEO da Zhipu AI, como o verdadeiro "primeiro ano do modelo de linguagem grande IA" em seu coração.No aniversário de Zhipu AI, na atmosfera alegre, você pode sentir um pouco de ansiedade provocada pelo nascimento do GPT-3 de vez em quando. O GPT-3, que atinge 175 bilhões de parâmetros, é o primeiro modelo de linguagem grande no sentido estrito.Naquela época, Zhang Peng não só ficou chocado com a capacidade de emergência do GPT-3, mas também caiu no pensamento de "se deve seguir", se era então ou agora, tudo na direção do modelo de grande escala parâmetro grande é uma coisa extremamente arriscada. Depois de ponderar, a Zhipu AI decidiu tomar a OpenAI como referência e investir no desenvolvimento de modelos de pré-treino em grande escala.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e41f17dbae-dd1a6f-69ad2a) (Light Cone Intelligent Mapping: Organizado de acordo com informações públicas)**Em termos de seleção de caminhos de tecnologia, Zhipu AI tem o mesmo pensamento independente que OpenAI. **Naquela época, havia vários modelos grandes de pré-treinamento, como BERT, GPT e T5. Os três caminhos têm suas próprias vantagens e desvantagens em termos de meta de treinamento, estrutura do modelo, fonte de dados de treinamento e tamanho do modelo.Se o processo de treinamento de modelo grande é comparado a um exame de inglês, o BERT é bom em fazer perguntas através da relação entre palavras e frases, e fazer o exame através da compreensão, e seus materiais de revisão vêm principalmente de livros didáticos e da Wikipédia; O GPT é bom em prever a próxima palavra para fazer perguntas, preparando-se para o exame através de muita prática de escrita, e seus materiais de revisão vêm principalmente de uma variedade de páginas da web; O T5 adota uma estratégia de formalização das questões, primeiro traduzindo as questões para o chinês e depois resolvendo as questões, e ao revisar, não só lendo o livro didático, mas também pincelando um grande número de bancos de perguntas.Como todos sabemos, o Google escolheu BERT, OpenAI escolheu GPT, e Zhipu AI não seguiu cegamente, ** com base nessas duas rotas propostas estrutura de algoritmo GLM (General Language Model). O quadro realmente percebe as vantagens e desvantagens complementares do BERT e do GPT, "que podem ser entendidas enquanto se continua e preenche os espaços em branco". **O GLM tornou-se assim a maior confiança para a Zhipu AI perseguir a OpenAI, e sob esta estrutura, os modelos da série GLM como GLM-130B, ChatGLM-6B e ChatGLM2-6B têm crescido sucessivamente. Dados experimentais mostram que os modelos grandes da série GLM são superiores ao GPT em termos de precisão de compreensão de linguagem, velocidade de inferência, proporção de memória e grande aplicação de adaptação de modelos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc70c8e5d7-dd1a6f-69ad2a) (Fonte: Internet)A OpenAI é atualmente a instituição mais completa que pode fornecer serviços básicos de modelos no exterior, e sua comercialização é dividida principalmente em duas categorias, uma é taxas de coleta de API, e a outra é taxas de assinatura ChatGPT. Em termos de comercialização, Zhipu AI também segue a ideia geral e está no escalão de empresas com comercialização relativamente madura de grandes modelos nacionais.De acordo com o penteado inteligente de cone ótico, combinado com o desembarque de empresas chinesas, o modelo de negócios da IA **Zhipu é dividido em taxa de cobrança de API e modo de taxa de privatização. **Os tipos gerais de modelos fornecidos são modelos grandes de linguagem, modelos grandes superantropomórficos, modelos grandes vetoriais e modelos grandes de código, e sob cada opção de modelo grande, incluindo preços padrão, preços privados em nuvem e preços privados locais. Em comparação com a OpenAI, a Zhapu AI não tem o fornecimento de serviços de grandes modelos de voz e imagem, mas adiciona grandes modelos superantropomórficos, que também atendem às necessidades do NPC digital humano e inteligente da China e de outras indústrias.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d5dc94c153-dd1a6f-69ad2a) (Light Cone Intelligent Mapping: Organizado de acordo com informações públicas)A Light Cone Intelligence aprendeu com o desenvolvedor que "no momento, as características da plataforma Baidu Wenxin Qianfan são perfeitas, as características do Tongyi Qianwen são flexíveis e a Zhipu AI é uma das empresas com as taxas de API mais baratas entre os principais fabricantes do mercado".A taxa para o ChaGLM-Pro é de 0,01 yuan/mil tokens, e 18 yuan é doado, e a taxa do ChaGLM-Lite é reduzida para 0,002 yuan/mil tokens. Para referência, o OpenAI GPT-3.5 cobra 0,014 yuan/mil tokens, Ali Tongyi Qianwen-turbo cobra 0,012 yuan/mil tokens e Baidu Wenxin One Word emie-bot-turbo cobra 0,008 yuan/mil tokens.Como Zhang Peng disse, Zhipu AI também está passando por uma nova etapa de "não seguir mais a OpenAI" com a OpenAI como objetivo.Em termos de negócios de produtos, ao contrário da OpenAI, que se concentra apenas na atualização e construção do ChatGPT, a Zhipu AI optou por atacar em três lados.De acordo com o seu site oficial, o negócio atual da Zhipu AI está dividido principalmente em três blocos, nomeadamente a plataforma MaaS de grande modelo, a plataforma de inteligência tecnológica AMiner e o humano digital cognitivo. Como resultado, três grandes matrizes de produtos de IA foram formadas, produtos de grandes modelos, produtos AMiner e produtos humanos digitais. Entre eles, os produtos de grandes modelos não abrangem apenas robôs de diálogo básicos, mas também programação, escrita, pintura da divisão de robôs pendentes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0bf9c101e1-dd1a6f-69ad2a) (Fonte: site oficial da Zhipu AI)Ao mesmo tempo, a Zhipu AI continua a explorar o lado da aplicação através do investimento. Até agora, a Zhipu AI investiu na Lingxin Intelligence e na Painting Wall Intelligence, e aumentou suas participações na Lingxin Intelligent novamente em setembro deste ano.Lingxin Intelligence também é incubado do Departamento de Ciência da Computação da Universidade de Tsinghua, embora o departamento seja homólogo, mas Lingxin Intelligence é mais inclinado à aplicação, e a comunidade interativa de interesse AiU desenvolvida por ele é um modelo grande super-antropomórfico baseado em Zhipu AI. A ideia de desenvolvimento de seus produtos é semelhante à IA de personagens estrangeiros, ao criar personagens de IA com diferentes personalidades e personagens, interagindo e conversando com eles, é mais inclinado a aplicações C-end e enfatiza os atributos do entretenimento.  ## ** Mudando de OpenAI para LIama: Baichuan Intelligence**  Light Cone Intelligence descobriu que, em comparação com a OpenAI, Baichuan Intelligence é mais como Llama.**Em primeiro lugar, com base na tecnologia e experiência originais, a velocidade de lançamento e iteração é muito rápida. **Meio ano após o seu estabelecimento, Baichuan Intelligent lançou sucessivamente quatro modelos comerciais de código aberto de baichuan-7B/13B, Baichuan2-7B/13B e dois modelos grandes de código fechado de Baichuan-53B e Baichuan2-53B. A partir da abertura da interface da API Baichuan2-53B em 25 de setembro, nos últimos 168 dias, a Baichuan Intelligent lançou um modelo grande a uma taxa média de meses.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e27cb1a5a0-dd1a6f-69ad2a) (Light Cone Intelligent Mapping: Organizado de acordo com informações públicas)A Meta confia na LLama2 para reconquistar a posição de IA, e a Baichuan Intelligent é famosa por derrotar a LLama2 com a série Baichuan2 de modelos de código aberto.De acordo com os resultados dos testes, Baichuan2-7B-Base e Baichuan2-13B-Base são superiores ao LLaMA2 em vários benchmarks de avaliação autorizados, como MMLU, CMMLU, GSM8K, etc., e seu desempenho também é muito brilhante em comparação com outros modelos com grandes quantidades dos mesmos parâmetros, e seu desempenho é significativamente melhor do que o dos concorrentes do LLaMA2 e outros modelos do mesmo tamanho.Os fatos provaram que o modelo grande inteligente Baichuan realmente resistiu ao teste. De acordo com dados oficiais, Baichuan foi baixado mais de 5 milhões de vezes na comunidade de código aberto e mais de 3 milhões de vezes por mês.Light Cone Intelligent descobriu que o modelo da série inteligente Baichuan tem o maior número de downloads na comunidade de código aberto Hugging Face de mais de 110.000, que ainda é competitivo entre os modelos de código aberto chineses e estrangeiros.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d6975a90e4-dd1a6f-69ad2a) (Fonte: site oficial do Hugging Face)A razão pela qual seu código aberto tem vantagens também está relacionada à sua forte compatibilidade, Baichuan Intelligent introduziu em público que toda a sua grande estrutura de base de modelo está mais próxima da estrutura do LLAMA da Meta, por isso é muito amigável para empresas e fabricantes do design de código aberto.**"Depois do código aberto, a ecologia será construída em torno do LLaMA, e há muitos projetos de código aberto em países estrangeiros que seguem o LLaMA para promover, e é por isso que nossa estrutura está mais próxima do LLaMA." Wang Xiaochuan disse.De acordo com a inteligência do cone ótico, Baichuan Intelligent adota hot-pluggable no projeto de arquitetura, que pode suportar a alternância aleatória entre diferentes módulos do modelo Baichuan e modelo LLAMA e modelo Baichuan, como treinar um modelo com LLAMA, sem modificação, o modelo pode ser colocado diretamente em Baichuan para uso. Isso também explica por que a maioria dos fabricantes de Internet agora usa o modelo Baichuan, e os fornecedores de nuvem introduzem o modelo da série Baichuan.O caminho que a história percorreu leva ao passado e ao futuro, e o empreendedorismo de grande modelo de Wang Xiaochuan é assim.Com base na identidade do fundador da Sogou e na experiência em tecnologia de busca, nos primeiros dias do empreendedorismo, Wang Xiaochuan recebeu avaliações de muitas pessoas, "Xiaochuan, é o mais adequado para grandes modelos".** A construção de grandes modelos em experiência de pesquisa e frameworks tornou-se a cor de fundo da Baichuan Intelligence. **Chen Weipeng, um cofundador da Baichuan Intelligent Technology, disse uma vez que a pesquisa e desenvolvimento tem muitas semelhanças com o desenvolvimento de grandes modelos, "Baichuan Intelligent transfere rapidamente a experiência de pesquisa para a pesquisa e desenvolvimento de grandes modelos, o que é semelhante a um projeto sistemático de 'construção de foguetes', desmantelando sistemas complexos, promovendo a colaboração da equipe e melhorando a eficácia da equipe através da avaliação de processos."Wang Xiaochuan também falou na conferência de imprensa: "Como a Baichuan Intelligence tem um gene de pesquisa antes, ela naturalmente sabe como selecionar as melhores páginas do meio de trilhões de páginas da web, que podem ser desduplicadas e anti-lixo." No processamento de dados, o Baichuan Intelligent também se baseia na experiência de pesquisas anteriores e pode concluir a limpeza e a desduplicação de centenas de bilhões de dados em uma hora."O núcleo de sua grande pesquisa de modelos é vividamente exibido no Baichuan-53B. Ao lidar com o problema da "ilusão" de grandes modelos, combinado com a precipitação da tecnologia de pesquisa, a Baichuan Intelligent fez otimizações na aquisição de informações, melhoria da qualidade dos dados e aprimoramento da pesquisa.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e8c8a50de0-dd1a6f-69ad2a) Em termos de melhoria da qualidade dos dados, a ideia central do Baichuan Intelligent é "sempre levar o melhor", classificar dados com baixa qualidade e alta qualidade como padrão, e garantir que Baichuan2-53B sempre use dados de alta qualidade para pré-treinamento; Em termos de aquisição de informações, Baichuan2-53B atualizou vários módulos, incluindo componentes-chave como compreensão da intenção da instrução, pesquisa inteligente e aprimoramento de resultados, através da compreensão aprofundada das instruções do usuário, conduzir com precisão a pesquisa de termos de consulta e, finalmente, combinar a tecnologia de modelo de linguagem grande para otimizar a confiabilidade da geração de resultados do modelo.Embora tenha começado com código aberto, a Baichuan Intelligent começou a explorar o caminho da comercialização. De acordo com informações oficiais, o objetivo da Baichuan Intelligence é "construir a melhor base de modelos grandes da China", e o objetivo da dimensão vertical é melhorar na pesquisa, multimodalidade, educação, medicina e outros campos.A comercialização de hoje está concentrada no Baichuan2-53B, e o site oficial mostra que a chamada API do modelo adota um padrão de carregamento baseado no tempo. 0:00-8:00 cobra 0,01 yuan/mil tokens, 8:00-24:00 cobra 0,02 yuan/mil tokens, em comparação, o preço da taxa diurna é maior do que a noite.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4543fd2d4b-dd1a6f-69ad2a) (Fonte: Site oficial da Baichuan Intelligent )  ## **Fim**  Debater quem é o OpenAI da China não faz muito sentido nos primeiros dias do desenvolvimento de grandes modelos. Muitas startups como Zhipu AI e Baichuan Intelligent perceberam que seguir cegamente os passos da OpenAI não é aconselhável, por exemplo, a Zhipu AI esclareceu o caminho técnico de "não fazer GPT chinês". Além disso, em um momento em que o código aberto está se tornando popular e formando um cerco, a superioridade tecnológica absoluta da OpenAI não parece ser inquebrável.Zhipu AI, Baichuan Intelligent mencionou que as super aplicações são um mercado mais amplo, mas também a zona de conforto das grandes empresas modelo da China, não permanecem mais no lugar, por exemplo, uma pessoa próxima à Zhipu AI uma vez deu a notícia à mídia, a equipe de IA Zhipu determinou firmemente a rota 2B, visando o mercado de informação e inovação, e em 5 meses, expandiu rapidamente a equipe, de 200 para 500 pessoas, para a subsequente reserva de mão de obra de negócios 2B.No caminho da comercialização, Baichuan Intelligent optou por se referir à ecologia de código aberto de Llama2, e também começou a iterar em pequenos passos.Pode-se ver a olho nu que, em apenas meio ano, a Baichuan Intelligent e a Zhipu AI passaram pela tecnologia terra de ninguém e chegaram ao estágio de comercialização para pouso industrial. Em comparação com o boom empresarial da IA 1.0, o período de polimento da tecnologia é de até 3 anos (2016-2019), e é justamente por causa do obstáculo no pouso comercial que um grande número de empresas de IA diminuirá coletivamente em 2022 e cairá antes do amanhecer.Aprendendo com as lições da etapa anterior, mas também porque a versatilidade da tecnologia de grandes modelos é mais conveniente para pousar, startups representadas pela Baichuan Intelligence e Zhipu AI estão levantando tropas e cavalos para preparar tecnologia, produtos e reservas de talentos para a próxima etapa.No entanto, os primeiros tiros só foram ouvidos na maratona, e era muito cedo para dizer que o resultado era muito cedo. Mas pelo menos a primeira etapa da pista foi decomposta e, depois que o objetivo é claro, a competição é ainda mais paciente e perseverante. Isto é o mesmo para Baichuan Intelligence, Zhipu AI ou OpenAI.