Grandes modelos não são animais de estimação de gigantes

2023-10-30 07:18:49

Fonte do artigo: Tiger Sniff

Autor: Creek

Fonte da imagem: Gerado por Unbounded AI

A guerra dos 100 modelos está a intensificar-se, mas muitos praticantes têm cada vez mais dúvidas sobre os grandes modelos.

No campo dos modelos grandes básicos, Tencent, Alibaba, Baidu e outros gigantes da Internet entraram, e Alibaba, Baidu, iFLYTEK e outros grandes fabricantes lançaram sucessivamente as versões mais recentes de produtos de modelos grandes no mês passado, e suas capacidades técnicas também foram muito melhoradas; Startups iteram na nova versão ao mesmo tempo, mas também financiamento "louco", Zhipu AI anunciou recentemente que este ano recebeu um total de 2,5 bilhões de yuans em financiamento, estabelecido quase meio ano Baichuan Intelligence recebeu 350 milhões de dólares americanos em financiamento, entre os investidores dessas startups, há também Tencent, Alibaba, Meituan e outros gigantes da Internet.

Será que a China realmente precisa de tantos modelos básicos? Todas as grandes empresas básicas de modelos são loucas por "rolar" parâmetros técnicos, mas que tipo de modelo grande o mercado precisa? Na animada e caótica situação de batalha, estas questões estão a ser levantadas por cada vez mais pessoas.

Para responder a essa pergunta, devemos primeiro entender como o modelo básico de grande porte ganha dinheiro no mercado chinês. Embora a grande maioria da perceção das pessoas sobre grandes modelos seja de chatbots, e muitos usuários comecem a usar esses produtos ao pesquisar informações e organizar documentos, é difícil para empresas relacionadas ganharem dinheiro com esses produtos C-end, e mesmo quanto maior a escala de usuários, mais empresas perdem dinheiro. **Atualmente, a direção mais pragmática para a comercialização de modelos básicos de grande porte ainda está no lado B, servindo empresas de varejo, finanças, manufatura e outros campos para reduzir custos e melhorar a eficiência, a fim de obter renda comercial estável. **

Existem apenas três tipos de necessidades para modelos grandes básicos: ** Chame diretamente a API de modelo grande para obter recursos relevantes de modelo grande; Com base no modelo de grande porte, o desenvolvimento secundário é realizado de acordo com o negócio real; Desenvolva aplicações de IA baseadas em modelos grandes. **Esses requisitos testam as capacidades técnicas da plataforma básica de modelo grande e também testam seus recursos de serviço corporativo.

Do ponto de vista das capacidades de serviço, as startups modelo de grande escala e os gigantes da Internet têm de começar do zero, e ninguém tem uma vantagem inata. Plataformas que podem obter informações mais rápidas sobre as necessidades dos clientes e fornecer serviços estáveis e confiáveis podem se destacar.

Modelos grandes não são "soprados"

Com a popularidade do ChatGPT como ponto de demarcação, o desenvolvimento de grandes modelos nacionais experimentou dois dias.

Antes do ChatGPT se tornar popular, apenas um pequeno número de empresas nacionais estava envolvido na pesquisa e desenvolvimento de grandes modelos básicos, porque a tecnologia e as capacidades de serviço de grandes modelos não foram amplamente aceitas pelo mercado, e essas empresas se concentram principalmente na pesquisa e desenvolvimento de tecnologia e no acúmulo de capacidades de serviço. Quando o ChatGPT se tornou popular, um grande número de investidores e profissionais entrou e grandes modelos se tornaram uma nova saída.

O mercado aquecido é fácil de dar origem aos especuladores, que não se aprofundam em tecnologia, mas contam histórias, conceitos de hype, independentemente das capacidades de tecnologia e serviço, primeiro contam a história para o céu, e desta forma ganham o reconhecimento do mercado de capitais e dos clientes. Um grande profissional de modelos brincou dizendo a Tiger Sniff que muitas grandes empresas de modelos na China afirmam que a lacuna entre elas e o GPT-4 é de apenas alguns meses, e isso é porque elas fizeram algum treinamento com base no GPT-2 que foi de código aberto e vêm contar histórias.

De facto, a evolução das capacidades técnicas dos grandes modelos não pode ser conseguida através de formação durante alguns meses, porque este é um sistema complexo, e é muito importante ter uma grande escala, sendo impossível produzir uma evolução mais inteligente sem uma determinada escala. No entanto, aumentar a escala de treinamento de modelos grandes requer muito tempo e depuração repetida. Os técnicos que depuraram os parâmetros de treinamento de grandes modelos entendem essa dificuldade: ninguém diz o que fazer, você tem que descobrir por conta própria, e todos os tipos de situações inesperadas surgem no processo que levam tempo para resolver.

Na China, os modelos grandes básicos que realmente confiam nas capacidades técnicas foram treinados antes do ChatGPT se tornar popular, naquela época, o modelo grande não era bem conhecido por todos, e muitas pessoas não entendiam e não estavam otimistas sobre o modelo grande, e as empresas que insistiam em investir no modelo grande estavam muito seguras da nova tecnologia.

Por exemplo, em 2020, a KLCII lançou o primeiro projeto de pesquisa de modelo pré-treinado em ultragrande escala, o Wudao, e sua versão 2.0 se tornou o maior modelo de trilhões do mundo. Após a atualização deste ano, "Wudao" abrange grandes modelos básicos, como linguagem, visão e multimodalidade, e entrou no estágio de código aberto completo.

A Zhipu AI também desenvolveu uma arquitetura de pré-treinamento GLM em 2020 e também treinou um modelo GLM-10B com dezenas de bilhões de parâmetros. Em 27 de outubro, a Zhipu AI lançou o modelo de diálogo autodesenvolvido de terceira geração ChatGLM3, que melhorou muito seu desempenho, capacidade de inferência e capacidade de contexto em comparação com a geração anterior. Em comparação com o ChatGLM2, o ChatGLM3 ficou em primeiro lugar entre 44 conjuntos de dados públicos chineses e ingleses na China. Entre eles, MMLU aumentou 36%, C aumentou 33%, GSM8K aumentou 179% e BBH aumentou 126%.

Além disso, em termos de funções, uma série de grandes modelos desenvolvidos internamente (ChatGLM, CodeGeeX, WebGLM, CogVLM, etc.) lançados pela Zhipu AI também são os modelos grandes da série OpenAI de benchmarking mais completos na China, e são aplicáveis ao assistente de IA generativa "Zhipu Qingyan".

Este primeiro lote de empresas a fabricar grandes modelos é fundamentalmente diferente das empresas que especulam sobre conceitos e perseguem o vento. Quando a tecnologia de modelo em grande escala ainda não explodiu e o mercado ainda não foi tão volátil, eles estão envolvidos nela porque descobriram o valor técnico e a lógica de negócios do modelo básico de grande escala. Esta diferença também é muito óbvia após a popularidade do modelo grande, muitas empresas se envolvem em produtos C-end por uma questão de tráfego e atualidade, enquanto as primeiras empresas, como a Zhipu AI, estão mais focadas no campo dos serviços corporativos, e todas as capacidades de P&D e capacidades de serviço também são dispostas em torno dessa ideia, e estão se acumulando de uma maneira realista e se desenvolvendo na direção da criação de valor para os clientes.

**A complexidade do modelo de grande porte determina que as empresas que acumularam tecnologia e capacidades de serviço por mais tempo têm uma vantagem mais forte. Quando cada vez mais pessoas no mercado estão cientes da complexidade dos grandes modelos e do tempo necessário para a evolução dos grandes modelos, as grandes empresas de modelos que dependem do storytelling para fritar conceitos terão cada vez menos espaço para sobreviver, e as empresas que acumulam seriamente tecnologia e capacidades de serviço podem resistir ao teste da primeira onda de concorrência.

Nenhum grande modelo de uma ecologia próspera, sem futuro

**No processo de comercialização de grandes modelos, quem conseguir aterrar nos cenários de aplicação que tenham as necessidades rígidas da sociedade será o primeiro a formar um círculo virtuoso de auto-hematopoiese. **

O modelo geral grande tem uma gama mais ampla de aplicações, mas não é especializado o suficiente para resolver problemas específicos em domínios verticais. Os modelos verticais de grande dimensão têm uma maior capacidade para resolver problemas específicos de um domínio, mas o âmbito dos serviços é muito limitado, o que torna difícil para muitos modelos verticais de grande dimensão alcançar um equilíbrio entre custos e benefícios comerciais, e o espaço de desenvolvimento é limitado.

O ponto final da aplicação de grandes modelos é ser usado na vida e na produção, para resolver problemas práticos no trabalho e na vida e para melhorar a eficiência e a produtividade do trabalho. Com base nas vantagens e desvantagens do atual modelo geral e modelo vertical, uma ideia mais apropriada no atual processo de comercialização do modelo é abrir as capacidades de tecnologia e serviços para varejo, finanças, manufatura e outros campos, e o modelo geral e as empresas em campos relacionados trabalham juntos para construir cenários de aplicação. **

Sujeito a limitações como dados, poder de computação e cenários, não há muitos modelos grandes que podem realmente ser executados através de código aberto. Ao mesmo tempo, como base tecnológica básica, o papel do modelo grande é muito semelhante aos sistemas operativos de PC e telemóveis, e apresentará um padrão competitivo de "debaixo da grande árvore, nem uma polegada de relva", ou seja, uma ou duas bases técnicas ocupam uma posição dominante na indústria, devendo todos os programadores de aplicações desenvolver com base nestas duas bases técnicas. Se o modelo de pedestal não puder formar uma ecologia próspera, não haverá capacidade de desenvolvimento sustentável.

A julgar pelo histórico de desenvolvimento de sistemas operacionais de PC e celulares, a vantagem de ser pioneiro é muito importante. Quando o Windows domina o mercado de PCs, e iOS e Android são divididos em dois mundos no campo dos celulares, é difícil para outros sistemas operacionais terem espaço para uma reviravolta.

A mesma tendência também é observada no campo dos grandes modelos. Grandes modelos abrirão um ecossistema próspero de aplicativos de IA, e dados, recursos ou aplicativos pessoais e empresariais podem rapidamente se tornar plug-ins de IA, aprimorando as capacidades de modelos grandes e tornando modelos grandes mais práticos e fáceis de usar.

Atualmente, Baidu, iFLYTEK e outras empresas gigantes têm se comprometido com a construção ecológica, Baidu nuvem inteligente Qianfan grande modelo plataforma 2.0 empresas ativas mensais de quase 10.000, cobrindo mais de 400 cenários em finanças, educação, fabricação, energia, assuntos governamentais, transporte e outras indústrias, a escala de desenvolvedor de plataforma de modelo grande Spark da iFLYTEK ultrapassou 700.000.

Algumas startups que acumularam muito tempo no campo dos grandes modelos são também as primeiras a comer caranguejos. Atualmente, a Zhipu AI tem mais de 1.000 clientes e mais de 100 parceiros para construir um ecossistema, cobrindo vários cenários, como mídia, SaaS, educação e escritório. Por exemplo, por trás das capacidades de geração inteligente de documentos WPS de conteúdo de apresentação e escrita de comunicados de imprensa, há a capacidade técnica de Zhipu AI como suporte.

Na competição ecológica de várias plataformas de modelos de grande escala, o teste mais importante da plataforma é o valor que ela traz para os parceiros e a capacidade de crescer junto com os parceiros. No que diz respeito ao cenário de escritório, a geração de conteúdo de apresentações, a escrita de conteúdo de artigo e a reescrita de estilo têm requisitos muito altos para a precisão e capacidades de raciocínio da plataforma de modelo grande, e apenas o modelo grande que atingiu um certo nível técnico pode ter a capacidade de suportar essas aplicações, e a plataforma de modelo grande também precisa corrigir erros e iterações de acordo com o feedback dos usuários em aplicativos reais.

**Quer se trate de uma empresa gigante ou de uma empresa em fase de arranque, por mais forte que seja o capital e a força dos recursos, é necessário acumular e iterar passo a passo a partir do zero. Portanto, no processo de construção de um ecossistema para grandes plataformas modelo, a vantagem de tempo é muito importante. Esta é também a razão pela qual as empresas em fase de arranque com vantagens de serem pioneiras e os gigantes da Internet com recursos financeiros mais fortes podem competir em pé de igualdade.

100 guerra modelo, quem é mais adequado para o mercado chinês?

Embora a situação de batalha da guerra de 100 modelos seja animada e caótica, a direção da competição por trás dela é muito clara, e as capacidades técnicas e de serviço e a capacidade da plataforma de modelo grande de construir um ecossistema determinam diretamente a direção da competição.

A construção destas capacidades leva tempo a acumular-se e é difícil alcançá-las de um dia para o outro, mas não basta acumulá-las ao longo do tempo. A vantagem do pioneiro, além da diferença de tempo trazida pela ação precoce, também tem a capacidade de perceber com precisão a demanda do mercado, ou seja, agir com firmeza e rapidez ao longo de uma estratégia correta, oscilações e desvios estratégicos podem facilmente consumir todas as vantagens acumuladas pela ação precoce.

Quando cada vez mais grandes plataformas de modelos mudarem seu foco para a construção ecológica, a determinação estratégica e a execução da plataforma se tornarão cada vez mais importantes na competição ecológica. **Quando algumas plataformas completam a mudança qualitativa para super plataformas, o cenário competitivo é basicamente determinado.

No grande e complexo mercado doméstico, as empresas de serviços B-end são propensas a oscilações e desvios estratégicos. Por um lado, as regiões e escalas de negócios das empresas no mercado nacional são diferentes, e a perceção do valor dos grandes modelos para a inteligência empresarial é bastante diferente, e os recursos e custos que estão dispostos a investir também são diferentes, por isso é difícil encontrar uma solução padronizada; Por outro lado, empresas em diferentes campos têm necessidades diferentes para grandes capacidades de modelos, e mesmo empresas diferentes no mesmo campo têm necessidades diferentes para modelos grandes.

Em tal ambiente, em comparação com o plano de comercialização da OpenAI, a comercialização de plataformas de modelos nacionais de grande escala requer mais atenção aos detalhes. Vemos essa tendência nas ideias de comercialização de algumas plataformas.

Por exemplo, além dos serviços comuns de API de plataforma aberta, a Zhipu AI também fornece duas soluções: privatização da nuvem e privatização local. **A privatização da nuvem pode ajudar as empresas a construir seus próprios grandes modelos baseados em dados privados com maior segurança, enquanto a privatização local é uma solução única no mercado chinês, além de fornecer um modelo mais poderoso, também fornece uma matriz de modelo completa para atender a vários cenários e necessidades. **

Em resposta a diferentes necessidades dos clientes, como geração de artigos, atendimento inteligente ao cliente e anotação de dados, bem como à escala de grandes, médias e pequenas empresas, a Zhipu AI fornece diferentes soluções, que os clientes podem combinar livremente de acordo com suas próprias necessidades. Este modelo de serviço mais detalhado e flexível também se baseia em uma visão precisa de longo prazo do mercado chinês.

Diante da incerteza do ambiente externo, a Zhipu AI também lançou um plano doméstico de adaptação de chips, cooperando com fabricantes nacionais de hardware e chips para fornecer diferentes níveis de certificação e testes para diferentes tipos de usuários e diferentes tipos de chips, de modo a tornar os serviços de grandes modelos mais seguros e confiáveis. Atualmente, a série ChatGLM tem suportado mais de 10 tipos de ecossistemas de hardware domésticos, incluindo Ascend, Shenwei Supercomputer, Haiguang DCU, Haifeike, Muxi Xiyun, Computing Technology, Tiantian Zhixin, Cambrian, Moore Threads, Baidu Kunlun Core, Lingxi Technology, Great Wall Chaoyun, e o modelo de teste final implantável de telefone móvel lançado simultaneamente ChatGLM3-1.5B e 3B suporte Xiaomi, vivo, Samsung e outros telefones celulares e plataformas de veículos.

Quanto mais acirrada a batalha na guerra dos 100 modelos, mais importantes são esses detalhes aparentemente impercetíveis, porque esses detalhes determinam o grau de reconhecimento de parceiros externos, e também afetam a velocidade do pouso de grandes modelos em diferentes cenários. O limiar para simplesmente lançar um modelo grande não é tão alto quanto o mercado imagina, mas é possível ter cenários de dados de alta qualidade para continuar a iterar e formar barreiras competitivas, e a chave para cenários de dados de alta qualidade está em parceiros externos - a plataforma que mais parceiros estão dispostos a escolher torna mais fácil executar esse ciclo de negócios.

Nesta competição, muitos profissionais acreditam que a vencedora deve ser a empresa gigante com recursos e capacidades financeiras mais fortes, mas não é. Startups e gigantes precisam andar pelos truques e chegar ao fundo dos detalhes, e não há atalhos. Quanto ao financiamento, não é a raiz da batalha decisiva, porque startups com competitividade central não terão falta de dinheiro - mesmo que a Zhipu AI tenha recebido o maior montante de financiamento de startups modelo de grande escala, há mais novos investidores que querem entrar no jogo.

Se pensarmos por outro ângulo, na verdade, o mercado de capitais já está votando com os pés sobre quem é mais adequado para o modelo de pedestal das empresas chinesas.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1Show My Alpha Points
16856 Popularidade
2SOL Futures Reach New High
65 Popularidade
3ETH ETF Sees 12 Weeks of Inflows
89 Popularidade
4Crypto Market Rebound
170552 Popularidade
5CandyDrop Airdrop Event 6.0
95833 Popularidade

Pino

Grandes modelos não são animais de estimação de gigantes

Modelos grandes não são "soprados"

Nenhum grande modelo de uma ecologia próspera, sem futuro

**100 guerra modelo, quem é mais adequado para o mercado chinês? **

100 guerra modelo, quem é mais adequado para o mercado chinês?