Dachang ultrapassa ChatGPT

2023-07-21 06:38:44

Original: Luozhi Magnolia

Fonte: Novo trecho da revisão de negócios

Fonte da imagem: Gerada pela ferramenta Unbounded AI

Nos duzentos dias desde o lançamento do ChatGPT, o desenvolvimento de modelos domésticos em grande escala iniciou um modo "furacão".

Diz-se que 79 modelos de grande escala com uma escala de mais de 1 bilhão de parâmetros na China foram lançados.

O campo de evolução do modelo em grande escala se concentra em uma confusão de cem modelos: o modelo em grande escala do Baidu Wenxin evoluiu para 3,5; Ali Tongyi Qianwen construiu um modelo familiar; O modelo em grande escala de JD Yanxi é um modelo industrial em grande escala "feito sob medida";

A teoria da evolução de modelos em grande escala de grandes fábricas é cruel e realista, e eles devem alcançá-los ou ser eliminados.

O Baidu Wenxin Big Model 3.5, que está avançando e treinando duro, anunciou recentemente que a versão mais recente da habilidade Yiyan de Wenxin ultrapassou o ChatGPT 3.5.

Seleção natural, sobrevivência do mais apto, grandes fabricantes e grandes modelos ultrapassaram o ChatGPT.

Modelo de fábrica grande, mais do que ChatGPT3.5

Vestindo um paletó preto interno e externo branco com cabelo curto e arrumado, ele apareceu na AI Large Model Technical Capability Report Conference.

O tópico ainda estava sendo revisado na noite anterior. Wu Tian, vice-presidente do Grupo Baidu, que acabou de voltar de uma viagem de negócios, disse na reunião: "A nova versão do Wenxin Yiyan superou o ChatGPT 3.5. Este também é um marco importante para realizarmos trabalhos técnicos relacionados na China."

Este é outro grande fabricante confirmando oficialmente que o modelo grande supera o ChatGPT depois que Liu Qingfeng, da HKUST Xunfei, mencionou que o modelo grande do Spark está prestes a superar o ChatGPT.

Em março deste ano, o modelo de linguagem de grande escala aprimorado de conhecimento de última geração do Baidu, "Wenxin Yiyan", foi publicamente convidado para teste. Este modelo é baseado na versão 3.0 do modelo de grande escala Wenxin. Após mais de 3 meses, o modelo Wenxin foi atualizado para a versão 3.5 e seus efeitos, funções e desempenho foram amplamente aprimorados.

O Wenxin Yiyan 3.5 superou o ChatGPT3.5, provavelmente devido ao novo mecanismo de plug-in em termos de funções. O Wenxin Large Model 3.5 expandiu o limite de capacidade do modelo grande por meio de plug-ins.

O modelo grande enfatiza a força técnica e a capacidade básica do modelo grande. Em maio deste ano, o novo modelo de base grande lançado pela Baidu é o Wenxin Large Model 3.5, que é o modelo básico do sistema Wenxin Yiyan.

Vale ressaltar que no treinamento do modelo básico, a versão 3.5 também adota a mais avançada tecnologia de treinamento paralelo híbrido adaptativo e a estratégia de cálculo de precisão mista do FlyPaddle, que acelera bastante a velocidade de iteração do modelo.

Como todos sabemos, o Baidu tem cultivado profundamente a pesquisa e o desenvolvimento da tecnologia de inteligência artificial full-stack, com um total de quatro camadas: camada de chip, camada de estrutura, camada de modelo e camada de aplicativo.

A camada de chip possui o Kunlun Core; a camada de estrutura possui a plataforma de aprendizado profundo Paddle, que suporta fortemente o treinamento e o raciocínio eficientes de modelos grandes; a camada de modelo possui o modelo grande Wenxin; na camada de aplicativo, 150.000 empresas atualmente solicitam acesso ao teste Wenxin Yiyan.

Entre eles, a plataforma Flying Paddle tem 7,5 milhões de desenvolvedores, em comparação com os 8 a 10 milhões de profissionais de software na China. Embora os profissionais de software e os desenvolvedores de aprendizado profundo não sejam exatamente os mesmos, a vantagem no número de talentos também fornece um think tank de grande capacidade para o Wenxin 3.5 alcançar o ChatGPT, semelhante à existência do Ultrain.

Em comparação com empresas estrangeiras, as empresas chinesas têm vantagens naturais na obtenção do corpus chinês e na compreensão da cultura chinesa.A indústria manufatureira da China possui as categorias mais completas e possui condições favoráveis para o treinamento de AIGC para indústrias reais.

Muitos fatores contribuíram para a promoção. Wenxin Big Model 3.0 baseado em Wenxinyiyan foi lançado há mais de 100 dias. Sob a otimização colaborativa de FlyPaddle e Wenxin, Wenxin Big Model 3.5 cresceu rapidamente. O efeito do modelo mais recente aumentou em 50%, a velocidade de treinamento aumentou 2 vezes e a velocidade de raciocínio aumentou 30 vezes. Superou com sucesso o ChatGPT.

Além da tecnologia básica, o Baidu desenvolveu três tecnologias de aprimoramento adicionais: aprimoramento do conhecimento, aprimoramento da recuperação e aprimoramento do diálogo.

Comparando o modelo grande com os seres humanos, se as pessoas aprenderem na forma de estrutura de conhecimento e sistema de conhecimento, a eficiência de aprendizado é maior. Em seguida, aprenda a usar ferramentas para pesquisar, realizar uma recuperação extremamente simplificada de ponta a ponta e melhorar a pontualidade.

Depois que o grande modelo terminou de aprender por si só, ele tem que aprender o treinamento intensivo de feedback. O aprimoramento do diálogo é como deixar o grande modelo fazer as perguntas continuamente, dizendo ao grande modelo o que é certo e o que está errado no diálogo e, por meio de prompts, deixar o grande modelo fortalecer o mecanismo de memória, deixá-lo efetivamente responder às perguntas da maneira que queremos e ensinar a criança a responder melhor.

Além da resistência técnica, modelos grandes precisam ser aterrados.

Em termos de aplicações industriais, o modelo de grande escala do Baidu Wenxin se originou e serve à prática industrial. Ele já explorou o caminho principal para a implementação da indústria de modelos em grande escala e também lançou modelos de grande escala que abrangem muitos setores e campos para acelerar a transformação inteligente dos setores.

Atualmente, empresas como State Grid, Pudong Development, Taikang, Geely, Harbin, Shenzhen Gas, TCL e Baidu Wenxin cooperam entre si.

Além disso, a Baidu investiu mais de 100 bilhões de yuans em pesquisa e desenvolvimento nos últimos dez anos, e seu principal investimento em pesquisa e desenvolvimento representará mais de 23% em 2021. O número de pedidos e autorizações para majores de inteligência artificial ficou em primeiro lugar na China por cinco anos consecutivos, e o número de pedidos de patentes de aprendizado profundo ficou em primeiro lugar no mundo. O avanço do Baidu no campo de modelos de IA em grande escala também está intimamente relacionado ao forte investimento do Baidu em recursos de elementos.

Percebe-se que chegou a hora das grandes fábricas e dos grandes modelos lutarem pela pesquisa e desenvolvimento.

Qual das grandes fábricas e grandes modelos é melhor?

No primeiro semestre deste ano, quase uma centena de empresas anunciaram oficialmente a fabricação de modelos em grande escala, e cada modelo em grande escala estava em uma batalha feroz. Entre eles, existem grandes players da Internet, como Ali, Baidu, Tencent, JD.com e ByteDance, bem como empresas de IA, como HKUST Xunfei e SenseTime, e outras "tropas sem nome" também estão misturadas.

Em meio ano, a pista do modelo em grande escala completou o processo desde o conceito até o pouso, o que é muito explosivo em qualquer pista.

No entanto, até agora, não há indicadores ou diretrizes claras para verificar qual modelo em grande escala é melhor.Um após o outro, a autoavaliação de "Wang Po vende melões, vende melões e ostenta" é deslumbrante e não há muita objetividade.

Então, na batalha de cem modelos, quem é melhor?

No mais recente "Relatório de Avaliação de Capacidade Técnica de Modelo de IA em Grande Escala, 2023" lançado pela IDC, a estrutura de avaliação de capacidade técnica de modelo de IA em larga escala é proposta pela primeira vez.

Existem três dimensões no modelo de avaliação: tecnologia de produto, ecologia de serviço e aplicação industrial.

Existem até 12 indicadores de subdivisão específicos: modelo de algoritmo, capacidade de serviço, capacidade geral, capacidade de inovação, capacidade de plataforma, segurança e explicabilidade, cooperação ecológica, cobertura da indústria, finanças, indústria, assistência médica e energia.

Entre eles, o modelo de algoritmo e a cobertura da indústria são os dois indicadores mais importantes para medir a capacidade de grandes modelos.Em particular, os dois podem formar um volante para melhoria iterativa contínua.

Entre as capacidades técnicas dos produtos, a dimensão do "modelo de algoritmo" é o elemento central da capacidade do modelo grande e também é a raiz que determina o efeito de aplicação do modelo grande.

A razão é que somente através do avanço da tecnologia do modelo de algoritmo e da realização de uma grande base de modelo com vantagens de efeito geral, ela pode suportar uma cobertura mais ampla da indústria, permitir que todas as esferas da vida aproveitem plenamente os dividendos trazidos pelos avanços tecnológicos e resolver o dilema de alto limite para a implementação da IA.

Em termos de recursos de aplicação do setor, a amplitude da cobertura do aplicativo é o indicador mais importante para os fabricantes de modelos de grande escala e é um reflexo abrangente da liderança universal de efeitos de modelo de grande escala e recursos de combinação do setor.

Portanto, a "cobertura da indústria" reflete a força do modelo grande na implementação industrial por meio do número de clientes de nível empresarial e do número de indústrias de desembarque.

Modelos domésticos de grande escala, incluindo 14 fabricantes, incluindo Baidu, Ali, Tencent, Huawei, iFlytek, 360, SenseTime e 4Paradigm, participaram desta avaliação.

Grandes fabricantes e grandes modelos têm um alto grau de competição. O Baidu tem a vantagem exclusiva de um layout completo da pilha de tecnologia de quatro camadas de "aplicação de modelo de estrutura de chip": núcleo Kunlun de camada de chip, remo voador de camada de estrutura, modelo grande Wenxin de camada de modelo e vários aplicativos de IA. Entre eles, a plataforma de aprendizado profundo autodesenvolvida Flying Paddle da Baidu fornece forte suporte para treinamento e raciocínio eficientes de modelos grandes.

Aliyun também é muito atraente, com 6 dos 12 indicadores obtendo nota máxima, e é o único fornecedor que obteve nota máxima em "capacidade de serviço". Como fornecedor de modelos básicos, a capacidade da plataforma, a capacidade de serviço e o nível de cooperação ecológica dos grandes fabricantes de modelos são muito importantes para o desenvolvimento da indústria. O Alibaba Cloud obteve nota máxima em todos os três indicadores.

Atualmente, a grande família de modelos de uso geral do Alibaba Cloud tem a capacidade de processar ou gerar texto, voz e imagens e outras modalidades. Nos últimos três meses, a Alibaba Cloud lançou sucessivamente o modelo básico "Tongyi Thousand Questions", o produto de modelo em grande escala de áudio e vídeo "Tongyi Tingwu" e o modelo em grande escala de criação de pintura AI "Tongyi Wanxiang". A família de modelos em grande escala Tongyi ainda está em constante iteração e evolução.

A Tencent Cloud e a JD Cloud, ambas grandes empresas de Internet, optaram por se concentrar no lado da indústria e lançar modelos em larga escala da indústria com base em suas próprias características.

Com base na construção de um grande modelo de indústria, a Tencent Cloud usa seus próprios dados para ajuste fino para criar um modelo exclusivo com maior precisão de dados e maior privacidade e segurança.

Para a JD.com, que cultiva a cadeia de suprimentos há vários anos, é uma escolha melhor se concentrar na cadeia de suprimentos, concentrando-se nos negócios de comércio eletrônico e logística por um longo tempo. Como JD.com disse na coletiva de imprensa do modelo em grande escala de Yanxi, “Somente tornando a cadeia de suprimentos real, o grande modelo pode se tornar real”.

Fabricantes de IA, como HKUST iFLYTEK, também obtiveram nota máxima na faixa vertical. Esses jogadores têm a oportunidade de penetrar na indústria vertical. Na competição entre fabricantes, as empresas com vantagens óbvias no campo vertical liderarão.

Tomemos a IFLYTEK como exemplo. A IFLYTEK tem se concentrado no campo da inteligência artificial há mais de 20 anos, e muitas das principais tecnologias estão no nível de liderança internacional. O Spark Big Model combina a capacidade de compreensão da linguagem e a capacidade de expressão geral do modelo grande com um plug-in de pesquisa, que efetivamente resolve problemas da indústria, como a dificuldade de atualizar novos conhecimentos e o fato de que perguntas e respostas de fatos são fáceis de "fazer a diferença".

Devido ao custo extremamente alto de treinamento de grandes modelos, desenvolvedores comuns e pequenas e médias empresas não têm como começar. Isso também pode ser visto nos resultados do relatório: outras fábricas também estão trabalhando duro, mas o futuro é longo. Para ser cruel, pode haver poucas oportunidades até mesmo para comer à mesa.

Para onde vai o grande modelo no futuro?

Na conferência WAIC, não faz muito tempo, os players que entraram no modelo grande já haviam traçado os pontos-chave: primeiro resolver problemas técnicos, depois implementar a cena e, finalmente, realizar negócios e escala.

Atualmente, vimos que grandes modelos começaram a ser profundamente integrados a cenários e setores. Por exemplo, grandes modelos em áreas como geração de código e previsão de estrutura de proteínas verificaram que grandes modelos não apenas foram aplicados em empresas de tecnologia, mas também deram passos em todas as esferas da vida.

O modelo doméstico de grande escala saltou rapidamente do estágio de estoques conceituais de grande escala, e o modelo de IA de grande escala evoluiu de uma competição de parâmetros para uma competição de aplicativos.

Por exemplo, o grande modelo Pangu da Huawei foi implementado em áreas como meteorologia, pesquisa e desenvolvimento médico, energia elétrica e idiomas, e entregou vários modelos grandes com centenas de bilhões de parâmetros. Os recursos de modelo de indústria em larga escala da Tencent Cloud serão aplicados a cenários como controle de risco financeiro, tradução interativa e atendimento digital inteligente ao cliente, o que melhora a eficiência de aplicativos inteligentes, e o serviço MaaS completo reduz a carga sobre as empresas.

Específico para o cenário de aplicação, tomando como exemplo a área financeira, o modelo de indústria de grande escala pode suportar soluções de controle de risco financeiro, que tem um aumento de eficiência de 10 vezes em comparação com o anterior.

O modelo de grande escala combina anos de experiência antifraude acumulada e milhares de cenários de negócios reais.Comparado com o modelo tradicional, o efeito antifraude geral aumentou cerca de 20%. As empresas podem iterar os recursos de controle de risco com base em modelos, desde a coleta de amostras, treinamento do modelo até a implantação e lançamento, para obter participação manual zero em todo o processo, e o tempo de modelagem é reduzido de 2 semanas para apenas 2 dias.

Mesmo com acúmulo limitado de amostras, a construção rápida pode ser concluída e o processo de "inicialização a frio" pode ser ignorado.

Como desembarcar e comercializar está se tornando o foco dos fabricantes.

Isso significa que a IA entrou no estágio de implementação industrial replicável em larga escala e bons resultados podem ser alcançados apenas usando o aprendizado downstream de amostra pequena ou amostra zero, reduzindo assim o custo do desenvolvimento da IA. Depois que o modelo grande do Baidu Wenxin foi atualizado, o custo foi reduzido com sucesso para 10% do passado.

Qualquer indústria acabará por formar um oligopólio, e os grandes modelos não são exceção.

Nos últimos meses, um grande número de novos modelos em grande escala surgiu. Seja um desejo louco de aproveitar a oportunidade e medo de ficar para trás, ou um layout de pista de longo prazo e pesquisa dedicada, cada jogador sabe disso muito bem.

A confusão de cem modelos será apenas um fenômeno faseado, e o resultado final ainda está concentrado em um pequeno número de modelos grandes. As razões nada mais são do que as seguintes:

Em primeiro lugar, no processo de evolução, várias empresas e instituições gradualmente encontraram seu próprio posicionamento, movendo-se gradualmente para a subdivisão e, finalmente, sendo incluídas no modelo de grande escala mais completo.

Em segundo lugar, leva anos de acumulação. O modelo em grande escala que é realmente construído de baixo é muito caro, requer recursos muito abrangentes e deve ter uma mentalidade de longo prazo absoluta, o que significa que jogadores sem força econômica absoluta serão deixados no meio do caminho ou "morrerão" no caminho para a luz.

A terceira é que há muito espaço para imaginação no futuro de grandes modelos no nível do aplicativo. Assumindo que cada setor tem um grande espaço para desenvolvimento, a nova tecnologia de IA pode ser usada para melhorar a eficiência, e o valor no nível do aplicativo será definitivamente desviado.

É inegável que no futuro todas as empresas dependerão fortemente de grandes modelos e todos os produtos serão desenvolvidos com base em grandes modelos.

A taxa de penetração da indústria e a participação no mercado tornaram-se os elementos de desafio mais importantes para um modelo de grande empresa se tornar um oligopólio.

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
BTC Hits New High
45k Popularidade
ETH Breaks $3,000
24k Popularidade
VIP Exclusive Airdrop Carnival
7k Popularidade
4Pump.Fun Debuts on Gate
4k Popularidade
5Fed June Meeting Minutes
4k Popularidade
6Join Gate VIP to Win MacBook
29k Popularidade
7Trump Tariff Hikes
16k Popularidade
8Gate xStocks Trading Share
22k Popularidade
9HK Stablecoin Rules
12k Popularidade
10Truth Social Crypto ETF
2k Popularidade

Marcar

sitemap