Grande batalha modelo em pleno andamento? "Modelo pequeno" pode ser a saída

Question

Texto: Qingcheng Finance, Autor: Qing Mu Editor: Liu Zi

Fonte da imagem: Gerada por Unbounded AI

Em 26 de julho, a OpenAI lançou a versão Android do ChatGPT. Embora atualmente esteja disponível apenas nos Estados Unidos, Índia, Bangladesh e Brasil, a OpenAI também disse que promoverá a versão Android do ChatGPT em mais países na próxima semana. Isso trouxe o ChatGPT, que tem sido um pouco menos popular recentemente, de volta aos olhos do público.

No início do lançamento do ChatGPT, demorou apenas dois meses para se tornar o aplicativo mais rápido da história a ultrapassar 100 milhões de usuários. O mercado global de tecnologia que ficou parado por muito tempo está fervendo novamente. Investidores e empresários nacionais estão voando para Silicon Vale perguntou.

Diante dessa turbulenta onda de IA, os empresários e investidores chineses agiram rapidamente. Alguns meses depois, a indústria de tecnologia da China mostrou uma postura espetacular de "Guerra dos Cem Modelos". No primeiro semestre de 2023, mais de 80 produtos de modelos em grande escala apareceram na China.De acordo com os dados mais recentes, 130 empresas já estão fabricando modelos em grande escala no mercado doméstico. Em escala global, mais de 400 modelos grandes foram lançados no primeiro semestre deste ano.

Enquanto os jogadores chineses de modelos em grande escala estão perseguindo interesses comerciais e o futuro da tecnologia, eles também são apelidados de sentimentos nacionais: ser a versão chinesa do OpenAI.

De acordo com notícias de 24 de julho, antes do lançamento da versão Android do ChatGPT, a IDC divulgou um relatório de avaliação de capacidade técnica de modelo em grande escala mostrando que o modelo de grande escala Baidu Wenxin 3.5 obteve 7 de 12 indicadores, ocupando o primeiro lugar na pontuação abrangente. Wu Tian, vice-presidente da Baidu, disse que a capacidade da nova versão do Wenxin Yiyan 3.5 superou a do ChatGPT 3.5, o que é um marco importante no desenvolvimento de trabalhos técnicos relacionados em nosso país.

A HKUST Xunfei anunciou anteriormente que realizará a terceira iteração do grande modelo Xinghuo em 24 de outubro, comparando totalmente o ChatGPT, a habilidade chinesa ultrapassou GPT3.5 e a habilidade inglesa é equivalente a GPT3.5.

01 cena, cena

Na verdade, como disse Li Zhifei, ex-cientista do Google e fundador e CEO da Mobvoy, pode não haver uma organização como a OpenAI na China.

Em comparação com modelos de grande escala de uso geral, como ChatGPT, os produtos de modelo de grande escala domésticos prestam mais atenção a aplicativos e cenários, ou seja, modelos verticais de grande escala, modelos industriais de grande escala e modelos industriais de grande escala. A esse respeito, as opiniões dos figurões do círculo de capital de risco em tecnologia expressaram quase o mesmo significado.

Robin Li, o fundador do Baidu, há muito declarou publicamente: "Não faz muito sentido para uma empresa iniciante recriar o ChatGPT. Acho que há uma grande oportunidade de desenvolver aplicativos com base nesse grande modelo de linguagem. Há não precisa reinventar a roda. Depois de ter a roda é possível fazer um carro." , Avião, o valor pode ser bem maior que a roda."

Zhu Xiaohu, diretor administrativo da GSR Venture Capital, escreveu em Moments: "Não seja supersticioso sobre o modelo geral, porque no próximo ano o GPT-3.5 se tornará commodity (infraestrutura geral) e, três anos depois, o GPT-4 também será . Para a maioria dos empreendedores, os cenários primeiro, os dados são rei!"

Fu Sheng, presidente e CEO da Cheetah Mobile, acredita que haverá dois caminhos para modelos grandes. Um grande modelo chamado Getting Better é "Construindo um Einstein". Mas muitos empregos não exigem "Einstein", graduados universitários podem fazê-lo. Esta é outra maneira. Acredito que deve haver um grande número de pessoas fazendo "grandes maquetes civis".

Zhang Pingan, CEO da Huawei Cloud, disse na coletiva de imprensa do Pangu Large Model 3.0: "O Pangu Large Model não tem tempo para escrever poemas e conversar. Não importa quantos parâmetros existam e quão boa seja a capacidade de diálogo, se puder não resolver problemas práticos, não será de muita utilidade."

A maioria dos modelos de grande escala lançados recentemente na China são voltados para indústrias verticais, como o modelo de grande escala Yanxi lançado pela JD. O modelo vertical de grande escala "Ziyue" no campo da educação lançado pela Dao.

O grande modelo JD Yanxi acumulou o conhecimento acumulado da JD em varejo, logística, saúde, finanças e outras indústrias por muitos anos. Ele integra 70% dos dados gerais e 30% dos dados originais da cadeia de suprimentos da JD para treinamento, trazendo recomendações de produtos, políticas financeiras , Capacidades em áreas como regras de gestão financeira e experiência em logística. Cao Peng, presidente da JD Cloud Division, acredita que uma única tecnologia de modelo em grande escala não pode gerar valor diretamente, e a tecnologia só pode gerar valor real quando é colocada em cena.

O grande modelo de viagem da Ctrip solicitou a triagem de 20 bilhões de dados de turismo não estruturados, combinados com os dados estruturais em tempo real existentes da Ctrip, bem como os robôs e algoritmos de pesquisa treinados historicamente da Ctrip, realizou treinamento de modelo vertical autodesenvolvido e investiu muita mão de obra Gerar e verifique o conteúdo geral da resposta de travel. Liang Jianzhang, fundador e presidente do conselho de administração da Ctrip, disse que a Ctrip não poupará esforços para investir em grandes modelos e não há limite para o valor do investimento.

Em termos de aplicativos, o Baidu chegou recentemente a uma cooperação com a Lenovo no campo do AIGC. O negócio de personalização privado da Lenovo apresentou totalmente o Baidu Wenxin Yige. Os consumidores podem personalizar a aparência dos laptops por meio de atividades de pintura com tema AIGC no site oficial. Huawei Cloud Pangu Large Model e Meitu Visual Large Model MiracleVision lançaram em conjunto a função de ajuste de modelo AI, que pode efetivamente melhorar a eficiência do comércio eletrônico de produtos de vestuário.

Embora o modelo grande vertical não tenha altos requisitos para parâmetros e poder de computação como o modelo grande geral, ele tem requisitos mais altos para cenários e dados, exigindo que os desenvolvedores tenham conhecimento profissional, acúmulo de prática de aplicação industrial rica e tolerância a erros O grau é também mais baixo, exigindo que a IA tenha super estabilidade e confiabilidade. Portanto, quanto mais próximo da indústria vertical, maiores as vantagens do modelo verticalizado.

"O modelo geral de grande escala pode resolver 70%-80% dos problemas em 100 cenários, mas pode não ser capaz de atender 100% às necessidades de um determinado cenário da empresa. Se a empresa ajustar com base no modelo industrial em grande escala e seus próprios dados, ele pode construir um modelo dedicado para criar um serviço inteligente altamente disponível, e os parâmetros do modelo são menores do que o modelo geral grande, o custo de treinamento e raciocínio é menor e a otimização do modelo é mais fácil." Vice-presidente executivo sênior do Tencent Group, CEO do Cloud and Smart Industry Business Group, Tang Daosheng disse.

A partir dessa perspectiva, os "pequenos modelos" podem ser mais sensuais e mais capazes de resolver problemas específicos.

O SenseTime lançou um modelo grande com 100 bilhões de parâmetros e também está lançando um modelo pequeno com 10 bilhões de parâmetros para diferentes campos verticais. A vantagem de um modelo grande é que ele pode encontrar novas soluções e ajudar a resolver novos problemas. Uma vez resolvido, pode gerar uma grande quantidade de dados em um campo estreito e treinar novamente um modelo pequeno. Alguns modelos pequenos podem até rodar no terminal a um custo menor. Mas o modelo pequeno não existiria sem o modelo grande.

02 Grandes fabricantes levam todos os vencedores, onde estão as oportunidades para empresas iniciantes?

Há uma visão na indústria de que a versão chinesa do ChatGPT será produzida apenas em cinco empresas: Baidu, Ali, Tencent, Byte e Huawei.

Na era da Internet, é um típico "721" O primeiro lugar é delicioso e picante, o segundo mal sobrevive e o terceiro está em perigo.

Neste momento, uma centena de modelos estão lutando, e todos querem obter uma parte do grande modelo. Mas há um problema muito real de que as grandes fábricas têm vantagens que as empresas iniciantes não conseguem igualar quando fazem modelos em grande escala. Para uma pequena e bela empresa iniciante, provavelmente é apenas uma ilusão querer derrubar uma grande fábrica com apenas três ou cinco pessoas.

Modelos grandes não podem ser separados da plataforma de nuvem. O desembarque de grandes modelos requer ajuste fino e treinamento contínuos, os quais precisam ser executados na plataforma de nuvem. Baidu, Ali, Tencent, Byte e Huawei têm seus próprios negócios em nuvem. Baidu e Huawei também concluíram o layout de chips para aplicativos. Baidu é "Kunlun Core + Flying Paddle Platform + Wenxin Large Model", Huawei é "Shengteng chip + estrutura MindSpore + modelo Pangu large", que são vantagens que as empresas iniciantes não podem igualar.

Além disso, as grandes empresas têm vantagens naturais em termos de reservas de capital, recursos humanos, cenários de uso e acúmulo de dados. Sem um cenário de pouso para startups, a tecnologia não pode ser iterada, otimizada continuamente e os efeitos da rede de dados não podem ser formados.

Então as pequenas empresas não têm chance alguma?

Vamos revisitar a metáfora da era da corrida do ouro: "Esta era é muito semelhante à era da corrida do ouro. Se você fosse para a Califórnia garimpar ouro naquela época, muitas pessoas morreriam. Mas as pessoas que vendem colheres e pás podem sempre ganhe dinheiro.” Isso também é verdade.Lu Qi, fundador e CEO da Qiji Chuangtan, compartilhou recentemente com empreendedores. Lu Qi espera ajudar os empresários chineses a reconhecer esse ponto de virada histórico, localizar as coordenadas da era atual e encontrar sua própria posição.

No início de julho, Stuart Russell, professor de ciência da computação na Universidade da Califórnia, em Berkeley, e autor de "Inteligência Artificial — Uma Abordagem Moderna", alertou que bots baseados em IA, como o ChatGPT, poderiam em breve "ficar sem texto no universo". ." ", e a técnica de treinar bots coletando grandes quantidades de texto está "começando a ter dificuldades".

Na semana passada, mais de 8.500 escritores assinaram uma carta pedindo aos líderes de empresas como OpenAI, Microsoft, Meta e Alphabet que não usem seu trabalho para treinar sistemas de IA sem permissão ou pagamento, e pedindo que essas empresas de inteligência artificial compensem suas perdas de direitos autorais.

O estoque de dados da Internet está prestes a se esgotar e os dados de alta qualidade estão se tornando cada vez mais escassos. Um modelo é bom ou ruim, 20% é determinado pelo algoritmo e 80% é determinado pela qualidade dos dados. Na "troika" de dados, poder de computação e algoritmos, os dados são o elemento central, de longo prazo e mais fundamental. Grandes modelos precisam ser alimentados com grandes quantidades de dados para serem continuamente otimizados e iterados.

Em seguida, o valor real se tornará dados sustentáveis de alta qualidade. Como obter continuamente fontes de dados que sejam legais, compatíveis e alinhadas com a lógica de negócios se tornará um fator chave para melhorar o desempenho de grandes modelos. Portanto, os operadores de dados podem se tornar um papel importante restringindo o desenvolvimento de grandes modelos.

Idealmente, o modelo fornece continuamente serviços aos usuários e os usuários geram continuamente novos dados para o modelo. Quanto à próxima etapa, os dados privados serão especificados. Serviços mais personalizados significam mais dados privados, e é improvável que os humanos mostrem dados privados ao grande modelo sem reservas.

Em qualquer época, "vendedor de água" é sempre um bom negócio. Curiosamente, não importa se você é um pioneiro, explorador ou garimpeiro, você não pode ficar sem água. Claro, você também pode vender colheres e pás.

03 Conclusão

Nos últimos meses, houve um post que circulou amplamente nas plataformas sociais:

Pense na IA como uma criança. A AI na Europa e nos Estados Unidos pertence à rota educacional de elite.Depois que ele nasceu, sua família gastou dinheiro para ele estudar até o doutorado.

A IA da China pertence à linha de educação utilitária. Ele é criado para sobreviver desde o nascimento e, aos 15 anos, é forçado a encontrar maneiras de ganhar dinheiro para a família e aprender a comercializar habilidades.

Algumas palavras, provadas com cuidado, cheias de sabores.

Embora não seja necessariamente verdade, isso também pode explicar, até certo ponto, por que o OpenAI e o ChatGPT não apareceram na China. De fato, alguns investidores e empreendedores domésticos estavam cheios de confiança no início e queriam ser a versão chinesa do OpenAI. Depois de alguns meses jogando, descobri que ainda preciso encontrar um modelo de lucro, explorar cenários de aplicativos de negócios e recursos de comercialização.

Vale ressaltar que alguns usuários C-end perceberam recentemente que o desempenho do ChatGPT-4 em determinadas tarefas é muito ruim. Isso é considerado o uso de um modelo especialista misto (MOE) pela OpenAI para reduzir custos e aumentar a eficiência , e mudar seu foco para serviços de nível empresarial. uma das ações.

Olhando em volta, a Apple também está desenvolvendo seu próprio modelo de linguagem grande Apple GPT, e a Qualcomm já está estudando como realizá-lo até o final deste ano, para que o modelo com um nível de parâmetro de 10 bilhões a 15 bilhões possa rodar offline no telefone celular sem processamento em nuvem.

Os grandes modelos são uma reformulação da produtividade, uma mudança de paradigma. Há 200 anos, os humanos usaram motores a vapor para converter energia térmica em energia cinética pela primeira vez, e a era da industrialização começou. Hoje, os humanos usam grandes modelos para converter energia elétrica em energia cerebral e inteligência geral, e uma nova era está se abrindo.

Claro que não precisamos de muitas rodas, mas ainda precisamos de boas rodas.

Há um longo caminho a percorrer.

Ver original