Produzido | Tiger Sniff Technology Group
Autor | Qi Jian
Editor | Liao Ying
Fonte da imagem: Gerada por Unbounded AI
Em 7 de agosto, outra start-up doméstica de IA lançou seu próprio modelo de IA de código aberto e comercial gratuito: XVERSE-13B. A empresa chamada Yuanxiang XVERSE foi fundada por Yao Xing, ex-vice-presidente da Tencent e fundador do laboratório Tencent AI.
Desde que a Meta lançou os modelos em grande escala da série LLaMA 2 de código aberto para uso comercial gratuito em julho, uma nova onda de "código aberto" está se formando no mercado de modelos de IA em grande escala.
Em 2 de agosto, Wenxin Qianfan, uma plataforma de modelos de IA em grande escala sob o Baidu, anunciou o acesso à série completa de modelos de código aberto do LLaMA2. O número de modelos em grande escala que podem ser chamados na plataforma aumentou para 33 . Com exceção de 3 modelos Wenxin, os outros 30 modelos são todos de código aberto. Modelos, incluindo ChatGLM2, RWKV, MPT, Dolly, OpenLLaMA, Falcon, etc.
No dia seguinte, o Alibaba Cloud também anunciou que se juntaria ao modelo de código aberto. O modelo de parâmetro de código aberto Tongyi Qianwen 7 bilhões inclui o modelo geral Qwen-7B e o modelo de diálogo Qwen-7B-Chat. Os dois modelos foram lançados na comunidade Mota. Eles são de código aberto, gratuitos e disponíveis comercialmente.
Curiosamente, essa atitude positiva em relação ao código aberto e à abertura começou com a Microsoft, a grande proprietária do modelo de código fechado ChatGPT. ** Em 18 de julho, a Microsoft anunciou que cooperará com a Meta para lançar a versão comercial de código aberto do modelo LLaMA 2, fornecendo às empresas alternativas aos modelos OpenAI e Google. **A posição de monopólio da OpenAI no mercado de modelos de IA em larga escala parece estar sendo "visada" por toda a indústria, até mesmo por seus parceiros mais próximos.
Como o modelo de linguagem grande reconhecido globalmente, o GPT-4 da OpenAI é atualmente o único modelo de linguagem grande com um grande número de usuários dispostos a pagar por ele.
O melhor aluno da classe geralmente não está motivado para se juntar ao grupo de estudos. Da mesma forma, **OpenAI não tem razão ou motivação para abrir o código. **
No entanto, com o código aberto completo do LLaMA 2, mais e mais desenvolvedores investiram no Meta e em vários modelos de código aberto. Assim como o Android usa código aberto para lutar contra o iOS, um grande número de modelos de IA de código aberto está contornando ativamente as barreiras técnicas do GPT-4 e envolvendo o OpenAI com um ecossistema de código aberto. **
Por que código aberto?
Quando o OpenAI lançou pela primeira vez a função de plug-in, muitas pessoas compararam o modelo AI com o futuro Windows, iOS e Android. Agora, com o lançamento do LLaMA 2, o grande modelo AI não é apenas uma função, mas até mesmo a estrutura do mercado está se desenvolvendo na direção do sistema operacional.
Iniciado pela LMSYS Org, uma organização liderada pela UC Berkeley, é uma competição de classificação para modelos de linguagem grande (LLMs); a partir de 20 de julho, a versão mais recente do ranking contou 40 grandes modelos de IA e os cinco primeiros ainda estão fechados fontes Modelo (Proprietário), que são três modelos de GPT-4, GPT-3.5-turbo e Claude. No entanto, os 34 modelos a seguir, exceto o PaLM-Chat-Bison-001 do Google, são todos modelos de código aberto, 15 dos quais não são comerciais.
*Leaderboard de LMSYS Org Large Language Models (LLMs) lançado em 20 de julho
Chatbot Arena: Calcula as classificações Elo usando mais de 50.000 votos de usuários.
MT-Bench: Um conjunto de problemas desafiadores de várias rodadas.
MMLU (5-shot): Um teste que mede a precisão multitarefa de um modelo em 57 tarefas. *
Embora em termos de capacidades do modelo, olhando para todo o mercado, nenhum modelo, independentemente do código aberto ou do código fechado, pode ousar competir de frente com o GPT-4. No entanto, os Tigres não resistiram aos lobos e não conseguiram vencer os grandes modelos do GPT-4. Eles escolheram "mudar de faixa e ultrapassar" e usar o código aberto para aproveitar a ecologia do aplicativo. Isso parece ser um pouco semelhante à luta do Android contra o iOS.
"No momento, todos os grandes modelos de código aberto têm um propósito, que é o marketing."
O fundador de uma empresa doméstica de pesquisa e desenvolvimento de modelos de grande escala de código aberto admitiu ao Tiger Sniff que o principal motivo para promover modelos de grande escala de código aberto e sistemas Android de código aberto é conquistar o mercado gratuitamente. "Muitas grandes empresas lançaram grandes modelos de IA ou apenas criaram um aplicativo baseado em um modelo existente e começaram a promovê-lo com grande alarde. Na verdade, para usuários de modelos grandes básicos, gastar mais dinheiro em publicidade é mais caro do que realmente não é um código aberto para o modelo.” Essa também é a melhor maneira de as empresas de IA provarem sua força.
Primeiro, os modelos de código aberto são mais fáceis de avaliar do que os modelos fechados. Como o código e os conjuntos de dados dos modelos de código aberto estão disponíveis publicamente, os pesquisadores podem inspecionar diretamente a arquitetura do modelo, os dados de treinamento e o processo de treinamento para conduzir uma análise mais profunda do modelo para entender seus pontos fortes e fracos.
"Alguns modelos grandes de IA parecem ser muito capazes, mas não são de código aberto e você só pode ver os resultados de sua saída."
Comparado com o modelo de código aberto, o modelo de código fechado só pode entender as vantagens e desvantagens do modelo por meio da avaliação de desempenho do modelo. Isso leva ao fato de que o desempenho dos modelos de código fechado pode ser artificialmente exagerado ou suas deficiências ocultas. A transparência do modelo de software livre pode ajudar os desenvolvedores a obter uma compreensão mais profunda do modelo e avaliá-lo de forma mais justa.
Para os retardatários, há outro problema com o modelo de código fechado: é fácil questionar a originalidade da tecnologia. Muitos desenvolvedores de modelos grandes disseram uma vez a Huxiu: "Para aqueles modelos que não são de código aberto, para ser franco, mesmo que seja um shell LLaMA ou simplesmente chame a interface ChatGPT em segundo plano, quem sabe?"
Quando a primeira onda de grandes modelos domésticos de IA foi lançada, essas vozes de dúvida circularam amplamente na Internet. Para aqueles grandes modelos de IA que não são de código aberto, é difícil provar sua inocência. Para provar que não estão chamando a API ChatGPT, algumas empresas até retiraram o servidor de raciocínio e retiraram o cabo de rede para demonstrar no ver.
O código aberto é, sem dúvida, uma das melhores maneiras de autocertificar grandes modelos de IA. Mas o valor real do **código aberto não é a capacidade de autocertificação, mas de aproveitar a ecologia. **
“Após o lançamento do LLaMA 2, ele definitivamente dominará o ecossistema OpenAI rapidamente.” Um grande desenvolvedor de modelos disse a Huxiu que, embora o GPT-4 seja quase reconhecido pela indústria como tendo a capacidade mais forte, os modelos após o GPT-3 não são de código aberto Além disso, a abertura da interface API do GPT-4 também é muito baixa, então há muitas restrições no desenvolvimento do modelo GPT. Como resultado, muitos desenvolvedores escolhem modelos de código aberto, como LLaMA. Esses modelos de código aberto podem não apenas ajustar as instruções, mas também realizar pesquisas sobre os modelos subjacentes.
"LLaMA é definitivamente mais popular entre os desenvolvedores do que OpenAI."
Quando o LLaMA 2 foi lançado pela primeira vez em 19 de julho, havia mais de 5.600 projetos no GitHub com palavras-chave como "LLaMA" e mais de 4.100 projetos, incluindo "GPT-4". Duas semanas após seu lançamento, a taxa de crescimento do LLaMA é mais rápida. No momento desta publicação, existem mais de 6.200 "LLaMA" e mais de 4.400 "GPT-4".
Por outro lado, modelos de código aberto podem ser baixados localmente para implantação privatizada, o que facilita o treinamento de IA para empresas comerciais. Os aplicativos de IA dessas empresas precisam ser treinados com base em seus próprios dados de negócios, e o modelo de IA em grande escala implantado de forma privada pode proteger a segurança dos dados ao máximo. Ao mesmo tempo, há mais opções de poder de computação para implantação privatizada, seja serviço em nuvem, implantação local ou mesmo poder de computação distribuído de vários IDCs, o que reduz muito o custo de treinamento e raciocínio do modelo.
Embora o ChatGPT tenha coletado 100 milhões de usuários ativos mensais em apenas dois meses, no ecossistema de desenvolvedores, a velocidade com que o modelo de código aberto conquista a mente dos usuários parece ser mais rápida.
Atualmente, muitas empresas domésticas de IA optaram por lançar modelos de código aberto. Isso inclui o modelo de código aberto ChatGLM-6B lançado pela Zhipu AI, MOSS lançado pela Fudan University, Wudao Tianying Aquila lançado pelo Zhiyuan Research Institute e Baichuan-7B (13B) lançado pela Baichuan Intelligent. Entre eles, o ChatGLM-6B, um grande modelo de código aberto lançado pela **Zhipu AI, foi baixado mais de 4 milhões de vezes em todo o mundo e recebeu 32.000 estrelas no GitHub, 3.000 estrelas a mais que o LLaMA. **
“Se não fizermos um modelo de código aberto, o mercado logo estará cheio de LLaMA.” Um executivo de uma empresa de IA que lançou um modelo de código aberto disse a Huxiu que o código aberto é um passo importante no desenvolvimento da IA da China. modelo grande.
Alguns modelos grandes domésticos de IA de código aberto
Na verdade, antes do início da tendência dos LLMs, a IA generativa já havia travado uma batalha de código aberto e código fechado.
**Com um grande número de desenvolvedores e aplicativos de produtos, o modelo gráfico Wensheng de código aberto Stable Diffusion quase empurrou o primeiro modelo de código fechado Dall-E 2 da OpenAI para um canto. Embora os usuários geralmente acreditem que os recursos do modelo Stable Diffusion não são tão bons quanto outro produto de código fechado MidJourney, Stable Diffusion conquistou um grande número de mercados de gráficos Vincent em virtude de seu código aberto e atributos gratuitos, e tornou-se o modelo de gráfico Vincent mais popular. Sua empresa de desenvolvimento RunwayML e Stability AI também recebeu muita atenção e financiamento. **
O modelo de código aberto do LLaMA 2 parece ter a intenção de forçar o OpenAI no campo dos LLMs.
Código aberto com mercadorias
O LLaMA 2 é atualmente de código aberto, todos os três modelos da série: 7 bilhões, 13 bilhões e 70 bilhões de versões de parâmetros. No entanto, também existem rumores no mercado de que "o Meta realmente tem uma versão com parâmetros maiores que não foi lançada. A próxima versão pode ter uma versão com parâmetros maiores, mas pode não ser de código aberto."
Vale a pena notar que, atualmente, muitos modelos de código aberto não são todos de código aberto. No modelo Enlightenment 3.0 lançado pelo Zhiyuan Research Institute, apenas o modelo de linguagem básica "Tianying" é de código aberto; o ChatGLM lançado pela Zhipu AI abriu apenas uma parte da série de modelos, e o modelo maior de 130 bilhões de parâmetros ainda é fonte fechada. **
Independentemente de o LLaMA 2 ser "reservado" para modelos maiores, a forma "livre" sem dúvida acelerará a formação do Meta no mercado de modelos grandes e o empurrará para a "velha estrada" do Android.
Por meio do ecossistema de código aberto, o sistema Android acumulou um grande número de desenvolvedores e usuários em todo o mundo. Em termos de ecologia tecnológica, verificou e equilibrou bastante o principal sistema de código fechado iOS e até formou seu próprio monopólio em alguns mercados. Desde 2018, a União Europeia impôs uma multa de mais de 4 bilhões de euros ao Google devido ao mecanismo de monopólio do sistema Android. A partir dessa multa altíssima, também podemos ver o quão lucrativo é o sistema Android de código aberto.
De acordo com um relatório da empresa de pesquisa Sensor Tower, os gastos dos usuários no Google Play serão de aproximadamente US$ 53 bilhões em 2022, e esse valor aumentará para US$ 60 bilhões em 2023. De acordo com um relatório divulgado por outra instituição de pesquisa, a Statista, em janeiro de 2022, havia cerca de 140.000 aplicativos na Google Play Store.
Nesta fase, o modelo de IA de código aberto obviamente ainda não é tão popular quanto os telefones celulares. No entanto, mesmo que a IA seja realmente tão popular quanto os telefones celulares, gigantes como a Meta não abrirão mão facilmente de empresas que ganharam muito dinheiro com o LLaMA 2.
No contrato de código aberto do LLaMA 2, existe uma estipulação: **Se os usuários ativos mensais excederem 700 milhões, você deve solicitar uma licença da Meta. A Meta pode, a seu exclusivo critério, licenciar para você, e você não terá o direito de exercer nenhum desses direitos. **
Ao mesmo tempo, além da versão de código fechado do modelo de código aberto e da aplicação de grandes modelos de IA, também pode ajudar o poder de computação a "trazer mercadorias".
Os dois primeiros fabricantes na China a promover modelos de IA em grande escala, Baidu e Ali, são fornecedores de nuvem. Os outros dois fornecedores de nuvem, Tencent Cloud e Huawei Cloud, embora não tenham produtos LLMs como Wenxin Yiyan e Tongyi Qianwen, eles também continuam a gritar sobre modelos de IA. A principal razão por trás disso é o "efeito de transporte" do modelo grande na nuvem.
"O anúncio de algumas ações em modelos de IA de grande escala também é promovido em conjunto pelo mercado e pelos clientes. Nos últimos meses, muitos clientes vieram perguntar sobre modelos de grande escala." Huxiu que o poder de computação enfileirou, que é a melhor prova da capacidade do modelo grande de IA de transportar mercadorias.
**O modelo não precisa gerar dinheiro, mas o poder computacional deve ser rentável. ** Alibaba abriu Tongyi Qianwen e Baidu introduziu 30 modelos de código aberto na plataforma de modelos em grande escala Wenxin Qianfan. Essas duas ações são para fornecer recursos de IA "gratuitos" aos usuários. Os usuários que usam o modelo de código aberto não pagam mais pela IA, mas, desde que sua IA seja executada no Alibaba Cloud e no Baidu Smart Cloud, eles terão que pagar pelo poder de computação.
"A AI também deve voltar à ideia da nuvem e ganhar dinheiro com a nuvem." Xin Zhou, gerente geral da Baidu Smart Cloud AI e Big Data Platform, disse que a intenção original de abrir o plataforma de grande modelo é criar valor para os negócios dos clientes.Ao criar valor, pode aumentar a fidelidade de clientes antigos e expandir mais novos clientes. Isso é de grande ajuda para expandir o efeito de escala dos fornecedores de nuvem.
Grátis é mais caro
"10 milhões, é quase o mesmo valor do preço inicial para customizar um modelo grande."
O fundador de uma empresa modelo de grande escala de código aberto deu uma cotação ao intermediário que veio consultar por telefone.
"Depois que o modelo de código aberto for reconhecido pelos usuários, você poderá conversar com outras pessoas sobre a taxa de serviço para desenvolvimento personalizado." Depois que o fundador desligou o telefone, ele explicou a Huxiu que, para um modelo como o LLaMA 2, o custo de desenvolvimento é pelo menos o que custa Dezenas de milhões de dólares. Portanto, o mercado que ele visa deve ser dezenas ou centenas de vezes o custo de desenvolvimento.
Do ponto de vista atual, a melhor maneira de as **empresas de IA ganharem dinheiro com modelos de código aberto é começar com serviços. **
Felizmente, a maioria dos usuários de grandes modelos de IA precisa muito desses serviços.
"O modelo é de código aberto, gratuito e disponível comercialmente. Isso significa que, desde o download do modelo, implantação do modelo, treinamento, ajuste e desenvolvimento de aplicativos em aplicativos reais, todo o trabalho precisa ser feito por você mesmo." Um desenvolvedor de aplicativos LLaMA disse Huxiu, a maioria dos fornecedores de modelos de código fechado fornecerá serviços de treinamento e implantação e pode personalizar as funções de desenvolvimento de acordo com as necessidades do usuário. Mas se você usar um modelo de código aberto, terá que fazer todas essas tarefas sozinho, ninguém o ajudará a treinar, ninguém encontrará seu poder de computação e ninguém o ajudará a personalizar o desenvolvimento.
"**Na verdade, os fabricantes de modelos de código fechado vendem serviços." , mas durante o processo de implantação, muito dinheiro ainda precisa ser gasto.” Depois de adicionar o modelo de IA, o custo de mão de obra e poder de computação no departamento de TI aumentou significativamente.
Embora o treinamento e o ajuste com base em modelos de código aberto não sejam difíceis para a maioria do pessoal de TI. No entanto, para realizar pesquisas e desenvolvimento aprofundados do modelo, ainda são necessárias algumas reservas técnicas em termos de algoritmos e IA. À medida que o conceito de modelos de IA em grande escala está se tornando cada vez mais popular, o preço dos talentos nessa área também está aumentando.
"O aumento nos custos de mão de obra é realmente flutuante, mas o custo de servidores e hardware é real. Desde o investimento em modelos grandes até agora, nossos custos aumentaram cerca de 20% a 30%.", disse o responsável da referida instituição de ensino online Atualmente, sua organização ainda está no estágio de exploração da cena da IA, e a maior dificuldade é que ela precisa experimentar cada cena. "Se um falhar, substitua-o por outro. Nesse processo, cada passo custa dinheiro."
A esse respeito, Huxiu perguntou a um insider do Baidu Smart Cloud sobre o serviço e o custo do Baidu Wenxin Qianfan em termos de implantação. Isso economizará dinheiro.**”
Na verdade, independentemente de ser um modelo de código aberto ou um modelo de código fechado, o custo de implantação do modelo é calculado por pessoa/dia e não haverá diferença essencial nos custos de poder de computação para subseqüentes treinamento e raciocínio. "**No entanto, usar modelos de código aberto para treinar, implantar e desenvolver por conta própria só tornará esse processo muito problemático." O insider do Baidu disse que o custo de implantação específico depende do projeto específico, e a diferença é muito grande. No entanto, não há realmente nenhuma diferença essencial entre código aberto e código fechado em termos de implantação e custos de uso. **E do ponto de vista da segurança de dados, a maioria dos modelos de código fechado também pode ser implantada de forma privada.
**Neste estágio, ainda é difícil para a IA alcançar a inclusão. **
Para a maioria das empresas envolvidas em negócios na Internet, elas têm suas próprias equipes de P&D de TI. Quando o grande modelo chegar, elas logo poderão formar uma equipe "estabelecida" para desenvolver aplicativos de IA. Mas para muitos setores de varejo, manufatura tradicional e serviços, a transformação digital é um problema difícil. É realmente difícil para eles estudar o treinamento, a implantação e o raciocínio de grandes modelos de IA.
Para essas empresas, o melhor produto de IA é um plug-in de IA de uso geral. "O que precisamos é apenas de um robô de atendimento ao cliente cujas conversas não pareçam tão idiotas. Pedi-me para aprender a treinar o modelo, o que é um pouco empolgante". nos últimos seis meses, ele apenas ouviu Diz-se que a capacidade de diálogo da IA é mais forte do que antes, mas o ChatGPT ainda não foi testado. Embora ele também esteja disposto a abraçar novas tecnologias, não é motivação suficiente para ele gastar tempo aprendendo e investir dinheiro em IA agora.
"A menos que haja um plug-in na plataforma ou software que estou usando agora, posso usá-lo apenas pegando, caso contrário, não vou pensar muito em gastar dinheiro para atualizar o assistente AI imediatamente ." Baixo.
"** Os comerciantes precisam de IA para fazer isso, e ela pode ser aplicada e capacitada sem sentimento.**" O fabricante de SaaS Weimob criou um aplicativo WAI em marketing digital, que ajuda os comerciantes a chamar recursos de IA na forma de incorporar aplicativos existentes. Forneça aos comerciantes recursos de diálogo de IA e geração de texto e imagem com base em grandes modelos de linguagem.
Conectar modelos grandes abertamente a ferramentas de serviço SaaS é um pouco semelhante à chamada de modelo do Baidu Wenxin Qianfan. Embora apenas chamadas de interface e Finetune sejam feitas, ele fornece aos usuários recursos de aterrissagem de IA mais rápidos e estáveis.
"Os modelos de código aberto podem facilitar o início dos usuários e agora muitos modelos de código aberto são atualizados mais rapidamente do que os principais fabricantes." Weimob COO COO Yin Shiming acredita que o código aberto e a abertura podem fornecer recursos de IA rapidamente para os usuários Em suas mãos, o que os usuários realmente precisam é de IA "plug and play". **
Para a maioria dos usuários que ainda estão no estágio de teste, experimentação e experimentação de grandes modelos de IA, o limite para modelos de código aberto é obviamente menor e o custo inicial é quase zero.
Muitos usuários usaram o modelo de código aberto desde o início e continuarão a usá-lo no futuro. Os problemas de implantação e treinamento mencionados acima estão gerando uma cadeia da indústria de serviços para modelos de código aberto.
Chen Ran Nesta onda de crescimento de grandes modelos, o recém-criado OpenCSG está fazendo negócios de serviços em torno do grande modelo de código aberto.
O serviço de modelo grande fornecido pelo OpenCSG é voltado principalmente para o treinamento e implementação de modelos de código aberto para empresas. Desde a seleção de modelos de código aberto até o poder de computação distribuído híbrido, combinado com treinamento de modelo de negócios e desenvolvimento de aplicativos de back-end, etc., ele pode fornecer serviços para empresas.
"**Modelos grandes são semelhantes a todos os SaaS, na minha opinião. Os setores upstream e downstream serão gradualmente enriquecidos e os clientes não se concentrarão apenas nos recursos do modelo." Chen Ran acredita que a demanda final dos clientes não é encontrar o máximo modelo capaz, mas um uso melhor, mais fácil e mais simples de grandes modelos de IA para atender a seus negócios.
Ecologia de código aberto em torno da IA
Em toda a cadeia da indústria de IA, o código aberto vai muito além dos modelos. Da pesquisa e desenvolvimento à implantação e ao aplicativo, quase todos os links são inseparáveis do tópico de código aberto.
**Algoritmos, poder de computação, dados e três elementos de IA requerem suporte de código aberto. **
No nível do algoritmo, os grandes modelos de IA de código aberto estão em um estágio relativamente avançado. No início da pesquisa e desenvolvimento de IA, quase todos os modelos de IA usavam estruturas de aprendizado de máquina, que são equivalentes à construção de caixas de ferramentas de IA. As atuais estruturas de aprendizado de máquina convencionais, incluindo TensorFlow, Pytorch e PaddlePaddle (remo voador), são todas estruturas de código aberto.
No nível dos dados, o conjunto de dados de código aberto Commen Crowl é uma importante fonte de dados no processo de treinamento do modelo GPT. Atualmente, muitas instituições e empresas de dados lançaram produtos de código aberto em conjuntos de dados de treinamento de IA, incluindo o conjunto de dados COIG-PC do Zhiyuan Research Institute e o conjunto de dados multimodais DOTS-MM-0526 do Haitian AAC.
Para editores de conjuntos de dados, o código aberto pode não apenas aumentar a influência e o valor da marca, mas os conjuntos de dados de código aberto também podem coletar feedback positivo da comunidade de código aberto para encontrar e corrigir erros ou inconsistências nos dados. Essa revisão externa ajuda a melhorar a qualidade dos dados enquanto enriquece ainda mais o ecossistema de produtos do editor.
"**Os engenheiros de algoritmo frequentemente enfrentam o problema da falta de dados em pesquisa e desenvolvimento. Dados de alta qualidade podem trazer melhorias qualitativas para a avaliação do modelo. **meu país enfrenta atualmente a escassez de conjuntos de dados de alta qualidade, o que também atrapalha os chineses modelos grandes, desenvolvimento de tecnologia.” A Haitian AAC é um dos provedores de dados de treinamento do modelo de código aberto LLaMA 2, disse Li Ke, COO da Haitian AAC.
** Em termos de poder de computação, o maior gargalo no desenvolvimento da IA, a estrutura de chip de código aberto também está estimulando o desenvolvimento da indústria. **
Em 4 de agosto, a Qualcomm anunciou o estabelecimento de uma joint venture com quatro empresas de semicondutores para acelerar a comercialização de chips baseados na arquitetura RISC-V de código aberto. Atualmente, existem três estruturas de chip principais no mercado: x86 usado por CPUs Intel, Arm usado por GPUs Nvidia e RISC-V, uma estrutura de chip de código aberto.
"O RISC-V pode fornecer um ambiente programável. A equipe de desenvolvimento do chip pode usar o RISC-V para fazer muito trabalho de pré-processamento e pós-processamento e também pode adicionar aceleradores especiais ou módulos funcionais que atendam às necessidades do usuário para atender às necessidades do usuário "Gang Zhijian, vice-presidente sênior de marketing e desenvolvimento de negócios da SiFive, disse que o ecossistema RISC-V oferece uma grande variedade de opções para pesquisa e desenvolvimento de chips, o que é de grande ajuda para a demanda crescente por chips de IA atualmente.
Arm e x86 têm ecossistemas relativamente fechados em comparação com RISC-V. **No ecossistema Arm, os usuários podem escolher apenas as opções limitadas fornecidas pelo Arm, enquanto o ecossistema RISC-V tem muitas empresas participantes e haverá mais tipos e opções de produtos. **
A arquitetura de código aberto também está estimulando a indústria de chips a acelerar a concorrência. Gang Zhijian disse: "** Como provedor de serviços da arquitetura de chip de código aberto, também competiremos com outras empresas. tipo de competição Em última análise, promoverá a prosperidade e o progresso do ecossistema RISC-V.**”
Embora a arquitetura do conjunto de instruções RISC-V seja gratuita e de código aberto, o núcleo IP formado por fabricantes de design de chip com base no desenvolvimento secundário da arquitetura do conjunto de instruções RISC-V possui direitos de propriedade intelectual independentes e pode ser autorizado por meio de taxas externas. De acordo com dados da Fundação Internacional RISC-V, o número de membros aumentará mais de 26% ano a ano em 2022, e o número total de unidades membros excederá 3.180, abrangendo 70 países/regiões, incluindo Qualcomm, Intel, Google, Alibaba, Huawei e UNISOC, Sharp e muitas outras empresas líderes de chips.
O código aberto é uma vantagem para o RISC-V, mas também cria alguns problemas. O RISC-V possui apenas mais de 40 conjuntos de instruções básicas, além de dezenas de instruções de extensão de módulo básico.Qualquer empresa e desenvolvedor pode usar o RISC-V gratuitamente para criar chips com direitos de propriedade intelectual independentes.
No entanto, recursos de código aberto, altamente personalizáveis e modulares também tornam o ecossistema RISC-V mais fragmentado e complexo.
"Depois que cada empresa de pesquisa e desenvolvimento de chip atualiza o conjunto de instruções do RISC-V, ele realmente produz uma nova arquitetura. É chamado RISC-V, mas empresas diferentes não são compatíveis com RISC-V, e a ecologia de código aberto é realmente dividido. .**" Lu Tao, presidente da Weiwei Technology e gerente geral da Grande China, acredita que o código aberto da arquitetura de chip e a ecologia de software são muito importantes, mas é muito difícil para equipes diferentes encontrar um equilíbrio entre abertura, customização e fragmentação.Teste a sabedoria e habilidade da equipe de P&D.
Além disso, a arquitetura Arm já produziu GPUs, IPUs e outros chips adequados para treinamento e raciocínio de IA, e a ecologia técnica está mais completa e madura. A intenção original do RISC-V é projetar CPUs. Embora seja muito aberto, o projeto de chips AI ainda está em estágio exploratório.
De acordo com a empresa de pesquisa Counterpoint Research, até 2025, as remessas cumulativas de processadores RISC-V excederão 80 bilhões, com uma taxa composta de crescimento anual de 114,9%. Até então, o RISC-V ocupará 14% do mercado global de CPU, 28% do mercado IoT, 12% do mercado industrial e 10% do mercado automotivo.
A Qualcomm já implementou o RISC-V em microcontroladores em seu Snapdragon 865 SoC em 2019 e já vendeu mais de 650 milhões de chips RISC-V até o momento. No AI Hardware Summit Forum em setembro de 2022, o professor Krste Asanovic, o inventor do RISC-V, revelou que o Google começou a usar o SiFive Intelligence X280 baseado em RISC-V para desenvolver sua estrutura de aprendizado de máquina TensorFlow. **Antes disso, o Google realizou um trabalho de autopesquisa sobre a arquitetura do chip TPU por mais de 10 anos.
Embora seja difícil desenvolver chips RISC-V do zero, a natureza de código aberto do RISC-V deu aos chips chineses, que também começaram do zero, uma chance de sobreviver no bloqueio e no monopólio. empresas são as que mais crescem no mundo. As empresas de chips chinesas são mais agressivas e dispostas a enfrentar desafios." Gang Zhijian disse que o mercado chinês é a chave para estimular o desenvolvimento da indústria de chips. O mercado de chips da China é enorme. Por exemplo, a demanda de energia de computação de chips automotivos da China excedeu em muito a dos mercados europeu e americano. **Com a crescente demanda das empresas chinesas por poder de computação de IA, a indústria de chips de IA da China definitivamente dará início a mais oportunidades no futuro.
Conclusão
Além das considerações comerciais, **o código aberto também pode ajudar editores técnicos a otimizar modelos. **
“Na verdade, o ChatGPT é uma vitória da engenharia.” O sucesso do modelo de linguagem grande de hoje é, na verdade, baseado em treinamento repetido e ajuste do modelo. Se depois que o modelo básico for estabelecido, o modelo for promovido para a comunidade de código aberto e mais desenvolvedores participarem do trabalho de otimização do modelo, sem dúvida será de grande ajuda para o progresso do modelo grande de IA.
Além disso, "grandes modelos de código aberto podem evitar a reinvenção da roda." Lin Yonghua, vice-presidente e engenheiro-chefe do Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim, disse em uma entrevista durante a Conferência Zhiyuan de 2023, assumindo que todos em ** vêm do The a pesquisa e o desenvolvimento de modelos de larga escala de uso geral exigem muito poder de computação, dados e eletricidade, é uma reinvenção completa da roda, que não favorece o uso racional dos recursos sociais. **
Para uma organização sem fins lucrativos como o Zhiyuan Research Institute, não importa se o modelo é de código aberto ou fechado, pode não haver muitas considerações comerciais. Mas para empresas comerciais de IA, seja Microsoft, Google, Meta, OpenAI ou Zhipu AI doméstica e Baichuan Intelligent, qualquer grande modelo de IA definitivamente não será apenas para fins de "pesquisa científica". **
Embora os produtos da OpenAI tenham uma vantagem absoluta em tecnologia, o ecossistema ChatGPT construído na forma de plug-ins é fraco em termos de construção ecológica. Nas disputas de código aberto e código fechado da IA, podemos ver um padrão diferente do sistema operacional móvel no futuro.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
OpenAI está em perigo
Produzido | Tiger Sniff Technology Group Autor | Qi Jian Editor | Liao Ying
Em 7 de agosto, outra start-up doméstica de IA lançou seu próprio modelo de IA de código aberto e comercial gratuito: XVERSE-13B. A empresa chamada Yuanxiang XVERSE foi fundada por Yao Xing, ex-vice-presidente da Tencent e fundador do laboratório Tencent AI.
Desde que a Meta lançou os modelos em grande escala da série LLaMA 2 de código aberto para uso comercial gratuito em julho, uma nova onda de "código aberto" está se formando no mercado de modelos de IA em grande escala.
Em 2 de agosto, Wenxin Qianfan, uma plataforma de modelos de IA em grande escala sob o Baidu, anunciou o acesso à série completa de modelos de código aberto do LLaMA2. O número de modelos em grande escala que podem ser chamados na plataforma aumentou para 33 . Com exceção de 3 modelos Wenxin, os outros 30 modelos são todos de código aberto. Modelos, incluindo ChatGLM2, RWKV, MPT, Dolly, OpenLLaMA, Falcon, etc.
No dia seguinte, o Alibaba Cloud também anunciou que se juntaria ao modelo de código aberto. O modelo de parâmetro de código aberto Tongyi Qianwen 7 bilhões inclui o modelo geral Qwen-7B e o modelo de diálogo Qwen-7B-Chat. Os dois modelos foram lançados na comunidade Mota. Eles são de código aberto, gratuitos e disponíveis comercialmente.
Curiosamente, essa atitude positiva em relação ao código aberto e à abertura começou com a Microsoft, a grande proprietária do modelo de código fechado ChatGPT. ** Em 18 de julho, a Microsoft anunciou que cooperará com a Meta para lançar a versão comercial de código aberto do modelo LLaMA 2, fornecendo às empresas alternativas aos modelos OpenAI e Google. **A posição de monopólio da OpenAI no mercado de modelos de IA em larga escala parece estar sendo "visada" por toda a indústria, até mesmo por seus parceiros mais próximos.
Como o modelo de linguagem grande reconhecido globalmente, o GPT-4 da OpenAI é atualmente o único modelo de linguagem grande com um grande número de usuários dispostos a pagar por ele.
O melhor aluno da classe geralmente não está motivado para se juntar ao grupo de estudos. Da mesma forma, **OpenAI não tem razão ou motivação para abrir o código. **
No entanto, com o código aberto completo do LLaMA 2, mais e mais desenvolvedores investiram no Meta e em vários modelos de código aberto. Assim como o Android usa código aberto para lutar contra o iOS, um grande número de modelos de IA de código aberto está contornando ativamente as barreiras técnicas do GPT-4 e envolvendo o OpenAI com um ecossistema de código aberto. **
Por que código aberto?
Quando o OpenAI lançou pela primeira vez a função de plug-in, muitas pessoas compararam o modelo AI com o futuro Windows, iOS e Android. Agora, com o lançamento do LLaMA 2, o grande modelo AI não é apenas uma função, mas até mesmo a estrutura do mercado está se desenvolvendo na direção do sistema operacional.
Iniciado pela LMSYS Org, uma organização liderada pela UC Berkeley, é uma competição de classificação para modelos de linguagem grande (LLMs); a partir de 20 de julho, a versão mais recente do ranking contou 40 grandes modelos de IA e os cinco primeiros ainda estão fechados fontes Modelo (Proprietário), que são três modelos de GPT-4, GPT-3.5-turbo e Claude. No entanto, os 34 modelos a seguir, exceto o PaLM-Chat-Bison-001 do Google, são todos modelos de código aberto, 15 dos quais não são comerciais.
Embora em termos de capacidades do modelo, olhando para todo o mercado, nenhum modelo, independentemente do código aberto ou do código fechado, pode ousar competir de frente com o GPT-4. No entanto, os Tigres não resistiram aos lobos e não conseguiram vencer os grandes modelos do GPT-4. Eles escolheram "mudar de faixa e ultrapassar" e usar o código aberto para aproveitar a ecologia do aplicativo. Isso parece ser um pouco semelhante à luta do Android contra o iOS.
"No momento, todos os grandes modelos de código aberto têm um propósito, que é o marketing."
O fundador de uma empresa doméstica de pesquisa e desenvolvimento de modelos de grande escala de código aberto admitiu ao Tiger Sniff que o principal motivo para promover modelos de grande escala de código aberto e sistemas Android de código aberto é conquistar o mercado gratuitamente. "Muitas grandes empresas lançaram grandes modelos de IA ou apenas criaram um aplicativo baseado em um modelo existente e começaram a promovê-lo com grande alarde. Na verdade, para usuários de modelos grandes básicos, gastar mais dinheiro em publicidade é mais caro do que realmente não é um código aberto para o modelo.” Essa também é a melhor maneira de as empresas de IA provarem sua força.
Primeiro, os modelos de código aberto são mais fáceis de avaliar do que os modelos fechados. Como o código e os conjuntos de dados dos modelos de código aberto estão disponíveis publicamente, os pesquisadores podem inspecionar diretamente a arquitetura do modelo, os dados de treinamento e o processo de treinamento para conduzir uma análise mais profunda do modelo para entender seus pontos fortes e fracos.
"Alguns modelos grandes de IA parecem ser muito capazes, mas não são de código aberto e você só pode ver os resultados de sua saída."
Comparado com o modelo de código aberto, o modelo de código fechado só pode entender as vantagens e desvantagens do modelo por meio da avaliação de desempenho do modelo. Isso leva ao fato de que o desempenho dos modelos de código fechado pode ser artificialmente exagerado ou suas deficiências ocultas. A transparência do modelo de software livre pode ajudar os desenvolvedores a obter uma compreensão mais profunda do modelo e avaliá-lo de forma mais justa.
Para os retardatários, há outro problema com o modelo de código fechado: é fácil questionar a originalidade da tecnologia. Muitos desenvolvedores de modelos grandes disseram uma vez a Huxiu: "Para aqueles modelos que não são de código aberto, para ser franco, mesmo que seja um shell LLaMA ou simplesmente chame a interface ChatGPT em segundo plano, quem sabe?"
Quando a primeira onda de grandes modelos domésticos de IA foi lançada, essas vozes de dúvida circularam amplamente na Internet. Para aqueles grandes modelos de IA que não são de código aberto, é difícil provar sua inocência. Para provar que não estão chamando a API ChatGPT, algumas empresas até retiraram o servidor de raciocínio e retiraram o cabo de rede para demonstrar no ver.
O código aberto é, sem dúvida, uma das melhores maneiras de autocertificar grandes modelos de IA. Mas o valor real do **código aberto não é a capacidade de autocertificação, mas de aproveitar a ecologia. **
“Após o lançamento do LLaMA 2, ele definitivamente dominará o ecossistema OpenAI rapidamente.” Um grande desenvolvedor de modelos disse a Huxiu que, embora o GPT-4 seja quase reconhecido pela indústria como tendo a capacidade mais forte, os modelos após o GPT-3 não são de código aberto Além disso, a abertura da interface API do GPT-4 também é muito baixa, então há muitas restrições no desenvolvimento do modelo GPT. Como resultado, muitos desenvolvedores escolhem modelos de código aberto, como LLaMA. Esses modelos de código aberto podem não apenas ajustar as instruções, mas também realizar pesquisas sobre os modelos subjacentes.
"LLaMA é definitivamente mais popular entre os desenvolvedores do que OpenAI."
Quando o LLaMA 2 foi lançado pela primeira vez em 19 de julho, havia mais de 5.600 projetos no GitHub com palavras-chave como "LLaMA" e mais de 4.100 projetos, incluindo "GPT-4". Duas semanas após seu lançamento, a taxa de crescimento do LLaMA é mais rápida. No momento desta publicação, existem mais de 6.200 "LLaMA" e mais de 4.400 "GPT-4".
Por outro lado, modelos de código aberto podem ser baixados localmente para implantação privatizada, o que facilita o treinamento de IA para empresas comerciais. Os aplicativos de IA dessas empresas precisam ser treinados com base em seus próprios dados de negócios, e o modelo de IA em grande escala implantado de forma privada pode proteger a segurança dos dados ao máximo. Ao mesmo tempo, há mais opções de poder de computação para implantação privatizada, seja serviço em nuvem, implantação local ou mesmo poder de computação distribuído de vários IDCs, o que reduz muito o custo de treinamento e raciocínio do modelo.
Embora o ChatGPT tenha coletado 100 milhões de usuários ativos mensais em apenas dois meses, no ecossistema de desenvolvedores, a velocidade com que o modelo de código aberto conquista a mente dos usuários parece ser mais rápida.
Atualmente, muitas empresas domésticas de IA optaram por lançar modelos de código aberto. Isso inclui o modelo de código aberto ChatGLM-6B lançado pela Zhipu AI, MOSS lançado pela Fudan University, Wudao Tianying Aquila lançado pelo Zhiyuan Research Institute e Baichuan-7B (13B) lançado pela Baichuan Intelligent. Entre eles, o ChatGLM-6B, um grande modelo de código aberto lançado pela **Zhipu AI, foi baixado mais de 4 milhões de vezes em todo o mundo e recebeu 32.000 estrelas no GitHub, 3.000 estrelas a mais que o LLaMA. **
“Se não fizermos um modelo de código aberto, o mercado logo estará cheio de LLaMA.” Um executivo de uma empresa de IA que lançou um modelo de código aberto disse a Huxiu que o código aberto é um passo importante no desenvolvimento da IA da China. modelo grande.
Na verdade, antes do início da tendência dos LLMs, a IA generativa já havia travado uma batalha de código aberto e código fechado.
**Com um grande número de desenvolvedores e aplicativos de produtos, o modelo gráfico Wensheng de código aberto Stable Diffusion quase empurrou o primeiro modelo de código fechado Dall-E 2 da OpenAI para um canto. Embora os usuários geralmente acreditem que os recursos do modelo Stable Diffusion não são tão bons quanto outro produto de código fechado MidJourney, Stable Diffusion conquistou um grande número de mercados de gráficos Vincent em virtude de seu código aberto e atributos gratuitos, e tornou-se o modelo de gráfico Vincent mais popular. Sua empresa de desenvolvimento RunwayML e Stability AI também recebeu muita atenção e financiamento. **
O modelo de código aberto do LLaMA 2 parece ter a intenção de forçar o OpenAI no campo dos LLMs.
Código aberto com mercadorias
O LLaMA 2 é atualmente de código aberto, todos os três modelos da série: 7 bilhões, 13 bilhões e 70 bilhões de versões de parâmetros. No entanto, também existem rumores no mercado de que "o Meta realmente tem uma versão com parâmetros maiores que não foi lançada. A próxima versão pode ter uma versão com parâmetros maiores, mas pode não ser de código aberto."
Vale a pena notar que, atualmente, muitos modelos de código aberto não são todos de código aberto. No modelo Enlightenment 3.0 lançado pelo Zhiyuan Research Institute, apenas o modelo de linguagem básica "Tianying" é de código aberto; o ChatGLM lançado pela Zhipu AI abriu apenas uma parte da série de modelos, e o modelo maior de 130 bilhões de parâmetros ainda é fonte fechada. **
Independentemente de o LLaMA 2 ser "reservado" para modelos maiores, a forma "livre" sem dúvida acelerará a formação do Meta no mercado de modelos grandes e o empurrará para a "velha estrada" do Android.
Por meio do ecossistema de código aberto, o sistema Android acumulou um grande número de desenvolvedores e usuários em todo o mundo. Em termos de ecologia tecnológica, verificou e equilibrou bastante o principal sistema de código fechado iOS e até formou seu próprio monopólio em alguns mercados. Desde 2018, a União Europeia impôs uma multa de mais de 4 bilhões de euros ao Google devido ao mecanismo de monopólio do sistema Android. A partir dessa multa altíssima, também podemos ver o quão lucrativo é o sistema Android de código aberto.
De acordo com um relatório da empresa de pesquisa Sensor Tower, os gastos dos usuários no Google Play serão de aproximadamente US$ 53 bilhões em 2022, e esse valor aumentará para US$ 60 bilhões em 2023. De acordo com um relatório divulgado por outra instituição de pesquisa, a Statista, em janeiro de 2022, havia cerca de 140.000 aplicativos na Google Play Store.
Nesta fase, o modelo de IA de código aberto obviamente ainda não é tão popular quanto os telefones celulares. No entanto, mesmo que a IA seja realmente tão popular quanto os telefones celulares, gigantes como a Meta não abrirão mão facilmente de empresas que ganharam muito dinheiro com o LLaMA 2.
No contrato de código aberto do LLaMA 2, existe uma estipulação: **Se os usuários ativos mensais excederem 700 milhões, você deve solicitar uma licença da Meta. A Meta pode, a seu exclusivo critério, licenciar para você, e você não terá o direito de exercer nenhum desses direitos. **
Ao mesmo tempo, além da versão de código fechado do modelo de código aberto e da aplicação de grandes modelos de IA, também pode ajudar o poder de computação a "trazer mercadorias".
Os dois primeiros fabricantes na China a promover modelos de IA em grande escala, Baidu e Ali, são fornecedores de nuvem. Os outros dois fornecedores de nuvem, Tencent Cloud e Huawei Cloud, embora não tenham produtos LLMs como Wenxin Yiyan e Tongyi Qianwen, eles também continuam a gritar sobre modelos de IA. A principal razão por trás disso é o "efeito de transporte" do modelo grande na nuvem.
"O anúncio de algumas ações em modelos de IA de grande escala também é promovido em conjunto pelo mercado e pelos clientes. Nos últimos meses, muitos clientes vieram perguntar sobre modelos de grande escala." Huxiu que o poder de computação enfileirou, que é a melhor prova da capacidade do modelo grande de IA de transportar mercadorias.
**O modelo não precisa gerar dinheiro, mas o poder computacional deve ser rentável. ** Alibaba abriu Tongyi Qianwen e Baidu introduziu 30 modelos de código aberto na plataforma de modelos em grande escala Wenxin Qianfan. Essas duas ações são para fornecer recursos de IA "gratuitos" aos usuários. Os usuários que usam o modelo de código aberto não pagam mais pela IA, mas, desde que sua IA seja executada no Alibaba Cloud e no Baidu Smart Cloud, eles terão que pagar pelo poder de computação.
"A AI também deve voltar à ideia da nuvem e ganhar dinheiro com a nuvem." Xin Zhou, gerente geral da Baidu Smart Cloud AI e Big Data Platform, disse que a intenção original de abrir o plataforma de grande modelo é criar valor para os negócios dos clientes.Ao criar valor, pode aumentar a fidelidade de clientes antigos e expandir mais novos clientes. Isso é de grande ajuda para expandir o efeito de escala dos fornecedores de nuvem.
Grátis é mais caro
"10 milhões, é quase o mesmo valor do preço inicial para customizar um modelo grande."
O fundador de uma empresa modelo de grande escala de código aberto deu uma cotação ao intermediário que veio consultar por telefone.
"Depois que o modelo de código aberto for reconhecido pelos usuários, você poderá conversar com outras pessoas sobre a taxa de serviço para desenvolvimento personalizado." Depois que o fundador desligou o telefone, ele explicou a Huxiu que, para um modelo como o LLaMA 2, o custo de desenvolvimento é pelo menos o que custa Dezenas de milhões de dólares. Portanto, o mercado que ele visa deve ser dezenas ou centenas de vezes o custo de desenvolvimento.
Do ponto de vista atual, a melhor maneira de as **empresas de IA ganharem dinheiro com modelos de código aberto é começar com serviços. **
Felizmente, a maioria dos usuários de grandes modelos de IA precisa muito desses serviços.
"O modelo é de código aberto, gratuito e disponível comercialmente. Isso significa que, desde o download do modelo, implantação do modelo, treinamento, ajuste e desenvolvimento de aplicativos em aplicativos reais, todo o trabalho precisa ser feito por você mesmo." Um desenvolvedor de aplicativos LLaMA disse Huxiu, a maioria dos fornecedores de modelos de código fechado fornecerá serviços de treinamento e implantação e pode personalizar as funções de desenvolvimento de acordo com as necessidades do usuário. Mas se você usar um modelo de código aberto, terá que fazer todas essas tarefas sozinho, ninguém o ajudará a treinar, ninguém encontrará seu poder de computação e ninguém o ajudará a personalizar o desenvolvimento.
"**Na verdade, os fabricantes de modelos de código fechado vendem serviços." , mas durante o processo de implantação, muito dinheiro ainda precisa ser gasto.” Depois de adicionar o modelo de IA, o custo de mão de obra e poder de computação no departamento de TI aumentou significativamente.
Embora o treinamento e o ajuste com base em modelos de código aberto não sejam difíceis para a maioria do pessoal de TI. No entanto, para realizar pesquisas e desenvolvimento aprofundados do modelo, ainda são necessárias algumas reservas técnicas em termos de algoritmos e IA. À medida que o conceito de modelos de IA em grande escala está se tornando cada vez mais popular, o preço dos talentos nessa área também está aumentando.
"O aumento nos custos de mão de obra é realmente flutuante, mas o custo de servidores e hardware é real. Desde o investimento em modelos grandes até agora, nossos custos aumentaram cerca de 20% a 30%.", disse o responsável da referida instituição de ensino online Atualmente, sua organização ainda está no estágio de exploração da cena da IA, e a maior dificuldade é que ela precisa experimentar cada cena. "Se um falhar, substitua-o por outro. Nesse processo, cada passo custa dinheiro."
A esse respeito, Huxiu perguntou a um insider do Baidu Smart Cloud sobre o serviço e o custo do Baidu Wenxin Qianfan em termos de implantação. Isso economizará dinheiro.**”
Na verdade, independentemente de ser um modelo de código aberto ou um modelo de código fechado, o custo de implantação do modelo é calculado por pessoa/dia e não haverá diferença essencial nos custos de poder de computação para subseqüentes treinamento e raciocínio. "**No entanto, usar modelos de código aberto para treinar, implantar e desenvolver por conta própria só tornará esse processo muito problemático." O insider do Baidu disse que o custo de implantação específico depende do projeto específico, e a diferença é muito grande. No entanto, não há realmente nenhuma diferença essencial entre código aberto e código fechado em termos de implantação e custos de uso. **E do ponto de vista da segurança de dados, a maioria dos modelos de código fechado também pode ser implantada de forma privada.
**Neste estágio, ainda é difícil para a IA alcançar a inclusão. **
Para a maioria das empresas envolvidas em negócios na Internet, elas têm suas próprias equipes de P&D de TI. Quando o grande modelo chegar, elas logo poderão formar uma equipe "estabelecida" para desenvolver aplicativos de IA. Mas para muitos setores de varejo, manufatura tradicional e serviços, a transformação digital é um problema difícil. É realmente difícil para eles estudar o treinamento, a implantação e o raciocínio de grandes modelos de IA.
Para essas empresas, o melhor produto de IA é um plug-in de IA de uso geral. "O que precisamos é apenas de um robô de atendimento ao cliente cujas conversas não pareçam tão idiotas. Pedi-me para aprender a treinar o modelo, o que é um pouco empolgante". nos últimos seis meses, ele apenas ouviu Diz-se que a capacidade de diálogo da IA é mais forte do que antes, mas o ChatGPT ainda não foi testado. Embora ele também esteja disposto a abraçar novas tecnologias, não é motivação suficiente para ele gastar tempo aprendendo e investir dinheiro em IA agora.
"A menos que haja um plug-in na plataforma ou software que estou usando agora, posso usá-lo apenas pegando, caso contrário, não vou pensar muito em gastar dinheiro para atualizar o assistente AI imediatamente ." Baixo.
"** Os comerciantes precisam de IA para fazer isso, e ela pode ser aplicada e capacitada sem sentimento.**" O fabricante de SaaS Weimob criou um aplicativo WAI em marketing digital, que ajuda os comerciantes a chamar recursos de IA na forma de incorporar aplicativos existentes. Forneça aos comerciantes recursos de diálogo de IA e geração de texto e imagem com base em grandes modelos de linguagem.
Conectar modelos grandes abertamente a ferramentas de serviço SaaS é um pouco semelhante à chamada de modelo do Baidu Wenxin Qianfan. Embora apenas chamadas de interface e Finetune sejam feitas, ele fornece aos usuários recursos de aterrissagem de IA mais rápidos e estáveis.
"Os modelos de código aberto podem facilitar o início dos usuários e agora muitos modelos de código aberto são atualizados mais rapidamente do que os principais fabricantes." Weimob COO COO Yin Shiming acredita que o código aberto e a abertura podem fornecer recursos de IA rapidamente para os usuários Em suas mãos, o que os usuários realmente precisam é de IA "plug and play". **
Para a maioria dos usuários que ainda estão no estágio de teste, experimentação e experimentação de grandes modelos de IA, o limite para modelos de código aberto é obviamente menor e o custo inicial é quase zero.
Muitos usuários usaram o modelo de código aberto desde o início e continuarão a usá-lo no futuro. Os problemas de implantação e treinamento mencionados acima estão gerando uma cadeia da indústria de serviços para modelos de código aberto.
Chen Ran Nesta onda de crescimento de grandes modelos, o recém-criado OpenCSG está fazendo negócios de serviços em torno do grande modelo de código aberto.
O serviço de modelo grande fornecido pelo OpenCSG é voltado principalmente para o treinamento e implementação de modelos de código aberto para empresas. Desde a seleção de modelos de código aberto até o poder de computação distribuído híbrido, combinado com treinamento de modelo de negócios e desenvolvimento de aplicativos de back-end, etc., ele pode fornecer serviços para empresas.
"**Modelos grandes são semelhantes a todos os SaaS, na minha opinião. Os setores upstream e downstream serão gradualmente enriquecidos e os clientes não se concentrarão apenas nos recursos do modelo." Chen Ran acredita que a demanda final dos clientes não é encontrar o máximo modelo capaz, mas um uso melhor, mais fácil e mais simples de grandes modelos de IA para atender a seus negócios.
Ecologia de código aberto em torno da IA
Em toda a cadeia da indústria de IA, o código aberto vai muito além dos modelos. Da pesquisa e desenvolvimento à implantação e ao aplicativo, quase todos os links são inseparáveis do tópico de código aberto.
**Algoritmos, poder de computação, dados e três elementos de IA requerem suporte de código aberto. **
No nível do algoritmo, os grandes modelos de IA de código aberto estão em um estágio relativamente avançado. No início da pesquisa e desenvolvimento de IA, quase todos os modelos de IA usavam estruturas de aprendizado de máquina, que são equivalentes à construção de caixas de ferramentas de IA. As atuais estruturas de aprendizado de máquina convencionais, incluindo TensorFlow, Pytorch e PaddlePaddle (remo voador), são todas estruturas de código aberto.
No nível dos dados, o conjunto de dados de código aberto Commen Crowl é uma importante fonte de dados no processo de treinamento do modelo GPT. Atualmente, muitas instituições e empresas de dados lançaram produtos de código aberto em conjuntos de dados de treinamento de IA, incluindo o conjunto de dados COIG-PC do Zhiyuan Research Institute e o conjunto de dados multimodais DOTS-MM-0526 do Haitian AAC.
Para editores de conjuntos de dados, o código aberto pode não apenas aumentar a influência e o valor da marca, mas os conjuntos de dados de código aberto também podem coletar feedback positivo da comunidade de código aberto para encontrar e corrigir erros ou inconsistências nos dados. Essa revisão externa ajuda a melhorar a qualidade dos dados enquanto enriquece ainda mais o ecossistema de produtos do editor.
"**Os engenheiros de algoritmo frequentemente enfrentam o problema da falta de dados em pesquisa e desenvolvimento. Dados de alta qualidade podem trazer melhorias qualitativas para a avaliação do modelo. **meu país enfrenta atualmente a escassez de conjuntos de dados de alta qualidade, o que também atrapalha os chineses modelos grandes, desenvolvimento de tecnologia.” A Haitian AAC é um dos provedores de dados de treinamento do modelo de código aberto LLaMA 2, disse Li Ke, COO da Haitian AAC.
** Em termos de poder de computação, o maior gargalo no desenvolvimento da IA, a estrutura de chip de código aberto também está estimulando o desenvolvimento da indústria. **
Em 4 de agosto, a Qualcomm anunciou o estabelecimento de uma joint venture com quatro empresas de semicondutores para acelerar a comercialização de chips baseados na arquitetura RISC-V de código aberto. Atualmente, existem três estruturas de chip principais no mercado: x86 usado por CPUs Intel, Arm usado por GPUs Nvidia e RISC-V, uma estrutura de chip de código aberto.
"O RISC-V pode fornecer um ambiente programável. A equipe de desenvolvimento do chip pode usar o RISC-V para fazer muito trabalho de pré-processamento e pós-processamento e também pode adicionar aceleradores especiais ou módulos funcionais que atendam às necessidades do usuário para atender às necessidades do usuário "Gang Zhijian, vice-presidente sênior de marketing e desenvolvimento de negócios da SiFive, disse que o ecossistema RISC-V oferece uma grande variedade de opções para pesquisa e desenvolvimento de chips, o que é de grande ajuda para a demanda crescente por chips de IA atualmente.
Arm e x86 têm ecossistemas relativamente fechados em comparação com RISC-V. **No ecossistema Arm, os usuários podem escolher apenas as opções limitadas fornecidas pelo Arm, enquanto o ecossistema RISC-V tem muitas empresas participantes e haverá mais tipos e opções de produtos. **
A arquitetura de código aberto também está estimulando a indústria de chips a acelerar a concorrência. Gang Zhijian disse: "** Como provedor de serviços da arquitetura de chip de código aberto, também competiremos com outras empresas. tipo de competição Em última análise, promoverá a prosperidade e o progresso do ecossistema RISC-V.**”
Embora a arquitetura do conjunto de instruções RISC-V seja gratuita e de código aberto, o núcleo IP formado por fabricantes de design de chip com base no desenvolvimento secundário da arquitetura do conjunto de instruções RISC-V possui direitos de propriedade intelectual independentes e pode ser autorizado por meio de taxas externas. De acordo com dados da Fundação Internacional RISC-V, o número de membros aumentará mais de 26% ano a ano em 2022, e o número total de unidades membros excederá 3.180, abrangendo 70 países/regiões, incluindo Qualcomm, Intel, Google, Alibaba, Huawei e UNISOC, Sharp e muitas outras empresas líderes de chips.
O código aberto é uma vantagem para o RISC-V, mas também cria alguns problemas. O RISC-V possui apenas mais de 40 conjuntos de instruções básicas, além de dezenas de instruções de extensão de módulo básico.Qualquer empresa e desenvolvedor pode usar o RISC-V gratuitamente para criar chips com direitos de propriedade intelectual independentes.
No entanto, recursos de código aberto, altamente personalizáveis e modulares também tornam o ecossistema RISC-V mais fragmentado e complexo.
"Depois que cada empresa de pesquisa e desenvolvimento de chip atualiza o conjunto de instruções do RISC-V, ele realmente produz uma nova arquitetura. É chamado RISC-V, mas empresas diferentes não são compatíveis com RISC-V, e a ecologia de código aberto é realmente dividido. .**" Lu Tao, presidente da Weiwei Technology e gerente geral da Grande China, acredita que o código aberto da arquitetura de chip e a ecologia de software são muito importantes, mas é muito difícil para equipes diferentes encontrar um equilíbrio entre abertura, customização e fragmentação.Teste a sabedoria e habilidade da equipe de P&D.
Além disso, a arquitetura Arm já produziu GPUs, IPUs e outros chips adequados para treinamento e raciocínio de IA, e a ecologia técnica está mais completa e madura. A intenção original do RISC-V é projetar CPUs. Embora seja muito aberto, o projeto de chips AI ainda está em estágio exploratório.
De acordo com a empresa de pesquisa Counterpoint Research, até 2025, as remessas cumulativas de processadores RISC-V excederão 80 bilhões, com uma taxa composta de crescimento anual de 114,9%. Até então, o RISC-V ocupará 14% do mercado global de CPU, 28% do mercado IoT, 12% do mercado industrial e 10% do mercado automotivo.
A Qualcomm já implementou o RISC-V em microcontroladores em seu Snapdragon 865 SoC em 2019 e já vendeu mais de 650 milhões de chips RISC-V até o momento. No AI Hardware Summit Forum em setembro de 2022, o professor Krste Asanovic, o inventor do RISC-V, revelou que o Google começou a usar o SiFive Intelligence X280 baseado em RISC-V para desenvolver sua estrutura de aprendizado de máquina TensorFlow. **Antes disso, o Google realizou um trabalho de autopesquisa sobre a arquitetura do chip TPU por mais de 10 anos.
Embora seja difícil desenvolver chips RISC-V do zero, a natureza de código aberto do RISC-V deu aos chips chineses, que também começaram do zero, uma chance de sobreviver no bloqueio e no monopólio. empresas são as que mais crescem no mundo. As empresas de chips chinesas são mais agressivas e dispostas a enfrentar desafios." Gang Zhijian disse que o mercado chinês é a chave para estimular o desenvolvimento da indústria de chips. O mercado de chips da China é enorme. Por exemplo, a demanda de energia de computação de chips automotivos da China excedeu em muito a dos mercados europeu e americano. **Com a crescente demanda das empresas chinesas por poder de computação de IA, a indústria de chips de IA da China definitivamente dará início a mais oportunidades no futuro.
Conclusão
Além das considerações comerciais, **o código aberto também pode ajudar editores técnicos a otimizar modelos. **
“Na verdade, o ChatGPT é uma vitória da engenharia.” O sucesso do modelo de linguagem grande de hoje é, na verdade, baseado em treinamento repetido e ajuste do modelo. Se depois que o modelo básico for estabelecido, o modelo for promovido para a comunidade de código aberto e mais desenvolvedores participarem do trabalho de otimização do modelo, sem dúvida será de grande ajuda para o progresso do modelo grande de IA.
Além disso, "grandes modelos de código aberto podem evitar a reinvenção da roda." Lin Yonghua, vice-presidente e engenheiro-chefe do Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim, disse em uma entrevista durante a Conferência Zhiyuan de 2023, assumindo que todos em ** vêm do The a pesquisa e o desenvolvimento de modelos de larga escala de uso geral exigem muito poder de computação, dados e eletricidade, é uma reinvenção completa da roda, que não favorece o uso racional dos recursos sociais. **
Para uma organização sem fins lucrativos como o Zhiyuan Research Institute, não importa se o modelo é de código aberto ou fechado, pode não haver muitas considerações comerciais. Mas para empresas comerciais de IA, seja Microsoft, Google, Meta, OpenAI ou Zhipu AI doméstica e Baichuan Intelligent, qualquer grande modelo de IA definitivamente não será apenas para fins de "pesquisa científica". **
Embora os produtos da OpenAI tenham uma vantagem absoluta em tecnologia, o ecossistema ChatGPT construído na forma de plug-ins é fraco em termos de construção ecológica. Nas disputas de código aberto e código fechado da IA, podemos ver um padrão diferente do sistema operacional móvel no futuro.