O desenvolvimento de novos modelos OpenAI tem sido frustrado, a parsidade é a chave para reduzir o custo de modelos grandes?

Question

> OpenAI também tem modelos falhados.Fonte original: Heart of the Machine![](https://appserversrc.8btc.cn/DBADA82E83F535A509DA39CCFDC9590F/1697692374/Fm6y2dPb1f5c-4gCjaWitu07qjKE.png) Fonte da imagem: Gerado por Unbounded AIO custo de treinamento e funcionamento de modelos grandes é extremamente alto, e a OpenAI também tentou reduzir custos, mas infelizmente falhou.No final do ano passado, quando o ChatGPT se tornou uma sensação global, os engenheiros da OpenAI começaram a trabalhar em um novo modelo de IA, codinome Arrakis. Arrakis visa permitir que a OpenAI execute chatbots a um custo mais baixo. Mas de acordo com pessoas familiarizadas com o assunto: em meados de 2023, a OpenAI cancelou o lançamento do Arrakis porque o modelo não está funcionando tão eficientemente quanto a empresa esperava.![](https://appserversrc.8btc.cn/Fo91Epuo2RCb7sNVxk75-7RL4Y_e) Esta falha significou que a OpenAI perdeu tempo valioso e precisou desviar recursos para o desenvolvimento de diferentes modelos.Para o coinvestimento, o programa de pesquisa e desenvolvimento da Arrakis será inestimável para as duas empresas concluírem as negociações de investimento e acordo de produtos de US$ 10 bilhões. De acordo com um funcionário da Microsoft familiarizado com o assunto, o fracasso de Arrakis dececionou alguns executivos da Microsoft.Além disso, o fracasso de Arrakis é um prenúncio do futuro da IA que pode estar repleto de armadilhas difíceis de prever.  ## Que tipo de modelo é Arrakis? **  De acordo com pessoas familiarizadas com o assunto, a OpenAI espera que o Arrakis seja um modelo com desempenho comparável e maior eficiência operacional do que o GPT-4. A principal abordagem utilizada no modelo Arrakis é tirar partido da paridade.Sparsity é um conceito de aprendizado de máquina que outros desenvolvedores de IA, como o Google, também discutem e usam abertamente. Jeff Dean, executivo do Google, disse: "A computação esparsa se tornará uma tendência importante no futuro".A OpenAI começou a pesquisar sobre esparsidade logo no início, e eles introduziram kernels de computação esparsa em 2017. Arrakis poderia ter permitido que a OpenAI promovesse sua tecnologia mais amplamente porque a empresa poderia usar um número limitado de chips de servidor dedicados para alimentar seu software.Atualmente, uma maneira comum de aumentar a esparsidade é com a ajuda da tecnologia de "sistemas especialistas híbridos (MoE)". No entanto, Ion Stoica, professor de ciência da computação da Universidade da Califórnia, em Berkeley, disse: "Em geral, quanto maior o número de modelos especializados, mais esparso e eficiente o modelo, mas isso pode levar a resultados menos precisos gerados pelo modelo".Por volta da primavera deste ano, os pesquisadores da OpenAI começaram a treinar modelos Arrakis, que envolvem o uso de hardware de computação avançada para ajudar os modelos a processar grandes quantidades de dados. De acordo com pessoas familiarizadas com o assunto, a empresa espera que o treinamento Arrakis seja muito mais barato do que o treinamento GPT-4. No entanto, a equipe de pesquisa logo percebeu que o modelo não estava tendo um desempenho bom o suficiente para alcançar os ganhos esperados. Depois que a equipe de pesquisa passou cerca de um mês tentando resolver o problema, a liderança sênior da OpenAI decidiu parar de treinar o modelo.A boa notícia é que a OpenAI pode integrar seu trabalho no Arrakis em outros modelos, como o próximo modelo multimodal Gobi.Arrakis teve um desempenho abaixo das expectativas da OpenAI porque a empresa está tentando melhorar a paridade do modelo, o que significa que apenas uma parte do modelo será usada para gerar respostas, reduzindo os custos operacionais, disseram duas pessoas familiarizadas com o assunto. A razão pela qual o modelo funcionou nos primeiros testes, mas depois teve um desempenho ruim, é desconhecida.Vale a pena mencionar que pessoas familiarizadas com o assunto disseram que o nome público da OpenAI considerado para Arrakis é GPT-4 Turbo.  ## **Qual a importância de reduzir custos? **  Para a OpenAI, com preocupações crescentes sobre o custo da tecnologia e a proliferação de alternativas de código aberto, tornar seus modelos mais baratos e eficientes é uma prioridade.De acordo com pessoas familiarizadas com o assunto, a Microsoft usa o modelo GPT da OpenAI para alimentar recursos de IA em aplicativos do Office 365 e outros serviços, e a Microsoft esperava que Arrakis melhorasse o desempenho desses recursos e reduzisse custos.Ao mesmo tempo, a Microsoft está começando a desenvolver seu próprio LLM, e seu LLM pode custar menos para rodar do que o modelo da OpenAI.Embora este revés não tenha abrandado o desenvolvimento de negócios da OpenAI este ano, é provável que a OpenAI também diminua neste caminho com o aumento da concorrência no campo LLM, especialmente a pesquisa e desenvolvimento acelerados de gigantes da tecnologia como Google e Microsoft.*Link original:*