O custo de treinamento e funcionamento de modelos grandes é extremamente alto, e a OpenAI também tentou reduzir custos, mas infelizmente falhou.
No final do ano passado, quando o ChatGPT se tornou uma sensação global, os engenheiros da OpenAI começaram a trabalhar em um novo modelo de IA, codinome Arrakis. Arrakis visa permitir que a OpenAI execute chatbots a um custo mais baixo.
Mas de acordo com pessoas familiarizadas com o assunto: em meados de 2023, a OpenAI cancelou o lançamento do Arrakis porque o modelo não está funcionando tão eficientemente quanto a empresa esperava.
Esta falha significou que a OpenAI perdeu tempo valioso e precisou desviar recursos para o desenvolvimento de diferentes modelos.
Para o coinvestimento, o programa de pesquisa e desenvolvimento da Arrakis será inestimável para as duas empresas concluírem as negociações de investimento e acordo de produtos de US$ 10 bilhões. De acordo com um funcionário da Microsoft familiarizado com o assunto, o fracasso de Arrakis dececionou alguns executivos da Microsoft.
Além disso, o fracasso de Arrakis é um prenúncio do futuro da IA que pode estar repleto de armadilhas difíceis de prever.
Que tipo de modelo é Arrakis? **
De acordo com pessoas familiarizadas com o assunto, a OpenAI espera que o Arrakis seja um modelo com desempenho comparável e maior eficiência operacional do que o GPT-4. A principal abordagem utilizada no modelo Arrakis é tirar partido da paridade.
Sparsity é um conceito de aprendizado de máquina que outros desenvolvedores de IA, como o Google, também discutem e usam abertamente. Jeff Dean, executivo do Google, disse: "A computação esparsa se tornará uma tendência importante no futuro".
A OpenAI começou a pesquisar sobre esparsidade logo no início, e eles introduziram kernels de computação esparsa em 2017. Arrakis poderia ter permitido que a OpenAI promovesse sua tecnologia mais amplamente porque a empresa poderia usar um número limitado de chips de servidor dedicados para alimentar seu software.
Atualmente, uma maneira comum de aumentar a esparsidade é com a ajuda da tecnologia de "sistemas especialistas híbridos (MoE)". No entanto, Ion Stoica, professor de ciência da computação da Universidade da Califórnia, em Berkeley, disse: "Em geral, quanto maior o número de modelos especializados, mais esparso e eficiente o modelo, mas isso pode levar a resultados menos precisos gerados pelo modelo".
Por volta da primavera deste ano, os pesquisadores da OpenAI começaram a treinar modelos Arrakis, que envolvem o uso de hardware de computação avançada para ajudar os modelos a processar grandes quantidades de dados. De acordo com pessoas familiarizadas com o assunto, a empresa espera que o treinamento Arrakis seja muito mais barato do que o treinamento GPT-4. No entanto, a equipe de pesquisa logo percebeu que o modelo não estava tendo um desempenho bom o suficiente para alcançar os ganhos esperados. Depois que a equipe de pesquisa passou cerca de um mês tentando resolver o problema, a liderança sênior da OpenAI decidiu parar de treinar o modelo.
A boa notícia é que a OpenAI pode integrar seu trabalho no Arrakis em outros modelos, como o próximo modelo multimodal Gobi.
Arrakis teve um desempenho abaixo das expectativas da OpenAI porque a empresa está tentando melhorar a paridade do modelo, o que significa que apenas uma parte do modelo será usada para gerar respostas, reduzindo os custos operacionais, disseram duas pessoas familiarizadas com o assunto. A razão pela qual o modelo funcionou nos primeiros testes, mas depois teve um desempenho ruim, é desconhecida.
Vale a pena mencionar que pessoas familiarizadas com o assunto disseram que o nome público da OpenAI considerado para Arrakis é GPT-4 Turbo.
**Qual a importância de reduzir custos? **
Para a OpenAI, com preocupações crescentes sobre o custo da tecnologia e a proliferação de alternativas de código aberto, tornar seus modelos mais baratos e eficientes é uma prioridade.
De acordo com pessoas familiarizadas com o assunto, a Microsoft usa o modelo GPT da OpenAI para alimentar recursos de IA em aplicativos do Office 365 e outros serviços, e a Microsoft esperava que Arrakis melhorasse o desempenho desses recursos e reduzisse custos.
Ao mesmo tempo, a Microsoft está começando a desenvolver seu próprio LLM, e seu LLM pode custar menos para rodar do que o modelo da OpenAI.
Embora este revés não tenha abrandado o desenvolvimento de negócios da OpenAI este ano, é provável que a OpenAI também diminua neste caminho com o aumento da concorrência no campo LLM, especialmente a pesquisa e desenvolvimento acelerados de gigantes da tecnologia como Google e Microsoft.
Link original:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O desenvolvimento de novos modelos OpenAI tem sido frustrado, a parsidade é a chave para reduzir o custo de modelos grandes?
Fonte original: Heart of the Machine
O custo de treinamento e funcionamento de modelos grandes é extremamente alto, e a OpenAI também tentou reduzir custos, mas infelizmente falhou.
No final do ano passado, quando o ChatGPT se tornou uma sensação global, os engenheiros da OpenAI começaram a trabalhar em um novo modelo de IA, codinome Arrakis. Arrakis visa permitir que a OpenAI execute chatbots a um custo mais baixo.
Mas de acordo com pessoas familiarizadas com o assunto: em meados de 2023, a OpenAI cancelou o lançamento do Arrakis porque o modelo não está funcionando tão eficientemente quanto a empresa esperava.
Para o coinvestimento, o programa de pesquisa e desenvolvimento da Arrakis será inestimável para as duas empresas concluírem as negociações de investimento e acordo de produtos de US$ 10 bilhões. De acordo com um funcionário da Microsoft familiarizado com o assunto, o fracasso de Arrakis dececionou alguns executivos da Microsoft.
Além disso, o fracasso de Arrakis é um prenúncio do futuro da IA que pode estar repleto de armadilhas difíceis de prever.
Que tipo de modelo é Arrakis? **
De acordo com pessoas familiarizadas com o assunto, a OpenAI espera que o Arrakis seja um modelo com desempenho comparável e maior eficiência operacional do que o GPT-4. A principal abordagem utilizada no modelo Arrakis é tirar partido da paridade.
Sparsity é um conceito de aprendizado de máquina que outros desenvolvedores de IA, como o Google, também discutem e usam abertamente. Jeff Dean, executivo do Google, disse: "A computação esparsa se tornará uma tendência importante no futuro".
A OpenAI começou a pesquisar sobre esparsidade logo no início, e eles introduziram kernels de computação esparsa em 2017. Arrakis poderia ter permitido que a OpenAI promovesse sua tecnologia mais amplamente porque a empresa poderia usar um número limitado de chips de servidor dedicados para alimentar seu software.
Atualmente, uma maneira comum de aumentar a esparsidade é com a ajuda da tecnologia de "sistemas especialistas híbridos (MoE)". No entanto, Ion Stoica, professor de ciência da computação da Universidade da Califórnia, em Berkeley, disse: "Em geral, quanto maior o número de modelos especializados, mais esparso e eficiente o modelo, mas isso pode levar a resultados menos precisos gerados pelo modelo".
Por volta da primavera deste ano, os pesquisadores da OpenAI começaram a treinar modelos Arrakis, que envolvem o uso de hardware de computação avançada para ajudar os modelos a processar grandes quantidades de dados. De acordo com pessoas familiarizadas com o assunto, a empresa espera que o treinamento Arrakis seja muito mais barato do que o treinamento GPT-4. No entanto, a equipe de pesquisa logo percebeu que o modelo não estava tendo um desempenho bom o suficiente para alcançar os ganhos esperados. Depois que a equipe de pesquisa passou cerca de um mês tentando resolver o problema, a liderança sênior da OpenAI decidiu parar de treinar o modelo.
A boa notícia é que a OpenAI pode integrar seu trabalho no Arrakis em outros modelos, como o próximo modelo multimodal Gobi.
Arrakis teve um desempenho abaixo das expectativas da OpenAI porque a empresa está tentando melhorar a paridade do modelo, o que significa que apenas uma parte do modelo será usada para gerar respostas, reduzindo os custos operacionais, disseram duas pessoas familiarizadas com o assunto. A razão pela qual o modelo funcionou nos primeiros testes, mas depois teve um desempenho ruim, é desconhecida.
Vale a pena mencionar que pessoas familiarizadas com o assunto disseram que o nome público da OpenAI considerado para Arrakis é GPT-4 Turbo.
**Qual a importância de reduzir custos? **
Para a OpenAI, com preocupações crescentes sobre o custo da tecnologia e a proliferação de alternativas de código aberto, tornar seus modelos mais baratos e eficientes é uma prioridade.
De acordo com pessoas familiarizadas com o assunto, a Microsoft usa o modelo GPT da OpenAI para alimentar recursos de IA em aplicativos do Office 365 e outros serviços, e a Microsoft esperava que Arrakis melhorasse o desempenho desses recursos e reduzisse custos.
Ao mesmo tempo, a Microsoft está começando a desenvolver seu próprio LLM, e seu LLM pode custar menos para rodar do que o modelo da OpenAI.
Embora este revés não tenha abrandado o desenvolvimento de negócios da OpenAI este ano, é provável que a OpenAI também diminua neste caminho com o aumento da concorrência no campo LLM, especialmente a pesquisa e desenvolvimento acelerados de gigantes da tecnologia como Google e Microsoft.
Link original: