NVIDIA: Empire Rift Um por Um

Fonte original: Decode

Fonte da imagem: Gerado por Unbounded AI

Muitas vezes há a ilusão de que as CPUs Intel vendem bem e as atribuem a uma empresa de hardware de sucesso, quando, na verdade, o domínio da Intel sobre os processadores para desktop é a arquitetura X86, que nasceu em 1978.

A mesma ilusão é encontrada na Nvidia.

A razão pela qual a NVIDIA pode monopolizar o mercado de chips de treinamento de inteligência artificial, a arquitetura CUDA é definitivamente um dos heróis nos bastidores.

Esta arquitetura, nascida em 2006, esteve envolvida em todas as áreas da computação computacional e quase foi moldada na forma da NVIDIA. 80% da investigação em aeroespacial, investigação em biociências, simulação mecânica e de fluidos e exploração de energia é conduzida com base no CUDA.

No campo mais quente da IA, quase todos os grandes fabricantes estão se preparando para o Plano B: Google, Amazon, Huawei, Microsoft, OpenAI, Baidu... Ninguém quer o seu futuro nas mãos dos outros.

A agência de consultoria de serviços empresariais Dealroom.co divulgou um conjunto de dados, nesta onda de calor generativa de IA, os Estados Unidos obtiveram 89% do investimento e financiamento global, e no investimento e financiamento de chips de IA, o investimento e financiamento de chips de IA da China ocupa o primeiro lugar no mundo, mais do dobro dos Estados Unidos.

Ou seja, embora existam muitas diferenças nos métodos e estágios de desenvolvimento de grandes modelos de empresas chinesas e americanas, todos são particularmente consistentes no controle do poder de computação.

Porque é que o CUDA tem esta magia? **

Em 2003, a fim de competir com a Intel, que introduziu uma CPU de 4 núcleos, a NVIDIA começou a desenvolver uma tecnologia de arquitetura de dispositivo de computação unificada, ou CUDA.

A intenção original do CUDA era adicionar uma interface de programação fácil de usar à GPU, para que os desenvolvedores não tivessem que aprender linguagens de sombreamento complexas ou primitivas de processamento gráfico. A ideia original da Nvidia era fornecer aos desenvolvedores de jogos uma aplicação no campo da computação gráfica, que é o que Huang chama de "tornar os gráficos programáveis".

No entanto, desde o lançamento do CUDA, não tem sido capaz de encontrar aplicações-chave e falta de suporte ao cliente importante. E a NVIDIA também tem que gastar muito dinheiro para desenvolver aplicativos, manter serviços e promover e comercializar, e em 2008 encontrou uma tempestade financeira, a receita da Nvidia caiu drasticamente com vendas fracas de placas gráficas, e o preço das ações chegou a cair para apenas US $ 1,50, pior do que o pior momento da AMD.

Foi apenas em 2012 que dois alunos da Hinton usaram as GPUs da NVIDIA para competir na velocidade de reconhecimento de imagem chamada ImageNet. Eles usaram a placa gráfica GTX580 e treinaram com a tecnologia CUDA, e os resultados foram dezenas de vezes mais rápidos do que o segundo lugar, e a precisão foi mais de 10% maior do que a do segundo lugar.

Não foi apenas o modelo ImageNet em si que chocou a indústria. Esta rede neural, que exigiu 14 milhões de imagens e um total de 262 quatrilhões de operações de ponto flutuante, usou apenas quatro GTX 580 em uma semana de treinamento. Para referência, o Google Cat usou 10 milhões de imagens, 16.000 CPUs e 1.000 computadores.

Esta competição não é apenas um ponto de viragem histórico para a IA, mas também abre um avanço para a NVIDIA. A NVIDIA começou a cooperar com a indústria para promover o ecossistema de IA, promover estruturas de IA de código aberto e cooperar com o Google, Facebook e outras empresas para promover o desenvolvimento de tecnologias de IA, como o TensorFlow.

Isso equivale a completar o segundo passo que Huang disse, "abrir a GPU para programabilidade para todos os tipos de coisas".

Quando o valor do poder de computação das GPUs foi descoberto, os grandes fabricantes também acordaram de repente para o fato de que o CUDA, que a NVIDIA havia iterado e pavimentado por vários anos, havia se tornado um muro alto que a IA não poderia evitar.

Para construir o ecossistema CUDA, a NVIDIA fornece aos desenvolvedores uma grande variedade de bibliotecas e ferramentas, como cuDNN, cuBLAS e TensorRT, etc., que são convenientes para os desenvolvedores executarem deep learning, álgebra linear e aceleração de inferência e outras tarefas. Além disso, a NVIDIA oferece uma cadeia de ferramentas de desenvolvimento completa, incluindo compiladores e otimizadores CUDA, tornando a programação de GPU e a otimização de desempenho mais fáceis para os desenvolvedores.

Ao mesmo tempo, a NVIDIA também trabalha em estreita colaboração com muitas estruturas populares de aprendizagem profunda, como TensorFlow, PyTorch e MXNet, fornecendo ao CUDA vantagens significativas em tarefas de aprendizagem profunda.

Esta dedicação em "ajudar o cavalo e dar-lhe um passeio" permitiu à NVIDIA duplicar o número de programadores no ecossistema CUDA em apenas dois anos e meio.

Ao longo da última década, a NVIDIA promoveu os cursos de ensino da CUDA para mais de 350 universidades, com desenvolvedores profissionais e especialistas em domínio na plataforma que forneceram suporte rico para aplicativos CUDA, compartilhando experiências e respondendo a perguntas difíceis.

Mais importante, a NVIDIA sabe que o defeito do hardware como um fosso é que não há aderência do usuário, então ela agrupa hardware com software, renderização de GPU para usar CUDA, redução de ruído de IA para usar OptiX, computação de direção autônoma precisa de CUDA...

Embora a NVIDIA atualmente monopolize 90% do mercado de poder de computação de IA com GPU + NVlink + CUDA, há mais de uma rachadura no império.

Rachaduras

Os fabricantes de IA sofrem com o CUDA há muito tempo, e não é alarmista.

A magia do CUDA é que ele está na posição-chave da combinação de software e hardware, que é a pedra angular de todo o ecossistema de software, e é difícil para os concorrentes ignorarem o CUDA para serem compatíveis com o ecossistema da NVIDIA; Para hardware, o design do CUDA é basicamente uma abstração de software na forma de hardware NVIDIA, e basicamente cada conceito central corresponde ao conceito de hardware da GPU.

Então, para os concorrentes, restam apenas duas opções:

1 Ignore o CUDA e reconstrua um ecossistema de software, o que requer enfrentar o enorme desafio da aderência do usuário da NVIDIA;

2 Compatível com CUDA, mas também enfrentar dois problemas, um é que se a sua rota de hardware é inconsistente com a NVIDIA, então é possível alcançar ineficiente e desconfortável, e o outro é que o CUDA seguirá a evolução das características de hardware da NVIDIA, e a compatibilidade só pode optar por seguir.

Mas para se livrar do controle da Nvidia, ambas as opções foram tentadas.

Em 2016, a AMD lançou o ROCm, um ecossistema de GPU baseado em projetos de código aberto, fornecendo ferramentas HIP que são totalmente compatíveis com CUDA, o que é uma maneira de seguir a rota.

No entanto, devido à falta de recursos de biblioteca da cadeia de ferramentas e ao alto custo de desenvolvimento e compatibilidade de iteração, é difícil para o ecossistema ROCm crescer. No Github, mais de 32.600 desenvolvedores contribuem para o repositório de pacotes CUDA, enquanto o ROCm tem menos de 600.

A dificuldade de tomar a rota CUDA compatível com NVIDIA é que sua velocidade de iteração de atualização nunca pode acompanhar o CUDA e é difícil alcançar a compatibilidade total:

1 iteração é sempre um passo mais lento: GPUs NVIDIA iteram rapidamente em microarquiteturas e conjuntos de instruções, e muitos lugares na pilha de software superior também têm que fazer atualizações de recursos correspondentes. Mas a AMD não pode saber o roteiro de produtos da NVIDIA e as atualizações de software serão sempre um passo mais lentas do que a NVIDIA. Por exemplo, a AMD pode ter acabado de anunciar o suporte para CUDA11, mas a NVIDIA já lançou o CUDA12.

2 A dificuldade na compatibilidade total aumentará a carga de trabalho dos desenvolvedores: softwares grandes como o próprio CUDA são muito complexos, e a AMD precisa investir muita mão de obra e recursos materiais por vários anos ou até mais de uma década para recuperar o atraso. Como existem diferenças funcionais inevitáveis, se a compatibilidade não for bem feita, isso afetará o desempenho (embora 99% sejam semelhantes, mas resolver os 1% restantes das diferenças pode consumir 99% do tempo do desenvolvedor).

Há também empresas que optam por contornar o CUDA, como a Modular, que foi fundada em janeiro de 2022.

A ideia da Modular é manter a barra o mais baixa possível, mas é mais como um ataque surpresa. Propõe um motor de IA "para melhorar o desempenho dos modelos de inteligência artificial" para resolver o problema de que "as pilhas de aplicações de IA atuais são frequentemente acopladas a hardware e software específicos" através de uma abordagem "modular".

Para acompanhar este motor de IA, a Modular também desenvolveu a linguagem de programação de código aberto Mojo. Você pode pensar nela como uma linguagem de programação "construída para IA", a Modular usa-a para desenvolver ferramentas para se integrar ao mecanismo de IA acima mencionado, enquanto se integra perfeitamente com Python e reduz os custos de aprendizagem.

O problema com o Modular, no entanto, é que sua visão de "ferramentas de desenvolvimento de todas as plataformas" é muito idealista.

Embora tenha o título de "além do Python" e seja endossado pela reputação de Chris Lattner, o Mojo, como uma nova linguagem, precisa ser testado por muitos desenvolvedores em termos de promoção.

Os motores de IA enfrentam mais problemas, não só com acordos com várias empresas de hardware, mas também com a compatibilidade entre plataformas. Todas essas são tarefas que exigem muito tempo de polimento para serem concluídas, e para o que a Nvidia evoluirá nesse momento, temo que ninguém saiba.

Challenger Huawei

Em 17 de outubro, os Estados Unidos atualizaram suas regras de controle de exportação de chips de IA, impedindo empresas como a NVIDIA de exportar chips avançados de IA para a China. De acordo com as últimas regras, as exportações de chips da NVIDIA para a China, incluindo A800 e H800, serão afetadas.

Anteriormente, depois que os dois modelos da NVIDIA A100 e H100 foram impedidos de exportar para a China, a "versão castrada" A800 e H800 exclusivamente para a China foram projetados para cumprir com os regulamentos. A Intel também lançou o chip de IA Gaudi2 para o mercado chinês. Agora, parece que as empresas terão de ajustar a sua resposta no âmbito da nova ronda de proibições de exportação.

Em agosto deste ano, o Mate60Pro equipado com o chip Kirin 9000S auto-desenvolvido da Huawei de repente foi colocado à venda, o que instantaneamente desencadeou uma enorme onda de opinião pública, fazendo com que outra notícia quase ao mesmo tempo rapidamente abafada.

Liu Qingfeng, presidente da iFLYTEK, fez uma rara declaração em um evento público, dizendo que a GPU da Huawei pode comparar com a NVIDIA A100, mas apenas se a Huawei enviar um grupo de trabalho especial para otimizar o trabalho da iFLYTEK.

Tais declarações repentinas muitas vezes têm intenções profundas e, embora não tenham a capacidade de prever, sua utilidade ainda é responder à proibição de chips dois meses depois.

A GPU da Huawei, a plataforma de software e hardware full-stack Ascend AI, inclui 5 camadas, que são hardware da série Atlas, arquitetura de computação heterogênea, estrutura de IA, habilitação de aplicativos e aplicativos da indústria de baixo para cima.

Basicamente, pode-se entender que a Huawei fez um conjunto de substituições para a NVIDIA, a camada de chip é Ascend 910 e Ascend 310, e a arquitetura de computação heterogênea (CANN) faz benchmarks com a camada de software central NVIDIA CUDA + CuDNN.

É claro que a lacuna não pode estar ausente, e alguns profissionais relevantes resumiram dois pontos:

1 O desempenho de uma única placa fica para trás, e ainda há uma lacuna entre Ascend 910 e A100, mas a vitória é que o preço é barato e a quantidade pode ser empilhada, e a diferença geral não é grande depois de atingir a escala de cluster;

2 Desvantagens ecológicas existem, mas a Huawei também está tentando recuperar o atraso, por exemplo, através da cooperação entre a comunidade PyTorch e Ascend, PyTorch versão 2.1 tem suportado sincronicamente Ascend NPU, o que significa que os desenvolvedores podem desenvolver diretamente modelos baseados em Ascend on PyTorch 2.1.

Atualmente, a Huawei Ascend executa principalmente os produtos de grande porte de circuito fechado da própria Huawei, e qualquer modelo público deve ser profundamente otimizado pela Huawei para rodar na plataforma da Huawei, e essa parte do trabalho de otimização depende fortemente da Huawei.

No contexto atual, Ascend tem um significado especial.

Em maio deste ano, Zhang Dixuan, presidente da Ascend Computing Business da Huawei, revelou que a plataforma básica de software e hardware "Ascend AI" incubou e se adaptou a mais de 30 modelos grandes convencionais, e mais da metade dos grandes modelos nativos da China são baseados na plataforma básica de software e hardware "Ascend AI", incluindo as séries Pengcheng, Zidong e HUAWEI CLOUD Pangu. Em agosto deste ano, a Baidu também anunciou oficialmente a adaptação da IA Ascend com o modelo de remo voador + Wen Xin.

E de acordo com uma imagem que circula na Internet, o Centro Chinês de Supercomputação Inteligente é basicamente Ascend, exceto por não divulgado, e diz-se que após a nova rodada de restrições de chips, 30-40% da capacidade de produção de chips da Huawei será reservada para o cluster Ascend, e o resto é Kirin.

Epílogo

Em 2006, quando a NVIDIA estava desdobrando sua grande narrativa, ninguém pensava que o CUDA seria um produto revolucionário, e Huang teve que persuadir o conselho de administração a investir US$ 500 milhões por ano para apostar em um período de retorno desconhecido de mais de 10 anos, e a receita da NVIDIA foi de apenas US$ 3 bilhões naquele ano.

Mas em todas as histórias de negócios que usam tecnologia e inovação como palavras-chave, há sempre pessoas que alcançaram grande sucesso por causa de sua adesão persistente a objetivos de longo prazo, e NVIDIA e Huawei estão entre as melhores.

Recursos

[1] A "foice" da NVIDIA não é um chip de IA, um laboratório à base de silício

[2] A fim de se tornar um "substituto NVIDIA", grandes fabricantes de modelos abriram o livro, e a pequena mesa de jantar criou roupas

[3] Apenas 1 ano após a sua criação, esta startup estrela da IA quer desafiar a NVIDIA e a kenet de magnésio

[4] Uma rachadura no Império Nvidia, o Instituto de Pesquisa Enukawa

[5] Os Estados Unidos planejam intensificar as exportações de chips para a China, a Huawei lidera o aumento da produção doméstica e a West China Securities

[6] AIGC Industry In-Depth Report (11): Huawei Computing Power Spin-off: O Segundo Polo do Poder Global de Computação de IA, West China Securities

[7] Relatório Especial da Indústria AIGC 2023: Quatro rotas técnicas principais de chips de IA, Cambrian Copy NVIDIA, Shenwan Hongyuan

[8] Como a CUDA alcança a NVIDIA: um grande avanço em IA, Tencent Cloud Community

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)