O velho Huang vence! O pedido do H100 da Nvidia está programado para 24 anos e Musk não pode ficar parado

2023-08-13 01:07:59

Fonte original: Qubit

A melhor GPU para refinar modelos grandes NVIDIA H100, esgotado!

Mesmo que você faça o pedido agora, ele não estará disponível até o primeiro trimestre ou mesmo o segundo trimestre de 2024.

Esta é a última notícia revelada ao Wall Street Journal pela CoreWeave, um fornecedor de nuvem intimamente relacionado à Nvidia.

A oferta está extremamente apertada desde o início de abril. Em apenas uma semana, os prazos de entrega esperados saltaram de níveis razoáveis para o final do ano.

A Amazon AWS, maior fornecedora de nuvem do mundo, também confirmou a notícia. O CEO Adam Selipsky disse recentemente:

A100 e H100 são de última geração... difícil de obter mesmo para AWS.

Anteriormente, Musk também disse em um talk show: A GPU agora é mais difícil de obter do que os produtos d.

Se você encontrar um "scalper" para comprar, o prêmio chega a 25%.

Por exemplo, o preço no Ebay subiu de cerca de US$ 36.000 ex-factory para US$ 45.000**, e a oferta é escassa.

Nessa situação, grandes empresas nacionais de tecnologia como Baidu, Byte, Ali e Tencent** também fizeram pedidos de A800 e outros chips no valor total de US$ 5 bilhões** da Nvidia.

Entre eles, apenas 1 bilhão de dólares em mercadorias podem ser entregues ainda este ano, e os outros 80% terão que esperar até 2024.

Então, para quem as GPUs de ponta existentes são vendidas? Onde esta onda de capacidade de produção está parada?

Para quem vende H100, Lao Huang tem a palavra final

Desde o surgimento do ChatGPT, Nvidia A100 e H100, que são bons em treinar modelos grandes, se tornaram populares.

Mesmo o H100 já pode ser usado como um ativo para empresas iniciantes encontrarem fundos de investimento para obter empréstimos hipotecários.

Empresas de IA representadas por OpenAI e Meta, empresas de computação em nuvem representadas por Amazon e Microsoft, nuvens privadas Coreweave e Lambda e todas as diversas empresas de tecnologia que desejam refinar seus próprios modelos grandes, The a demanda é enorme.

** No entanto, é basicamente o CEO da Nvidia, Huang Renxun, quem tem a palavra final sobre para quem vender. **

De acordo com o The Information, o H100 é tão escasso que a Nvidia** alocou um grande número de novas placas para o CoreWeave** e limitou o fornecimento** para empresas de computação em nuvem estabelecidas, como Amazon e Microsoft.

(A Nvidia também investiu diretamente na CoreWeave.)

A análise externa ocorre porque essas empresas estabelecidas estão desenvolvendo seus próprios chips de aceleração de IA, na esperança de reduzir sua dependência da Nvidia, então Lao Huang os ajudará.

Lao Huang também controla todos os aspectos das operações diárias da empresa dentro da Nvidia, inclusive "analisando o que os representantes de vendas vão dizer aos pequenos clientes em potencial".

Cerca de 40 executivos da empresa se reportam diretamente a Lao Huang**, o que é mais do que os subordinados diretos da Meta Xiaozha e da Microsoft Xiaona juntos.

Um ex-gerente da Nvidia revelou: “Na Nvidia, Huang Renxun é, na verdade, o diretor de produtos de todos os produtos”.

Há um tempo atrás, também houve rumores de que Lao Huang fez uma coisa exagerada: Peça a algumas pequenas empresas de computação em nuvem para fornecer suas listas de clientes, querendo saber quem são os usuários finais da GPU.

De acordo com a análise externa, esse movimento permitirá que a Nvidia entenda melhor as necessidades dos clientes para seus produtos e também levantou preocupações de que a Nvidia possa usar essas informações para obter benefícios adicionais.

Algumas pessoas também pensam que outro motivo é que Lao Huang quer saber quem está realmente usando o cartão e quem está apenas acumulando o cartão e não o usando.

Por que Nvidia e Lao Huang têm uma voz tão forte agora?

O principal motivo é que a oferta e a demanda de GPUs de ponta são muito desequilibradas. De acordo com o cálculo do site GPU Utils, a lacuna H100** chega a 430.000**.

O autor Clay Pascal estimou o número de H100 necessário para vários jogadores na indústria de IA em um futuro próximo com base em várias informações e rumores conhecidos.

Lado da empresa de IA:

OpenAI pode precisar de 50.000 H100s para treinar GPT-5
Diz-se que Meta precisa de 100.000
O plano de cluster de poder de computação de 22.000 cartões da InflectionAI foi anunciado
As principais startups de IA, como Anthropic, Character.ai, MistraAI e HelsingAI na Europa, exigem cada uma cerca de 10.000.

Empresa de computação em nuvem:

Em grandes nuvens públicas, Amazon, Microsoft, Google e Oracle são calculados em 30.000, totalizando 120.000
A nuvem privada representada por CoreWeave e Lambda precisa de um total de 100.000

Isso soma 432.000.

Isso sem contar algumas empresas financeiras e outros participantes do setor, como JP Morgan Chase e Two Sigma, que também começaram a implantar seus próprios clusters de poder de computação.

Então a questão é, com uma lacuna de oferta tão grande, não podemos produzir mais?

Lao Huang também pensou nisso, mas a capacidade de produção está parada.

Onde a capacidade de produção está parada desta vez?

De fato, a TSMC já ajustou seu plano de produção para a Nvidia.

No entanto, ainda não conseguiu preencher uma lacuna tão grande.

Charlie Boyle, vice-presidente e gerente geral do sistema DGX da Nvidia, disse que desta vez não está preso no wafer, mas que a tecnologia de embalagem CoWoS da TSMC encontrou um gargalo em sua capacidade de produção.

É a Apple que compete com a Nvidia pela capacidade de produção da TSMC, e ela receberá o chip A17 para a próxima geração do iPhone antes da conferência de setembro.

A TSMC declarou recentemente que espera-se que leve 1,5 anos para trazer o backlog do processo de embalagem de volta ao normal.

A tecnologia de embalagem CoWoS é a habilidade de limpeza da TSMC, e a razão pela qual a TSMC pode vencer a Samsung para se tornar a fundição de chips exclusiva da Apple depende disso.

Os produtos embalados por esta tecnologia têm alto desempenho e forte confiabilidade, razão pela qual o H100 pode ter uma largura de banda de 3 TB/s (ou até mais).

O nome completo do CoWoS é Chip-on-Wafer-on-Substrate, que é uma tecnologia de integração de chip única no nível do wafer.

Essa tecnologia permite o empacotamento de vários chips em um interposer de silício com apenas 100 μm de espessura**.

Segundo relatos, a área do interposer de próxima geração chegará a 6 vezes o retículo, que é de cerca de 5000mm².

Até agora, além da TSMC, nenhum fabricante possui esse nível de capacidade de embalagem.

Embora o CoWoS seja certamente poderoso, não funcionaria sem ele? Outros fabricantes podem fazer isso?

Sem falar que Lao Huang já afirmou que "não vamos considerar a adição de uma segunda fundição H100".

Na realidade, pode não ser possível.

A Nvidia já cooperou com a Samsung antes, mas esta nunca produziu produtos da série H100 para a Nvidia, ou mesmo outros chips de processo de 5 nm.

Com base nisso, algumas pessoas especulam que o nível técnico da Samsung pode não ser capaz de atender às necessidades tecnológicas da Nvidia por GPUs de ponta.

Quanto à Intel... seus produtos de 5nm não parecem estar saindo ainda.

Como não é viável mudar o fabricante de Lao Huang, que tal os usuários mudarem diretamente para AMD?

AMD，Sim？

Somente em termos de desempenho, a AMD está realmente se recuperando lentamente.

O mais recente MI300X da AMD tem 192 GB de memória HBM3, largura de banda de 5,2 TB/s e pode executar 80 bilhões de modelos de parâmetros.

O DGX GH200 recém-lançado pela Nvidia tem uma memória de 141GB de HBM3e e uma largura de banda de 5TB/s.

Mas isso não significa que a AMD possa preencher imediatamente a vaga do cartão N——

O verdadeiro "fosso" da Nvidia está na plataforma CUDA.

###

CUDA estabeleceu um ecossistema de desenvolvimento completo, o que significa que, se os usuários comprarem produtos AMD, levará mais tempo para depurar.

Um executivo de uma empresa de nuvem privada disse que ninguém ousaria arriscar gastar US$ 300 milhões para implantar 10.000 GPUs AMD experimentalmente.

O executivo acredita que o ciclo de desenvolvimento e depuração pode levar pelo menos dois meses.

No contexto da rápida substituição de produtos de IA, um intervalo de dois meses pode ser fatal para qualquer fabricante.

No entanto, a Microsoft estendeu um ramo de oliveira para a AMD.

Anteriormente, havia rumores de que a Microsoft estava se preparando para desenvolver em conjunto um chip AI de codinome "Athena" com a AMD.

Anteriormente, quando o MI200 foi lançado, a Microsoft foi a primeira a anunciar a compra e implantá-lo em sua plataforma de nuvem Azure.

Por exemplo, a nova infraestrutura de modelo grande da MSRA, RetNet, foi treinada em 512 AMD MI200s há algum tempo.

Sob a situação em que a Nvidia ocupa quase todo o mercado de IA, alguém pode precisar assumir a liderança, e todo o cluster de poder de computação da AMD em grande escala deve ser prototipado antes que alguém se atreva a acompanhar.

No entanto, em um curto período de tempo, Nvidia H100 e A100 ainda são as escolhas mais populares.

Mais uma coisa

Há algum tempo, quando a Apple lançou o novo chip M2 Ultra que suporta até 192 GB de memória**, muitos profissionais gostaram de usá-lo para ajustar modelos grandes.

Afinal, a memória e a memória de vídeo dos chips da série M da Apple são unificadas, 192 GB de memória é 192 GB de memória de vídeo, que é 2,4 vezes maior que 80 GB H100 ou 8 vezes maior que 24 GB RTX4090.

No entanto, depois que alguém realmente comprou esta máquina, a velocidade real de teste e treinamento ** não é tão boa quanto a Nvidia RTX3080TI **, o ajuste fino não é econômico, muito menos o treinamento.

Afinal, o poder de computação dos chips da série M não é otimizado especificamente para computação de IA e a memória de vídeo Everbright é inútil.

Parece que depende principalmente do H100 para refinar o modelo grande, e o H100 é algo que você não pode pedir.

Diante dessa situação, existe até uma mágica "música da GPU"** circulando na Internet.

Muito lavagem cerebral, entre com cautela.

, duração 04:10

Página inicial da música da GPU

Link de referência: [1] [2] [3] [4] [5] [6] [7] [8] [9]

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.