O nascimento do GPT-5 requer 50.000 H100s! A demanda global total por H100 é de 430.000, e a GPU Nvidia está em uma tempestade de escassez

2023-08-06 06:37:26

Fonte original: Xinzhiyuan

Fonte da imagem: Gerada por Unbounded AI‌

“Quem receberá quanto H100 e quando será o assunto mais quente no Vale do Silício.”

O cofundador da OpenAI e cientista em meio período, Andrej Karpathy, publicou recentemente um artigo explicando suas opiniões sobre a escassez de GPUs NVIDIA.

Recentemente, uma imagem "Quantas GPUs precisamos" que circulou amplamente na comunidade gerou discussões entre muitos internautas.

De acordo com o conteúdo mostrado na figura:

GPT-4 provavelmente foi treinado em cerca de 10.000-25.000 A100s
Meta cerca de 21000 A100
Tesla cerca de 7000 A100
Estabilidade AI cerca de 5000 A100
Falcon-40B treinado em 384 A100s

– A inflexão usou 3500 e H100 para treinar um modelo comparável ao GPT-3.5

Além disso, de acordo com Musk, o GPT-5 pode precisar de 30.000 a 50.000 H100.

Anteriormente, o Morgan Stanley havia declarado que o GPT-5 usa 25.000 GPUs e está treinando desde fevereiro, mas Sam Altman posteriormente esclareceu que o GPT-5 ainda não foi treinado.

No entanto, Altman afirmou anteriormente,

Temos um suprimento muito curto de GPUs, quanto menos pessoas usando nossos produtos, melhor.

Ficaríamos felizes se as pessoas usassem menos, porque não temos GPUs suficientes.

Neste artigo intitulado "Nvidia H100 GPU: Supply and Demand", uma análise aprofundada do uso e demanda das empresas de tecnologia atuais por GPUs.

O artigo especula que a capacidade de cluster H100 em grande escala de pequenos e grandes provedores de nuvem está prestes a se esgotar, e a tendência de demanda por H100 continuará até pelo menos o final de 2024.

Então, a demanda de GPU é realmente um gargalo?

Requisitos de GPU das principais empresas: cerca de 430.000 H100

Atualmente, a explosão da IA generativa não diminuiu e apresentou requisitos mais altos para o poder de computação.

Algumas startups estão usando o caro e extremamente alto desempenho H100 da Nvidia para treinar modelos.

GPUs são mais difíceis de encontrar do que drogas neste momento, disse Musk.

Sam Altman diz que o OpenAI é limitado pela GPU, o que atrasa seus planos de curto prazo (ajuste fino, capacidade dedicada, janelas de contexto de 32k, multimodalidade).

Os comentários de Karpathy vêm enquanto relatórios anuais de grandes empresas de tecnologia discutem questões relacionadas ao acesso à GPU.

Na semana passada, a Microsoft divulgou seu relatório anual e destacou aos investidores que as GPUs são uma "matéria-prima fundamental" para seus negócios em nuvem em rápido crescimento. Se a infraestrutura necessária não estiver disponível, pode haver um fator de risco para interrupções do data center.

Este artigo foi supostamente escrito pelo autor do post HK.

Ele imaginou que OpenAI pode precisar de 50.000 H100, enquanto Inflection precisa de 22.000, Meta pode precisar de 25k e grandes provedores de serviços em nuvem podem precisar de 30k (como Azure, Google Cloud, AWS, Oracle).

Lambda e CoreWeave e outras nuvens privadas podem precisar de um total de 100k. Ele escreveu que Anthropic, Helsing, Mistral e Character podem precisar de 10k cada.

Os autores dizem que todas essas são estimativas e suposições aproximadas, algumas das quais são nuvens de contagem dupla e clientes finais que alugam equipamentos da nuvem.

No geral, as empresas globais precisam de cerca de 432.000 H100s. Calculado em cerca de US$ 35.000 por H100, o custo total da GPU precisa de US$ 15 bilhões.

Isso não inclui empresas domésticas de Internet que precisam de um grande número de H800s.

Existem também algumas empresas financeiras bem conhecidas, como Jane Street, JP Morgan, Two Sigma, etc., cada uma das quais está implantando, começando com centenas de A/H100s e expandindo para milhares de A/H100s.

Todos os grandes laboratórios, incluindo OpenAI, Anthropic, DeepMind, Google e X.ai, estão treinando grandes modelos de linguagem, e o H100 da Nvidia é insubstituível.

Por que o H100 é a primeira escolha?

O H100 é mais popular do que o A100 como primeira escolha, em parte devido à menor latência do cache e à computação FP8.

Porque sua eficiência é de até 3 vezes, mas o custo é de apenas (1,5 a 2 vezes). Considerando o custo geral do sistema, o desempenho do H100 é muito maior.

Em termos de detalhes técnicos, comparado ao A100, o H100 é cerca de 3,5 vezes mais rápido no raciocínio de 16 bits e cerca de 2,3 vezes mais rápido no treinamento de 16 bits.

Velocidade A100 vs H100

MoE de treinamento H100

H100 aceleração massiva

A maioria das empresas compra o H100 e o usa para treinamento e inferência, enquanto o A100 é principalmente para inferência.

Mas algumas empresas hesitam em mudar devido ao custo, capacidade, risco de usar e configurar um novo hardware e ao fato de que o software existente já está otimizado para o A100.

GPU não é uma escassez, mas um problema da cadeia de suprimentos

Um executivo da Nvidia disse que o problema não é a falta de GPUs, mas como essas GPUs chegam ao mercado.

A Nvidia está produzindo GPUs em plena capacidade, mas o executivo disse que a capacidade de produção de GPU é limitada principalmente pela cadeia de suprimentos.

O próprio chip pode ter capacidade suficiente, mas a capacidade insuficiente de outros componentes limitará severamente a capacidade da GPU.

A produção desses componentes depende de outros fornecedores em todo o mundo.

Mas a demanda é previsível, então agora o problema está sendo resolvido gradualmente.

Capacidade de produção de chips de GPU

Em primeiro lugar, a Nvidia coopera apenas com a TSMC para produzir o H100. Todas as GPUs de 5 nm da Nvidia são parceiras apenas da TSMC.

É possível cooperar com a Intel e a Samsung no futuro, mas é impossível no curto prazo, o que limita a produção do H100.

Segundo o denunciante, a TSMC possui 4 nós de produção para fornecer capacidade para chips de 5 nm: N5, N5P, N4, N5P

O H100 é produzido apenas no nó 4N de N5 ou N5P, que é um nó aprimorado de 5 nm.

A Nvidia precisa compartilhar a capacidade deste nó com Apple, Qualcomm e AMD.

A fábrica TSMC precisa planejar a capacidade de produção de cada cliente com 12 meses de antecedência.

Se a Nvidia e a TSMC subestimaram a demanda pelo H100 antes, a capacidade de produção será limitada agora.

Segundo o denunciante, levará cerca de meio ano para o H100 passar da produção à entrega.

E o denunciante também citou um profissional aposentado da indústria de semicondutores dizendo que a fábrica não é o gargalo de produção da TSMC, e a embalagem CoWoS (empilhamento 3D) é o portão da capacidade de produção da TSMC.

Capacidade de memória H100

Quanto a outro componente importante do H100, a memória do H100, também pode haver um problema de capacidade insuficiente.

HBM (High Bandwidth Memory), que é integrado com a GPU de uma forma especial, é um componente chave para garantir o desempenho da GPU.

O denunciante citou um membro da indústria dizendo:

O principal problema é o HBM. Fazer isso é um pesadelo. Como o HBM é difícil de produzir, os suprimentos são muito limitados. Tanto a produção quanto o design devem seguir seu ritmo.

Para memória HBM3, a Nvidia quase sempre usa produtos SK Hynix, e pode haver alguns produtos Samsung, mas não deve haver produtos Micron.

A Nvidia quer que a SK Hynix aumente a capacidade de produção, e eles estão fazendo isso. Mas tanto a Samsung quanto a Micron têm capacidade limitada.

Além disso, muitos outros materiais e processos, incluindo elementos de terras raras, serão usados na fabricação de GPUs, que também se tornarão possíveis fatores que limitam a capacidade de produção de GPUs.

Como o chip GPU se desenvolverá no futuro

Declaração da NVIDIA

A Nvidia revelou apenas que poderá fornecer mais GPUs na segunda metade do ano, mas não forneceu nenhuma informação quantitativa.

Estamos processando o fornecimento para o trimestre hoje, mas também estamos adquirindo uma quantidade significativa de fornecimento para o segundo semestre do ano. Acreditamos que a oferta no segundo semestre será bem superior à do primeiro semestre.

– Nvidia CFO Colette Kress na teleconferência de resultados de fevereiro a abril de 2023

Qual é o próximo?

A questão do suprimento de GPU agora é um ciclo vicioso em que a escassez faz com que a propriedade da GPU seja vista como um fosso, fazendo com que mais GPUs sejam acumuladas, exacerbando a escassez.

– Uma pessoa responsável por uma nuvem privada divulgada

**Quando aparecerá a próxima geração do H100? **

De acordo com o roteiro anterior da Nvidia, a próxima geração do H100 não será anunciada até o final de 2024 e início de 2025.

Até esse momento, o H100 será o principal produto da Nvidia.

No entanto, a Nvidia lançará uma versão refrigerada a água de 120 GB do H100 durante este período.

De acordo com especialistas do setor entrevistados pelo denunciante, o H100 estará esgotado até o final de 2023! !

Como obter o poder de computação do H100?

Como os executivos da Nvidia mencionaram anteriormente, o poder de computação fornecido pela GPU H100 será eventualmente integrado à cadeia da indústria por meio de vários provedores de computação em nuvem, portanto, a escassez de H100 é causada pela geração de GPU, por um lado.

Outro aspecto é como os provedores de nuvem de poder de computação podem efetivamente obter o H100 da Nvidia e, finalmente, alcançar os clientes que precisam, fornecendo poder de computação em nuvem.

O processo é simplesmente:

O provedor de nuvem de poder de computação compra chips H100 de OEMs e, em seguida, cria serviços de nuvem de poder de computação e os vende para várias empresas de IA, para que os usuários finais possam obter o poder de computação H100.

Existem também vários fatores nesse processo, que causaram a atual escassez de poder de computação do H100, e o artigo que deu a notícia também fornece muitas informações do setor para sua referência.

**De quem posso comprar a placa H100? **

OEMs como Dell, Lenovo, HPE, Supermicro e Quanta venderão tanto o H100 quanto o HGX H100.

Provedores de nuvem como CoreWeave e Lambda compram GPUs de OEMs e as alugam para startups.

Hyperscalers (Azure, GCP, AWS, Oracle) trabalharão mais diretamente com a Nvidia, mas também comprarão de OEMs. Isso parece ser semelhante à forma como os jogadores compram placas gráficas. Mas mesmo para comprar DGX, os usuários precisam comprar através do OEM e não podem fazer um pedido diretamente com a Nvidia.

prazo de entrega

O tempo de espera para o servidor HGX de 8 GPUs é terrível, o tempo de espera para o servidor HGX de 4 GPUs é ótimo.

Mas todo cliente quer um servidor de 8 GPUs!

A startup compra de OEMs e revendedores?

Se uma empresa iniciante deseja obter o poder de computação do H100, ela não acaba comprando o H100 e conectando-o em seu próprio cluster de GPU.

Eles geralmente alugam poder de computação de grandes nuvens, como Oracle, nuvens privadas, como Lambda e CoreWeave, ou provedores que trabalham com OEMs e data centers, como FluidStack.

Se você deseja construir seu próprio data center, precisa considerar o tempo para construí-lo, se possui pessoal e experiência em hardware e se as despesas de capital podem ser pagas.

Alugar e hospedar servidores ficou mais fácil. Se os usuários quiserem construir seus próprios data centers, uma linha de fibra escura deve ser instalada para se conectar à Internet - US$ 10.000 por quilômetro. Grande parte da infraestrutura já foi construída e paga durante o boom das pontocom. É só alugar, é barato.

– Responsável por uma nuvem privada

A sequência de locação para serviços de nuvem autoconstruídos é aproximadamente: serviços de nuvem de aluguel sob demanda (serviços de nuvem de aluguel puro), serviços de nuvem agendados, serviços de nuvem gerenciados (compra de servidores, cooperação com provedores para hospedar e gerenciar servidores), auto-hospedagem (compra por conta própria) e servidor de hospedagem)).

A maioria das start-ups que precisam do poder de computação do H100 optarão por reservar serviços de nuvem ou serviços de nuvem gerenciados.

Comparação entre grandes plataformas de computação em nuvem

Para muitas startups, os serviços de nuvem fornecidos por grandes empresas de computação em nuvem são a fonte definitiva de seu H100.

A escolha da plataforma de nuvem também determina se eles podem obter o poder de computação H100 estável.

O ponto geral é: a Oracle não é tão confiável quanto as três grandes nuvens. Mas a Oracle fornecerá mais ajuda de suporte técnico.

As principais diferenças entre as outras grandes empresas de computação em nuvem são:

Rede: enquanto a maioria das startups que procuram grandes clusters A100/H100 procuram InfiniBand, a AWS e o Google Cloud demoraram mais para adotar o InfiniBand, pois têm sua própria abordagem para provisionar serviços.

Disponibilidade: A maior parte do H100 do Microsoft Azure é dedicada ao OpenAI. O Google teve mais dificuldade em adquirir o H100.

Porque a Nvidia parece estar inclinada a fornecer mais cotas H100 para aquelas nuvens que não têm planos de desenvolver chips de aprendizado de máquina concorrentes. (Isso é tudo especulação, não é uma verdade dura.)

As três principais empresas de nuvem, exceto a Microsoft, estão desenvolvendo chips de aprendizado de máquina, e produtos alternativos da Nvidia, da AWS e do Google, já estão no mercado, ocupando uma parte do mercado.

Em termos de relacionamento com a Nvidia, pode ser assim: Oracle e Azure > GCP e AWS. Mas isso é apenas suposição.

Provedores de computação em nuvem menores serão mais baratos, mas, em alguns casos, alguns provedores de computação em nuvem trocarão poder de computação por patrimônio.

Como a Nvidia aloca H100

A Nvidia fornecerá a cada cliente uma cota de H100.

Mas se o Azure disser "Ei, queremos obter 10.000 H100, tudo para Inflexion", você obtém uma cota diferente do que se o Azure disser "Ei, queremos obter 10.000 H100 para a nuvem do Azure".

A Nvidia se preocupa com quem é o cliente final, portanto, se a Nvidia estiver interessada no cliente de uso final, a plataforma do provedor de computação em nuvem receberá mais H100.

A Nvidia quer entender o máximo possível quem é o cliente final e prefere clientes com boas marcas ou startups com forte pedigree.

Sim, parece ser o caso. A NVIDIA gosta de garantir acesso à GPU para empresas emergentes de IA (muitas das quais têm laços estreitos com elas). Veja a Inflection - uma empresa de IA na qual eles investem - testando um enorme cluster H100 no CoreWeave, no qual eles também investem.

– Responsável por uma nuvem privada

Conclusão

A sede atual por GPUs é espumante e exagerada, mas existe objetivamente.

Existem empresas como a OpenAI com produtos como o ChatGPT que estão ganhando força, mas ainda não conseguem GPUs suficientes.

Outras empresas estão comprando e acumulando GPUs para uso futuro ou para treinar grandes modelos de linguagem que o mercado pode nem usar. Isso cria uma bolha de escassez de GPU.

Mas não importa como você olhe, a Nvidia é o rei verde da fortaleza.

Referências:

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

2 gostos