A hegemonia de hardware de IA da NVIDIA tem sido por muito tempo!
Agora, as grandes empresas de tecnologia estão esperando para derrubar sua supremacia.
É claro que a Nvidia não vai ficar parada.
Recentemente, a mídia estrangeira SemiAnalysis revelou um roteiro de hardware para a NVIDIA nos próximos anos, incluindo as tão esperadas GPUs H200, B100 e "X100".
Com isso, há algumas informações concretas, incluindo o plano de tecnologia de processo da NVIDIA, velocidade/capacidade HBM3E, PCIe 6.0, PCIe 7.0, NVLink, plano SerDes 1.6T 224G.
Se esses planos funcionarem como esperado, a Nvidia continuará a esmagar com sucesso seus oponentes.
É claro que a posição de supremacia não é tão boa - o MI300 da AMD, o MI400, o Trainium 2 da Amazon, o Athena da Microsoft, o Gaudi 3 da Intel, não tornarão a Nvidia melhor.
Prepare-se, o ataque de alta energia pela frente!
NVIDIA, mais do que apenas querer ser uma hegemonia de hardware
O Google já começou a estabelecer sua própria infraestrutura de IA, e o TPUv5 e o TPUv5e que eles construíram podem ser usados tanto para treinamento interno e inferência, quanto para clientes externos como Apple, Anthropic, CharacterAI e MidJourney.
O Google não é a única ameaça da Nvidia.
No lado do software, o PyTorch 2.0 da Meta e o Triton da OpenAI também estão crescendo, tornando-o compatível com outros fornecedores de hardware.
Hoje, a lacuna de software permanece, mas nem de longe tão grande quanto já foi.
Na pilha de software, as GPUs da AMD, a Gaudi da Intel, a MTIA da Meta e a Athena da Microsoft alcançaram algum grau de desenvolvimento.
Embora a NVIDIA ainda mantenha sua posição de liderança em hardware, a lacuna se fechará cada vez mais rápido.
O NVIDIA H100 não dominará por muito tempo.
Nos próximos meses, tanto o MI300 da AMD quanto o Gaudi 3 da Intel lançarão produtos de hardware tecnicamente superiores ao H100.
Além de adversários difíceis, como Google, AMD e Intel, há algumas empresas que também colocaram muita pressão sobre a NVIDIA.
Embora essas empresas estejam temporariamente atrasadas no design de hardware, elas podem obter subsídios dos gigantes por trás delas - o mundo sofre com a NVIDIA há muito tempo, e essas empresas esperam quebrar o enorme monopólio de lucro da NVIDIA sobre a HBM.
Os próximos Trainium2 e Inferentia3 da Amazon, e o próximo Athena da Microsoft, são investimentos que estão em vigor há anos.
Os concorrentes são ameaçadores, e a Nvidia certamente não ficará parada.
Na visão da mídia estrangeira SemiAnalysis, independentemente do estilo de gestão ou tomada de decisão de rota, a NVIDIA é "uma das empresas mais duvidosas do setor".
E Huang Jenxun encarna o espírito de Andy Grove.
O sucesso conduz à complacência. A complacência conduz ao fracasso. Só a paranoia sobrevive.
Para garantir a primeira posição, a NVIDIA é ambiciosa e adota uma estratégia aventureira multifacetada.
Eles não desdenham mais competir com Intel e AMD no mercado tradicional, mas querem se tornar gigantes da tecnologia como Google, Microsoft, Amazon, Meta e Apple.
O DGX Cloud da NVIDIA, o software e a estratégia de aquisição para campos não semicondutores são grandes peças de xadrez por trás disso.
**Roteiro últimos detalhes expostos! **
Detalhes importantes do roteiro mais recente da NVIDIA foram expostos.
Os detalhes incluem nós de rede, memória, empacotamento e processo, várias GPUs, seleção SerDes, PCIe 6.0, ótica co-empacotada e switches óticos.
Obviamente, sob a pressão competitiva do Google, Amazon, Microsoft, AMD e Intel, a NVIDIA acelerou o desenvolvimento de B100 e X100 da noite para o dia.
B100: Tempo de comercialização acima de tudo
De acordo com fontes internas, o B100 da NVIDIA será produzido em massa no terceiro trimestre de 2024, e algumas amostras iniciais serão enviadas no segundo trimestre de 2024.
Em termos de desempenho e TCO, seja o Trainium 2 da Amazon, o TPUv5 do Google, o MI300X da AMD, o Gaudi 3 da Intel ou o Athena da Microsoft, é fraco em comparação com ele.
Mesmo levando em conta os subsídios dos parceiros de design, AMD ou TSMC, eles não podem vencê-los todos.
A fim de trazer o B100 para o mercado o mais rápido possível, a NVIDIA fez muitos compromissos.
Por exemplo, a NVIDIA queria definir o consumo de energia em um nível mais alto (1000W), mas no final, eles optaram por continuar a usar os 700W do H100.
Desta forma, o B100 pode continuar a usar tecnologia refrigerada a ar quando for lançado.
Além disso, no início da série B100, a NVIDIA também insistirá em usar PCIe 5.0.
A combinação de 5.0 e 700W significa que ele pode ser conectado diretamente aos servidores H100 HGX existentes, melhorando consideravelmente a capacidade da cadeia de suprimentos e obtendo produção e expedição mais cedo.
Parte da razão para a decisão de manter a 5.0 é que a AMD e a Intel ainda estão muito atrasadas na integração PCIe 6.0. E mesmo a própria equipe interna da Nvidia não está pronta para usar CPUs PCIe 6.0.
Além disso, eles usarão links mais rápidos no estilo C2C.
No futuro, o ConnectX-8 será equipado com um switch PCIe 6.0 integrado, mas ninguém está pronto ainda.
A Broadcom e a AsteraLabs não terão seus retimers PCIe6.0 prontos para produção até o final do ano e, dado o tamanho desses substratos, apenas mais retimers serão necessários.
Isso também significa que o B100 original será limitado a 3.2T, e a velocidade ao usar o ConnectX-7 será de apenas 400G, em vez de 800G por GPU reivindicada pela NVIDIA no PPT.
Se você mantiver o ar fresco e a potência, PCIe e velocidades de rede constantes, é fácil de fabricar e implantar.
Mais tarde, a NVIDIA lançará uma versão B100 de 1.000W+ que requer resfriamento a água.
Esta versão do B100 fornecerá uma conexão de rede completa de 800G por GPU via ConnectX-8.
Para Ethernet/InfiniBand, estes SerDes ainda são 8x100G.
Embora a velocidade da rede por GPU tenha dobrado, a cardinalidade foi reduzida pela metade porque eles ainda precisam passar pelo mesmo switch 51.2T. O switch 102.4T não será mais usado na geração B100.
Curiosamente, foi relatado que o componente NVLink no B100 usará 224G SerDes, e se a NVIDIA puder realmente fazer isso, é sem dúvida uma grande melhoria.
A maioria das pessoas na indústria concorda que o 224G não é confiável e improvável de acontecer em 2024, exceto para as pessoas da Nvidia.
Seja Google, Meta ou Amazon, sua meta de produção em massa do acelerador de IA 224G está definida para 2026/2027.
Se a NVIDIA conseguir isso em 2024/2025, certamente vencerá seus adversários no chão.
É relatado que o B100 ainda é o N4P da TSMC, não uma tecnologia baseada no processo de 3nm.
Obviamente, para um tamanho de chip tão grande, o processo de 3nm da TSMC ainda não está maduro.
Com base no tamanho do substrato revelado pelo fornecedor de substrato NVIDIA Ibiden, a NVIDIA parece ter mudado para um design que consiste em 2 MCMs monolíticos de grandes chips contendo 8 ou 12 pilhas HBM.
Os chips da SambaNova e da Intel no próximo ano usam designs macro semelhantes.
A razão pela qual a NVIDIA não usa tecnologia de ligação híbrida como a AMD é porque eles precisam de produção em massa, e o custo é uma grande preocupação para eles.
De acordo com a SemiAnalysis, a capacidade de memória desses dois chips B100 será semelhante ou superior ao MI300X da AMD, atingindo uma pilha de 24GB.
A versão refrigerada a ar do B100 pode atingir velocidades de até 6,4 Gbps, enquanto a versão refrigerada a líquido pode atingir até 9,2 Gbps.
Além disso, a NVIDIA também mostrou o GB200 e o B40 no roteiro.
Tanto o GB200 quanto o GX200 usam G, que é obviamente um espaço reservado, pois a NVIDIA introduzirá uma nova CPU baseada na arquitetura Arm. Eu não vou usar Grace por muito tempo.
É provável que o B40 tenha metade do tamanho do B100, com apenas um chip N4P monolítico e HBM com até 4 ou 6 camadas. Ao contrário do L40S, isso faz sentido para inferência em modelos pequenos.
"X100": Greve Crítica
A coisa mais impressionante sobre o roteiro exposto é o cronograma "X100" da NVIDIA.
Curiosamente, ele se encaixa perfeitamente com o cronograma atual do MI400 da AMD. Apenas um ano após o lançamento do H100, a AMD lançou sua estratégia MI300X.
A embalagem do MI300X da AMD é impressionante, e eles amontoam mais computação e memória nele, na esperança de superar o H100 há um ano e, assim, superar a Nvidia em hardware puro.
A Nvidia também descobriu que seu lançamento bienal de novas GPUs deu aos concorrentes uma grande oportunidade de conquistar o mercado.
A Nvidia, que tem pressa, está acelerando o ciclo do produto para uma vez por ano, sem dar chance aos adversários. Por exemplo, eles planejam lançar o X100 em 2025, apenas um ano após o B100.
Claro, o "X100" ainda não está em produção em massa (ao contrário do B100), então tudo ainda está no ar.
Você sabe, no passado, a NVIDIA nunca discutiu produtos após a próxima geração de produtos, e desta vez já é inédito.
Além disso, o nome provavelmente não se chama "X100".
A Nvidia tem sido a tradição de nomear GPUs em homenagem a cientistas proeminentes como Ada Lovelace, Grace Hopper e Elizabeth Blackwell.
Quanto ao "X", o único lógico é Xie Xide, que estuda a estrutura de semicondutores e tiras metálicas, mas considerando sua identidade, a probabilidade deve ser pequena.
Mestre da Cadeia de Suprimentos: A Grande Aposta de Lao Huang
Desde o início da NVIDIA, Jensen Huang tem impulsionado ativamente o domínio da cadeia de suprimentos para apoiar metas de crescimento maciças.
Eles não apenas estão dispostos a aceitar pedidos não canceláveis – até US$ 11,15 bilhões em compromissos de compra, capacidade e estoque – mas também têm um acordo de pagamento inicial de US$ 3,81 bilhões.
Indiscutivelmente, nenhum fornecedor pode igualá-lo.
E a história da Nvidia mostrou mais de uma vez que eles podem aumentar criativamente a oferta quando a oferta está em falta.
Diálogo entre Huang Jenxun e Zhang Zhongmou em 2007
Quando Zhang Zhongmou e eu nos conhecemos em 1997, a Nvidia, que tinha apenas 100 pessoas, tinha faturado US$ 27 milhões naquele ano.
Você pode não acreditar, mas Zhang Zhongmou costumava chamar para vendas e visitava sua porta. E vou explicar a Zhang o que a NVIDIA faz e quão grandes nossos chips precisam ser, e eles ficarão maiores a cada ano.
Mais tarde, a NVIDIA fez um total de 127 milhões de wafers. Desde então, a NVIDIA cresceu quase 100% a cada ano, até agora. Ou seja, nos últimos 10 anos, a taxa composta de crescimento anual atingiu cerca de 70%.
Na época, Zhang não podia acreditar que a Nvidia precisava de tantas bolachas, mas Huang perseverou.
A NVIDIA alcançou grande sucesso experimentando o lado da oferta. Embora eles anotem bilhões de dólares em estoque de tempos em tempos, eles ainda obtêm ganhos positivos com o excesso de pedidos.
Desta vez, a NVIDIA aproveitou diretamente a maior parte do fornecimento de componentes upstream da GPU -
Eles fizeram pedidos muito grandes com três fornecedores HBM, SK Hynix, Samsung e Micron, excluindo o fornecimento de todos, exceto Broadcom e Google. Ao mesmo tempo, comprou também a maior parte do fornecimento da TSMC CoWoS, bem como a capacidade de produção da Amkor.
Além disso, a NVIDIA aproveita os componentes downstream exigidos pelas placas e servidores HGX, como retimers, DSPs, ótica e muito mais.
Se o fornecedor fizer ouvidos moucos aos requisitos da NVIDIA, então enfrentará o "rabanete e pau" de Lao Huang -
Por um lado, eles receberão pedidos inimagináveis da NVIDIA; Por outro lado, eles podem ser removidos da cadeia de suprimentos existente pela NVIDIA.
É claro que a NVIDIA também usa pedidos comprometidos e não canceláveis apenas se o fornecedor for crítico e não puder ser eliminado ou diversificar o fornecimento.
Cada fornecedor parece considerar-se um vencedor em IA, em parte porque a NVIDIA fez um grande número de pedidos com todos os seus fornecedores, e todos eles pensam que ganham a maior parte do negócio. Mas, na realidade, é apenas porque a NVIDIA está crescendo muito rápido.
Voltando à dinâmica do mercado, enquanto a Nvidia pretende atingir mais de US$ 70 bilhões em vendas de data centers no próximo ano, apenas o Google tem capacidade suficiente a montante — com mais de 1 milhão de dispositivos. A capacidade total de produção da AMD no campo da IA ainda é muito limitada, com um máximo de apenas algumas centenas de milhares de unidades.
Estratégia de Negócio: Potencial Anti-Competitivo
Como todos sabemos, a NVIDIA está capitalizando a enorme demanda por GPUs para comercializar e vender produtos cruzados para os clientes.
Há uma riqueza de informações na cadeia de suprimentos que a NVIDIA fornece alocação prioritária para determinadas empresas com base em uma série de fatores. Incluindo, mas não limitado a: plano de compras diversificado, pesquisa independente e desenvolvimento de plano de chip de IA, compra de DGX, NIC, switch e/ou equipamentos óticos da NVIDIA, etc.
Na verdade, o agrupamento da NVIDIA é muito bem sucedido. Apesar de ser um pequeno fornecedor de transceptores de fibra ótica, seu negócio triplicou em um trimestre e deve enviar mais de US$ 1 bilhão no próximo ano – superando em muito o crescimento de seus próprios negócios de GPU ou chips de rede.
Pode-se dizer que estas estratégias são bastante minuciosas.
Por exemplo, a única maneira de implementar uma rede 3.2T e RDMA/RoCE confiável nos sistemas da NVIDIA é usar as NICs da NVIDIA. Claro, por um lado, é também porque os produtos da Intel, AMD e Broadcom são realmente pouco competitivos - ainda presos ao nível de 200G.
Através da gestão da cadeia de abastecimento, a NVIDIA também promoveu o ciclo de entrega de NICs 400G InfiniBand, que podem ser significativamente mais curtas do que as NICs Ethernet 400G. As duas NICs (ConnectX-7) são realmente idênticas em design de chip e placa.
A razão para isso é a configuração SKU da Nvidia, não o gargalo real da cadeia de suprimentos que força as empresas a comprar switches InfiniBand de custo mais alto em vez de switches Ethernet padrão.
E isso não é tudo, basta olhar para o quão obcecada a cadeia de suprimentos está com GPUs L40 e L40S, e você sabe que a Nvidia está jogando truques na distribuição novamente - para ganhar mais alocações H100, os OEMs precisam comprar mais L40S.
Isso é o mesmo que a operação da NVIDIA no espaço de PC - fabricantes de notebooks e parceiros AIB devem comprar G106/G107 maiores (GPUs médias/baixas) para obter as G102/G104 mais escassas e de margem mais alta (GPUs high-end e flagship GPUs).
Como um ajuste, as pessoas na cadeia de suprimentos também foram doutrinadas com a alegação de que o L40S é melhor do que o A100 porque tem FLOPS mais altos.
Mas, na realidade, essas GPUs não são adequadas para inferência LLM, pois têm menos da metade da largura de banda de memória do A100 e não têm NVLink.
Isso significa que rodar LLM na L40S e alcançar um bom TCO é quase impossível, exceto para modelos muito pequenos. O processamento em larga escala também resulta em o(s) token(s) alocado para cada usuário ser praticamente inutilizável, tornando o FLOPS teórico inútil em aplicações práticas.
Além disso, a plataforma modular MGX da NVIDIA, ao mesmo tempo em que elimina o trabalho árduo de design de servidores, também reduz as margens de lucro dos OEM.
Empresas como Dell, HP e Lenovo são claramente resistentes à MGX, mas empresas como Supermicro, Quanta, Asus, Gigabyte e outras estão lutando para preencher a lacuna e comercializar "IA empresarial" de baixo custo.
E esses OEMs/ODMs envolvidos no hype L40S e MGX também podem obter melhor alocação de produtos de GPU principal da NVIDIA.
Ótica Co-embalada
Em termos de CPO, a NVIDIA também atribui grande importância a ele.
Eles têm trabalhado em várias soluções, incluindo as da Ayar Labs, bem como as que eles próprios obtêm da Global Foundries e da TSMC.
Atualmente, a NVIDIA examinou os planos de CPO de várias startups, mas ainda não tomou uma decisão final.
A análise acredita que a NVIDIA provavelmente integrará o CPO no NVSwitch do "X100".
Porque a integração direta na própria GPU pode ser muito cara e difícil em termos de confiabilidade.
Interruptor de circuito ótico
Um dos maiores pontos fortes do Google em infraestrutura de IA é seu switch ótico.
Aparentemente, a Nvidia está buscando algo semelhante. Neste momento, contactaram várias empresas e esperam cooperar no desenvolvimento.
A NVIDIA percebeu que o Fat Tree tinha chegado ao fim em continuar a se expandir, então precisava de outra topologia.
Ao contrário da escolha do Google de 6D Torus, a Nvidia prefere adotar uma estrutura Dragonfly.
Entende-se que a NVIDIA ainda está longe do embarque do OCS, mas eles esperam se aproximar dessa meta em 2025, mas a probabilidade não pode ser alcançada.
OCS + CPO é o Santo Graal, especialmente quando o OCS pode ser implementado por pacote, o que mudará diretamente o jogo do jogo.
No entanto, ninguém ainda demonstrou essa capacidade, nem mesmo o Google.
Embora o OCS e o CPO da NVIDIA sejam apenas dois conjuntos de PPTs no departamento de pesquisa, os analistas acreditam que o CPO estará um passo mais perto da produtização em 2025-2026.
Recursos:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O roteiro de 25 anos da NVIDIA explodiu! O velho Huang Hao apostou no B100 para vencer a AMD, e a arma secreta X100 foi exposta
Fonte original: Shin Ji Yuan
A hegemonia de hardware de IA da NVIDIA tem sido por muito tempo!
Agora, as grandes empresas de tecnologia estão esperando para derrubar sua supremacia.
É claro que a Nvidia não vai ficar parada.
Recentemente, a mídia estrangeira SemiAnalysis revelou um roteiro de hardware para a NVIDIA nos próximos anos, incluindo as tão esperadas GPUs H200, B100 e "X100".
Se esses planos funcionarem como esperado, a Nvidia continuará a esmagar com sucesso seus oponentes.
É claro que a posição de supremacia não é tão boa - o MI300 da AMD, o MI400, o Trainium 2 da Amazon, o Athena da Microsoft, o Gaudi 3 da Intel, não tornarão a Nvidia melhor.
Prepare-se, o ataque de alta energia pela frente!
O Google já começou a estabelecer sua própria infraestrutura de IA, e o TPUv5 e o TPUv5e que eles construíram podem ser usados tanto para treinamento interno e inferência, quanto para clientes externos como Apple, Anthropic, CharacterAI e MidJourney.
O Google não é a única ameaça da Nvidia.
No lado do software, o PyTorch 2.0 da Meta e o Triton da OpenAI também estão crescendo, tornando-o compatível com outros fornecedores de hardware.
Na pilha de software, as GPUs da AMD, a Gaudi da Intel, a MTIA da Meta e a Athena da Microsoft alcançaram algum grau de desenvolvimento.
Embora a NVIDIA ainda mantenha sua posição de liderança em hardware, a lacuna se fechará cada vez mais rápido.
O NVIDIA H100 não dominará por muito tempo.
Nos próximos meses, tanto o MI300 da AMD quanto o Gaudi 3 da Intel lançarão produtos de hardware tecnicamente superiores ao H100.
Embora essas empresas estejam temporariamente atrasadas no design de hardware, elas podem obter subsídios dos gigantes por trás delas - o mundo sofre com a NVIDIA há muito tempo, e essas empresas esperam quebrar o enorme monopólio de lucro da NVIDIA sobre a HBM.
Os próximos Trainium2 e Inferentia3 da Amazon, e o próximo Athena da Microsoft, são investimentos que estão em vigor há anos.
Os concorrentes são ameaçadores, e a Nvidia certamente não ficará parada.
E Huang Jenxun encarna o espírito de Andy Grove.
Para garantir a primeira posição, a NVIDIA é ambiciosa e adota uma estratégia aventureira multifacetada.
Eles não desdenham mais competir com Intel e AMD no mercado tradicional, mas querem se tornar gigantes da tecnologia como Google, Microsoft, Amazon, Meta e Apple.
**Roteiro últimos detalhes expostos! **
Detalhes importantes do roteiro mais recente da NVIDIA foram expostos.
Os detalhes incluem nós de rede, memória, empacotamento e processo, várias GPUs, seleção SerDes, PCIe 6.0, ótica co-empacotada e switches óticos.
B100: Tempo de comercialização acima de tudo
De acordo com fontes internas, o B100 da NVIDIA será produzido em massa no terceiro trimestre de 2024, e algumas amostras iniciais serão enviadas no segundo trimestre de 2024.
Em termos de desempenho e TCO, seja o Trainium 2 da Amazon, o TPUv5 do Google, o MI300X da AMD, o Gaudi 3 da Intel ou o Athena da Microsoft, é fraco em comparação com ele.
A fim de trazer o B100 para o mercado o mais rápido possível, a NVIDIA fez muitos compromissos.
Por exemplo, a NVIDIA queria definir o consumo de energia em um nível mais alto (1000W), mas no final, eles optaram por continuar a usar os 700W do H100.
Desta forma, o B100 pode continuar a usar tecnologia refrigerada a ar quando for lançado.
A combinação de 5.0 e 700W significa que ele pode ser conectado diretamente aos servidores H100 HGX existentes, melhorando consideravelmente a capacidade da cadeia de suprimentos e obtendo produção e expedição mais cedo.
Parte da razão para a decisão de manter a 5.0 é que a AMD e a Intel ainda estão muito atrasadas na integração PCIe 6.0. E mesmo a própria equipe interna da Nvidia não está pronta para usar CPUs PCIe 6.0.
Além disso, eles usarão links mais rápidos no estilo C2C.
A Broadcom e a AsteraLabs não terão seus retimers PCIe6.0 prontos para produção até o final do ano e, dado o tamanho desses substratos, apenas mais retimers serão necessários.
Isso também significa que o B100 original será limitado a 3.2T, e a velocidade ao usar o ConnectX-7 será de apenas 400G, em vez de 800G por GPU reivindicada pela NVIDIA no PPT.
Se você mantiver o ar fresco e a potência, PCIe e velocidades de rede constantes, é fácil de fabricar e implantar.
Esta versão do B100 fornecerá uma conexão de rede completa de 800G por GPU via ConnectX-8.
Para Ethernet/InfiniBand, estes SerDes ainda são 8x100G.
Embora a velocidade da rede por GPU tenha dobrado, a cardinalidade foi reduzida pela metade porque eles ainda precisam passar pelo mesmo switch 51.2T. O switch 102.4T não será mais usado na geração B100.
Curiosamente, foi relatado que o componente NVLink no B100 usará 224G SerDes, e se a NVIDIA puder realmente fazer isso, é sem dúvida uma grande melhoria.
A maioria das pessoas na indústria concorda que o 224G não é confiável e improvável de acontecer em 2024, exceto para as pessoas da Nvidia.
Seja Google, Meta ou Amazon, sua meta de produção em massa do acelerador de IA 224G está definida para 2026/2027.
Se a NVIDIA conseguir isso em 2024/2025, certamente vencerá seus adversários no chão.
Obviamente, para um tamanho de chip tão grande, o processo de 3nm da TSMC ainda não está maduro.
Os chips da SambaNova e da Intel no próximo ano usam designs macro semelhantes.
De acordo com a SemiAnalysis, a capacidade de memória desses dois chips B100 será semelhante ou superior ao MI300X da AMD, atingindo uma pilha de 24GB.
A versão refrigerada a ar do B100 pode atingir velocidades de até 6,4 Gbps, enquanto a versão refrigerada a líquido pode atingir até 9,2 Gbps.
Além disso, a NVIDIA também mostrou o GB200 e o B40 no roteiro.
Tanto o GB200 quanto o GX200 usam G, que é obviamente um espaço reservado, pois a NVIDIA introduzirá uma nova CPU baseada na arquitetura Arm. Eu não vou usar Grace por muito tempo.
É provável que o B40 tenha metade do tamanho do B100, com apenas um chip N4P monolítico e HBM com até 4 ou 6 camadas. Ao contrário do L40S, isso faz sentido para inferência em modelos pequenos.
"X100": Greve Crítica
A coisa mais impressionante sobre o roteiro exposto é o cronograma "X100" da NVIDIA.
Curiosamente, ele se encaixa perfeitamente com o cronograma atual do MI400 da AMD. Apenas um ano após o lançamento do H100, a AMD lançou sua estratégia MI300X.
A embalagem do MI300X da AMD é impressionante, e eles amontoam mais computação e memória nele, na esperança de superar o H100 há um ano e, assim, superar a Nvidia em hardware puro.
A Nvidia, que tem pressa, está acelerando o ciclo do produto para uma vez por ano, sem dar chance aos adversários. Por exemplo, eles planejam lançar o X100 em 2025, apenas um ano após o B100.
Claro, o "X100" ainda não está em produção em massa (ao contrário do B100), então tudo ainda está no ar.
Você sabe, no passado, a NVIDIA nunca discutiu produtos após a próxima geração de produtos, e desta vez já é inédito.
Além disso, o nome provavelmente não se chama "X100".
A Nvidia tem sido a tradição de nomear GPUs em homenagem a cientistas proeminentes como Ada Lovelace, Grace Hopper e Elizabeth Blackwell.
Quanto ao "X", o único lógico é Xie Xide, que estuda a estrutura de semicondutores e tiras metálicas, mas considerando sua identidade, a probabilidade deve ser pequena.
Desde o início da NVIDIA, Jensen Huang tem impulsionado ativamente o domínio da cadeia de suprimentos para apoiar metas de crescimento maciças.
Eles não apenas estão dispostos a aceitar pedidos não canceláveis – até US$ 11,15 bilhões em compromissos de compra, capacidade e estoque – mas também têm um acordo de pagamento inicial de US$ 3,81 bilhões.
Indiscutivelmente, nenhum fornecedor pode igualá-lo.
E a história da Nvidia mostrou mais de uma vez que eles podem aumentar criativamente a oferta quando a oferta está em falta.
Na época, Zhang não podia acreditar que a Nvidia precisava de tantas bolachas, mas Huang perseverou.
A NVIDIA alcançou grande sucesso experimentando o lado da oferta. Embora eles anotem bilhões de dólares em estoque de tempos em tempos, eles ainda obtêm ganhos positivos com o excesso de pedidos.
Desta vez, a NVIDIA aproveitou diretamente a maior parte do fornecimento de componentes upstream da GPU -
Eles fizeram pedidos muito grandes com três fornecedores HBM, SK Hynix, Samsung e Micron, excluindo o fornecimento de todos, exceto Broadcom e Google. Ao mesmo tempo, comprou também a maior parte do fornecimento da TSMC CoWoS, bem como a capacidade de produção da Amkor.
Além disso, a NVIDIA aproveita os componentes downstream exigidos pelas placas e servidores HGX, como retimers, DSPs, ótica e muito mais.
Se o fornecedor fizer ouvidos moucos aos requisitos da NVIDIA, então enfrentará o "rabanete e pau" de Lao Huang -
Por um lado, eles receberão pedidos inimagináveis da NVIDIA; Por outro lado, eles podem ser removidos da cadeia de suprimentos existente pela NVIDIA.
É claro que a NVIDIA também usa pedidos comprometidos e não canceláveis apenas se o fornecedor for crítico e não puder ser eliminado ou diversificar o fornecimento.
Voltando à dinâmica do mercado, enquanto a Nvidia pretende atingir mais de US$ 70 bilhões em vendas de data centers no próximo ano, apenas o Google tem capacidade suficiente a montante — com mais de 1 milhão de dispositivos. A capacidade total de produção da AMD no campo da IA ainda é muito limitada, com um máximo de apenas algumas centenas de milhares de unidades.
Estratégia de Negócio: Potencial Anti-Competitivo
Como todos sabemos, a NVIDIA está capitalizando a enorme demanda por GPUs para comercializar e vender produtos cruzados para os clientes.
Há uma riqueza de informações na cadeia de suprimentos que a NVIDIA fornece alocação prioritária para determinadas empresas com base em uma série de fatores. Incluindo, mas não limitado a: plano de compras diversificado, pesquisa independente e desenvolvimento de plano de chip de IA, compra de DGX, NIC, switch e/ou equipamentos óticos da NVIDIA, etc.
Pode-se dizer que estas estratégias são bastante minuciosas.
Por exemplo, a única maneira de implementar uma rede 3.2T e RDMA/RoCE confiável nos sistemas da NVIDIA é usar as NICs da NVIDIA. Claro, por um lado, é também porque os produtos da Intel, AMD e Broadcom são realmente pouco competitivos - ainda presos ao nível de 200G.
Através da gestão da cadeia de abastecimento, a NVIDIA também promoveu o ciclo de entrega de NICs 400G InfiniBand, que podem ser significativamente mais curtas do que as NICs Ethernet 400G. As duas NICs (ConnectX-7) são realmente idênticas em design de chip e placa.
A razão para isso é a configuração SKU da Nvidia, não o gargalo real da cadeia de suprimentos que força as empresas a comprar switches InfiniBand de custo mais alto em vez de switches Ethernet padrão.
E isso não é tudo, basta olhar para o quão obcecada a cadeia de suprimentos está com GPUs L40 e L40S, e você sabe que a Nvidia está jogando truques na distribuição novamente - para ganhar mais alocações H100, os OEMs precisam comprar mais L40S.
Isso é o mesmo que a operação da NVIDIA no espaço de PC - fabricantes de notebooks e parceiros AIB devem comprar G106/G107 maiores (GPUs médias/baixas) para obter as G102/G104 mais escassas e de margem mais alta (GPUs high-end e flagship GPUs).
Como um ajuste, as pessoas na cadeia de suprimentos também foram doutrinadas com a alegação de que o L40S é melhor do que o A100 porque tem FLOPS mais altos.
Mas, na realidade, essas GPUs não são adequadas para inferência LLM, pois têm menos da metade da largura de banda de memória do A100 e não têm NVLink.
Isso significa que rodar LLM na L40S e alcançar um bom TCO é quase impossível, exceto para modelos muito pequenos. O processamento em larga escala também resulta em o(s) token(s) alocado para cada usuário ser praticamente inutilizável, tornando o FLOPS teórico inútil em aplicações práticas.
Empresas como Dell, HP e Lenovo são claramente resistentes à MGX, mas empresas como Supermicro, Quanta, Asus, Gigabyte e outras estão lutando para preencher a lacuna e comercializar "IA empresarial" de baixo custo.
E esses OEMs/ODMs envolvidos no hype L40S e MGX também podem obter melhor alocação de produtos de GPU principal da NVIDIA.
Ótica Co-embalada
Em termos de CPO, a NVIDIA também atribui grande importância a ele.
Eles têm trabalhado em várias soluções, incluindo as da Ayar Labs, bem como as que eles próprios obtêm da Global Foundries e da TSMC.
Porque a integração direta na própria GPU pode ser muito cara e difícil em termos de confiabilidade.
Um dos maiores pontos fortes do Google em infraestrutura de IA é seu switch ótico.
Aparentemente, a Nvidia está buscando algo semelhante. Neste momento, contactaram várias empresas e esperam cooperar no desenvolvimento.
Ao contrário da escolha do Google de 6D Torus, a Nvidia prefere adotar uma estrutura Dragonfly.
No entanto, ninguém ainda demonstrou essa capacidade, nem mesmo o Google.
Embora o OCS e o CPO da NVIDIA sejam apenas dois conjuntos de PPTs no departamento de pesquisa, os analistas acreditam que o CPO estará um passo mais perto da produtização em 2025-2026.
Recursos: