Fonte: Revisão da tecnologia Yuanchuan** (ID: kechuangych)**
Depois que o último relatório financeiro trimestral da Nvidia foi anunciado, a AMD não apenas silenciou a Intel e derramou lágrimas, mas os analistas que fizeram uma construção psicológica de longo prazo não esperavam que a situação real superasse as expectativas.
O que é ainda mais assustador é que a receita da Nvidia aumentou 854% em relação ao ano anterior, principalmente porque “ela só pode vender até certo ponto” em vez de “vender tanto”. Por trás de muitos pequenos ensaios sobre “startups que tomam hipotecas H100” reflete o fato de que a oferta de GPUs H100 é escassa.
Se a escassez continuar até o final deste ano, o desempenho da Nvidia pode ser ainda mais chocante.
A escassez do H100 é uma reminiscência de alguns anos atrás, quando as GPUs estavam fora de estoque devido ao aumento vertiginoso das criptomoedas e a Nvidia foi repreendida com violência pelos jogadores. No entanto, a escassez de placas gráficas naquela época devia-se em grande parte ao prémio excessivo, enquanto a escassez de H100 se devia à capacidade de produção limitada e não podiam ser compradas a um preço mais elevado.
Em outras palavras, a Nvidia ainda ganhou menos dinheiro.
Na teleconferência do dia da divulgação do relatório financeiro, “capacidade” tornou-se naturalmente a palavra mais frequente. Nesse sentido, a redação da Nvidia é rigorosa e está determinada a não carregar o pote que não deveria ser carregado:
“Em termos de participação de mercado, não é algo que possamos alcançar sozinhos, é necessário abranger muitos fornecedores diferentes”.
Na verdade, existem apenas dois dos “muitos fornecedores diferentes” que a Nvidia chama:
SK Hynix e TSMC.
HBM: o jogo coreano
Se você olhar apenas para a proporção de área, um chip H100, apenas cerca de 50% pertence à Nvidia.
Na vista em corte transversal do chip, a matriz H100 ocupa a posição central, com três pilhas HBM de cada lado, e a área combinada é equivalente à matriz H100.
Esses seis chips de memória medíocres são um dos culpados pela escassez de fornecimento do H100.
HBM (High Bandwidth Memory) é traduzido literalmente como memória de alta largura de banda, que assume parte da memória da GPU.
Diferente da memória DDR tradicional, a HBM basicamente empilha várias memórias DRAM verticalmente, o que não apenas aumenta a capacidade da memória, mas também pode controlar bem o consumo de energia e a área do chip da memória, e reduzir o espaço ocupado dentro do pacote.
A "memória empilhada" foi originalmente voltada para o mercado de smartphones, que é muito sensível à área do chip e à geração de calor, mas o problema é que devido ao alto custo de produção, os smartphones finalmente escolheram a rota LPDDR mais econômica, resultando em tecnologia vazia para memória empilhada. Reservado, mas não foi possível encontrar a cena de pouso.
Até 2015, a AMD, cuja participação de mercado estava perdendo terreno, esperava aproveitar a popularidade dos jogos em 4K para copiar uma onda da Nvidia.
Na série de GPUs AMD Fiji lançada naquele ano, a AMD adotou a memória empilhada desenvolvida em conjunto com a SK Hynix e a nomeou HBM (High Bandwidth Memory).
A visão da AMD é que os jogos 4K exijam maior eficiência na transferência de dados e as vantagens da alta largura de banda da memória HBM possam ser refletidas. Naquela época, a placa de vídeo Radeon R9 Fury X da AMD realmente superou a nova arquitetura Nvidia Kepler em termos de desempenho no papel.
Mas o problema é que a melhoria da largura de banda trazida pela HBM é obviamente difícil de compensar seu próprio alto custo, por isso não foi popularizada.
Até 2016, AlphaGo varreu o campeão de xadrez Li Shishi, e nasceu o aprendizado profundo, que fez a memória HBM entrar em ação.
O núcleo do aprendizado profundo é treinar o modelo por meio de dados massivos, determinar os parâmetros da função e trazer os dados reais para a decisão de obter a solução final.
Teoricamente falando, quanto maior a quantidade de dados, mais confiáveis são os parâmetros da função, o que faz com que o treinamento em IA tenha uma busca quase patológica pela taxa de transferência e atraso na transmissão de dados, e esse é exatamente o problema resolvido pela memória HBM.
Em 2017, AlphaGo lutou novamente contra Ke Jie, e o chip foi substituído por um TPU desenvolvido pelo próprio Google. Em termos de design de chip, cada geração de TPU, a partir da segunda geração, adota o design da HBM. A nova GPU Tesla P100 da Nvidia para data centers e aprendizado profundo está equipada com a segunda geração de memória HBM (HBM2).
Como quase todos os chips GPU no mercado de computação de alto desempenho estão equipados com memória HBM, a concorrência entre os gigantes do armazenamento em torno da HBM também está se desenvolvendo rapidamente.
Atualmente, existem apenas três gigantes da memória no mundo que podem produzir HBM em massa: SK Hynix, Samsung Electronics e Micron.
SK Hynix é um dos inventores do HBM e atualmente é o único fabricante que produz em massa HBM3E (HBM de terceira geração); a Samsung Electronics entrou no mercado com HBM2 (HBM de segunda geração) e é o primeiro fornecedor de GPU da Nvidia usando HBM; Micron O mais atrasado, só mudou de HMC para HBM em 2018, e a produção em massa de HBM2 começou em meados de 2020.
Entre eles, a SK Hynix monopoliza 50% da participação de mercado da HBM, e seu fornecimento exclusivo de HBM3E para a Nvidia bloqueou firmemente o envio do H100:
As versões H100 PCIe e SXM usam 5 pilhas HBM, a versão H100S SXM pode chegar a 6 e a versão H100 NVL promovida pela Nvidia atingiu 12. De acordo com o desmantelamento da instituição de pesquisa, o custo de uma única pilha HBM de 16 GB chega a US$ 240. Então, apenas o custo do chip de memória H100 NVL é de quase 3.000 dólares americanos.
O custo ainda é um pequeno problema, considerando que o Google TPU v5 e o AMD MI300, que competem diretamente com o H100, serão produzidos em massa em breve, e os dois últimos também usarão o HBM3E, Chen Neng está ainda mais esticado.
Diante do aumento da demanda, diz-se que a SK Hynix estabeleceu uma pequena meta de duplicar sua capacidade de produção e começou a expandir sua linha de produção. Samsung e Micron também estão se preparando para o HBM3E. No entanto, na indústria de semicondutores, expandindo as linhas de produção nunca foi alcançado da noite para o dia.
De acordo com a previsão otimista do ciclo de 9 a 12 meses, a capacidade de produção do HBM3E não será reabastecida até pelo menos o segundo trimestre do próximo ano.
Além disso, mesmo que a capacidade de produção da HBM seja resolvida, quanto o H100 pode fornecer depende da face da TSMC.
CoWoS: a espada do TSMC
O analista Robert Castellano fez um cálculo há pouco tempo: o H100 é produzido usando o processo 4N da TSMC (5 nm), e o preço de um wafer de 12 polegadas com processo 4N é de US$ 13.400. Em teoria, 86 chips H100 podem ser cortados.
Se o rendimento da produção não for considerado, então para cada H100 produzido, a TSMC pode ganhar US$ 155 em receita [6] 。
Mas, na verdade, a receita que cada H100 traz para a TSMC provavelmente ultrapassará US$ 1.000. A razão é que o H100 usa a tecnologia de embalagem CoWoS da TSMC, e a receita gerada pela embalagem chega a US$ 723. [6] 。
Cada H100 que sai da linha de produção N4/N5 da 18ª fábrica da TSMC será enviado para a segunda fábrica avançada de embalagens e testes da TSMC no mesmo parque para completar a etapa mais especial e crucial na fabricação do H100 - CoWoS.
Para entender a importância do empacotamento CoWoS, ainda precisamos começar com o design do chip do H100.
Em produtos GPU de consumo, os chips de memória geralmente são empacotados em torno do núcleo da GPU e os sinais são transmitidos através de circuitos entre placas PCB.
Por exemplo, na imagem abaixo, o chip RTX4090 também é produzido pela Nvidia, o núcleo da GPU e a memória GDDR são embalados separadamente e montados em uma placa PCB, independentes um do outro.
Tanto a GPU quanto a CPU seguem a arquitetura von Neumann, e seu núcleo está na “separação de armazenamento e cálculo” – ou seja, quando o chip processa dados, ele precisa recuperar os dados da memória externa e depois transferi-los para a memória após a conclusão do cálculo. Uma vez, causará um atraso no cálculo. Ao mesmo tempo, a “quantidade” de transferências de dados será limitada em conformidade.
A relação entre GPU e memória pode ser comparada a Pudong e Puxi em Xangai. O transporte de materiais (dados) entre os dois locais depende da Ponte Nanpu. A capacidade de carga da Ponte Nanpu determina a eficiência do transporte de materiais. Essa capacidade de carga é a largura de banda de memória, que determina Afeta a velocidade de transmissão de dados e afeta indiretamente a velocidade de computação da GPU.
De 1980 a 2000, a “incompatibilidade de velocidade” entre GPU e memória aumentou a uma taxa de 50% ao ano. Em outras palavras, mesmo que o Túnel Rodoviário Longyao e o Túnel Rodoviário Shangzhong sejam construídos, eles não serão capazes de atender ao crescimento do transporte de materiais entre Pudong e Puxi, o que fez com que a largura de banda se tornasse um gargalo cada vez mais óbvio na computação de alto desempenho. cenários.
A diferença entre o desempenho da CPU/GPU e o desempenho da memória está aumentando
Em 2015, ao aplicar a memória HBM, a AMD também adotou uma solução inovadora para transmissão de dados: combinar Pudong e Puxi.
Simplificando, a placa gráfica da arquitetura Fiji de 2015 “costurou” a memória HBM e o núcleo da GPU, transformando vários pequenos chips em um grande chip. Desta forma, a eficiência da transferência de dados é duplicada.
No entanto, como mencionado acima, devido a questões técnicas e de custo, a arquitetura Fiji da AMD não permitiu que o mercado a comprasse. No entanto, a explosão do aprendizado profundo e a busca do treinamento em IA por eficiência na transferência de dados, independentemente do custo, tornaram a "costura de chips" útil.
Além disso, a ideia da AMD é boa, mas também traz um novo problema - não importa quantas vantagens a HBM tenha, ela deve cooperar com a avançada tecnologia de empacotamento de "seam chip", e as duas estão intimamente relacionadas.
Se for dito que a memória HBM ainda pode ser comparada com três empresas, então o pacote avançado usado no “chip de costura” parece ser o único que pode ser fabricado pela TSMC.
CoWoS é o ponto de partida do negócio de embalagens avançadas da TSMC, e a Nvidia é a primeira empresa de chips a adotar esta tecnologia.
CoWoS é uma combinação de CoW e oS: CoW significa Chip on Wafer, que se refere ao processo de montagem de chips nus em um wafer, e oS significa on Substrate, que significa o processo de embalagem em um substrato.
A embalagem tradicional geralmente tem apenas o link do sistema operacional. Depois que a fundição conclui a fabricação do wafer, ele é entregue a uma fábrica de embalagens e testes de terceiros para resolução. No entanto, o link CoW adicionado pela embalagem avançada não pode ser resolvido pela embalagem e teste fábrica.
Tomando como exemplo um chip H100 completo, várias pilhas HBM são distribuídas em torno da matriz H100, que são unidas por meio da tecnologia CoW. Mas não apenas emenda, mas comunicação entre a matriz e a pilha ao mesmo tempo.
O CoW da TSMC difere de outras embalagens avançadas porque coloca a matriz e a pilha em um intermediário de silício (essencialmente um wafer) e interconecta canais no intermediário para realizar a comunicação entre a matriz e a pilha.
Semelhante ao EMIB da Intel, a diferença é que ele está interligado através de uma ponte de silício. No entanto, a largura de banda é muito menor do que a do interposer de silício. Considerando que a largura de banda está intimamente relacionada à taxa de transmissão de dados, o CoWoS se tornou a única opção para o H100.
Esta é mais uma mão que está presa na capacidade de produção do H100.
Embora o efeito do CoWoS seja contra o céu, o preço altíssimo de 4.000-6.000 dólares americanos por peça ainda impede muitas pessoas, incluindo a Apple, que é extremamente rica. Portanto, a capacidade de produção preparada da TSMC é bastante limitada.
No entanto, a onda de IA estourou repentinamente e o equilíbrio entre oferta e demanda foi quebrado instantaneamente.
Já em junho, havia rumores de que a demanda da Nvidia por CoWoS este ano atingiu 45.000 wafers, enquanto a estimativa da TSMC no início do ano era de 30.000 wafers.Juntamente com as necessidades de outros clientes, a lacuna na capacidade de produção ultrapassou 20%.
Para compensar a lacuna, a batalha da TSMC não é pequena.
Em junho, a TSMC lançou oficialmente a sexta fábrica avançada de embalagens e testes em Nanke. A sala limpa por si só é maior do que o resto das fábricas de embalagens e testes combinadas. Também prometeu aumentar a capacidade de produção de CoWoS trimestre a trimestre. Por esse motivo, parte do sistema operacional é terceirizado para uma fábrica de embalagens e testes de terceiros.
Mas assim como não é fácil para a HBM expandir a produção, levará tempo para a TSMC expandir a produção. Atualmente, o prazo de entrega de alguns equipamentos e componentes de embalagem varia de 3 a 6 meses, ainda não se sabe quanta nova capacidade de produção poderá ser aberta antes do final do ano.
##Plano B que não existe
Diante da escassez estrutural do H100, a Nvidia não está completamente sem o Plano B.
Na teleconferência após a divulgação do relatório financeiro, a Nvidia revelou que a capacidade de produção do CoWoS já foi certificada por outros fornecedores. Embora eu não tenha dito quem é, considerando o limiar técnico de embalagens avançadas, além do TSMC, apenas o EMIB com deficiência congênita da Intel e o I-Cube da Samsung, que vem se desenvolvendo há muito tempo e aguardando clientes, podem mal combata o fogo.
No entanto, a substituição da tecnologia central é como mudar de general antes da batalha. Como o AMD MI300 está prestes a ser produzido e enviado em massa, a competição por chips de IA é acirrada. Temo que Huang Renxun também esteja preocupado se ele pode integrar com a tecnologia da Intel e Samsung.
Mais ansiosos do que Huang Renxun podem estar os fornecedores de serviços em nuvem e start-ups de IA que não podem comprar o H100. Afinal, os jogadores não conseguem a placa gráfica, ou seja, o número de frames do jogo é 20 frames a menos; as grandes empresas não conseguem o H100 e podem perder bilhões em receitas e dezenas de bilhões em avaliação.
Existem três tipos principais de empresas que precisam do H100: provedores de serviços em nuvem, como Microsoft e Amazon; empresas iniciantes, como Anthropic e OpenAI; e grandes empresas de tecnologia, como Tesla.
Isso não inclui empresas financeiras como a Citadel e empresas chinesas que não podem comprar a versão especial do H800.
De acordo com o cálculo de GPU Utils [7] , uma estimativa conservadora, a actual lacuna de oferta de H100 atingiu 430.000.
Embora existam alternativas teóricas ao H100, nenhuma delas é viável em situações práticas.
Por exemplo, o produto antecessor do H100, A100, custa apenas cerca de 1/3 do preço do H100. Mas o problema é que o desempenho do H100 é muito mais forte do que o do A100, resultando em maior poder de computação por custo unitário do H100 do que do A100. Considerando que as empresas de tecnologia passam a comprar centenas ou milhares de exemplares, comprar o A100 é ainda pior.
A AMD é outra alternativa, e o desempenho no papel não fica muito atrás do H100. No entanto, devido às barreiras do ecossistema CUDA da Nvidia, o uso da GPU da AMD provavelmente tornará o ciclo de desenvolvimento mais longo, e os concorrentes que usam o H100 provavelmente abrirão uma lacuna consigo mesmos por causa dessa diferença de tempo, e até investirão centenas de milhões de dólares, sem retorno.
Por vários motivos, um chip com um custo total de material de 3.000 dólares americanos, a Nvidia adicionou diretamente um item de varejo e todos correram para comprá-lo. Isso pode ser algo que o próprio Huang Renxun não esperava.
Antes que a capacidade de produção da HBM e CoWoS melhore, pode haver apenas uma maneira de comprar o H100:
Espere que as startups que compraram um monte de H100 saiam do mercado, gabando-se e arrecadando dinheiro, e então peguem suas GPUs de segunda mão.
Referências
[1] Restrições de capacidade de IA - CoWoS e HBM Supply Chain,SemiAnálise
[2] A fábrica original está expandindo ativamente a produção e a taxa de crescimento anual do fornecimento de bits HBM é estimada em 105% em 2024, TrendForce
[3] Que mudanças a tecnologia HBM trará para o data center? Indústria de semicondutores vertical e horizontal
[4] Pacote avançado, parte II: revisão de opções/uso para Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla e Nvidia, semianálise
[5] O cofundador da OpenAI e cientista de meio período, Andrej Karpathy, tuitou
[6] Semicondutor de Taiwan: significativamente subvalorizado como fornecedor de chips e pacotes para Nvidia , SeekingAlpha
[7] GPUs Nvidia H100: oferta e demanda, utilitários de GPU
Editor: Li Motian
Design Visual: Shurui
Editor responsável: Li Motian
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Quem prendeu o pescoço da Nvidia?
Original: He Luheng
Fonte: Revisão da tecnologia Yuanchuan** (ID: kechuangych)**
Depois que o último relatório financeiro trimestral da Nvidia foi anunciado, a AMD não apenas silenciou a Intel e derramou lágrimas, mas os analistas que fizeram uma construção psicológica de longo prazo não esperavam que a situação real superasse as expectativas.
O que é ainda mais assustador é que a receita da Nvidia aumentou 854% em relação ao ano anterior, principalmente porque “ela só pode vender até certo ponto” em vez de “vender tanto”. Por trás de muitos pequenos ensaios sobre “startups que tomam hipotecas H100” reflete o fato de que a oferta de GPUs H100 é escassa.
Se a escassez continuar até o final deste ano, o desempenho da Nvidia pode ser ainda mais chocante.
A escassez do H100 é uma reminiscência de alguns anos atrás, quando as GPUs estavam fora de estoque devido ao aumento vertiginoso das criptomoedas e a Nvidia foi repreendida com violência pelos jogadores. No entanto, a escassez de placas gráficas naquela época devia-se em grande parte ao prémio excessivo, enquanto a escassez de H100 se devia à capacidade de produção limitada e não podiam ser compradas a um preço mais elevado.
Em outras palavras, a Nvidia ainda ganhou menos dinheiro.
Na teleconferência do dia da divulgação do relatório financeiro, “capacidade” tornou-se naturalmente a palavra mais frequente. Nesse sentido, a redação da Nvidia é rigorosa e está determinada a não carregar o pote que não deveria ser carregado:
“Em termos de participação de mercado, não é algo que possamos alcançar sozinhos, é necessário abranger muitos fornecedores diferentes”.
Na verdade, existem apenas dois dos “muitos fornecedores diferentes” que a Nvidia chama:
SK Hynix e TSMC.
HBM: o jogo coreano
Se você olhar apenas para a proporção de área, um chip H100, apenas cerca de 50% pertence à Nvidia.
Na vista em corte transversal do chip, a matriz H100 ocupa a posição central, com três pilhas HBM de cada lado, e a área combinada é equivalente à matriz H100.
Esses seis chips de memória medíocres são um dos culpados pela escassez de fornecimento do H100.
HBM (High Bandwidth Memory) é traduzido literalmente como memória de alta largura de banda, que assume parte da memória da GPU.
Diferente da memória DDR tradicional, a HBM basicamente empilha várias memórias DRAM verticalmente, o que não apenas aumenta a capacidade da memória, mas também pode controlar bem o consumo de energia e a área do chip da memória, e reduzir o espaço ocupado dentro do pacote.
A "memória empilhada" foi originalmente voltada para o mercado de smartphones, que é muito sensível à área do chip e à geração de calor, mas o problema é que devido ao alto custo de produção, os smartphones finalmente escolheram a rota LPDDR mais econômica, resultando em tecnologia vazia para memória empilhada. Reservado, mas não foi possível encontrar a cena de pouso.
Até 2015, a AMD, cuja participação de mercado estava perdendo terreno, esperava aproveitar a popularidade dos jogos em 4K para copiar uma onda da Nvidia.
Na série de GPUs AMD Fiji lançada naquele ano, a AMD adotou a memória empilhada desenvolvida em conjunto com a SK Hynix e a nomeou HBM (High Bandwidth Memory).
A visão da AMD é que os jogos 4K exijam maior eficiência na transferência de dados e as vantagens da alta largura de banda da memória HBM possam ser refletidas. Naquela época, a placa de vídeo Radeon R9 Fury X da AMD realmente superou a nova arquitetura Nvidia Kepler em termos de desempenho no papel.
Mas o problema é que a melhoria da largura de banda trazida pela HBM é obviamente difícil de compensar seu próprio alto custo, por isso não foi popularizada.
Até 2016, AlphaGo varreu o campeão de xadrez Li Shishi, e nasceu o aprendizado profundo, que fez a memória HBM entrar em ação.
O núcleo do aprendizado profundo é treinar o modelo por meio de dados massivos, determinar os parâmetros da função e trazer os dados reais para a decisão de obter a solução final.
Teoricamente falando, quanto maior a quantidade de dados, mais confiáveis são os parâmetros da função, o que faz com que o treinamento em IA tenha uma busca quase patológica pela taxa de transferência e atraso na transmissão de dados, e esse é exatamente o problema resolvido pela memória HBM.
Em 2017, AlphaGo lutou novamente contra Ke Jie, e o chip foi substituído por um TPU desenvolvido pelo próprio Google. Em termos de design de chip, cada geração de TPU, a partir da segunda geração, adota o design da HBM. A nova GPU Tesla P100 da Nvidia para data centers e aprendizado profundo está equipada com a segunda geração de memória HBM (HBM2).
Como quase todos os chips GPU no mercado de computação de alto desempenho estão equipados com memória HBM, a concorrência entre os gigantes do armazenamento em torno da HBM também está se desenvolvendo rapidamente.
Atualmente, existem apenas três gigantes da memória no mundo que podem produzir HBM em massa: SK Hynix, Samsung Electronics e Micron.
SK Hynix é um dos inventores do HBM e atualmente é o único fabricante que produz em massa HBM3E (HBM de terceira geração); a Samsung Electronics entrou no mercado com HBM2 (HBM de segunda geração) e é o primeiro fornecedor de GPU da Nvidia usando HBM; Micron O mais atrasado, só mudou de HMC para HBM em 2018, e a produção em massa de HBM2 começou em meados de 2020.
Entre eles, a SK Hynix monopoliza 50% da participação de mercado da HBM, e seu fornecimento exclusivo de HBM3E para a Nvidia bloqueou firmemente o envio do H100:
As versões H100 PCIe e SXM usam 5 pilhas HBM, a versão H100S SXM pode chegar a 6 e a versão H100 NVL promovida pela Nvidia atingiu 12. De acordo com o desmantelamento da instituição de pesquisa, o custo de uma única pilha HBM de 16 GB chega a US$ 240. Então, apenas o custo do chip de memória H100 NVL é de quase 3.000 dólares americanos.
O custo ainda é um pequeno problema, considerando que o Google TPU v5 e o AMD MI300, que competem diretamente com o H100, serão produzidos em massa em breve, e os dois últimos também usarão o HBM3E, Chen Neng está ainda mais esticado.
Diante do aumento da demanda, diz-se que a SK Hynix estabeleceu uma pequena meta de duplicar sua capacidade de produção e começou a expandir sua linha de produção. Samsung e Micron também estão se preparando para o HBM3E. No entanto, na indústria de semicondutores, expandindo as linhas de produção nunca foi alcançado da noite para o dia.
De acordo com a previsão otimista do ciclo de 9 a 12 meses, a capacidade de produção do HBM3E não será reabastecida até pelo menos o segundo trimestre do próximo ano.
Além disso, mesmo que a capacidade de produção da HBM seja resolvida, quanto o H100 pode fornecer depende da face da TSMC.
CoWoS: a espada do TSMC
O analista Robert Castellano fez um cálculo há pouco tempo: o H100 é produzido usando o processo 4N da TSMC (5 nm), e o preço de um wafer de 12 polegadas com processo 4N é de US$ 13.400. Em teoria, 86 chips H100 podem ser cortados.
Se o rendimento da produção não for considerado, então para cada H100 produzido, a TSMC pode ganhar US$ 155 em receita [6] 。
Mas, na verdade, a receita que cada H100 traz para a TSMC provavelmente ultrapassará US$ 1.000. A razão é que o H100 usa a tecnologia de embalagem CoWoS da TSMC, e a receita gerada pela embalagem chega a US$ 723. [6] 。
Cada H100 que sai da linha de produção N4/N5 da 18ª fábrica da TSMC será enviado para a segunda fábrica avançada de embalagens e testes da TSMC no mesmo parque para completar a etapa mais especial e crucial na fabricação do H100 - CoWoS.
Para entender a importância do empacotamento CoWoS, ainda precisamos começar com o design do chip do H100.
Em produtos GPU de consumo, os chips de memória geralmente são empacotados em torno do núcleo da GPU e os sinais são transmitidos através de circuitos entre placas PCB.
Por exemplo, na imagem abaixo, o chip RTX4090 também é produzido pela Nvidia, o núcleo da GPU e a memória GDDR são embalados separadamente e montados em uma placa PCB, independentes um do outro.
Tanto a GPU quanto a CPU seguem a arquitetura von Neumann, e seu núcleo está na “separação de armazenamento e cálculo” – ou seja, quando o chip processa dados, ele precisa recuperar os dados da memória externa e depois transferi-los para a memória após a conclusão do cálculo. Uma vez, causará um atraso no cálculo. Ao mesmo tempo, a “quantidade” de transferências de dados será limitada em conformidade.
A relação entre GPU e memória pode ser comparada a Pudong e Puxi em Xangai. O transporte de materiais (dados) entre os dois locais depende da Ponte Nanpu. A capacidade de carga da Ponte Nanpu determina a eficiência do transporte de materiais. Essa capacidade de carga é a largura de banda de memória, que determina Afeta a velocidade de transmissão de dados e afeta indiretamente a velocidade de computação da GPU.
De 1980 a 2000, a “incompatibilidade de velocidade” entre GPU e memória aumentou a uma taxa de 50% ao ano. Em outras palavras, mesmo que o Túnel Rodoviário Longyao e o Túnel Rodoviário Shangzhong sejam construídos, eles não serão capazes de atender ao crescimento do transporte de materiais entre Pudong e Puxi, o que fez com que a largura de banda se tornasse um gargalo cada vez mais óbvio na computação de alto desempenho. cenários.
Em 2015, ao aplicar a memória HBM, a AMD também adotou uma solução inovadora para transmissão de dados: combinar Pudong e Puxi.
Simplificando, a placa gráfica da arquitetura Fiji de 2015 “costurou” a memória HBM e o núcleo da GPU, transformando vários pequenos chips em um grande chip. Desta forma, a eficiência da transferência de dados é duplicada.
No entanto, como mencionado acima, devido a questões técnicas e de custo, a arquitetura Fiji da AMD não permitiu que o mercado a comprasse. No entanto, a explosão do aprendizado profundo e a busca do treinamento em IA por eficiência na transferência de dados, independentemente do custo, tornaram a "costura de chips" útil.
Além disso, a ideia da AMD é boa, mas também traz um novo problema - não importa quantas vantagens a HBM tenha, ela deve cooperar com a avançada tecnologia de empacotamento de "seam chip", e as duas estão intimamente relacionadas.
Se for dito que a memória HBM ainda pode ser comparada com três empresas, então o pacote avançado usado no “chip de costura” parece ser o único que pode ser fabricado pela TSMC.
CoWoS é o ponto de partida do negócio de embalagens avançadas da TSMC, e a Nvidia é a primeira empresa de chips a adotar esta tecnologia.
CoWoS é uma combinação de CoW e oS: CoW significa Chip on Wafer, que se refere ao processo de montagem de chips nus em um wafer, e oS significa on Substrate, que significa o processo de embalagem em um substrato.
A embalagem tradicional geralmente tem apenas o link do sistema operacional. Depois que a fundição conclui a fabricação do wafer, ele é entregue a uma fábrica de embalagens e testes de terceiros para resolução. No entanto, o link CoW adicionado pela embalagem avançada não pode ser resolvido pela embalagem e teste fábrica.
Tomando como exemplo um chip H100 completo, várias pilhas HBM são distribuídas em torno da matriz H100, que são unidas por meio da tecnologia CoW. Mas não apenas emenda, mas comunicação entre a matriz e a pilha ao mesmo tempo.
O CoW da TSMC difere de outras embalagens avançadas porque coloca a matriz e a pilha em um intermediário de silício (essencialmente um wafer) e interconecta canais no intermediário para realizar a comunicação entre a matriz e a pilha.
Semelhante ao EMIB da Intel, a diferença é que ele está interligado através de uma ponte de silício. No entanto, a largura de banda é muito menor do que a do interposer de silício. Considerando que a largura de banda está intimamente relacionada à taxa de transmissão de dados, o CoWoS se tornou a única opção para o H100.
Esta é mais uma mão que está presa na capacidade de produção do H100.
Embora o efeito do CoWoS seja contra o céu, o preço altíssimo de 4.000-6.000 dólares americanos por peça ainda impede muitas pessoas, incluindo a Apple, que é extremamente rica. Portanto, a capacidade de produção preparada da TSMC é bastante limitada.
No entanto, a onda de IA estourou repentinamente e o equilíbrio entre oferta e demanda foi quebrado instantaneamente.
Já em junho, havia rumores de que a demanda da Nvidia por CoWoS este ano atingiu 45.000 wafers, enquanto a estimativa da TSMC no início do ano era de 30.000 wafers.Juntamente com as necessidades de outros clientes, a lacuna na capacidade de produção ultrapassou 20%.
Para compensar a lacuna, a batalha da TSMC não é pequena.
Em junho, a TSMC lançou oficialmente a sexta fábrica avançada de embalagens e testes em Nanke. A sala limpa por si só é maior do que o resto das fábricas de embalagens e testes combinadas. Também prometeu aumentar a capacidade de produção de CoWoS trimestre a trimestre. Por esse motivo, parte do sistema operacional é terceirizado para uma fábrica de embalagens e testes de terceiros.
Mas assim como não é fácil para a HBM expandir a produção, levará tempo para a TSMC expandir a produção. Atualmente, o prazo de entrega de alguns equipamentos e componentes de embalagem varia de 3 a 6 meses, ainda não se sabe quanta nova capacidade de produção poderá ser aberta antes do final do ano.
##Plano B que não existe
Diante da escassez estrutural do H100, a Nvidia não está completamente sem o Plano B.
Na teleconferência após a divulgação do relatório financeiro, a Nvidia revelou que a capacidade de produção do CoWoS já foi certificada por outros fornecedores. Embora eu não tenha dito quem é, considerando o limiar técnico de embalagens avançadas, além do TSMC, apenas o EMIB com deficiência congênita da Intel e o I-Cube da Samsung, que vem se desenvolvendo há muito tempo e aguardando clientes, podem mal combata o fogo.
No entanto, a substituição da tecnologia central é como mudar de general antes da batalha. Como o AMD MI300 está prestes a ser produzido e enviado em massa, a competição por chips de IA é acirrada. Temo que Huang Renxun também esteja preocupado se ele pode integrar com a tecnologia da Intel e Samsung.
Mais ansiosos do que Huang Renxun podem estar os fornecedores de serviços em nuvem e start-ups de IA que não podem comprar o H100. Afinal, os jogadores não conseguem a placa gráfica, ou seja, o número de frames do jogo é 20 frames a menos; as grandes empresas não conseguem o H100 e podem perder bilhões em receitas e dezenas de bilhões em avaliação.
Existem três tipos principais de empresas que precisam do H100: provedores de serviços em nuvem, como Microsoft e Amazon; empresas iniciantes, como Anthropic e OpenAI; e grandes empresas de tecnologia, como Tesla.
Isso não inclui empresas financeiras como a Citadel e empresas chinesas que não podem comprar a versão especial do H800.
De acordo com o cálculo de GPU Utils [7] , uma estimativa conservadora, a actual lacuna de oferta de H100 atingiu 430.000.
Embora existam alternativas teóricas ao H100, nenhuma delas é viável em situações práticas.
Por exemplo, o produto antecessor do H100, A100, custa apenas cerca de 1/3 do preço do H100. Mas o problema é que o desempenho do H100 é muito mais forte do que o do A100, resultando em maior poder de computação por custo unitário do H100 do que do A100. Considerando que as empresas de tecnologia passam a comprar centenas ou milhares de exemplares, comprar o A100 é ainda pior.
A AMD é outra alternativa, e o desempenho no papel não fica muito atrás do H100. No entanto, devido às barreiras do ecossistema CUDA da Nvidia, o uso da GPU da AMD provavelmente tornará o ciclo de desenvolvimento mais longo, e os concorrentes que usam o H100 provavelmente abrirão uma lacuna consigo mesmos por causa dessa diferença de tempo, e até investirão centenas de milhões de dólares, sem retorno.
Por vários motivos, um chip com um custo total de material de 3.000 dólares americanos, a Nvidia adicionou diretamente um item de varejo e todos correram para comprá-lo. Isso pode ser algo que o próprio Huang Renxun não esperava.
Antes que a capacidade de produção da HBM e CoWoS melhore, pode haver apenas uma maneira de comprar o H100:
Espere que as startups que compraram um monte de H100 saiam do mercado, gabando-se e arrecadando dinheiro, e então peguem suas GPUs de segunda mão.
Referências
[1] Restrições de capacidade de IA - CoWoS e HBM Supply Chain,SemiAnálise
[2] A fábrica original está expandindo ativamente a produção e a taxa de crescimento anual do fornecimento de bits HBM é estimada em 105% em 2024, TrendForce
[3] Que mudanças a tecnologia HBM trará para o data center? Indústria de semicondutores vertical e horizontal
[4] Pacote avançado, parte II: revisão de opções/uso para Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla e Nvidia, semianálise
[5] O cofundador da OpenAI e cientista de meio período, Andrej Karpathy, tuitou
[6] Semicondutor de Taiwan: significativamente subvalorizado como fornecedor de chips e pacotes para Nvidia , SeekingAlpha
[7] GPUs Nvidia H100: oferta e demanda, utilitários de GPU
Editor: Li Motian
Design Visual: Shurui
Editor responsável: Li Motian