Mercado de modelos em grande escala, não apenas o HBM quente

Fonte Original: Indústria de Semicondutores Vertical e Horizontal

Fonte da imagem: Gerada por Unbounded AI‌

Recentemente, a HBM se tornou um tema quente na indústria de chips. De acordo com a TrendForce, o volume de bits da memória de alta largura de banda (HBM) deve atingir 290 milhões de GB em 2023, um aumento anual de aproximadamente 60%, e deve aumentar ainda mais em 30% em 2024. O conceito de memória HBM proposto pela AMD em 2008 foi realizado pela SK Hynix por meio da tecnologia TSV em 2013. 10 anos após sua introdução, a HBM parece ter realmente chegado à era da comercialização em larga escala.

A decolagem do conceito de HBM está diretamente relacionada à popularidade do AIGC. Os servidores AI têm maiores requisitos de largura de banda.Comparado com DDR SDRAM, o HBM tem maior largura de banda e menor consumo de energia. A largura de banda ultra alta torna o HBM um componente central da GPU de alto desempenho, e o HBM é basicamente a configuração padrão dos servidores AI. Atualmente, o custo do HBM ocupa o terceiro lugar no custo dos servidores de IA, respondendo por cerca de 9%, e o preço médio de venda de um único servidor chega a US$ 18.000.

Desde o surgimento do ChatGPT no ano passado, o mercado de modelos em grande escala começou a crescer rapidamente. No mercado doméstico, gigantes da tecnologia como Baidu, Ali, HKUST Xunfei, SenseTime e Huawei anunciaram sucessivamente que treinariam sua própria IA modelos em grande escala. A TrendForce prevê que em 2025 haverá 5 AIGCs de grande escala equivalentes ao ChatGPT, 25 produtos AIGC de médio porte da Midjourney e 80 produtos AIGC de pequena escala. . Essas são áreas de crescimento potencial para a HBM.

Desde o início de 2023, os pedidos de HBM da Samsung e SK Hynix aumentaram rapidamente, e o preço do HBM também aumentou. Recentemente, o preço do HBM3 DRAM aumentou 5 vezes. A Samsung recebeu pedidos da AMD e da Nvidia para aumentar o fornecimento da HBM. A SK hynix começou a expandir a linha de produção da HBM, visando dobrar a capacidade de produção da HBM. A mídia coreana informou que a Samsung planeja investir cerca de 760 milhões de dólares americanos para expandir a produção da HBM, com o objetivo de dobrar a capacidade de produção da HBM até o final do próximo ano, e a empresa fez grandes pedidos de equipamentos.

Vantagens do HBM no AIGC

Diretamente, a HBM aumentará o poder de computação dos servidores. Devido ao processamento de uma grande quantidade de dados em um curto período de tempo, os servidores AI têm maiores requisitos de largura de banda. A função do HBM é semelhante à "estação de transferência" de dados, que é salvar os dados da imagem, como cada quadro e imagem usada na área de buffer do quadro, e aguardar a chamada da GPU. Comparado com a tecnologia de memória tradicional, o HBM possui maior largura de banda, maior quantidade de E/S, menor consumo de energia e tamanho menor, o que pode melhorar muito o volume de processamento de dados e a taxa de transmissão dos servidores AI.

fonte: rambus See More

Pode-se ver que o HBM tem uma vantagem de nível "rolling" em termos de largura de banda. Se o HBM2E for executado a 3,6 Gbps em uma interface de 1024 bits, você obtém 3,7 TB por segundo de largura de banda, o que é mais de 18 vezes a largura de banda de LPDDR5 ou DDR4.

Além da vantagem da largura de banda, o HBM pode economizar área, que por sua vez pode acomodar mais GPUs no sistema. A memória HBM consiste em uma pilha de memória no mesmo pacote físico da GPU.

Essa arquitetura significa economia significativa de energia e área em comparação com os designs convencionais de memória GDDR5/6, permitindo que mais GPUs sejam instaladas no sistema. À medida que os conjuntos de dados de HPC, IA e análise de dados crescem em tamanho e os problemas computacionais se tornam mais complexos, cada vez mais capacidade de memória e largura de banda da GPU são necessárias. A GPU H100 SXM5 fornece mais de 3 TB/s de largura de banda de memória, suportando 80 GB (cinco pilhas) de memória HBM3 rápida, que é o dobro da largura de banda de memória do A100.

O preço tem sido um fator limitante para a HBM no passado. Mas agora o mercado de modelos em grande escala está em um período de disputa. Para os gigantes que projetam modelos em grande escala, tempo é dinheiro. Portanto, HBM, que é "caro e caro", tornou-se o novo favorito dos grandes gigantes modelo escala. Com o aumento gradual da demanda por GPUs de ponta, o HBM começou a se tornar a configuração padrão dos servidores de IA.

Atualmente, o A100 e o H100 da Nvidia estão equipados com 80 GB de HBM2e e HBM3. Em seu último chip Grace Hopper que integra CPU e GPU, a capacidade de carga HBM de um único chip aumentou 20%, chegando a 96 GB.

O MI300 da AMD também é equipado com HBM3. Entre eles, a capacidade do MI300A é a mesma dos 128 GB da geração anterior, e o MI300X de ponta chega a 192 GB, um aumento de 50%.

Espera-se que o Google expanda ativamente sua cooperação com a Broadcom no segundo semestre de 2023 para desenvolver o chip de aceleração AISC AI TPU também está planejado para ser equipado com memória HBM para expandir a infraestrutura AI.

Layout acelerado do fornecedor de armazenamento

Essa "cena de dinheiro" permite que os gigantes do armazenamento acelerem o layout da memória HBM. Atualmente, os três principais fabricantes de chips de memória do mundo estão transferindo mais capacidade de produção para produzir HBM, mas como leva tempo para ajustar a capacidade de produção, é difícil aumentar rapidamente a produção de HBM e espera-se que o fornecimento de HBM permaneça apertado nos próximos dois anos.

O mercado da HBM é controlado principalmente pelos três maiores gigantes DRAM. No entanto, ao contrário do mercado DRAM, liderado pela Samsung, o SK Hynix se desenvolveu melhor no mercado HBM. Conforme mencionado no início, a SK Hynix desenvolveu o primeiro produto HBM. Em abril de 2023, a SK Hynix anunciou o desenvolvimento do primeiro produto HBM3 DRAM de 24 GB, que usa a tecnologia TSV para empilhar verticalmente 12 chips DRAM de produto único que são 40% mais finos que os chips existentes, atingindo a mesma altura dos produtos de 16 GB. Enquanto isso, a SK Hynix planeja preparar amostras do HBM3E com desempenho de transmissão de dados de 8 Gbps no segundo semestre de 2023 e colocá-lo em produção em massa em 2024.

O layout das empresas domésticas de semicondutores para a HBM gira principalmente em torno do campo de embalagem e interfaces.

A NationalChip Technology está atualmente pesquisando e planejando a tecnologia de empacotamento de chip 2.5D de memória multi-HBM e promovendo ativamente a pesquisa, o desenvolvimento e a aplicação da tecnologia Chiplet. Após a conclusão da linha de produção 2.5D/3D da Tongfu Microelectronics Co., Ltd., ela realizará um avanço doméstico no campo da tecnologia de embalagem de alto desempenho da HBM. A BIWIN lançou chips e módulos de memória de alto desempenho e continuará prestando atenção à tecnologia HBM. O chip PCIe 5.0/CXL 2.0 Retimer da Montage Technology atingiu a produção em massa. Este chip é uma atualização importante do produto PCIe 4.0 Retimer da Montage Technology, que pode fornecer ao setor um PCIe 5.0/CXL 2.0 estável e confiável de alta largura de banda e baixa latência solução de interconexão.

Embora a HBM seja boa, ela ainda precisa ter calma. A HBM ainda está em um estágio relativamente inicial e seu futuro ainda tem um longo caminho a percorrer. É previsível que, à medida que mais e mais fabricantes continuem a se esforçar em áreas como IA e aprendizado de máquina, a complexidade do design de produtos de memória está aumentando rapidamente e os requisitos mais altos são impostos à largura de banda. A crescente demanda por banda larga continuará a impulsionar o desenvolvimento da HBM.

O calor do HBM reflete a capacidade de condução do AIGC. Então, além de HBM e GPU, existem outros produtos que podem aproveitar essa nova tendência?

Fale sobre outros chips inflamados

As vantagens do FPGA estão começando a aparecer

FPGA (Field Programmable Gate Array) é um circuito integrado com elementos lógicos programáveis, memória e recursos de interconexão. Ao contrário do ASIC (Application Specific Integrated Circuit), o FPGA tem as vantagens de flexibilidade, personalização, capacidade de processamento paralelo e fácil atualização.

Através da programação, os usuários podem alterar os cenários de aplicação do FPGA a qualquer momento, e o FPGA pode simular várias operações paralelas de CPU, GPU e outro hardware. Portanto, também é chamado de "chip universal" na indústria.

Os FPGAs fazem sentido para as necessidades de raciocínio de inteligência artificial de modelos subjacentes que mudam frequentemente. A programabilidade do FPGA excede a economia típica do uso do FPGA. Para ser claro, os FPGAs não serão concorrentes sérios de sistemas de IA de larga escala usando milhares de GPUs, mas conforme a IA penetra ainda mais na eletrônica, a gama de aplicações para FPGAs se expandirá.

A vantagem do FPGA sobre GPU é menor consumo de energia e latência. A GPU não consegue fazer bom uso da memória on-chip e precisa ler com frequência a DRAM off-chip, então o consumo de energia é muito alto. O FPGA pode usar de forma flexível o armazenamento no chip, portanto, o consumo de energia é muito menor do que o da GPU.

Em 27 de junho, a AMD anunciou o lançamento do sistema em chip (SoC) adaptável AMD Versal Premium VP1902, que é um SoC adaptativo baseado em FPGA. Este é um dispositivo baseado em chiplet de nível de emulação que simplifica a verificação de designs de semicondutores cada vez mais complexos. É relatado que o AMD VP1902 se tornará o maior FPGA do mundo. Comparado com o produto da geração anterior (Xilinx VU19P), o novo VP1902 adiciona a função Versal e adota um design de chip pequeno, que mais que dobra o desempenho principal do FPGA.

O Dongxing Securities Research Report acredita que o FPGA tem uma grande vantagem no raciocínio de IA em virtude das vantagens de atraso e consumo de energia trazidas por sua arquitetura. O relatório de pesquisa anterior da Zheshang Securities também apontou que, além da GPU, a solução CPU+FPGA também pode atender à enorme demanda de poder de computação da IA.

Ao contrário da HBM que está sendo monopolizada por empresas estrangeiras, as empresas nacionais já acumularam chips FPGA.

O principal negócio da Anlu Technology é P&D, design e vendas de chips FPGA e software EDA especial. Os produtos têm sido amplamente utilizados em controle industrial, comunicação de rede, eletrônicos de consumo e outros campos. A Ziguang Tongchuang, uma subsidiária da Ziguang Guowei, é uma empresa profissional de FPGA que projeta e vende chips FPGA de uso geral. Ziguang Guowei afirmou certa vez no briefing de desempenho que o chip FPGA da empresa pode ser usado no campo de IA. A Dongtu Technology realiza principalmente a industrialização de chips FPGA. A equipe da empresa, Zhongke Yihai Micro, desenvolveu de forma independente um software EDA para apoiar o desenvolvimento de aplicativos de seus produtos FPGA.

Nova Ideia para Substituição Doméstica: Integração de Armazenamento e Computação + Chiplet

Podemos usar nossos processos e tecnologias disponíveis atualmente para desenvolver chips de IA que possam competir com a Nvidia em termos de desempenho? Algumas “novas ideias” surgiram, como a integração de armazenamento e cálculo + Chiplet.

A separação de armazenamento e cálculo levará a gargalos de poder de computação. Com o rápido desenvolvimento da tecnologia de IA, a demanda por poder de computação explodiu. Na era pós-Moore, a largura de banda de armazenamento restringe a largura de banda efetiva do sistema de computação, e o crescimento do poder de computação do sistema está lutando. Por exemplo, leva 99 dias para treinar o modelo BERT do zero com 8 blocos de 1080TI. A arquitetura integrada de computação de armazenamento não possui o conceito de armazenamento multinível profundo. Todos os cálculos são implementados na memória, eliminando assim a parede de armazenamento e a sobrecarga adicional correspondente causada pela heterogeneidade da computação de armazenamento; a eliminação da parede de armazenamento pode muito reduza o manuseio de dados. , não apenas melhora a velocidade de transmissão e processamento de dados, mas também melhora a taxa de eficiência energética várias vezes.

Por um lado, o consumo de energia necessário para processar o mesmo poder de computação entre a arquitetura integrada de computação de armazenamento e o processador de arquitetura tradicional será reduzido; Abra a parede de compilação da arquitetura tradicional.

Estudiosos da Arizona State University lançaram um simulador de benchmark de arquitetura IMC baseado em chiplet SIAM em 2021 para avaliar o potencial dessa nova arquitetura no treinamento de modelos grandes de IA. O SIAM integra dispositivos, circuitos, arquitetura, rede em chip (NoC), rede em pacote (NoP) e modelos de acesso DRAM para permitir um sistema de computação de alto desempenho de ponta a ponta. O SIAM é escalável no suporte a redes neurais profundas (DNNs) e pode ser personalizado para várias estruturas e configurações de rede. Sua equipe de pesquisa demonstra a flexibilidade, escalabilidade e velocidade de simulação do SIAM comparando diferentes DNNs avançados usando conjuntos de dados CIFAR-10, CIFAR-100 e ImageNet. Diz-se que, em comparação com NVIDIA V100 e GPU T4, a arquitetura chiplet + IMC obtida por meio do SIAM mostra que a eficiência energética do ResNet-50 no conjunto de dados ImageNet aumentou em 130 e 72, respectivamente.

Isso significa que espera-se que o chip AI integrado de computação de armazenamento alcance uma integração heterogênea com a ajuda da tecnologia Chiplet e da tecnologia de empacotamento de pilha 2.5D / 3D, formando assim um sistema de computação em grande escala. A combinação de armazenamento e cálculo + Chiplet parece ser uma maneira viável de realizá-lo. Diz-se que a Yizhu Technology está explorando esse caminho. Seu armazenamento e cálculo de primeira geração integrado AI chip comercial de grande poder de computação pode atingir um único poder de computação de cartão de mais de 500T, e o consumo de energia dentro de 75W. Talvez isso comece o prelúdio para a segunda curva de crescimento do poder de computação da IA.

Conclusão

Na Conferência Mundial de Inteligência Artificial, a CEO da AMD, Lisa Su, disse que haverá um superciclo de computação em larga escala nos próximos dez anos. Portanto, é um bom momento para se tornar um fornecedor de tecnologia e também é diferente de algumas empresas que usará essas tecnologias para desenvolver diferentes tecnologias. Um bom momento para trabalhar com os clientes do aplicativo.

Ninguém quer uma indústria com apenas um player dominante. O mercado de modelos em larga escala pode permitir que a indústria de chips tenha uma nova estrutura de mercado e novos players possam surgir?

"O mercado de modelos grandes trouxe novos padrões de mercado e oportunidades para a indústria de chips. Ao promover o desenvolvimento de chips de IA, promover o crescimento dos mercados de computação em nuvem e data center e desencadear mudanças no cenário competitivo, o surgimento de modelos grandes trouxe novas oportunidades para a indústria de chips.direção de desenvolvimento.

Deve-se notar que a indústria de chips é uma indústria altamente competitiva e intensiva em tecnologia. A entrada no setor requer recursos financeiros e técnicos substanciais para atender aos complexos requisitos de fabricação e P&D. Embora o mercado de modelos em larga escala ofereça oportunidades para novos players, eles precisam superar desafios técnicos, financeiros e de marketing para ter sucesso na altamente competitiva indústria de chips. "Chatgpt respondeu.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)