Quebrando o "monopólio" da NVIDIA com diferenciação, o d-Matrix reduz o custo do poder de computação de inferência de IA em 30 vezes

2023-10-12 03:21:59

Fonte original: Alpha Commune

Fonte da imagem: Gerado por Unbounded AI

Por trás da explosão do AIGC está a enorme demanda por treinamento e raciocínio de IA. A NVIDIA é atualmente o maior fornecedor de poder de computação de IA, e sua lucratividade no segundo trimestre (aumento de 854% ano a ano) envia um sinal de que a demanda da indústria por poder de computação de IA está longe de ser atendida.

O monopólio da NVIDIA no poder de computação de IA (participação de mercado de mais de 80%) fez com que muitas empresas que usam poder de computação de IA se preocupassem, Microsoft, Amazon e OpenAI estão construindo núcleos ativamente, e a OpenAI também teve escândalos de aquisição com startups de chips de IA, como Cerebras e Atomic Semi.

Os requisitos de poder de computação de raciocínio de IA para executar aplicativos de IA excederão muito os requisitos de poder de computação para treinar modelos grandes no futuro, e os requisitos para o poder de computação de raciocínio não são os mesmos que treinamento, e as GPUs existentes para fazer inferência não têm vantagem em custo, o que requer chips de inferência de IA proprietários.

Recentemente, a d-Matrix, startup focada em chips de raciocínio de IA, recebeu US$ 110 milhões em financiamento Série B, liderado pela Temasek, incluindo investidores de rodadas anteriores de financiamento, como Playground Global, M12 (Microsoft Venture Capital Fund), Industry Ventures, Ericsson Ventures, Samsung Ventures, SK Hynix, etc., com investimento industrial representando uma parte considerável. Sid Sheth, CEO da d-Matrix, disse: "Eles são capital que sabe como construir um negócio de semicondutores e pode trabalhar conosco por um longo tempo. "

O novo financiamento da d-Matrix será usado para construir o Corsair, seu Digital In-Memory Computing (DIMC) Chiplet Inference Computing Card. Diz-se que esta placa é 9 vezes mais rápida do que a GPU NVIDIA H100 e, no caso de um cluster de placas de computação, é 20 vezes mais eficiente em termos de energia, 20 vezes menos latência e até 30 vezes mais barata do que as soluções semelhantes da NVIDIA.

Dois veteranos de chips visam a IA raciocinando as necessidades de poder de computação na era AIGC

Os sistemas de IA usam diferentes tipos de computação ao treinar modelos de IA versus usá-la para previsões e inferência. A inferência de IA requer menos poder de computação, mas ao executar um grande serviço de IA, requer mais poder de computação do que treinamento a longo prazo.

É difícil implantar um data center dedicado para inferência de IA a baixo custo usando hardware de IA existente. É relatado que o serviço GitHub Copilot da Microsoft é postado uma média de US $ 20 por usuário por mês, e de acordo com Dylan Patel, analista principal da SemiAnalysis, o custo de investimento diário do OpenAI executando o ChatGPT pode chegar a US $ 700.000. Esses custos são custos de inferência de IA que não podem ser reduzidos ao executar serviços de IA.

A indústria de IA deve se desenvolver de forma mais saudável, com menores custos de inferência e menores custos de consumo de energia dos chips de inferência de IA.

Dois veteranos da indústria de chips, Sid Sheth e Sudeep Bhoja, fundaram a d-Matrix em 2019, depois de trabalharem juntos na Marvell e na Broadcom. Em 2019, o modelo de IA da arquitetura Transformer estava apenas surgindo, e eles viram o grande potencial e oportunidade dessa arquitetura de modelo e decidiram projetar seu hardware de IA especificamente para esses grandes modelos de linguagem.

Sid Sheth, CEO e cofundador da d-Matrix, disse: "Fizemos uma aposta em 2019 para focar em uma plataforma de aceleração para modelos Transformer e focar na inferência, e até o final de 2022, quando a IA generativa explodiu, a d-Matrix se tornou uma das poucas empresas a ter uma plataforma de computação de inferência de IA generativa. Crescemos e agarrámos esta oportunidade ao longo de três anos. Todo o nosso hardware e software são construídos para acelerar modelos de transformadores e IA generativa. "

Sid Sheth continuou descrevendo a singularidade do posicionamento de mercado da d-Matrix: "A IA generativa mudará para sempre o paradigma de como as pessoas e as empresas criam, trabalham e interagem com a tecnologia.

Mas o atual custo total de propriedade (TCO) para executar a inferência de IA está aumentando rapidamente, e a equipe d-Matrix está mudando a economia de custo da implantação da inferência de IA com soluções de computação construídas especificamente para modelos de linguagem grande, e esta rodada de financiamento confirma ainda mais nossa posição no setor. "

Michael Stewart, um investidor no Microsoft M12, disse: "Entramos oficialmente em produção quando o TCO da inferência de modelos de linguagem grande se torna um fator limitante chave para as empresas usarem IA avançada em seus serviços e aplicativos. A d-Matrix tem seguido um plano que fornecerá TCO líder do setor para uma variedade de cenários potenciais de atendimento de modelos usando uma arquitetura Chiplet flexível e resiliente baseada em uma abordagem centrada na memória. "

Reduza o custo da inferência de IA em 30x

Usar CPUs e GPUs para treinamento e inferência de IA não é a maneira mais eficiente. Para operações de inferência de IA, a movimentação de dados é o maior gargalo. Especificamente, a transferência de dados para a memória de acesso aleatório causa latência significativa, o que, por sua vez, leva a um maior consumo de energia e custos, e retarda todo o sistema de IA.

Existem três formas de resolver este problema.

O primeiro acelera a aprendizagem profunda, reduzindo a quantidade de dados processados através de amostragem e pipelines, mas também limita a precisão e a precisão.

O segundo é configurar um processador de motor de IA dedicado perto do processador tradicional, Apple, NVIDIA, Intel e AMD todos usam este método, mas essas soluções ainda usam a arquitetura de processador von Neumann tradicional, para integrar SRAM e memória DRAM externa, todos eles precisam mover dados para dentro e para fora da memória, resultando ainda em alto consumo de energia e baixa eficiência.

O terceiro é aproximar a computação da RAM (memória), que é a abordagem adotada pelo d-Matrix. Esta arquitetura de motor, chamada Digital In-Memory Computing (DIMC), reduz a latência e o consumo de energia. Também é adequado para inferência de IA, pois a inferência envolve um conjunto de dados ponderado relativamente estático (mas grande) que é acessado repetidamente, e o DIMC elimina a maioria das despesas de transferência de energia e atrasos de movimentação de dados.

O d-Matrix usa vários chiplets para construir circuitos integrados maiores, modulares e escaláveis. Isso permite que ele crie plataformas escaláveis para tarefas de inferência de IA de nível empresarial, ajudando as empresas de IA a melhorar o desempenho e a eficiência.

Chip Jayhawk II

Em 2021, a d-Matrix lançou o Nighthawk Chiplet, após o qual lançou a Jayhawk Chiplet Platform, a primeira plataforma de chiplet Bunch of Vores (BoW) Open Domain-Specific Architecture (ODSA) da indústria, projetada para fornecer conectividade chip-to-chip baseada em substrato orgânico energeticamente eficiente.

Os primeiros produtos a apresentar a arquitetura DIMC da d-Matrix serão baseados no recém-anunciado processador Jayhawk II, um Chiplet contendo aproximadamente 16,5 bilhões de transistores.

Cada Chip Jayhawk II contém um núcleo RISC-V para gerenciá-lo, 32 núcleos Apollo (cada um com oito unidades DIMC operando em paralelo) e 256 MB SRAM com 150TB/s de largura de banda. O núcleo é conectado usando um chip de rede especial com largura de banda de 84TB/s.

Placa de computação Corsair

A d-Matrix também introduziu placas de computação Corsair, semelhantes ao H100 da NVIDIA, cada placa de computação Corsair tem 8 chiplets Jayhawk II, cada Jayhawk II fornece 2Tb/s (250GB/s) de largura de banda chip-to-chip, e uma única placa de computação Corsair tem 8Tb/s (1TB/s) de largura de banda agregada chip-to-chip.

A arquitetura e a escalabilidade de software do d-Matrix permitem agregar memória SRAM integrada em um pool de memória unificado que fornece largura de banda muito alta. Por exemplo, um servidor com 16 placas Corsair tem 32 GB de SRAM e 2 TB de LPDDR5, o que é suficiente para executar um modelo Transformer com 20 bilhões a 30 bilhões de parâmetros.

A d-Matrix afirma que os servidores com placas de computação Corsair reduzem o custo total de propriedade da inferência de IA generativa em 10 a 30 vezes em comparação com as soluções baseadas em GPU, mas esse conjunto de hardware não estará oficialmente disponível até 2024.

Pilha de software d-Matrix Aviator

O poder de computação da NVIDIA em IA não está apenas na GPU, mas também em sua pilha de software CUDA e inúmeras bibliotecas otimizadas para cargas de trabalho e casos de uso específicos, formando assim um ecossistema completo.

A d-Matrix também oferece aos clientes uma experiência completa com a pilha de software Aviator juntamente com hardware, que inclui uma gama de software para implantação de modelos em produção, como cadeias de ferramentas de ML, software de sistema para distribuição de carga de trabalho, software de servidor de inferência para implantações de produção, etc. E grande parte de sua pilha de software aproveita o software de código aberto amplamente adotado.

Aponte para um modelo relativamente pequeno

Sid Sheth, CEO da d-Matrix, apontou que, além de posicionar a inferência de IA, eles estão ainda mais focados em modelos de vários bilhões a dezenas de bilhões de modelos de pequeno e médio porte, em vez das centenas de bilhões de modelos grandes.

Karl Freund, fundador e analista principal da Cambrian AI, uma empresa de pesquisa de semicondutores e IA, concorda, dizendo: "A maioria das empresas não implanta modelos com centenas de bilhões ou trilhões de parâmetros. Mas eles usarão os próprios dados da empresa para ajustar o modelo, e o modelo que eles realmente implantarão será muito menor. Para um modelo desse tamanho, o NVIDIA H100 não é necessariamente a opção mais econômica quando se trata de inferência de IA, e o H100 atualmente é vendido por até US $ 40.000. "

Ele também apontou que d-Matrix enfrenta uma janela de oportunidade, e ele tem um período de tempo relativamente em branco para mostrar seu valor antes que gigantes como a Nvidia se voltem para esse mercado.

Por enquanto, a d-Matrix espera uma receita não superior a US$ 10 milhões este ano, principalmente de clientes que compram chips para avaliação. O fundador Sheth disse que a d-Matrix espera uma receita anual de mais de US$ 70 milhões a US$ 75 milhões em dois anos e atingir o ponto de equilíbrio. O espaço de mercado enfrentado pela d-Matrix é enorme, e a Cambrian AI prevê que, até 2030, é possível que a taxa de consumo de energia computacional dos chips de inferência de IA atinja mais de 1000 TOPS por watt.

Autonomia e custo são o solo para chips de IA

Por um lado, o solo de sobrevivência de startups de chips de IA como a d-Matrix vem das necessidades independentes e controláveis dos fabricantes de IA, sejam gigantes como Microsoft, Meta, Amazon, super unicórnios como OpenAI, Anthropic, ou startups líderes como a Cohere, eles não querem que seu poder de computação de IA seja vinculado a uma única empresa.

Por outro lado, o custo operacional dos serviços de IA, para grandes empresas modelo, a longo prazo, o custo do poder de computação para executar serviços de IA será maior do que o custo do poder de computação para modelos de treinamento e, nesta fase, o custo operacional de um único usuário de empresas de IA é um estado deficitário, e o custo total de propriedade (TCO) também é alto. Para os gigantes ricos em dinheiro, essa perda é acessível, mas para as startups, é um fardo enorme, retardando a expansão de seus negócios.

O poder de computação de raciocínio de IA de terceiros e de baixo custo é extremamente necessário tanto para gigantes quanto para startups.

Nesta fase, quais são os riscos enfrentados pelas startups na área de chips de IA? Um deles é, claro, o "monopólio" da gigante NVIDIA, bem como Microsoft, Meta, Google, OpenAI, as maiores empresas de IA auto-desenvolveram chips e, em seguida, o problema ecológico de software que suporta o chip.

E esses problemas, d-Matrix está em processo de resolução. Ele visa o mercado de modelos comerciais de IA de pequeno e médio porte, e também coopera com a comunidade de código aberto para construir um ecossistema de software, o que pode lhe dar uma vantagem competitiva diferenciada na concorrência de gigantes.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
17k Popularidade
2White House Crypto Report
4k Popularidade
3Fed Holds Rates Decision
6k Popularidade
4Alpha Points System Opens
15k Popularidade
5Ethereum 10th Anniversary
21k Popularidade

Pino