Rompiendo el "monopolio" de NVIDIA con la diferenciación, d-Matrix reduce el costo de la potencia de cálculo de inferencia de IA en 30 veces

Fuente original: Alpha Commune

Fuente de la imagen: Generado por Unbounded AI

Detrás de la explosión de AIGC está la demanda masiva de entrenamiento y razonamiento de IA. NVIDIA es actualmente el mayor proveedor de potencia de cálculo de IA, y su rentabilidad en el segundo trimestre (un 854% interanual) envía una señal de que la demanda de potencia de cálculo de IA de la industria está lejos de ser satisfecha.

El monopolio de NVIDIA sobre la potencia de cálculo de la IA (cuota de mercado de más del 80%) ha hecho que muchas empresas que utilizan la potencia de la computación de la IA se preocupen, Microsoft, Amazon y OpenAI están construyendo activamente núcleos, y OpenAI también ha tenido escándalos de adquisición con nuevas empresas de chips de IA como Cerebras y Atomic Semi.

Los requisitos de potencia de cálculo de razonamiento de IA para ejecutar aplicaciones de IA superarán en gran medida los requisitos de potencia de cálculo para entrenar modelos grandes en el futuro, y los requisitos de potencia de cálculo de razonamiento no son los mismos que los de entrenamiento, y las GPU existentes para realizar inferencias no tienen ninguna ventaja en cuanto a costos, lo que requiere chips de inferencia de IA patentados.

Recientemente, d-Matrix, una startup centrada en chips de razonamiento de IA, recibió 110 millones de dólares en financiación de serie B, liderada por Temasek, incluidos inversores de rondas anteriores de financiación como Playground Global, M12 (Microsoft Venture Capital Fund), Industry Ventures, Ericsson Ventures, Samsung Ventures, SK Hynix, etc., con una inversión industrial que representa una parte considerable. Sid Sheth, CEO de d-Matrix, dijo: "Son capital que sabe cómo construir un negocio de semiconductores y puede trabajar con nosotros durante mucho tiempo. "

La nueva financiación de d-Matrix se utilizará para construir Corsair, su tarjeta de computación de inferencia de chiplet Digital In-Memory Computing (DIMC). Se dice que esta tarjeta es 9 veces más rápida que la GPU NVIDIA H100 y, en el caso de un clúster de tarjetas de cómputo, es 20 veces más eficiente energéticamente, 20 veces menos latencia y hasta 30 veces menos costosa que las soluciones similares de NVIDIA.

Dos veteranos de chips apuntan a las necesidades de potencia de cálculo de la IA en la era AIGC

Los sistemas de IA utilizan diferentes tipos de computación cuando entrenan modelos de IA en lugar de usarlos para predicciones e inferencias. La inferencia de IA requiere menos potencia de cálculo, pero cuando se ejecuta un gran servicio de IA, requiere más potencia de cálculo que el entrenamiento a largo plazo.

Es difícil implementar un centro de datos dedicado para la inferencia de IA a bajo costo utilizando el hardware de IA existente. Se informa que el servicio GitHub Copilot de Microsoft se publica un promedio de $ 20 por usuario por mes y, según Dylan Patel, analista principal de SemiAnalysis, el costo de inversión diario de OpenAI ejecutando ChatGPT puede ser tan alto como $ 700,000. Estos costos son costos de inferencia de IA que no se pueden reducir cuando se ejecutan servicios de IA.

La industria de la IA debería desarrollarse de forma más saludable, con menores costes de inferencia y menores costes de consumo de energía de los chips de inferencia de IA.

Dos veteranos de la industria de los chips, Sid Sheth y Sudeep Bhoja, fundaron d-Matrix en 2019 después de trabajar juntos anteriormente en Marvell y Broadcom. En 2019, el modelo de IA de la arquitectura Transformer apenas estaba emergiendo, y vieron el gran potencial y la oportunidad de esta arquitectura modelo y decidieron diseñar su hardware de IA específicamente para estos grandes modelos de lenguaje.

Sid Sheth, CEO y cofundador de d-Matrix, dijo: "Hicimos una apuesta en 2019 para centrarnos en una plataforma de aceleración para modelos Transformer y centrarnos en la inferencia, y a finales de 2022, cuando la IA generativa explotó, d-Matrix se convirtió en una de las pocas empresas en tener una plataforma de computación de inferencia de IA generativa. Crecimos y aprovechamos esta oportunidad en el transcurso de tres años. Todo nuestro hardware y software están diseñados para acelerar los modelos de Transformer y la IA generativa. "

Sid Sheth continuó describiendo la singularidad del posicionamiento de d-Matrix en el mercado: "La IA generativa cambiará para siempre el paradigma de cómo las personas y las empresas crean, trabajan e interactúan con la tecnología.

Pero el costo total de propiedad (TCO) actual para ejecutar la inferencia de IA está aumentando rápidamente, y el equipo de d-Matrix está cambiando la economía de costos de implementar la inferencia de IA con soluciones informáticas especialmente diseñadas para grandes modelos de lenguaje, y esta ronda de financiación confirma aún más nuestra posición en la industria. "

Michael Stewart, inversor en Microsoft M12, dijo: "Entramos oficialmente en producción cuando el TCO de la inferencia de grandes modelos de lenguaje se convierte en un factor limitante clave para que las empresas utilicen IA avanzada en sus servicios y aplicaciones. d-Matrix ha estado siguiendo un plan que proporcionará un TCO líder en la industria para una variedad de escenarios potenciales de servicio de modelos utilizando una arquitectura Chiplet flexible y resistente basada en un enfoque centrado en la memoria. "

Reducir el costo de la inferencia de IA en 30 veces

El uso de CPU y GPU para el entrenamiento y la inferencia de IA no es la forma más eficiente. Para las operaciones de inferencia de IA, el movimiento de datos es el mayor cuello de botella. Específicamente, la transferencia de datos de ida y vuelta a la memoria de acceso aleatorio provoca una latencia significativa, lo que a su vez conduce a un mayor consumo de energía y costos, y ralentiza todo el sistema de IA.

Hay tres formas de resolver este problema.

El primero acelera el aprendizaje profundo al reducir la cantidad de datos procesados a través del muestreo y las canalizaciones, pero también limita la exactitud y la precisión.

La segunda es configurar un procesador de motor de IA dedicado cerca del procesador tradicional, Apple, NVIDIA, Intel y AMD usan este método, pero estas soluciones aún usan la arquitectura de procesador tradicional de von Neumann, para integrar SRAM y memoria DRAM externa, todas necesitan mover datos dentro y fuera de la memoria, lo que aún resulta en un alto consumo de energía y baja eficiencia.

La tercera es acercar el cálculo a la RAM (memoria), que es el enfoque adoptado por d-Matrix. Esta arquitectura de motor, llamada Digital In-Memory Computing (DIMC), reduce la latencia y el consumo de energía. También es muy adecuado para la inferencia de IA, ya que la inferencia implica un conjunto de datos ponderado relativamente estático (pero grande) al que se accede repetidamente, y DIMC elimina la mayor parte de los gastos de transferencia de energía y los retrasos en el movimiento de datos.

d-Matrix utiliza varios chiplets para construir circuitos integrados más grandes, modulares y escalables. Esto le permite crear plataformas escalables para tareas de inferencia de IA de nivel empresarial, lo que ayuda a las empresas de IA a mejorar el rendimiento y la eficiencia.

Jayhawk II Chiplet

En 2021, d-Matrix lanzó el Nighthawk Chiplet, tras lo cual lanzaron Jayhawk Chiplet Platform, la primera plataforma de chiplets Open Domain-Specific Architecture (ODSA) Bunch of Vores (BoW) de la industria diseñada para proporcionar conectividad de chip a chip basada en sustrato orgánico energéticamente eficiente.

Los primeros productos que presentarán la arquitectura DIMC de d-Matrix se basarán en el recientemente anunciado procesador Jayhawk II, un chiplet que contiene aproximadamente 16.500 millones de transistores.

Cada chiplet Jayhawk II contiene un núcleo RISC-V para administrarlo, 32 núcleos Apollo (cada uno con ocho unidades DIMC que funcionan en paralelo) y 256 MB de SRAM con un ancho de banda de 150 TB/s. El núcleo se conecta mediante un chip de red especial con un ancho de banda de 84 TB/s.

Tarjeta de cómputo Corsair

d-Matrix también introdujo tarjetas de cómputo Corsair, similares a la H100 de NVIDIA, cada tarjeta de cómputo Corsair tiene 8 chiplets Jayhawk II, cada Jayhawk II proporciona un ancho de banda de chip a chip de 2 Tb/s (250 GB/s) y una sola tarjeta de cómputo Corsair tiene un ancho de banda agregado de chip a chip de 8 Tb/s (1 TB/s).

La arquitectura y la escalabilidad del software de d-Matrix le permiten agregar memoria SRAM integrada en un grupo de memoria unificado que proporciona un ancho de banda muy alto. Por ejemplo, un servidor con 16 tarjetas Corsair tiene 32 GB de SRAM y 2 TB de LPDDR5, lo que es suficiente para ejecutar un modelo Transformer con 20 mil millones a 30 mil millones de parámetros.

d-Matrix afirma que los servidores con tarjetas de cómputo Corsair reducen el costo total de propiedad de la inferencia de IA generativa de 10 a 30 veces en comparación con las soluciones basadas en GPU, pero este conjunto de hardware no estará disponible oficialmente hasta 2024.

Pila de software d-Matrix Aviator

El poder de NVIDIA en el poder de cómputo de IA radica no solo en la GPU, sino también en su pila de software CUDA y numerosas bibliotecas optimizadas para cargas de trabajo y casos de uso específicos, formando así un ecosistema completo.

d-Matrix también proporciona a los clientes una experiencia completa con la pila de software Aviator junto con el hardware, que incluye una gama de software para implementar modelos en producción, como cadenas de herramientas de ML, software de sistema para la distribución de cargas de trabajo, software de servidor de inferencia para implementaciones de producción, etc. Y gran parte de su pila de software aprovecha el software de código abierto ampliamente adoptado.

Apunta a un modelo relativamente pequeño

Sid Sheth, CEO de d-Matrix, señaló que, además de posicionar la inferencia de IA, se centran aún más en modelos de miles de millones a decenas de miles de millones de modelos pequeños y medianos, en lugar de los cientos de miles de millones de modelos grandes de propósito general.

Karl Freund, fundador y analista principal de Cambrian AI, una empresa de investigación de semiconductores e inteligencia artificial, está de acuerdo y dice: "La mayoría de las empresas no implementan modelos con cientos de miles de millones o billones de parámetros. Pero usarán los propios datos de la compañía para afinar el modelo, y el modelo que realmente implementarán será mucho más pequeño. Para un modelo de este tamaño, la NVIDIA H100 no es necesariamente la opción más económica en lo que respecta a la inferencia de IA, y la H100 se vende actualmente por hasta 40.000 dólares. "

También señaló que d-Matrix se enfrenta a una ventana de oportunidad, y tiene un período de tiempo relativamente en blanco para mostrar su valor antes de que gigantes como Nvidia recurran a este mercado.

Por ahora, d-Matrix espera ingresos de no más de 10 millones de dólares este año, principalmente de clientes que compran chips para su evaluación. El fundador Sheth dijo que d-Matrix espera ingresos anuales de más de 70 a 75 millones de dólares en dos años y alcanzar el punto de equilibrio. El espacio de mercado al que se enfrenta d-Matrix es enorme, y Cambrian AI predice que para 2030, es posible que la relación de consumo de energía informática de los chips de inferencia de IA alcance más de 1000 TOPS por vatio.

La autonomía y el coste son el terreno para los chips de IA

Por un lado, el terreno de supervivencia de las startups de chips de IA como d-Matrix proviene de las necesidades independientes y controlables de los fabricantes de IA, ya sean gigantes como Microsoft, Meta, Amazon, superunicornios como OpenAI, Anthropic, o startups líderes como Cohere, no quieren que su poder de cómputo de IA esté atado a una sola empresa.

Por otro lado, el costo operativo de los servicios de IA, para las grandes empresas modelo, a largo plazo, el costo de la potencia informática para ejecutar los servicios de IA será mayor que el costo de la potencia informática para los modelos de entrenamiento y, en esta etapa, el costo operativo de un solo usuario de las empresas de IA es un estado deficitario y el costo total de propiedad (TCO) también es alto. Para los gigantes ricos en efectivo, esta pérdida es asequible, pero para las startups, es una carga enorme, que ralentiza la expansión de su negocio.

La potencia informática de razonamiento de IA de bajo coste de terceros es extremadamente necesaria tanto para los gigantes como para las startups.

En esta etapa, ¿cuáles son los riesgos a los que se enfrentan las startups en el campo de los chips de IA? Uno es, por supuesto, el "monopolio" del gigante NVIDIA, así como Microsoft, Meta, Google, OpenAI, las mayores empresas de IA que desarrollaron chips por sí mismas, y luego el problema ecológico del software que soporta el chip.

Y estos problemas, d-Matrix está en proceso de resolverlos. Se dirige al mercado de modelos comerciales de IA pequeños y medianos, y también coopera con la comunidad de código abierto para construir un ecosistema de software, que puede darle una ventaja competitiva diferenciada en la competencia de los gigantes.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)