¡El nacimiento de GPT-5 requiere 50,000 H100! La demanda global total de H100 es de 430 000, y la GPU Nvidia está en una tormenta de escasez

2023-08-06 06:37:26

Fuente original: Xinzhiyuan

Fuente de la imagen: Generada por Unbounded AI‌

“Quién recibirá, cuánto H100 y cuándo será el tema más candente en Silicon Valley”.

El cofundador de OpenAI y científico a tiempo parcial, Andrej Karpathy, publicó recientemente un artículo en el que explica su punto de vista sobre la escasez de GPU NVIDIA.

Recientemente, una imagen "¿Cuántas GPU necesitamos?" que ha circulado ampliamente en la comunidad ha provocado discusiones entre muchos internautas.

Según el contenido que se muestra en la figura:

GPT-4 probablemente fue entrenado en alrededor de 10,000-25,000 A100

-Meta sobre 21000 A100

-Tesla alrededor de 7000 A100

Estabilidad AI sobre 5000 A100
Falcon-40B entrenado en 384 A100

– Inflexión usó 3500 y H100 para entrenar un modelo comparable a GPT-3.5

Además, según Musk, GPT-5 puede necesitar 30 000-50 000 H100.

Anteriormente, Morgan Stanley había declarado que GPT-5 utiliza 25 000 GPU y ha estado entrenando desde febrero, pero Sam Altman aclaró más tarde que GPT-5 aún no ha sido entrenado.

Sin embargo, Altman declaró anteriormente,

Tenemos muy pocas GPU, cuantas menos personas utilicen nuestros productos, mejor.

Estaríamos felices si la gente usara menos, porque no tenemos suficientes GPU.

En este artículo titulado "GPU Nvidia H100: oferta y demanda", se ofrece un análisis en profundidad del uso y la demanda de GPU por parte de las empresas de tecnología actuales.

El artículo especula que la capacidad del clúster H100 a gran escala de los proveedores de nube pequeños y grandes está a punto de agotarse, y la tendencia de la demanda de H100 continuará al menos hasta finales de 2024.

Entonces, ¿la demanda de GPU es realmente un cuello de botella?

Requisitos de GPU de las principales empresas: alrededor de 430 000 H100

En la actualidad, la explosión de la IA generativa no se ha ralentizado y ha planteado mayores requisitos de potencia informática.

Algunas nuevas empresas están utilizando el costoso y extremadamente alto rendimiento H100 de Nvidia para entrenar modelos.

Las GPU son más difíciles de conseguir que las drogas en este momento, dijo Musk.

Sam Altman dice que OpenAI está limitado por GPU, lo que retrasa sus planes a corto plazo (ajuste fino, capacidad dedicada, ventanas de contexto de 32k, multimodalidad).

Los comentarios de Karpathy aparecen como informes anuales de las principales empresas tecnológicas que incluso analizan cuestiones relacionadas con el acceso a la GPU.

La semana pasada, Microsoft publicó su informe anual y destacó a los inversores que las GPU son una "materia prima clave" para su negocio en la nube en rápido crecimiento. Si la infraestructura requerida no está disponible, puede haber un factor de riesgo para las interrupciones del centro de datos.

Este artículo supuestamente está escrito por el autor de la publicación de HK.

Supuso que OpenAI podría necesitar 50 000 H100, mientras que Inflection necesita 22 000, Meta podría necesitar 25 000 y los grandes proveedores de servicios en la nube podrían necesitar 30 000 (como Azure, Google Cloud, AWS, Oracle).

Lambda, CoreWeave y otras nubes privadas pueden necesitar un total de 100k. Escribió que Anthropic, Helsing, Mistral y Character podrían necesitar 10k cada uno.

Los autores dicen que todas estas son estimaciones y conjeturas aproximadas, algunas de las cuales son la nube de conteo doble y los clientes finales que alquilan equipos de la nube.

En general, las empresas globales necesitan alrededor de 432 000 H100. Calculado en alrededor de $ 35k por H100, las necesidades totales de GPU cuestan $ 15 mil millones.

Esto no incluye las empresas nacionales de Internet que necesitan una gran cantidad de H800.

También hay algunas compañías financieras conocidas, como Jane Street, JP Morgan, Two Sigma, etc., cada una de las cuales está implementando, comenzando con cientos de A/H100 y expandiéndose a miles de A/H100.

Todos los grandes laboratorios, incluidos OpenAI, Anthropic, DeepMind, Google y X.ai, están entrenando grandes modelos de lenguaje, y el H100 de Nvidia es insustituible.

¿Por qué H100 es la primera opción?

El H100 es más popular que el A100 como primera opción, en parte debido a la menor latencia de caché y la computación FP8.

Porque su eficiencia es hasta 3 veces, pero el costo es solo (1.5-2 veces). Teniendo en cuenta el costo total del sistema, el rendimiento del H100 es mucho mayor.

En términos de detalles técnicos, en comparación con el A100, el H100 es aproximadamente 3,5 veces más rápido con razonamiento de 16 bits y aproximadamente 2,3 veces más rápido con entrenamiento de 16 bits.

Velocidad A100 frente a H100

Formación H100 Ministerio de Educación

Aceleración masiva H100

La mayoría de las empresas compran el H100 y lo usan para entrenamiento e inferencia, mientras que el A100 es principalmente para inferencia.

Sin embargo, algunas empresas dudan en cambiar debido al costo, la capacidad, el riesgo de usar y configurar un nuevo hardware y el hecho de que el software existente ya está optimizado para el A100.

GPU no es una escasez, sino un problema de la cadena de suministro

Un ejecutivo de Nvidia dijo que el problema no es la escasez de GPU, sino cómo esas GPU llegan al mercado.

Nvidia está produciendo GPU a plena capacidad, pero el ejecutivo dijo que la capacidad de producción de GPU está limitada principalmente por la cadena de suministro.

El chip en sí puede tener suficiente capacidad, pero la capacidad insuficiente de otros componentes limitará severamente la capacidad de la GPU.

La producción de estos componentes depende de otros proveedores en todo el mundo.

Pero la demanda es predecible, por lo que ahora el problema se está resolviendo gradualmente.

Capacidad de producción de chips GPU

En primer lugar, Nvidia solo coopera con TSMC para producir el H100. Todas las GPU de 5nm de Nvidia solo están asociadas con TSMC.

Es posible cooperar con Intel y Samsung en el futuro, pero es imposible a corto plazo, lo que limita la producción de H100.

Según el denunciante, TSMC tiene 4 nodos de producción para proporcionar capacidad para chips de 5nm: N5, N5P, N4, N5P

El H100 solo se produce en el nodo 4N de N5 o N5P, que es un nodo mejorado de 5 nm.

Nvidia necesita compartir la capacidad de este nodo con Apple, Qualcomm y AMD.

La fábrica de TSMC necesita planificar la capacidad de producción de cada cliente con 12 meses de anticipación.

Si Nvidia y TSMC subestimaron la demanda de H100 antes, entonces la capacidad de producción será limitada ahora.

Según el denunciante, el H100 tardará aproximadamente medio año en pasar de la producción a la entrega.

Y el denunciante también citó a un profesional retirado de la industria de semiconductores que dijo que la fábrica no es el cuello de botella de producción de TSMC, y que el empaque CoWoS (apilamiento 3D) es la puerta de entrada a la capacidad de producción de TSMC.

Capacidad de memoria H100

En cuanto a otro componente importante del H100, la memoria del H100, también puede haber un problema de capacidad insuficiente.

HBM (memoria de alto ancho de banda), que se integra con la GPU de una manera especial, es un componente clave para garantizar el rendimiento de la GPU.

El denunciante citó a un miembro de la industria diciendo:

El principal problema es HBM. Hacerlo es una pesadilla. Dado que HBM es difícil de producir, los suministros son muy limitados. Tanto la producción como el diseño deben seguir su ritmo.

Para la memoria HBM3, Nvidia casi siempre usa productos SK Hynix, y puede haber algunos productos Samsung, y no debería haber productos Micron.

Nvidia quiere que SK Hynix aumente la capacidad de producción, y lo están haciendo. Pero tanto Samsung como Micron tienen una capacidad limitada.

Además, muchos otros materiales y procesos, incluidos los elementos de tierras raras, se utilizarán en la fabricación de GPU, que también se convertirán en posibles factores que limiten la capacidad de producción de GPU.

Cómo se desarrollará el chip GPU en el futuro

Declaración de NVIDIA

Nvidia solo reveló que podrán suministrar más GPU en la segunda mitad del año, pero no proporcionó ninguna información cuantitativa.

Estamos procesando el suministro para el trimestre de hoy, pero también estamos adquiriendo una cantidad significativa de suministro para la segunda mitad del año. Creemos que la oferta en la segunda mitad del año será muy superior a la del primer semestre.

– La CFO de Nvidia, Colette Kress, en la llamada de ganancias de febrero-abril de 2023

¿Que sigue?

El problema del suministro de GPU ahora es un círculo vicioso en el que la escasez hace que la propiedad de GPU se vea como un foso, lo que hace que se acumulen más GPU, lo que exacerba la escasez.

– Una persona a cargo de una nube privada revelada

**¿Cuándo aparecerá la próxima generación de H100? **

Según la hoja de ruta anterior de Nvidia, la próxima generación del H100 no se anunciará hasta finales de 2024 o principios de 2025.

Hasta ese momento, el H100 será el producto estrella de Nvidia.

Sin embargo, Nvidia lanzará una versión refrigerada por agua de 120 GB del H100 durante este período.

Según los expertos de la industria entrevistados por el denunciante, ¡el H100 se venderá a fines de 2023! !

¿Cómo obtener la potencia informática de H100?

Como mencionaron anteriormente los ejecutivos de Nvidia, la potencia informática proporcionada por la GPU H100 eventualmente se integrará en la cadena de la industria a través de varios proveedores de computación en la nube, por lo que la escasez de H100 se debe, por un lado, a la generación de GPU.

Otro aspecto es cómo los proveedores de potencia informática en la nube pueden obtener H100 de Nvidia de manera efectiva y, finalmente, llegar a los clientes que lo necesitan proporcionando potencia informática en la nube.

El proceso es simplemente:

El proveedor de la nube de potencia informática compra chips H100 de los OEM y luego crea servicios de nube de potencia informática y los vende a varias empresas de IA, para que los usuarios finales puedan obtener la potencia informática H100.

También hay varios factores en este proceso, que han causado la escasez actual de potencia informática H100, y el artículo que dio a conocer la noticia también proporciona mucha información dentro de la industria para su referencia.

**¿A quién puedo comprar la placa H100? **

OEM como Dell, Lenovo, HPE, Supermicro y Quanta venderán tanto el H100 como el HGX H100.

Los proveedores de la nube como CoreWeave y Lambda compran GPU de OEM y las arriendan a nuevas empresas.

Los hiperescaladores (Azure, GCP, AWS, Oracle) trabajarán más directamente con Nvidia, pero también comprarán a los OEM. Esto parece ser similar a la forma en que los jugadores compran tarjetas gráficas. Pero incluso para comprar DGX, los usuarios deben comprar a través de OEM y no pueden realizar un pedido directamente con Nvidia.

el tiempo de entrega

El tiempo de entrega para el servidor HGX de 8 GPU es terrible, el tiempo de entrega para el servidor HGX de 4 GPU está bien.

¡Pero todos los clientes quieren un servidor de 8 GPU!

¿La startup compra a OEM y revendedores?

Si una empresa nueva quiere obtener el poder de cómputo de H100, no termina comprando H100 y conectándolo a su propio clúster de GPU.

Por lo general, alquilan potencia informática de grandes nubes como Oracle, nubes privadas como Lambda y CoreWeave, o proveedores que trabajan con OEM y centros de datos como FluidStack.

Si desea construir su propio centro de datos, debe considerar el tiempo para construir el centro de datos, si tiene el personal y la experiencia en hardware, y si puede pagar el gasto de capital.

El alquiler y alojamiento de servidores ahora es más fácil. Si los usuarios quieren construir sus propios centros de datos, se debe instalar una línea de fibra oscura para conectarse a Internet: $10,000 por kilómetro. Gran parte de la infraestructura ya se construyó y pagó durante el auge de las puntocom. Alquílalo, es barato.

– Responsable de una nube privada

La secuencia desde el arrendamiento hasta los servicios en la nube autoconstruidos es aproximadamente: servicios en la nube de alquiler a pedido (servicios en la nube de arrendamiento puro), servicios en la nube programados, servicios en la nube administrados (compra de servidores, cooperación con proveedores para alojar y administrar servidores), autoalojamiento (compra por usted mismo) y servidor de alojamiento)).

La mayoría de las empresas emergentes que necesitan potencia informática H100 optarán por reservar servicios en la nube o servicios en la nube administrados.

Comparación entre grandes plataformas de computación en la nube

Para muchas empresas emergentes, los servicios en la nube proporcionados por las grandes empresas de computación en la nube son la fuente principal de su H100.

La elección de la plataforma en la nube también determina en última instancia si pueden obtener una potencia informática H100 estable.

El punto general es: Oracle no es tan confiable como las tres grandes nubes. Pero Oracle proporcionará más ayuda de soporte técnico.

Las principales diferencias entre las otras grandes empresas de computación en la nube son:

Redes: mientras que la mayoría de las empresas emergentes que buscan grandes clústeres A100/H100 buscan InfiniBand, AWS y Google Cloud han tardado más en adoptar InfiniBand, ya que tienen su propio enfoque para el aprovisionamiento de servicios.

Disponibilidad: la mayor parte del H100 de Microsoft Azure está dedicado a OpenAI. A Google le ha costado más adquirir el H100.

Porque Nvidia parece estar inclinada a proporcionar más cuotas de H100 para aquellas nubes que no tienen planes de desarrollar chips de aprendizaje automático de la competencia. (Todo esto es especulación, no la verdad).

Las tres principales empresas de la nube, excepto Microsoft, están desarrollando chips de aprendizaje automático, y los productos alternativos de Nvidia de AWS y Google ya están en el mercado, ocupando una parte de la cuota de mercado.

En cuanto a la relación con Nvidia, podría ser así: Oracle y Azure > GCP y AWS. Pero eso es solo conjetura.

Los proveedores de energía de cómputo en la nube más pequeños serán más baratos, pero en algunos casos, algunos proveedores de cómputo en la nube intercambiarán poder de cómputo por capital.

Cómo Nvidia asigna H100

Nvidia proporcionará a cada cliente una cuota de H100.

Pero si Azure dice "Oye, queremos obtener 10 000 H100, todo para Inflection", obtienes una cuota diferente que si Azure dice "Oye, queremos obtener 10 000 H100 para la nube de Azure".

Nvidia se preocupa por quién es el cliente final, por lo que si Nvidia está interesada en el cliente final, la plataforma del proveedor de computación en la nube obtendrá más H100.

Nvidia quiere entender tanto como sea posible quién es el cliente final, y prefieren clientes con buenas marcas o nuevas empresas con un sólido pedigrí.

Sí, ese parece ser el caso. A NVIDIA le gusta garantizar el acceso a la GPU a las empresas emergentes de IA (muchas de las cuales tienen estrechos vínculos con ellas). Vea Inflection, una empresa de inteligencia artificial en la que invierten, probando un enorme clúster H100 en CoreWeave, en el que también invierten.

– Responsable de una nube privada

Conclusión

La sed actual de GPU es tanto espuma como exageración, pero existe objetivamente.

Hay compañías como OpenAI con productos como ChatGPT que están ganando terreno, pero aún no pueden obtener suficientes GPU.

Otras empresas están comprando y acumulando GPU para uso futuro, o para entrenar modelos de lenguaje grandes que el mercado ni siquiera puede usar. Esto crea una burbuja de escasez de GPU.

Pero no importa cómo lo mires, Nvidia es el rey verde en la fortaleza.

Referencias:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta