¿Cuántos volúmenes tiene el entrenamiento de modelos grandes? Desentraña el misterio de la potencia de cálculo de los grandes modelos

Question

Fuente del artículo: Titanium MediaAutor|Qin ConghuiEditor|Gai Hongda> La premisa de acaparar el poder de cómputo es que el poder de cómputo se está convirtiendo en un nuevo modelo de negocio. El auge de la "alquimia" de modelos a gran escala pasará, y los proveedores de servicios de potencia informática deben tomar precauciones y adaptarse a tiempo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f385fd50ff-dd1a6f-69ad2a) *Fuente de la imagen: Generada por Unbounded AI*Utilizando 40 años de datos meteorológicos globales, entrenamiento previo con 200 tarjetas GPU y, en aproximadamente 2 meses, se entrenó un gran modelo meteorológico Pangea con cientos de millones de parámetros.Esta es la historia de Bi Kaifeng, quien se graduó de la Universidad de Tsinghua durante 3 años y entrenó a un gran modelo.Sin embargo, desde el punto de vista del costo, en circunstancias normales, una GPU cuesta 7,8 yuanes / hora, y el costo de capacitación del modelo meteorológico Bikaifeng Pangu puede superar los 2 millones. Este sigue siendo un modelo vertical grande en el campo meteorológico, y si se entrena en un modelo grande general, el costo puede ser cien veces mayor.Según las estadísticas, hay más de 100 modelos grandes con mil millones de parámetros en China. Sin embargo, el modelo grande de la industria "Alchemy" se enfrenta al problema de que las GPU de gama alta son difíciles de encontrar. El costo de la potencia de cómputo es alto, y la falta de potencia de cómputo y fondos se ha convertido en el problema más intuitivo al que se enfrenta la industria.  ## **GPU de gama alta, ¿cuánto falta? **  "No, por supuesto que falta, pero qué podemos hacer". Un alto ejecutivo de una gran fábrica soltó cuando se le preguntó si carecía de poder de cómputo.Esto parece haberse convertido en un problema no resuelto reconocido por la industria, el precio de una NVIDIA A100 en su punto máximo se ha especulado a 200.000 yuanes, y el precio de alquiler mensual de un solo servidor A100 también se ha disparado a 50.000-70.000 / mes. Pero aun así, es posible que el alto precio aún no pueda obtener el chip, y algunos proveedores de potencia informática también se han encontrado con experiencias extrañas que son difíciles de encontrar antes, como la omisión de tickets de proveedores.Zhou Lijun, un ejecutivo de la industria de la computación en la nube, dijo de manera similar: "Hay una escasez de poder de cómputo. Tenemos muchos clientes que quieren recursos de GPU de gama alta, pero no pueden satisfacer completamente las necesidades del mercado en general por el momento. "![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f46d3c3ff5-dd1a6f-69ad2a) *El clúster de computación de alto rendimiento de un proveedor de servicios en la nube con la interfaz A100 está agotada*Resulta que la escasez de GPU de gama alta no está resuelta en la industria a corto plazo. Con la aparición de los grandes modelos, la demanda de potencia informática del mercado ha crecido rápidamente, pero la tasa de crecimiento de la oferta está lejos de mantenerse al día. Aunque la oferta de potencia informática definitivamente ingresará al mercado del comprador desde el mercado del vendedor a largo plazo, se desconoce cuánto tiempo tomará este tiempo.Cada empresa está calculando cuántos "bienes" (GPU NVIDIA) tienen en sus manos, e incluso utilizan esto para juzgar la cuota de mercado. Por ejemplo, si tienes cerca de 10.000 cartas en tu mano y el mercado es de 100.000 cartas en total, la cuota es del 10%. "Para fin de año, habrá alrededor de 40.000, y si el mercado es de 200.000, probablemente será el 20 por ciento del mercado". Personas familiarizadas con el asunto dieron ejemplos.Por un lado, no se puede comprar una tarjeta, por otro lado, el umbral para el entrenamiento de modelos grandes no es tan fácil de "empezar" como la industria hornea. Como se mencionó anteriormente, el costo de capacitación del modelo meteorológico Bikaifeng Pangea puede superar los 2 millones. Sin embargo, debe tenerse en cuenta que el modelo meteorológico Bikaifeng Pangu es un modelo vertical grande entrenado sobre la base del modelo grande general de Pangu, y sus parámetros son cientos de millones. Si desea entrenar un modelo grande de uso general con parámetros a escala de miles de millones o más, el costo puede ser diez o cien veces mayor."En la actualidad, la mayor escala de inversión está en la capacitación, y sin miles de millones de inversión de capital, es difícil seguir haciendo un gran modelo". Qiu Yuepeng, vicepresidente de Tencent Group, director de operaciones de Cloud and Smart Industry Business Group y presidente de Tencent Cloud, reveló."Corre rápido, al menos hasta que el dinero se agote para conseguir la siguiente ronda de 'financiamiento'". Un empresario describió la actual "situación de guerra": "Este camino es un callejón sin salidaSi no tienes decenas de miles de millones de dólares detrás de ti, es difícil ir. "En esta situación, la opinión común en la industria es que con la competencia en el mercado de modelos grandes, el mercado también cambiará de fanático a racional, y las empresas también controlarán los costos y ajustarán las estrategias con los cambios esperados.  ## **Respuesta positiva irresoluble**  Si no hay condiciones, es necesario crear condiciones: esta parece ser la mentalidad mayoritaria entre los participantes en el gran modelo. Y cómo crear las condiciones para hacer frente a los problemas reales, cada empresa también tiene muchos métodos.Debido a la escasez de chips de GPU de gama alta, y la GPU disponible en el mercado chino no es de última generación, el rendimiento suele ser menor, por lo que las empresas necesitan más tiempo para entrenar modelos grandes. Estas empresas también están buscando formas innovadoras de compensar la falta de potencia informática.Una forma de hacerlo es utilizar datos de mayor calidad para el entrenamiento, lo que hace que el entrenamiento sea más eficiente.Recientemente, la Academia de Tecnología de la Información y las Comunicaciones (CAICT) tomó la iniciativa de publicar el "Informe de investigación sobre el sistema estándar de modelos grandes de la industria y la arquitectura de capacidad", que menciona la evaluación de la capa de datos de los modelos grandes. El informe sugiere que, en términos de calidad de los datos, debido a que tendrá un gran impacto en el efecto del modelo, se recomienda introducir el etiquetado y la confirmación manuales, y seleccionar al menos una cierta proporción de los datos originales para el etiquetado, a fin de construir conjuntos de datos de alta calidad.Además de reducir el costo de modelos grandes a través de datos de alta calidad, para la industria, mejorando las capacidades de infraestructura y logrando un funcionamiento estable de más de 10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000"Como proveedor de servicios en la nube, ayudamos a los clientes a construir una infraestructura estable y confiable. Debido a que la estabilidad de la tarjeta del servidor GPU será deficiente, cualquier falla interrumpirá el entrenamiento, lo que resultará en un aumento en el tiempo total de entrenamiento. Los clústeres de computación de alto rendimiento pueden proporcionar a los clientes servicios más estables, reducir el tiempo de capacitación y resolver algunos problemas de potencia informática. Dijo Zhou Lijun.Al mismo tiempo, la programación de recursos de la tarjeta de potencia informática también pone a prueba la capacidad técnica del proveedor de servicios. Xu Wei, jefe de Soluciones de Internet del Este de China de Volcano Engine, dijo a Titanium Media que tener recursos de tarjetas de poder de cómputo es solo un aspecto, y cómo programar los recursos de tarjetas y realmente ponerlos en uso es una capacidad central y una capacidad de ingeniería más probadas. "Dividir una tarjeta en muchas tarjetas pequeñas y tratar de lograr una programación distribuida y refinada puede reducir aún más el costo de la potencia de cómputo". Dijo Xu Wei.La red también afecta a la velocidad y la eficiencia del entrenamiento de modelos grandes. El entrenamiento de modelos grandes suele ser de miles de tarjetas, la conexión de cientos de servidores GPU requiere que la velocidad de red sea extremadamente alta, si la red está un poco congestionada, la velocidad de entrenamiento será muy lenta, la eficiencia se ve muy afectada. "Mientras un servidor se sobrecaliente y deje de funcionar, es posible que todo el clúster tenga que detenerse y las tareas de entrenamiento tendrán que reiniciarse. Esto requiere requisitos muy altos para las capacidades de operación y mantenimiento de servicios en la nube y las capacidades de resolución de problemas. Dijo Qiu Yuepeng.Algunos proveedores han encontrado otra manera, y la transición de la arquitectura de computación en la nube a la arquitectura de supercomputación también se ha convertido en una forma de reducir costos, es decir, en el caso de satisfacer las necesidades de los usuarios, tareas informáticas que no son de alto rendimiento y escenarios de tareas paralelas, la nube de supercomputación cuesta aproximadamente la mitad del precio de la supercomputación en la nube, y luego, a través de la optimización del rendimiento, la utilización de recursos se puede aumentar del 30% al 60%.Además, algunos fabricantes optan por utilizar plataformas domésticas para entrenar y razonar modelos grandes para reemplazar a NVIDIA, lo cual es difícil de encontrar con una tarjeta. "Lanzamos conjuntamente la máquina todo en uno iFLYTEK Spark con Huawei, lo cual es muy notable para poder hacer entrenamiento y razonamiento en la plataforma nacional. Me complace especialmente decirles que las capacidades de la GPU de Huawei son ahora las mismas que las de NVIDIA, y Ren Zhengfei le da gran importancia, y los tres directores de Huawei han trabajado en la clase especial de iFLYTEK y ahora la han hecho comparable a la A100 de NVIDIA. Liu Qingfeng, fundador y presidente de iFLYTEK, dijo una vez.Cada uno de los métodos anteriores es un proyecto relativamente grande, por lo que es difícil para las empresas en general reunirse a través de centros de datos autoconstruidos, y muchos equipos de algoritmos eligen a los fabricantes de potencia informática más profesionales para apoyar. Entre ellos, el almacenamiento paralelo también supone un gran coste, así como las capacidades técnicas, las correspondientes garantías de tasa de fallos, etc. también forman parte del coste del hardware. Por supuesto, incluso considere el costo de la electricidad del área de disponibilidad de IDC, los costos operativos como el software, la plataforma y los costos de personal.Solo el clúster de GPU en el nivel de kilocard tendrá un efecto de escala, y elegir un proveedor de servicios de potencia de cálculo equivale a decir que el costo marginal es cero.Sun Ninghui, académico de la Academia China de Ingeniería e investigador del Instituto de Tecnología Informática de la Academia China de Ciencias, también propuso en su discurso que AIGC ha provocado el estallido de la industria de la inteligencia artificial, y la aplicación a gran escala de la tecnología inteligente tiene un problema típico de cola larga, es decir, departamentos fuertes con fuertes capacidades de IA (seguridad de la red, nueve institutos de la novena academia y oficinas meteorológicas, etc.), instituciones de investigación científica y empresas grandes y medianas solo representan alrededor del 20% de la demanda principal de potencia informática, y el otro 80% son pequeñas y medianas empresas. O limitado por el alto precio de la potencia de cómputo, es difícil obtener dividendos de desarrollo en la ola de la era de la IA.Por lo tanto, para realizar la aplicación a gran escala de la tecnología inteligente, la industria de la inteligencia artificial es "aplaudida" y "aplaudida", y se necesita una gran cantidad de potencia informática inteligente barata y fácil de usar, para que las pequeñas, medianas y microempresas también puedan utilizar la potencia informática de forma cómoda y económica.Ya sea que se trate de la demanda urgente de potencia de cómputo de modelos grandes o de los diversos problemas que deben resolverse en el proceso de aplicación de la potencia de cómputo, un nuevo cambio al que se debe prestar atención es que la potencia de cómputo se ha convertido en un nuevo modelo de servicio en el proceso de demanda del mercado y la iteración de la tecnología.  ## **Explora un nuevo modelo de servicio de potencia de cómputo**  ¿Cuál es el poder de cómputo del gran modelo que estamos tomando? Para responder a esta pregunta, debemos comenzar con el servicio de potencia de cómputo.En términos de tipos, la potencia de cálculo se divide en potencia de cálculo general, potencia de cálculo inteligente y potencia de supercomputación, y esta potencia de cálculo se ha convertido en un servicio, que es el resultado del doble impulso del mercado y la tecnología.La definición de servicio de potencia informática en el "Libro Blanco del Servicio de Potencia Informática 2023" (en adelante, el "Libro Blanco") es un nuevo campo de la industria de la potencia informática basado en la potencia informática diversificada, vinculada por una red de potencia informática y destinada a proporcionar una potencia informática eficaz.La esencia del servicio de potencia informática es lograr una salida unificada de potencia informática heterogénea a través de nuevas tecnologías informáticas e integrarse de forma cruzada con la nube, el big data, la IA y otras tecnologías. No solo hay potencia de cálculo en el servicio de potencia de cálculo, sino que es una encapsulación unificada de potencia de cálculo, almacenamiento, red y otros recursos, y la entrega de potencia de cálculo se completa en forma de servicios (como API).Entendiendo esto, encontrará que al tomar chips NVIDIA, una gran parte de ellos son proveedores de servicios de potencia de cómputo, es decir, productores de energía de cómputo. Los usuarios de la industria que realmente llaman a la API de potencia de cómputo en el front-end solo necesitan presentar los requisitos de potencia de cómputo correspondientes.Según Titanium Media App, desde la perspectiva del lado del software, todo el modelo grande utilizado por la interacción del software se divide en tres tipos, la primera llamada API del modelo grande, cada familia tiene una cotización, de acuerdo con la liquidación del precio; La segunda es poseer un modelo pequeño, comprar potencia de cálculo por ti mismo o incluso implementarla tú mismo; En tercer lugar, los grandes proveedores de modelos cooperan con los proveedores de la nube, es decir, las nubes dedicadas, y pagan mensualmente. "En general, estos son los tres, Kingsoft Office actualmente usa principalmente llamadas a la API, y el pequeño modelo interno ha creado su propia plataforma de programación de poder de cómputo". Yao Dong, vicepresidente de Kingsoft Office, dijo a Titanium Media App.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf2277488b-dd1a6f-69ad2a) Diagrama de la estructura de la cadena de la industria del hashrate, fuente: Academia China de Tecnología de la Información y las ComunicacionesEn otras palabras, en la cadena industrial de la estructura de la potencia informática, las empresas ascendentes completan principalmente el suministro de recursos de apoyo para los servicios de potencia informática, como la potencia informática general, la potencia informática inteligente, la potencia superinformática, el almacenamiento y la red. Por ejemplo, en la batalla por la potencia de cálculo de los modelos grandes, NVIDIA pertenece al suministro de recursos básicos de potencia de cálculo ascendente a la industria para suministrar chips, y el aumento de las existencias de los fabricantes de servidores como Inspur Information también se ve afectado por la demanda del mercado.Las empresas midstream son principalmente proveedores de servicios en la nube y nuevos proveedores de servicios de potencia informática, y sus funciones son principalmente realizar la producción de potencia informática a través de la orquestación de potencia informática, la programación de potencia informática y la tecnología de comercio de potencia informática, y completar el suministro de potencia informática a través de API. Los proveedores de servicios de potencia informática mencionados anteriormente, Tencent Cloud y Volcano Engine se encuentran en este enlace. Cuanto mayor sea la capacidad orientada a los servicios de la potencia informática para servir a las empresas intermedias, menor será el umbral para el lado de la aplicación y más propicio será el desarrollo inclusivo y ubicuo de la potencia informática.Las empresas transformadoras dependen de la potencia informática proporcionada por los servicios de potencia informática para generar y fabricar servicios de valor añadido, como los usuarios de la industria. Esta parte del usuario solo necesita presentar la demanda, y el productor de potencia de cómputo configura la potencia de cómputo correspondiente de acuerdo con la demanda para completar la "tarea de potencia de cómputo" emitida por el usuario.Esto tiene más ventajas técnicas y de costo que la compra original de servidores para construir un entorno de potencia de cómputo de modelo grande. El entrenamiento de Bi Kaifeng del Gran Modelo Meteorológico de Pangu debería llamar directamente a la capa subyacente del Modelo Pangu, es decir, el servicio de computación de alto rendimiento de HUAWEI CLOUD, entonces, ¿el proceso de otras grandes empresas modelo usará la potencia informática o pagará por la potencia informática será diferente?  ## **Iteración del modelo de negocio de potencia informática**  ChatGLM es el primer lote de modelos grandes generales lanzados, tomando como ejemplo el uso de la potencia informática ChatGLM de Zhipu AI, según la información que se ha divulgado públicamente, ChatGLM AI utiliza una serie de proveedores de servicios de potencia informática de IA convencionales en China. "En teoría, todo debería ser útil". Personas familiarizadas con el asunto dijeron que esto también puede incluir a los proveedores de servicios de potencia informática / proveedores de servicios en la nube nacionales.La facturación de pago por uso y la facturación mensual son los modos principales del servicio de potencia de cálculo actual, y hay aproximadamente dos tipos de requisitos de uso, uno es elegir la instancia de servicio de potencia de cálculo correspondiente, y en la interfaz del sitio web oficial de un proveedor de servicios en la nube, puede proporcionar servidores GPU de alto rendimiento equipados con NVIDIA A800, A100, V100 tres tarjetas gráficas principales.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6fb6682b2-dd1a6f-69ad2a) *Tipos de tarjetas gráficas GPU informáticas de alto rendimiento proporcionadas por un proveedor de servicios informáticos*La otra es elegir la plataforma de servicios MaaS correspondiente y ajustar el modelo grande en la plataforma MaaS. Tomando como ejemplo el precio de publicación de pago por uso de la plataforma Tencent Cloud TI-ONE, la configuración de 8C40G V100\*1 es de 20,32 yuanes por hora, que se puede utilizar para el aprendizaje automático de la visión, el modelado basado en tareas, el cuaderno y el modelado visual.En la actualidad, la industria también está promoviendo la "integración de la computación y la red" de los servicios de potencia informática y, a través del juicio integral de las tareas informáticas, el estado de los recursos de la red informática y otra información, se forma un esquema de orquestación de redes informáticas que puede admitir la programación de proveedores entre arquitecturas, regiones y servicios, y se completa la implementación de recursos relacionados. Por ejemplo, siempre que ahorre una suma de dinero y la deposite en la red de potencia de cómputo, las particiones de la red de potencia de cálculo se pueden llamar a voluntadDe acuerdo con las características de la aplicación, seleccione la partición más adecuada, la partición más rápida y la partición más rentable, y luego cobre de acuerdo con la duración y deduzca la tarifa de los fondos depositados previamente.Lo mismo ocurre con los proveedores de servicios en la nube, como un producto único de los servicios en la nube, lo que les permite participar rápidamente en la cadena de la industria de la potencia informática.Según datos del Ministerio de Industria y Tecnología de la Información, la escala total de la potencia informática de China alcanzará los 180EFLOPS en 2022, ocupando el segundo lugar en el mundo. A partir de 2022, la escala de la industria de la potencia informática de China ha alcanzado los 1,8 billones. La potencia de cálculo de los grandes modelos ha acelerado enormemente el desarrollo de la industria de la potencia de cálculo.Un dicho es que el servicio actual de potencia de cómputo es en realidad un nuevo tipo de modelo de "venta de electricidad". Sin embargo, de acuerdo con la diferente división del trabajo, es posible que algunos proveedores de servicios informáticos deban ayudar a los usuarios a realizar más depuración del rendimiento del sistema, instalación de software, trabajo a gran escala y análisis de las características de la operación, es decir, parte del trabajo de operación y mantenimiento de última milla.Con la normalización de la demanda de computación de alto rendimiento de grandes modelos, los servicios de potencia informática, que nacieron de los servicios en la nube, han entrado rápidamente en el campo de visión del público, formando una cadena industrial y un modelo de negocio únicos. Es solo que al comienzo del estallido de la industria de la potencia de cómputo debido a los grandes modelos, la escasez de GPU de gama alta, el alto costo de la potencia de cómputo y el acaparamiento de "núcleos" han formado un paisaje único perteneciente a esta era."En esta etapa, el volumen es quién puede obtener la tarjeta en la cadena de suministro, NVIDIA es el rey de toda la industria en la actualidad, y todos los mercados están controlados por ella, que es el statu quo". Personas familiarizadas con el asunto comentaron. Es como si quien recibe la tarjeta pudiera entregar el negocio cuando la demanda supera a la oferta.Pero no todo el mundo está agarrando la "tarjeta", porque la escasez es temporal y el problema siempre se resolverá. "La persona que hace la investigación a largo plazo en realidad no lo agarra, solo espera porque no moriráEn la actualidad, solo hay un grupo de nuevas empresas que están agarrando tarjetas y quieren asegurarse de que puedan sobrevivir hasta el próximo año. Dijo la persona.En muchas incertidumbres, es una tendencia definida que la potencia de cálculo se convierta en un servicio, y lo que los proveedores de servicios de potencia de cálculo deben hacer es estar preparados para tomar precauciones cuando el gran modelo vuelva a la racionalidad y el viento del mercado cambie rápidamente.Nota: A petición del entrevistado, Zhou Lijun es un seudónimo.**(Este artículo se publicó por primera vez en la aplicación Titanium Media) **