Los grandes modelos profundizan en el valor de los elementos de datos: después de los algoritmos y la potencia informática, el valor de los soportes de almacenamiento se vuelve más prominente

2023-09-27 08:03:34

Artículo| Relatividad Inteligente** (aixdlun)**

Autor | Ye Yuanfeng

18,8 billones de dólares estadounidenses, que es el valor total que el mercado espera que genere la economía inteligente impulsada por la IA en 2030. Entre ellos, el cambio cualitativo en las capacidades de IA provocado por los modelos grandes se convertirá sin duda en una importante fuerza impulsora.

Bajo la ola de grandes modelos, la atención de la industria a cualquier dimensión de la troika del desarrollo de la IA (potencia informática, algoritmos y datos) ha alcanzado un nuevo nivel. Evitar el "efecto barril" se ha convertido en la consideración principal en el desarrollo de grandes modelos. modelos.

En este proceso, la atención de la industria a los "datos" a menudo se centra en "cantidad" + "calidad". Una mayor cantidad de datos y una mayor calidad de los datos pueden promover mejores efectos de entrenamiento y aplicación de modelos grandes.

Sin embargo, dado que la innovación de modelos grandes requiere datos cada vez más complejos, ya no es suficiente centrarse únicamente en la "cantidad" + "calidad" de los datos. El almacenamiento que puede transportar datos y satisfacer las necesidades de modelos grandes también merece la atención de profesionales en el campo de los grandes modelos.

En la recién celebrada Conferencia de Conectividad de Huawei 2023 (HC 2023), Huawei presentó sistemáticamente cómo sus soluciones de almacenamiento pueden resolver los puntos débiles de la capacitación y aplicación de modelos grandes y respaldar el proceso de innovación de modelos grandes.

Las acciones de Huawei demuestran panorámicamente la esencia del desarrollo de grandes modelos desde la dimensión de datos: el desarrollo a gran escala de "elementos de datos" y cómo la innovación en el almacenamiento proporciona poder para esta esencia, ayudando a los profesionales de grandes modelos a aprovechar mejor la era de la economía inteligente.

La era de los grandes modelos es la era de los elementos de datos y el valor del almacenamiento como soporte está demostrado.

No hay duda de que la demanda de potencia informática, algoritmos y datos para modelos grandes está aumentando rápidamente.

Según las estadísticas de investigación de mercado, en los últimos cinco años, los parámetros de los modelos grandes han aumentado 2.000 veces, la potencia informática requerida ha aumentado 50.000 veces, la demanda de almacenamiento de datos ha aumentado 100.000 veces y los requisitos de ancho de banda de red asociados han aumentado 8.000 veces.

Grandes aperturas, grandes cierres y grandes exigencias requieren de grandes instalaciones e inversión.

Sin embargo, desde una perspectiva de innovación, de hecho, la dificultad tanto de los algoritmos como de la potencia informática está disminuyendo o convergiendo.

En términos de potencia informática, que es un dolor de cabeza para muchas empresas, aunque la cantidad requerida es grande, todo proviene de NVIDIA, Ascend y otros recursos de hardware de GPU, que dependen principalmente de la inversión de costos. En otras palabras, siempre que haya suficiente presupuesto se podrán suministrar recursos informáticos.

En lo que respecta a los algoritmos, aunque los principales fabricantes continúan ajustando e iterando, generalmente están adoptando la infraestructura del modelo Transformer, que se basa en marcos de desarrollo convencionales como Pytorch, TensorFlow y MindSpore, y está convergiendo gradualmente.

En este momento, la presión llega a los datos.

Con el desarrollo profundo de modelos grandes, la cantidad total de requisitos de datos ya ha saltado del nivel TB al nivel PB, y el "grupo" requerido es cada vez mayor; al mismo tiempo, la demanda de tipos de datos es extremadamente rico y el modelo de un solo texto Además de las modalidades, los datos multimodales como imágenes, videos y voces están explotando, y los requisitos de datos se están volviendo cada vez más complejos, lo que está poniendo a prueba la capacidad de carga del almacenamiento y cómo para trabajar mejor con la potencia informática y los algoritmos durante el entrenamiento y la aplicación.

Durante este período han surgido muchos problemas que esperan ser superados por el almacenamiento, entre los que se encuentran principalmente:

Rendimiento de lectura de archivos pequeños. Los requisitos de datos de los modelos grandes son principalmente grandes cantidades de archivos pequeños, como imágenes y textos. Un solo servidor de IA puede leer más de 20.000 imágenes por segundo, lo que a menudo conduce a una baja eficiencia de carga de datos (similar a la acción de copiar en una PC personal). , equivalente a Con menos espacio requerido, una carpeta que contiene una gran cantidad de archivos pequeños será mucho más lenta que un solo archivo grande), lo que afecta la eficiencia del entrenamiento de modelos grandes. En este momento, el rendimiento de archivos pequeños masivos se ha convertido en un cuello de botella y los requisitos básicos para un modelo grande con billones de parámetros han alcanzado los 10 millones de IOPS.

El punto de interrupción de CheckPoint reanuda el entrenamiento. Durante el proceso de entrenamiento del modelo grande, debido a diversas necesidades, como el ajuste de parámetros, CheckPoint se interrumpirá en puntos de tiempo no especificados y luego se reiniciará para continuar con el entrenamiento (lleva tiempo y crea una brecha en la utilización de recursos de GPU). Esta es una capacidad muy amigable para modelos de entrenamiento a largo plazo, pero el ajuste frecuente de parámetros por parte de las empresas a menudo resulta en una utilización reducida de la GPU (actualmente, la industria generalmente interrumpe una vez cada dos días en promedio, y la utilización de la GPU es solo del 40%), lo que requiere almacenamiento Solo con un rendimiento sólido de lectura y escritura de archivos grandes se puede reducir el tiempo de espera de la GPU y mejorar la eficiencia de la utilización de recursos costosos.

El problema de las “alucinaciones por IA”. El fenómeno de que los resultados de producción de los modelos grandes se "fabrican al azar" y obviamente entran en conflicto con los hechos es un problema muy problemático en la industria. Este fenómeno de fariseísmo de los modelos grandes se denomina "ilusión de IA". Parece que se trata de un problema algorítmico, pero de hecho, la industria ha descubierto gradualmente durante la exploración que su solución requiere una "verificación" continua a nivel de datos (principalmente refiriéndose a información contextual), lo que esencialmente requiere que el almacenamiento pueda proporcionar Un sistema de conocimiento similar al "Diccionario de enciclopedia" sirve como el "hipocampo" del modelo grande para proporcionar conocimiento preciso de la industria.

Se puede ver que, a nivel de innovación, resolver los desafíos de almacenamiento que enfrentan los modelos grandes puede tener prioridad sobre la potencia informática y los algoritmos.

En realidad, este punto permite que los modelos grandes vuelvan a su esencia, que es utilizar modelos de IA con parámetros más grandes para explorar más a fondo el valor de los elementos de datos y promover la transformación y actualización de miles de industrias.

Hoy en día, los elementos de datos se han convertido en los recursos centrales de la economía digital y la sociedad de la información, y se consideran otro factor de producción importante después de la tierra, el trabajo, el capital y la tecnología. Innumerables innovaciones, incluidos los grandes modelos, se basan en elementos de datos. Profundo desarrollo del valor.

El proceso de desarrollo de modelos grandes puede verse como un proceso en el que los elementos de datos continúan pasando de la producción original a la de valor.

En este proceso, los algoritmos guían la dirección desde el frente, hacia industrias generales o específicas. La creciente potencia informática aporta una fuerte fuerza impulsora, mientras que el almacenamiento proporciona soporte y capacidades de colaboración. Cuando la potencia informática depende principalmente de la inversión de costos y los algoritmos convergen gradualmente, el valor innovador del almacenamiento como portador de elementos de datos se vuelve cada vez más prominente.

Deje que el valor de los elementos de datos se haga realidad, el almacenamiento de Huawei ataca los puntos débiles en múltiples dimensiones

¿Cómo resolver los desafíos del almacenamiento? Los productos OceanStor A800 de almacenamiento de base de conocimientos de alto rendimiento de Huawei y sus soluciones correspondientes tienen una eficiencia de capacitación y promoción líder integral en escenarios de capacitación y promoción de modelos industriales. En términos generales, tienen cuatro características principales:

1. Rendimiento general extremadamente alto, que se adapta a las necesidades del entrenamiento de modelos grandes

La solución principal del almacenamiento de Huawei es satisfacer la enorme demanda de datos de entrenamiento de modelos grandes en términos de rendimiento general, especialmente la demanda de rendimiento de lectura de archivos pequeños.

OceanStor A800 se basa en una innovadora arquitectura de separación CNC. Puede alcanzar 24 millones de IOPS en un solo cuadro. Su eficiencia de carga del conjunto de entrenamiento es cuatro veces mayor que la de la industria y su rendimiento se puede expandir linealmente según las necesidades del cliente. Además, el sistema de archivos distribuido OceanFS logra una dispersión global equilibrada, lo que elimina los cuellos de botella de la CPU, brinda una experiencia de mejora del rendimiento definitiva para archivos pequeños masivos y satisface las necesidades de lectura de una gran cantidad de archivos pequeños.

Mientras exista demanda de rendimiento, el almacenamiento de Huawei puede "soportarlo" incluso si se "aumenta".

2. Optimice las habilidades especiales para satisfacer necesidades específicas, como el entrenamiento de continuación de puntos de interrupción

Cómo brindar mejor soporte en circunstancias especiales, como la continuación de la capacitación en el punto de interrupción, es un desafío que Huawei Storage debe abordar simultáneamente durante la fase de capacitación del modelo grande.

A través de la colaboración de control de disco y el sistema de archivos paralelo NFS+, el almacenamiento de Huawei logra un ancho de banda ultraalto de 500 GB/s en un solo cuadro, lo que permite una recuperación ultrarrápida de CheckPoint. La velocidad de recuperación de la capacitación de reanudación de puntos de interrupción es tres veces mayor que la de la industria. La lectura y escritura de CheckPoint a nivel de TB se puede lograr desde horas a minutos (es decir, el tiempo de recuperación promedio de modelos grandes con billones de parámetros se acelera de horas a minutos), lo que reduce la costosa espera de GPU.

Siempre que sea necesario optimizar modelos grandes, los clientes pueden realizar con más valentía ajustes de parámetros y otras operaciones.

Además, su plano de gestión y control tiene capacidades de partición de recursos + programación unificada, lo que también puede hacer que el almacenamiento sea adecuado para diferentes modelos de negocio.

No importa qué modelo de negocio desarrollen los clientes, no importa cuándo los clientes decidan hacer una pausa en el proceso, Huawei Storage puede afrontarlo mejor.

3. Capacidades de respuesta mejoradas para satisfacer las necesidades en tiempo real de aplicaciones de modelos grandes

Una vez completada la fase de capacitación, Huawei Storage debe cumplir con las estrictas necesidades de respuesta de datos en la fase de solicitud.

En la actualidad, en la etapa de aplicación de modelos grandes, gracias a la base de conocimientos vectoriales incorporada (que almacena conocimientos de la industria en forma de vectores), el QPS de almacenamiento de Huawei ha alcanzado más de 250.000 y ha podido lograr una respuesta de nivel de milisegundos. Por un lado, puede acelerar el razonamiento, lo que reduce considerablemente el consumo de recursos de la GPU durante el proceso de aplicación, lo que ahorra efectivamente costos de implementación; actualmente, muchos modelos grandes consumen enormes recursos en la etapa de aplicación abierta y algunas empresas se sienten abrumadas; por otro lado El "diccionario enciclopédico" hace que los modelos grandes sean más precisos. El conocimiento de la industria juega un papel de apoyo importante en la reducción de la aparición de alucinaciones de IA y puede mejorar en gran medida la precisión del razonamiento.

4. La innovación arquitectónica garantiza la estabilidad y confiabilidad del sistema general

El último y más básico requisito para el almacenamiento es que, independientemente de las características que tenga, debe garantizar una estructura general estable y confiable sin causar problemas de seguridad o "salirse de la cadena".

El proceso de Huawei Storage de resolver una serie de requisitos de puntos débiles de datos de modelos grandes también ha aumentado la complejidad de las soluciones y sistemas de almacenamiento hasta cierto punto. Sin embargo, al mismo tiempo, Huawei no ha sacrificado la confiabilidad del sistema. Su innovador sistema totalmente interconectado Arquitectura AA, puede lograr 5 capas de protección integral y 6 nueves de confiabilidad ultra alta.

Como resultado, la confiabilidad de los datos y la estabilidad del entrenamiento de modelos grandes están garantizadas de un extremo a otro.

El que construye ruedas, recorre primero el camino largo

El almacenamiento de Huawei puede resolver los problemas de los datos de modelos grandes, y la causa fundamental radica en su exploración innovadora a largo plazo en el almacenamiento.

La arquitectura de separación CNC de OceanStor A800 aprovecha la innovación tecnológica de vanguardia de la industria de lectura y escritura directa de datos en el disco, lo que permite que el plano de datos se conecte directamente al disco y se separe del plano de control para lograr IO directa, con lo que Al reducir las operaciones de la CPU durante la lectura y escritura de datos, se mejora enormemente el rendimiento del almacenamiento.

De hecho, Huawei lleva mucho tiempo haciendo esfuerzos tecnológicos en almacenamiento y ha conseguido muchas innovaciones punteras similares.

Actualmente, el almacenamiento Huawei OceanStor cuenta con 12 centros de investigación y desarrollo en todo el mundo, más de 4000 empleados de investigación y desarrollo y más de 3000 patentes. Sus productos están involucrados en muchos campos, como soluciones de almacenamiento NAS de alto rendimiento, soluciones de almacenamiento anti-ransomware, soluciones de almacenamiento en contenedores y virtualización de centros de datos, que recibió un gran reconocimiento.

En más de 150 países de todo el mundo, el almacenamiento de Huawei ha prestado servicios a más de 25.000 clientes, incluidos operadores, finanzas, gobierno, energía, medicina, manufactura, transporte y otras industrias.

Se puede decir que las capacidades de almacenamiento adaptadas al desarrollo de valor de los elementos de datos y las necesidades de innovación de los modelos grandes son el resultado inevitable del arduo trabajo a largo plazo de Huawei en el ámbito del almacenamiento: el almacenamiento de Huawei ya ha hecho un buen trabajo para cumplir con los datos. necesidades de muchos campos (no sólo modelos a gran escala) proporciona preparativos para una fuerte capacidad de carga y sinergia.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Simple Earn Annual Rate 24.4%
40k Popularidad
2Gate Launchpad List IKA
42k Popularidad
3ETH Trading Volume Surges
44k Popularidad
4Gate ETH 10th Anniversary Celebration
23k Popularidad
5Trump’s AI Strategy
18k Popularidad

Anclado