¿Cuántos pasos se necesitan para cargar el modelo grande en el teléfono móvil?

Question

Fuente original: Light Cone Intelligence

Fuente de la imagen: Generada por Unbounded AI‌

El modelo grande "corre" hacia el teléfono móvil, y la batalla de la IA se ha quemado de la "nube" al "terminal móvil".

"En la era de la IA, el modelo Pangu de Huawei ayudará a la ecología de Hongmeng". El 4 de agosto, Yu Chengdong, director ejecutivo de Huawei, director ejecutivo de la terminal BG y director ejecutivo de la solución de automóvil inteligente BU, presentó que a través de la tecnología subyacente de Pangu modelo, Harmony OS trae Aquí viene la próxima generación de sistemas operativos de terminales inteligentes.

El uso de modelos grandes en teléfonos móviles no es nuevo. Anteriormente, aplicaciones y subprogramas como ChatGPT, Wenxin Yiyan y Miaoya utilizaban el poder de la computación en la nube para satisfacer las necesidades de las aplicaciones de IA en terminales móviles.

**El siguiente paso es dejar que el modelo grande se ejecute directamente en el teléfono móvil. **

Desde abril y mayo de este año, los tres gigantes de la tecnología estadounidense: Qualcomm, Microsoft y Nvidia, la estrella de IA más llamativa OpenAI y el "equipo principal" de IA nacional Tencent, Baidu, etc., han acelerado su esfuerzos en terminales móviles Despliegue ligero de modelos grandes de IA. Qualcomm incluso anunció que se está transformando gradualmente en una empresa informática de punta inteligente (que brinda servicios informáticos en fuentes de datos como terminales móviles).

Bajo el fuerte impulso de los gigantes, la tendencia de la industria de modelos a gran escala que se mueven desde la nube hasta el final se ha vuelto muy clara.

¿Por qué el modelo grande debería "ejecutarse" en el teléfono móvil?

La característica más importante del modelo grande es "grande", con decenas de miles de millones o incluso billones de parámetros, y para ejecutar mejor el modelo grande, el clúster de potencia informática se ha actualizado al nivel de "diez mil tarjetas". Ahora bien, ¿por qué hay que "meter" un modelo grande en un teléfono móvil pequeño del tamaño de la palma de la mano?

El modelo grande trae algunas mejoras en la experiencia de los usuarios de teléfonos móviles. Por ejemplo, Xiaoyi, el asistente inteligente de terminal de Huawei, no solo puede recomendar restaurantes en función de las indicaciones de voz, sino que también puede realizar el procesamiento de información, como resúmenes, recuperación de información y traducción multilingüe.Un texto largo en inglés con miles de palabras puede ser procesado por un teléfono móvil. Asistente inteligente con capacidades de modelo a gran escala. Se genera un resumen, que también se puede traducir al chino. Especialmente el último punto, en la era de la explosión de la información, sigue siendo muy valioso para mejorar la eficiencia del aprendizaje y el trabajo.

**Jia Yongli, presidente del Departamento de Negocios Inteligentes y de IA de Terminal BG AI de Huawei, explicó que, por un lado, el modelo de lenguaje grande tiene la capacidad de generalizar, lo que puede ayudar a los asistentes inteligentes de teléfonos móviles a mejorar su comprensión. Por otro lado, la capacidad de complemento del modelo grande Complemento puede romper las barreras entre las aplicaciones en el teléfono móvil y ampliar las capacidades con la ayuda de herramientas. **

Además, las aplicaciones AIGC como ChatGPT siempre han estado acompañadas de fuertes disputas de privacidad y seguridad, pero si se ejecutan completamente en el lado final, este problema se puede evitar por completo. Debido a que el modelo grande se ejecuta en el lado final, los datos no saldrán del lado final. Además, la velocidad de respuesta será más rápida.

** Por otro lado, la demanda de modelos grandes para terminales móviles como los teléfonos móviles ya es muy urgente. **

La tendencia turbulenta de los modelos grandes hace que la nube sea cada vez más incapaz de soportar la demanda de poder de cómputo por sí sola. Alex Katouzian, vicepresidente senior de Qualcomm, dijo recientemente sin rodeos: "A medida que se acelera el crecimiento de los dispositivos conectados y el tráfico de datos, y aumenta el costo de los centros de datos superpuestos, es imposible (para nosotros) enviar todo el contenido a la nube".

Sin contar la gran cantidad de recursos, como el ancho de banda de la red, el almacenamiento y el hardware consumidos por la transmisión de datos, el poder de cómputo de la nube por sí solo ya ha abrumado a los fabricantes relevantes. ChatGPT está solo en la etapa de inferencia, y se estima de manera conservadora que el costo mensual de la energía informática es de aproximadamente 10 millones de dólares estadounidenses.

El mayor problema no es "caro", sino "falta".

Anteriormente, incluso Sam Altaman, el fundador de OpenAI, reveló que había escasez de GPU e incluso dijo sin rodeos que no quería que demasiada gente usara ChatGPT. Recientemente, algunos expertos especulan que la capacidad de los clústeres H100 a gran escala de proveedores de nube pequeños y grandes está a punto de agotarse, y la tendencia de la demanda de H100 continuará al menos hasta finales de 2024. La capacidad de producción actual de Nvidia H100 todavía está severamente limitada por la cadena de suministro.

Por lo tanto, la nube y la terminal forman una cooperación, y los recursos de potencia informática inactivos de los teléfonos móviles y otras terminales se utilizan para resolver el desajuste entre la potencia informática "centralizada" y la demanda "distribuida". . Más importante aún, en comparación con un número limitado de nodos centrales, numerosos terminales móviles pueden llamarse "capilares" que tocan miles de escenarios, lo que determina que esta entrada será la clave para acelerar la penetración de aplicaciones de modelos grandes.

¿Cómo "embolsar" el modelo grande?

"En comparación con las PC o servidores tradicionales, el mayor desafío para los terminales móviles es cómo equilibrar la experiencia y el consumo de energía. Este es uno de los puntos centrales más importantes del diseño central de Hongmeng", dijo Gong Ti, presidente del Departamento de Software de Negocios de Terminales de Huawei. , enfatizó .

Un modelo grande requiere una gran cantidad de recursos informáticos y de almacenamiento, especialmente en función de la configuración de hardware del teléfono móvil existente, lo que requiere la coordinación del sistema de software para mejorar la eficiencia y reducir el consumo de energía.

En la actualidad, para mejorar el rendimiento de los teléfonos móviles, el sistema de telefonía móvil debe coordinar al menos 8 núcleos de chip, y este proceso consumirá una gran cantidad de potencia informática. Si se adopta una programación de recursos heterogénea, la CPU, la GPU y la NPU se pueden coordinar de manera eficiente. Según Gong Ti, la eficiencia de la programación se puede aumentar en más del 60%.

El sistema de telefonía móvil puede realizar cálculos, y la unidad más pequeña de programación se llama subproceso. En un sistema operativo tradicional, decenas de miles de subprocesos se ejecutan al mismo tiempo, y habrá una gran cantidad de subprocesos no válidos. En vista de esto, se puede utilizar un modelo de simultaneidad más ligero para manejar operaciones concurrentes y reducir el consumo de poder de cómputo por el cambio de subprocesos no válidos. Según Gong Ti, el modelo de simultaneidad puede ahorrar un 50 % de los gastos generales de cambio de tareas.

Además, en términos de programación de tareas en el sistema operativo, este también es el elemento más básico que afecta la experiencia fluida.En comparación con la programación justa, la programación de prioridad dinámica reducirá en gran medida el consumo de energía. La programación de prioridad dinámica es similar a un sistema de transporte inteligente, que puede ajustar dinámicamente el estado de iluminación de los semáforos según las condiciones de la carretera y el flujo de tráfico, la congestión y los retrasos.

Sin embargo, para que el modelo grande se implemente en el teléfono móvil y siga funcionando, no basta con actualizar y mejorar el sistema operativo del teléfono móvil.

A medida que las predicciones de los modelos grandes se vuelven más precisas y las redes más profundas, la capacidad de memoria consumida por las redes neuronales se ha convertido en un problema central. Al mismo tiempo, también implica el problema del ancho de banda de la memoria, cuando la red está funcionando, la memoria, la CPU y la batería se consumirán rápidamente, lo que definitivamente es una carga insoportable para los teléfonos móviles actuales.

** Por lo tanto, antes de implementarlo en el teléfono móvil, el modelo grande debe comprimirse para reducir la demanda de potencia informática de inferencia. Sin embargo, es importante asegurarse de que el rendimiento y la precisión originales se mantengan básicamente sin cambios. **

La cuantificación es una operación de compresión común e importante, que puede reducir el espacio de memoria ocupado por el modelo y mejorar el rendimiento de la inferencia. En esencia, se trata de convertir el modelo de operación de punto flotante en un modelo de operación de enteros, porque la operación de enteros tiene mayor precisión y velocidad de operación más rápida que la operación de punto flotante.

En la actualidad, la tecnología cuantitativa también está acelerando los avances. El modelo entrenado en el servidor generalmente usa operaciones de coma flotante de 32 bits (FP32).En el lado del teléfono móvil, Qualcomm ha cuantificado y comprimido el modelo FP32 al modelo INT4, logrando 64 mejoras en la eficiencia energética de la memoria y la computación. Los datos de implementación de Qualcomm muestran que después de usar el entrenamiento de percepción de cuantificación de Qualcomm, muchos modelos AIGC se pueden cuantificar en modelos INT4. En comparación con INT8, el rendimiento mejora en aproximadamente un 90 % y la eficiencia energética en aproximadamente un 60 %.

La tecnología de compresión de modelos grandes es, sin duda, el factor clave para que los gigantes de la IA ganen el campo de batalla de los terminales móviles. Esto también explica en cierta medida por qué Nvidia adquirió "silenciosamente" OmniML, una startup de inteligencia artificial que domina la tecnología de compresión de modelos grandes, en febrero de este año.

El modelo grande obliga a actualizar el hardware del terminal

"Este año podremos admitir un modelo de IA generativa con 10 000 millones de parámetros que se ejecutan en un teléfono móvil". mil millones de parámetros pueden cubrir la mayor parte de los datos La mayoría de los casos de uso de AIGC. Si el terminal ya puede admitir este nivel de parámetro, todos los cálculos se pueden realizar en el terminal y el teléfono móvil se convertirá en un verdadero asistente personal.

Sin embargo, la generación actual de chips emblemáticos para teléfonos móviles puede transportar y ejecutar un modelo grande con un nivel de parámetro de mil millones Qualcomm demostró con éxito un modelo grande que se ejecuta en el sistema Android en el CVPR, la principal conferencia académica sobre visión artificial en junio de este año. , pero solo 1.500 millones de parámetros.

Los parámetros han saltado casi diez veces, y el modelo grande rumbo al terminal móvil ya ha pisado el "acelerador", por lo que el móvil tiene que actualizarse para hacerle frente.

** El hardware de los teléfonos móviles necesita urgentemente innovaciones en los aceleradores y la memoria de la IA. **

En primer lugar, los modelos grandes con parámetros más grandes requieren una memoria y un espacio de almacenamiento más grandes para almacenar los parámetros del modelo y los resultados intermedios. Esto requiere que se actualice la capacidad del chip de memoria del terminal móvil y el ancho de banda de la interfaz de memoria.

En segundo lugar, los parámetros más grandes inevitablemente requieren capacidades informáticas y de razonamiento más potentes para procesar los datos de entrada y los resultados de salida.

Aunque los aceleradores de IA (como varias NPU IP) en los chips de teléfonos móviles son casi estándar, el diseño es básicamente para la generación anterior de diseño de redes neuronales convolucionales, no completamente para modelos grandes.

Para adaptarse a modelos grandes, los aceleradores de IA deben tener un mayor ancho de banda de acceso a la memoria y reducir la latencia de acceso a la memoria. Esto requiere algunos cambios en la interfaz del acelerador de IA (como asignar más pines a la interfaz de memoria) y también requiere cambios correspondientes en la interconexión de datos en el chip para cumplir con los requisitos de acceso a la memoria del acelerador de IA.

Una de las razones importantes por las que Qualcomm puede llamar "teléfonos móviles con 10 000 millones de parámetros en un año" es que cuenta con el procesador Snapdragon 8 de segunda generación equipado con el motor de IA más rápido y avanzado en la historia de Qualcomm. , el rendimiento de la IA se ha incrementado en 4,35 veces y la eficiencia energética se ha incrementado en un 60 %.

**Por supuesto, incluso en la nube, el entrenamiento y el razonamiento de los modelos de parámetros de gran escala deben atravesar cinco paredes: pared de memoria + pared de potencia informática + pared de comunicación + pared de ajuste + pared de implementación, y los teléfonos móviles tienen que romper capa por capa. **

Sin embargo, desde la "inteligencia" hasta la "inteligencia artificial", para teléfonos móviles, las oportunidades superan los desafíos.

"El impacto del ciclo de innovación en la electrónica de consumo es más importante e incluso puede sacar a una industria del impacto del ciclo económico". iniciado por IA y 5G+.

Ver originales