La era de los grandes modelos de IA ≠ La era de la IA sólo con grandes modelos

Autor 丨Jin Lei

Fuente丨Qbit QbitAI

¿Qué tipo de tecnología puede sobrevivir al bautismo del tiempo y seguir siendo nueva?

La respuesta puede resumirse en un patrón similar a una "trilogía": ascenso, desarrollo y aplicación a gran escala, más otra iteración evolutiva de este proceso.

Tomando la historia como guía, la máquina de vapor lideró la primera revolución industrial. Cuando evolucionó hasta convertirse en el motor de combustión interna y se hizo popular, el disruptor de la segunda revolución industrial: la propia energía eléctrica y diversos equipos relacionados con ella estaban en su infancia. A medida que los equipos avanzan hacia la innovación iterativa en microelectrónica, todavía se están mejorando y popularizando varios motores de combustible.

A juzgar por esta regla, aunque los grandes modelos de lenguaje (LLM para abreviar) han dominado todas las palabras clave relacionadas con la IA y han atraído la atención de todos desde su aparición, esto no significa que "no había IA antes de LLM".

Mientras que los modelos grandes se acaparan el protagonismo, la generación anterior de aplicaciones de aprendizaje automático, que antes se especializaban en la toma de decisiones, así como las aplicaciones de aprendizaje profundo "tradicionales" que se centran en las capacidades de percepción, tampoco están inactivas. etapa de la adolescencia y la entrada en la práctica constante y práctica.

¿Cuál es la evidencia?

Un importante fabricante de chips ha lanzado una serie de manuales prácticos de IA, dirigidos a prácticas de IA en las industrias de fabricación y energía, medicina, finanzas, transporte y logística, y educación.

En la actualización de este año del Manual práctico de IA para logística, transporte y atención médica, se registran muchas aplicaciones de IA que se han implementado o se están implementando, así como cómo implementarlas sin problemas y liberar completamente su potencial de aceleración del rendimiento. también se utilizan en algunos ejemplos de aplicaciones familiares de empresas que se adentraron en la primera línea.

Por tanto, la IA no se trata sólo de grandes modelos. La era de los grandes modelos de IA también ≠ la era de la IA sólo con modelos grandes.

La IA madura ya se ha puesto en marcha

Quizás todavía no puedas creer que la tecnología de inteligencia artificial ya esté detrás incluso de las pequeñas entregas urgentes.

Así es, y está casi implicada en todo el proceso logístico: pedido, envío, clasificación, transbordo, distribución... La IA ahora tiene que "gestionar" todo.

Tomemos como ejemplo la tecnología clásica OCR (reconocimiento óptico de caracteres): se puede decir que su estatus en el "mundo técnico" de la logística es fundamental y mejora enormemente la eficiencia del trabajo.

Por ejemplo, cuando el remitente completa la dirección y la información de identidad durante el envío, y el almacén de comercio electrónico verifica la información del producto enviado, se puede utilizar OCR para lograr la entrada con un solo clic.

A medida que la tecnología de inteligencia artificial se vuelve más perfecta y su aplicación se profundiza, esta velocidad ha alcanzado "no hay más rápido, solo más rápido".

Este es el caso de Yunda Express, con el que estamos familiarizados: durante el proceso de reconocimiento OCR de tres segmentos, originalmente esperaba que la IA pudiera lograr una precisión de reconocimiento OCR del 95%.

Como resultado, la IA actual "le dio una lección a Yunda": no solo la precisión se disparó a casi el 98%, sino que el tiempo también "disminuyó": de 130 ms a 114 ms.

△Los resultados de las pruebas de rendimiento se basan en pruebas realizadas por Yunda en octubre de 2022

Además, el reconocimiento OCR es solo una pequeña parte de la participación de la IA en la industria de la logística. Mire una imagen para sentir el poder que desempeña ahora:

Bueno, la IA es tan integral que no es de extrañar que la velocidad de la logística nacional esté despegando.

Pero amigos, este es solo un caso en el que la IA está acelerando miles de industrias. De hecho, nuestros viajes diarios también están llenos del "sabor" de la IA.

Por ejemplo, la tecnología de análisis de vídeo mediante IA puede analizar las condiciones del tráfico en las autopistas en tiempo real.

Ya sea que se trate de monitoreo del flujo de tráfico, reconocimiento de matrículas de vehículos o advertencia de accidentes, etc., se puede decir que la IA tiene una vista panorámica de todo.

De esta manera, las condiciones de la carretera se pueden controlar de forma eficaz y precisa.

Otro ejemplo son los aeropuertos: las cámaras alimentadas por tecnología de inteligencia artificial también pueden identificar de forma detallada aviones, vehículos, personal y violaciones de fronteras, lo que proporciona una cierta garantía para la seguridad de la zona de vuelo.

……

No es difícil ver en los pequeños casos de uso anteriores que la IA "madura", o aquellas populares aplicaciones estrella de IA de hace unos años, pueden no parecer populares, pero en realidad han penetrado en todos los aspectos de nuestras vidas, y sus El objetivo principal es "reducir el gasto y mejorar la eficiencia".

Entonces, ¿qué hay detrás de esos “ahorros de costos y aumentos de eficiencia”?

No seas demasiado pretencioso, solo da la respuesta——

Son las plataformas de Intel las que ayudan, específicamente los procesadores escalables Xeon®️. Del mismo modo, el fabricante de chips que mencionamos anteriormente también es Intel, y es Intel quien ha proporcionado manuales prácticos de IA para múltiples industrias.

Pero lo que desbloquea tales capacidades no es sólo una CPU, sino también los bonos de optimización a nivel de software de Intel; en otras palabras, es el resultado de "integrar software y hardware".

Simplemente resumido en: procesadores escalables Xeon®️ y su acelerador de IA integrado, así como una serie de marcos de IA y software de optimización como OpenVINO™️ y oneAPI para ayudar.

Actualmente, solo hay dos factores que afectan el rendimiento de las aplicaciones de IA: la potencia informática y la velocidad de acceso a los datos.

La cantidad de núcleos de CPU únicos en los últimos procesadores escalables Xeon®️ de cuarta generación ha aumentado a un máximo de 60 núcleos. En términos de velocidad de acceso a datos, se han optimizado hasta cierto punto los tamaños de caché en todos los niveles, el número de canales de memoria, la velocidad de acceso a la memoria, etc. Además, la tecnología de memoria de alto ancho de banda de HBM también está integrada en la serie CPU Max.

Además, el conjunto de instrucciones de la CPU también se ha optimizado y se han incorporado aceleradores de hardware como Intel®️ Advanced Matrix Extensions (Intel®️ AMX), que es responsable de los cálculos matriciales y de acelerar las cargas de trabajo de aprendizaje profundo. -bit de aplicaciones de IA aceleradas por CPU.

Es algo similar al Tensor Core en la GPU.

AMX consta de dos partes, una es un archivo de registro 2D de 1 kb y la otra es el módulo TMUL, que se utiliza para ejecutar instrucciones de multiplicación de matrices. Puede admitir tipos de datos INT8 y BF16, y BF16 tiene un mejor rendimiento informático que FP32.

Con la bendición del conjunto de instrucciones AMX, el rendimiento mejora hasta 8 veces o incluso más que el conjunto de instrucciones de red neuronal vectorial VNNI integrado en el procesador escalable Xeon®️ de la generación anterior.

Además de la plataforma central de hardware, lo que realmente ayuda a estas industrias a implementar aplicaciones prácticas de IA es una serie de herramientas de software de IA “propias” pero no “privadas” de Intel.

Por ejemplo, la aceleración de OCR mencionada anteriormente es inseparable de la optimización de OpenVINO™️, que elimina muchos cálculos redundantes necesarios para la parte de entrenamiento y respalda principalmente la parte de inferencia.

También es un marco optimizado especialmente creado para hardware Intel. Solo se necesitan 5 líneas de código para completar el reemplazo del marco original.

Los usuarios pueden optimizar los parámetros operativos de OpenVINO™️ para diferentes escenarios comerciales.

Con esta combinación de software y hardware, Intel no sólo libera plenamente el potencial informático de la CPU, sino que también logra un rendimiento cercano al de la GPU en escenarios de razonamiento reales y tiene ventajas adicionales como bajo costo, umbral bajo y facilidad de uso.

Sin embargo, estas son solo optimizaciones de tecnologías de IA maduras en la plataforma Intel®️. Las capacidades de Intel son mucho más que eso.

Esto es de vuelta al gran modelo.

Los grandes modelos populares también se están acelerando.

En la actualidad, las principales empresas de tecnología de todo el mundo están siguiendo grandes modelos lingüísticos, después de todo, el círculo tecnológico ahora lo considera como la tendencia de desarrollo futuro.

Aunque en comparación con esas tecnologías y aplicaciones de IA maduras, todavía está a cierta distancia de su implementación a gran escala, su liderazgo tecnológico es incuestionable, e incluso se espera que las aplicaciones de IA de "generación anterior" se combinen con ellas o se transformen con ellas. Renovado.

Como acelerador básico de potencia informática y rendimiento de aplicaciones, Intel también se está preparando para los días difíciles en este campo competitivo y ya ha presentado sus planes.

En primer lugar, no importa cuán avanzado sea un modelo grande, es necesario que más personas lo utilicen para aprovechar plenamente su valor. Si quieres "jugarlo", el coste es un problema de larga data teniendo en cuenta su enorme tamaño.

Por lo tanto, Intel ha presentado una "herramienta mágica para reducir el peso" mejorada que puede reducir un modelo de lenguaje grande con mil millones de parámetros a 3/4 y mejorar su precisión, y también puede mejorar efectivamente el rendimiento de inferencia de modelos grandes en Intel. ®️ plataforma.

En concreto lo que se utiliza es la tecnología SmoothQuant, que Intel adapta a su propia plataforma e implementa mejoras. Este enfoque se ha integrado en Intel®️ Neural Compressor. Esta es una biblioteca Python de código abierto que contiene una variedad de técnicas de compresión de modelos comúnmente utilizadas, como cuantificación, poda (escasez), destilación (extracción de conocimiento) y búsqueda de arquitectura neuronal. Ya es compatible con una variedad de hardware de arquitectura Intel®️ y es compatible con TensorFlow, marcos convencionales como PyTorch, ONNX Runtime y MXNet.

En segundo lugar, a nivel de hardware, Intel también ha hecho algunos esfuerzos.

Por ejemplo, el recientemente popular ChatGLM-6B utiliza el Intel®️ AMX integrado del procesador escalable Xeon®️ de cuarta generación para aumentar en gran medida la velocidad de cálculo de ajuste del modelo; utiliza el HBM integrado con el procesador de la serie Xeon®️ CPU Max. Para satisfacer las necesidades de usuarios a gran escala, se requiere un gran ancho de banda de memoria para el ajuste fino del modelo.

△Arquitectura de tecnología Intel® AMX

Además de la CPU, Intel también tiene un chip de aceleración de aprendizaje profundo dedicado Habana®️ Gaudi®️2, que puede implementar 8 tarjetas aceleradoras (llamadas Unidad de Procesamiento Habana, conocida como HPU) en un solo servidor. Cada tarjeta tiene memoria de hasta 96 GB, que ofrece mucho espacio para modelos grandes.

Por lo tanto, incluso un modelo de lenguaje de 100 mil millones de niveles como BLOOMZ con 176 mil millones de parámetros puede controlar el retraso del rendimiento a 3,7 segundos después de la optimización de Intel. Para el modelo más pequeño BLOOMZ-7B con 7 mil millones de parámetros, la latencia de un solo dispositivo en Gaudi®️2 es aproximadamente el 37,21% del Gaudi®️ de primera generación; y cuando el número de dispositivos aumenta a 8, este porcentaje cae aún más a Aproximadamente 24,33%.

△Resultados de la prueba de latencia de inferencia BLOOMZ en Gaudí®️2 y la primera generación de Gaudí®️

Luego, a nivel de software, para modelos populares de lenguajes grandes como ChatGLM, Intel también puede optimizarlo creando un modelo con estado OpenVINO™: comprimiendo pesos para reducir el uso del ancho de banda de la memoria y mejorar la velocidad de inferencia.

Esto es un reflejo directo del enfoque de “integración de software y hardware” de Intel en aplicaciones de modelos grandes. Además, el hardware ya no se limita a la CPU, sino que también está Gaudi®️, que puede rivalizar con la GPU tanto en rendimiento de entrenamiento como de inferencia y sorprender a todos en términos de rendimiento de costos.

Finalmente, en términos de seguridad, Intel también ha logrado "lo mejor de ambos mundos": el Trusted Execution Environment (TEE) basado en Intel®️ SGX/TDX puede proporcionar un entorno operativo más seguro para modelos grandes sin intercambiar rendimiento.

Este es el “enfoque de aceleración” de Intel en la era de los grandes modelos de IA.

¿Qué otros cambios traerá?

Al observar el desarrollo de la tecnología de inteligencia artificial, no es difícil encontrar que Intel implementa un principio muy claro: el uso es la última palabra. Incluso usarlo en centros de datos y en los bordes no es suficiente: lo mejor es que cada computadora y cada dispositivo terminal de información de cada persona tenga la capacidad de acelerar de forma independiente las aplicaciones de IA para estar satisfecho con el "núcleo".

Por lo tanto, Intel ha ajustado su misión de innovación para: agregar capacidades de IA a varios productos de hardware y promover la popularización de aplicaciones de IA a través de soluciones de software abiertas de múltiples arquitecturas y promover el surgimiento de la "economía central".

El "enfoque de aceleración" de Intel no sólo pretende permitir que la tecnología se implemente y popularice más rápidamente, sino también promover la adopción, la innovación y el cambio, allanando el camino para la próxima generación de cambios tecnológicos.

Entonces, ¿tiene Intel un objetivo final en este camino?

Quizás como se repitió y enfatizó en Intel Innovation 2023: que la IA esté en todas partes (AI Everywhere).

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)