Fuente de la imagen: Generada por la herramienta de IA Unbounded
MediaTek está colaborando con Lllama 2 LLM de Meta, diseñado para ejecutar tareas generativas de IA directamente en dispositivos móviles, sin procesamiento basado en la nube. Hacer esto tiene varias ventajas, pero también sus correspondientes problemas.
La inteligencia artificial generativa es una de las tecnologías emergentes más populares, impulsada por los sistemas de chat ChatGPT de OpenAI y Bard de Google, así como sistemas de generación de imágenes como Stable Diffusion y DALL-E. Sin embargo, todavía es algo limitado, porque estas herramientas usan cientos de GPU en los centros de datos en la nube para realizar los cálculos necesarios para cada consulta.
Pero algún día, podremos ejecutar tareas generadas por IA directamente en dispositivos móviles. O en un coche conectado, o en el salón, el dormitorio y la cocina, a través de altavoces inteligentes como Amazon Echo, Google Home o Apple HomePod.
MediaTek cree que este futuro está más cerca de lo que pensamos. Hoy, la compañía de semiconductores con sede en Taiwán anunció que se está asociando con Meta para combinar Lllama 2 LLM del gigante social con la APU de última generación de la compañía y la plataforma de desarrollo de software NeuroPilot para ejecutar tareas generativas de IA en el dispositivo sin depender de procesamiento externo.
Por supuesto, hay un problema con esto: esta combinación no eliminará por completo los centros de datos. Debido al tamaño de los conjuntos de datos LLM (la cantidad de parámetros que contienen) y el rendimiento requerido del sistema de almacenamiento, todavía necesitamos un centro de datos, aunque a una escala mucho menor.
Por ejemplo, el "pequeño" conjunto de datos de Llama 2 tiene 7 mil millones de parámetros, aproximadamente 13 GB, y es adecuado para algunas funciones rudimentarias de IA generativa. Sin embargo, una versión más grande de 72 mil millones de parámetros, incluso con técnicas avanzadas de compresión de datos, requeriría una cantidad de almacenamiento proporcionalmente mayor que las capacidades prácticas de los teléfonos inteligentes actuales. En los próximos años, los LLM en desarrollo tendrán fácilmente entre 10 y 100 veces el tamaño de Llama 2 o GPT-4, con requisitos de almacenamiento de cientos de gigabytes o más.
Eso es difícil de almacenar en un teléfono inteligente y tener suficientes IOPS para el rendimiento de la base de datos, pero ciertamente no es cierto para un dispositivo de almacenamiento en caché especialmente diseñado con flash rápido y terabytes de RAM. Entonces, con Llama 2, ahora es posible alojar un dispositivo optimizado para servir dispositivos móviles en una sola unidad de rack sin necesidad de computación pesada. No es un teléfono, ¡pero es impresionante de todos modos!
MediaTek espera que las aplicaciones de inteligencia artificial basadas en Llama 2 se lancen en teléfonos inteligentes con tecnología de su SoC insignia de próxima generación, que está programado para llegar al mercado a fines de este año.
Para que la IA generativa en el dispositivo acceda a estos conjuntos de datos, los operadores móviles deben confiar en redes perimetrales de baja latencia: pequeños centros de datos/armarios de equipos que se conectan rápidamente a torres 5G. Estos centros de datos estarán ubicados directamente en la red del operador, por lo que el LLM que se ejecuta en el teléfono inteligente no necesitará realizar múltiples "saltos" de red antes de acceder a los datos de los parámetros.
Además de ejecutar cargas de trabajo de IA en dispositivos con procesadores especializados como MediaTek, los LLM de dominios específicos también se pueden combinar con estos dispositivos de almacenamiento en caché en microcentros de datos en un escenario de "borde de dispositivo restringido".
Entonces, ¿cuáles son los beneficios de utilizar IA generativa en el dispositivo?
Latencia reducida: Dado que los datos se procesan en el dispositivo, los tiempos de respuesta se reducen considerablemente, especialmente si se utilizan métodos de almacenamiento en caché localizados para partes de conjuntos de datos de parámetros a los que se accede con frecuencia.
Mejorar la privacidad de los datos: Al mantener los datos en el dispositivo, los datos (como las conversaciones de chat o la capacitación enviada por el usuario) no se transmiten a través del centro de datos, solo a través de los datos del modelo.
Eficiencia de ancho de banda mejorada: Hoy en día, las tareas de IA generativa requieren que todos los datos en una conversación de usuario se transmitan de un lado a otro al centro de datos. Con el procesamiento localizado, se almacenará una gran cantidad de datos en el dispositivo.
**Mejorar la resiliencia operativa: **Al generar en el dispositivo, el sistema puede continuar funcionando incluso si la red se interrumpe, especialmente si el dispositivo tiene un caché de parámetros lo suficientemente grande.
Eficiencia energética: Los centros de datos no requieren tantos recursos computacionales intensivos, ni tanta energía para transferir datos desde los dispositivos al centro de datos.
Sin embargo, para lograr estos beneficios puede ser necesario dividir las cargas de trabajo y utilizar otras técnicas de equilibrio de carga para descargar los costos computacionales y la sobrecarga de la red de los centros de datos centralizados.
Además de la necesidad continua de centros de datos perimetrales de conexión rápida (aunque con requisitos computacionales y de energía muy reducidos), existe otra pregunta: ¿qué tan poderoso puede ejecutarse LLM en el hardware actual? Aunque los datos en el dispositivo están menos preocupados por ser interceptados en la red, si no se administran adecuadamente, el riesgo de seguridad de la infiltración de datos confidenciales en el dispositivo local también aumentará, y la actualización de los datos del modelo y el mantenimiento de los datos en una gran cantidad de dispositivos distribuidos Dispositivos de caché perimetrales La coherencia también es un desafío.
Finalmente, está la cuestión del costo: ¿quién va a pagar por todos estos centros de datos de borde pequeño? Actualmente, las redes perimetrales son adoptadas por proveedores de servicios perimetrales como Equinix, servicios como Netflix e iTunes de Apple requieren redes perimetrales, y los operadores de redes móviles como AT&T, T-Mobile o Verizon tradicionalmente no han requerido redes perimetrales. Los proveedores de servicios de IA generativa como OpenAI/Microsoft, Google y Meta deberán hacer arreglos similares.
La IA generativa en el dispositivo es mucho para considerar, pero está claro que las empresas de tecnología están pensando en ello. Dentro de cinco años, el asistente inteligente de su dispositivo podría estar pensando por sí mismo. ¿Listo para poner inteligencia artificial en tu bolsillo? Está llegando, y mucho antes de lo que la mayoría espera.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
MediaTek: Se acerca la era de las tareas de IA generativa en el lado móvil, sin depender del procesamiento en la nube
Escrito por: Jason Perlow
Fuente: Zdnet
La inteligencia artificial generativa es una de las tecnologías emergentes más populares, impulsada por los sistemas de chat ChatGPT de OpenAI y Bard de Google, así como sistemas de generación de imágenes como Stable Diffusion y DALL-E. Sin embargo, todavía es algo limitado, porque estas herramientas usan cientos de GPU en los centros de datos en la nube para realizar los cálculos necesarios para cada consulta.
Pero algún día, podremos ejecutar tareas generadas por IA directamente en dispositivos móviles. O en un coche conectado, o en el salón, el dormitorio y la cocina, a través de altavoces inteligentes como Amazon Echo, Google Home o Apple HomePod.
MediaTek cree que este futuro está más cerca de lo que pensamos. Hoy, la compañía de semiconductores con sede en Taiwán anunció que se está asociando con Meta para combinar Lllama 2 LLM del gigante social con la APU de última generación de la compañía y la plataforma de desarrollo de software NeuroPilot para ejecutar tareas generativas de IA en el dispositivo sin depender de procesamiento externo.
Por supuesto, hay un problema con esto: esta combinación no eliminará por completo los centros de datos. Debido al tamaño de los conjuntos de datos LLM (la cantidad de parámetros que contienen) y el rendimiento requerido del sistema de almacenamiento, todavía necesitamos un centro de datos, aunque a una escala mucho menor.
Por ejemplo, el "pequeño" conjunto de datos de Llama 2 tiene 7 mil millones de parámetros, aproximadamente 13 GB, y es adecuado para algunas funciones rudimentarias de IA generativa. Sin embargo, una versión más grande de 72 mil millones de parámetros, incluso con técnicas avanzadas de compresión de datos, requeriría una cantidad de almacenamiento proporcionalmente mayor que las capacidades prácticas de los teléfonos inteligentes actuales. En los próximos años, los LLM en desarrollo tendrán fácilmente entre 10 y 100 veces el tamaño de Llama 2 o GPT-4, con requisitos de almacenamiento de cientos de gigabytes o más.
Eso es difícil de almacenar en un teléfono inteligente y tener suficientes IOPS para el rendimiento de la base de datos, pero ciertamente no es cierto para un dispositivo de almacenamiento en caché especialmente diseñado con flash rápido y terabytes de RAM. Entonces, con Llama 2, ahora es posible alojar un dispositivo optimizado para servir dispositivos móviles en una sola unidad de rack sin necesidad de computación pesada. No es un teléfono, ¡pero es impresionante de todos modos!
MediaTek espera que las aplicaciones de inteligencia artificial basadas en Llama 2 se lancen en teléfonos inteligentes con tecnología de su SoC insignia de próxima generación, que está programado para llegar al mercado a fines de este año.
Para que la IA generativa en el dispositivo acceda a estos conjuntos de datos, los operadores móviles deben confiar en redes perimetrales de baja latencia: pequeños centros de datos/armarios de equipos que se conectan rápidamente a torres 5G. Estos centros de datos estarán ubicados directamente en la red del operador, por lo que el LLM que se ejecuta en el teléfono inteligente no necesitará realizar múltiples "saltos" de red antes de acceder a los datos de los parámetros.
Además de ejecutar cargas de trabajo de IA en dispositivos con procesadores especializados como MediaTek, los LLM de dominios específicos también se pueden combinar con estos dispositivos de almacenamiento en caché en microcentros de datos en un escenario de "borde de dispositivo restringido".
Entonces, ¿cuáles son los beneficios de utilizar IA generativa en el dispositivo?
Sin embargo, para lograr estos beneficios puede ser necesario dividir las cargas de trabajo y utilizar otras técnicas de equilibrio de carga para descargar los costos computacionales y la sobrecarga de la red de los centros de datos centralizados.
Además de la necesidad continua de centros de datos perimetrales de conexión rápida (aunque con requisitos computacionales y de energía muy reducidos), existe otra pregunta: ¿qué tan poderoso puede ejecutarse LLM en el hardware actual? Aunque los datos en el dispositivo están menos preocupados por ser interceptados en la red, si no se administran adecuadamente, el riesgo de seguridad de la infiltración de datos confidenciales en el dispositivo local también aumentará, y la actualización de los datos del modelo y el mantenimiento de los datos en una gran cantidad de dispositivos distribuidos Dispositivos de caché perimetrales La coherencia también es un desafío.
Finalmente, está la cuestión del costo: ¿quién va a pagar por todos estos centros de datos de borde pequeño? Actualmente, las redes perimetrales son adoptadas por proveedores de servicios perimetrales como Equinix, servicios como Netflix e iTunes de Apple requieren redes perimetrales, y los operadores de redes móviles como AT&T, T-Mobile o Verizon tradicionalmente no han requerido redes perimetrales. Los proveedores de servicios de IA generativa como OpenAI/Microsoft, Google y Meta deberán hacer arreglos similares.
La IA generativa en el dispositivo es mucho para considerar, pero está claro que las empresas de tecnología están pensando en ello. Dentro de cinco años, el asistente inteligente de su dispositivo podría estar pensando por sí mismo. ¿Listo para poner inteligencia artificial en tu bolsillo? Está llegando, y mucho antes de lo que la mayoría espera.