Fonte da imagem: gerada pela ferramenta Unbounded AI
A MediaTek está colaborando com o Lllama 2 LLM da Meta, projetado para executar tarefas generativas de IA diretamente em dispositivos móveis, sem processamento baseado em nuvem. Existem diversas vantagens em fazer isso, mas também existem problemas correspondentes.
A inteligência artificial generativa é uma das tecnologias emergentes mais recentes, alimentada pelos sistemas de bate-papo ChatGPT da OpenAI e Bard do Google, bem como sistemas de geração de imagens como Stable Diffusion e DALL-E. Porém, ainda é um tanto limitado, porque essas ferramentas usam centenas de GPUs em data centers em nuvem para realizar os cálculos necessários para cada consulta.
Mas um dia seremos capazes de executar tarefas geradas por IA diretamente em dispositivos móveis. Ou em um carro conectado, ou na sala, no quarto e na cozinha, com alto-falantes inteligentes como Amazon Echo, Google Home ou Apple HomePod.
A MediaTek acredita que este futuro está mais próximo do que pensamos. Hoje, a empresa de semicondutores com sede em Taiwan anunciou que está fazendo parceria com a Meta para combinar o Lllama 2 LLM da gigante social com a plataforma de desenvolvimento de software APU e NeuroPilot de última geração da empresa para executar tarefas generativas de IA no dispositivo sem depender de processamento externo.
É claro que há um problema nisso: essa combinação não eliminará completamente os data centers. Devido ao tamanho dos conjuntos de dados LLM (o número de parâmetros que eles contêm) e ao desempenho exigido do sistema de armazenamento, ainda precisamos de um data center, embora em uma escala muito menor.
Por exemplo, o conjunto de dados "pequeno" do Llama 2 tem 7 bilhões de parâmetros, cerca de 13 GB, e é adequado para algumas funções rudimentares de IA generativa. No entanto, uma versão maior de 72 bilhões de parâmetros, mesmo com técnicas avançadas de compactação de dados, exigiria uma quantidade proporcionalmente grande de armazenamento além das capacidades práticas dos smartphones atuais. Nos próximos anos, os LLMs em desenvolvimento terão facilmente de 10 a 100 vezes o tamanho do Llama 2 ou GPT-4, com requisitos de armazenamento de centenas de gigabytes ou mais.
Isso é difícil de armazenar em um smartphone e ter IOPS suficiente para o desempenho do banco de dados, mas certamente não é verdade para um dispositivo de cache específico com flash rápido e terabytes de RAM. Assim, com o Llama 2, agora é possível hospedar um dispositivo otimizado para atender a dispositivos móveis em uma única unidade de rack sem computação pesada. Não é um telefone, mas é impressionante de qualquer maneira!
A MediaTek espera que os aplicativos de IA baseados em Llama 2 sejam lançados em smartphones equipados com seu carro-chefe SoC de próxima geração, que deve chegar ao mercado até o final deste ano.
Para que a IA generativa no dispositivo acesse esses conjuntos de dados, as operadoras móveis devem contar com redes de borda de baixa latência – pequenos data centers/armários de equipamentos que se conectam rapidamente a torres 5G. Esses data centers estarão localizados diretamente na rede da operadora, de modo que o LLM executado no smartphone não precisará passar por vários “saltos” de rede antes de acessar os dados de parâmetro.
Além de executar cargas de trabalho de IA em dispositivos com processadores especializados, como MediaTek, LLMs específicos de domínio também podem ser misturados com esses dispositivos de cache em microdata centers em um cenário de "borda de dispositivo restrita".
Então, quais são os benefícios de usar IA generativa no dispositivo?
Latência reduzida: como os dados são processados no dispositivo, os tempos de resposta são bastante reduzidos, especialmente se métodos de cache localizados forem usados para partes de conjuntos de dados de parâmetros acessadas com frequência.
Melhore a privacidade dos dados: ao manter os dados no dispositivo, os dados (como conversas de bate-papo ou treinamento enviado pelo usuário) não são transmitidos por meio do data center, apenas por meio de dados do modelo.
Eficiência de largura de banda aprimorada: hoje, as tarefas de IA generativa exigem que todos os dados em uma conversa do usuário sejam transmitidos de um lado para o outro para o data center. Com o processamento localizado, uma grande quantidade de dados será armazenada no dispositivo.
**Melhorar a resiliência operacional: **Ao gerar no dispositivo, o sistema pode continuar a operar mesmo se a rede for interrompida, especialmente se o dispositivo tiver um cache de parâmetros grande o suficiente.
Eficiência energética: os datacenters não exigem tantos recursos computacionais intensivos, nem exigem tanta energia para transferir dados de dispositivos para o datacenter.
No entanto, a concretização desses benefícios pode exigir a divisão das cargas de trabalho e o uso de outras técnicas de balanceamento de carga para aliviar os custos computacionais e a sobrecarga de rede dos data centers centralizados.
Além da necessidade contínua de data centers de borda com conexão rápida (embora com requisitos computacionais e de energia muito reduzidos), há outra questão: quão poderoso o LLM pode ser executado no hardware atual? Embora os dados no dispositivo estejam menos preocupados em serem interceptados na rede, se não forem gerenciados adequadamente, o risco de segurança de dados confidenciais no dispositivo local sendo infiltrados também aumentará, e a atualização dos dados do modelo e a manutenção dos dados em um grande número de dispositivos distribuídos dispositivos de cache de borda A consistência também é um desafio.
Finalmente, há a questão do custo: quem vai pagar por todos esses pequenos data centers de ponta? As redes de borda são atualmente adotadas por provedores de serviços de ponta, como a Equinix, serviços como Netflix e iTunes da Apple exigem redes de ponta, e operadoras de redes móveis como AT&T, T-Mobile ou Verizon tradicionalmente não exigem redes de ponta. Provedores de serviços de IA generativa, como OpenAI/Microsoft, Google e Meta, precisarão fazer acordos semelhantes.
A IA generativa no dispositivo é muito a considerar, mas está claro que as empresas de tecnologia estão pensando nisso. Dentro de cinco anos, o assistente inteligente do seu dispositivo pode estar pensando por si mesmo. Pronto para colocar a inteligência artificial no seu bolso? Está chegando, e muito mais cedo do que a maioria espera.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
MediaTek: A era das tarefas de IA generativas no lado móvel está chegando, sem depender do processamento em nuvem
Escrito por: Jason Perlow
Fonte: Zdnet
A inteligência artificial generativa é uma das tecnologias emergentes mais recentes, alimentada pelos sistemas de bate-papo ChatGPT da OpenAI e Bard do Google, bem como sistemas de geração de imagens como Stable Diffusion e DALL-E. Porém, ainda é um tanto limitado, porque essas ferramentas usam centenas de GPUs em data centers em nuvem para realizar os cálculos necessários para cada consulta.
Mas um dia seremos capazes de executar tarefas geradas por IA diretamente em dispositivos móveis. Ou em um carro conectado, ou na sala, no quarto e na cozinha, com alto-falantes inteligentes como Amazon Echo, Google Home ou Apple HomePod.
A MediaTek acredita que este futuro está mais próximo do que pensamos. Hoje, a empresa de semicondutores com sede em Taiwan anunciou que está fazendo parceria com a Meta para combinar o Lllama 2 LLM da gigante social com a plataforma de desenvolvimento de software APU e NeuroPilot de última geração da empresa para executar tarefas generativas de IA no dispositivo sem depender de processamento externo.
É claro que há um problema nisso: essa combinação não eliminará completamente os data centers. Devido ao tamanho dos conjuntos de dados LLM (o número de parâmetros que eles contêm) e ao desempenho exigido do sistema de armazenamento, ainda precisamos de um data center, embora em uma escala muito menor.
Por exemplo, o conjunto de dados "pequeno" do Llama 2 tem 7 bilhões de parâmetros, cerca de 13 GB, e é adequado para algumas funções rudimentares de IA generativa. No entanto, uma versão maior de 72 bilhões de parâmetros, mesmo com técnicas avançadas de compactação de dados, exigiria uma quantidade proporcionalmente grande de armazenamento além das capacidades práticas dos smartphones atuais. Nos próximos anos, os LLMs em desenvolvimento terão facilmente de 10 a 100 vezes o tamanho do Llama 2 ou GPT-4, com requisitos de armazenamento de centenas de gigabytes ou mais.
Isso é difícil de armazenar em um smartphone e ter IOPS suficiente para o desempenho do banco de dados, mas certamente não é verdade para um dispositivo de cache específico com flash rápido e terabytes de RAM. Assim, com o Llama 2, agora é possível hospedar um dispositivo otimizado para atender a dispositivos móveis em uma única unidade de rack sem computação pesada. Não é um telefone, mas é impressionante de qualquer maneira!
A MediaTek espera que os aplicativos de IA baseados em Llama 2 sejam lançados em smartphones equipados com seu carro-chefe SoC de próxima geração, que deve chegar ao mercado até o final deste ano.
Para que a IA generativa no dispositivo acesse esses conjuntos de dados, as operadoras móveis devem contar com redes de borda de baixa latência – pequenos data centers/armários de equipamentos que se conectam rapidamente a torres 5G. Esses data centers estarão localizados diretamente na rede da operadora, de modo que o LLM executado no smartphone não precisará passar por vários “saltos” de rede antes de acessar os dados de parâmetro.
Além de executar cargas de trabalho de IA em dispositivos com processadores especializados, como MediaTek, LLMs específicos de domínio também podem ser misturados com esses dispositivos de cache em microdata centers em um cenário de "borda de dispositivo restrita".
Então, quais são os benefícios de usar IA generativa no dispositivo?
No entanto, a concretização desses benefícios pode exigir a divisão das cargas de trabalho e o uso de outras técnicas de balanceamento de carga para aliviar os custos computacionais e a sobrecarga de rede dos data centers centralizados.
Além da necessidade contínua de data centers de borda com conexão rápida (embora com requisitos computacionais e de energia muito reduzidos), há outra questão: quão poderoso o LLM pode ser executado no hardware atual? Embora os dados no dispositivo estejam menos preocupados em serem interceptados na rede, se não forem gerenciados adequadamente, o risco de segurança de dados confidenciais no dispositivo local sendo infiltrados também aumentará, e a atualização dos dados do modelo e a manutenção dos dados em um grande número de dispositivos distribuídos dispositivos de cache de borda A consistência também é um desafio.
Finalmente, há a questão do custo: quem vai pagar por todos esses pequenos data centers de ponta? As redes de borda são atualmente adotadas por provedores de serviços de ponta, como a Equinix, serviços como Netflix e iTunes da Apple exigem redes de ponta, e operadoras de redes móveis como AT&T, T-Mobile ou Verizon tradicionalmente não exigem redes de ponta. Provedores de serviços de IA generativa, como OpenAI/Microsoft, Google e Meta, precisarão fazer acordos semelhantes.
A IA generativa no dispositivo é muito a considerar, mas está claro que as empresas de tecnologia estão pensando nisso. Dentro de cinco anos, o assistente inteligente do seu dispositivo pode estar pensando por si mesmo. Pronto para colocar a inteligência artificial no seu bolso? Está chegando, e muito mais cedo do que a maioria espera.