O modelo grande "corre" para o telefone celular, e a batalha da IA foi queimada da "nuvem" para o "terminal móvel".
"Na era da IA, o modelo Pangu da Huawei ajudará a ecologia de Hongmeng." Em 4 de agosto, Yu Chengdong, diretor executivo da Huawei, CEO do terminal BG e CEO da solução de carro inteligente BU, apresentou isso por meio da tecnologia subjacente do Pangu modelo, Harmony OS traz Aqui vem a próxima geração de sistemas operacionais de terminais inteligentes.
O uso de modelos grandes em telefones celulares não é novidade. Anteriormente, aplicativos e miniaplicativos como ChatGPT, Wenxin Yiyan e Miaoya usavam o poder da computação em nuvem para atender às necessidades de aplicativos de IA em terminais móveis.
**O próximo passo é deixar o modelo grande rodar direto no celular. **
Desde abril e maio deste ano, os três gigantes da tecnologia americana - Qualcomm, Microsoft e Nvidia, a estrela de IA mais atraente OpenAI e a "equipe principal" doméstica de IA Tencent, Baidu etc. esforços em terminais móveis Implantação leve de modelos grandes de IA. A Qualcomm até anunciou que está se transformando gradualmente em uma empresa de computação de borda inteligente (fornecendo serviços de computação em fontes de dados, como terminais móveis).
Sob o forte impulso dos gigantes, a tendência da indústria de modelos em grande escala que se deslocam da nuvem para o fim tornou-se muito clara.
Por que o modelo grande deve "rodar" no celular?
A maior característica do modelo grande é "grande", com dezenas de bilhões de bilhões ou até trilhões de parâmetros e, para melhor executar o modelo grande, o cluster de poder de computação foi atualizado para o nível de "dez mil cartões". Agora, por que você tem que "enfiar" um modelo grande em um celular pequeno do tamanho da palma da mão?
O modelo grande traz algumas melhorias de experiência para usuários de telefones celulares. Por exemplo, Xiaoyi, o assistente inteligente de terminal da Huawei, pode não apenas recomendar restaurantes com base em comandos de voz, mas também executar processamento de informações, como resumo, recuperação de informações e tradução multilíngue. Um longo texto em inglês com milhares de palavras pode ser processado por um celular assistente inteligente com capacidades de modelagem em grande escala. Um resumo é gerado, que também pode ser traduzido para o chinês. Especialmente o último ponto, na era da explosão da informação, ainda é muito valioso para melhorar a eficiência do aprendizado e do trabalho.
**Jia Yongli, Presidente do Terminal BG AI da Huawei e Departamento de Negócios Inteligente para Todos os Cenários, explicou que, por um lado, o modelo de linguagem grande tem a capacidade de generalizar, o que pode ajudar os assistentes inteligentes de telefones celulares a melhorar sua compreensão. Por outro lado, a capacidade de plug-in do modelo grande Plug-in pode romper as barreiras entre os aplicativos no celular e expandir os recursos com a ajuda de ferramentas. **
Além disso, os aplicativos AIGC, como o ChatGPT, sempre foram acompanhados por fortes disputas de privacidade e segurança, mas se forem executados completamente no lado final, esse problema pode ser totalmente evitado. Como o modelo grande é executado no lado final, os dados não sairão do lado final. Além disso, a velocidade de resposta será mais rápida.
** Por outro lado, a demanda por modelos grandes para terminais móveis, como telefones celulares, já é muito urgente. **
A tendência turbulenta de grandes modelos torna a nuvem cada vez mais incapaz de suportar sozinha a demanda por poder de computação. Alex Katouzian, vice-presidente sênior da Qualcomm, disse recentemente sem rodeios: "À medida que o crescimento dos dispositivos conectados e do tráfego de dados acelera e o custo dos data centers sobrepostos aumenta, é impossível (para nós) enviar todo o conteúdo para a nuvem".
Sem contar a grande quantidade de recursos como largura de banda de rede, armazenamento e hardware consumidos pela transmissão de dados, o poder de computação da nuvem por si só já deixou os fabricantes relevantes sobrecarregados. O ChatGPT está apenas no estágio de inferência, e estima-se que o custo mensal do poder de computação seja de cerca de 10 milhões de dólares americanos.
O maior problema não é "caro", mas "falta".
Anteriormente, até Sam Altaman, o fundador da OpenAI, revelou que havia escassez de GPUs, e até mesmo disse sem rodeios que não queria que muitas pessoas usassem o ChatGPT. Recentemente, alguns especialistas especulam que a capacidade de clusters H100 em grande escala de pequenos e grandes provedores de nuvem está prestes a se esgotar, e a tendência de demanda por H100 continuará até pelo menos o final de 2024. A atual capacidade de produção da Nvidia H100 ainda é severamente limitada pela cadeia de suprimentos.
Portanto, a nuvem e o terminal formam uma cooperação, e os recursos de poder de computação ociosos de telefones celulares e outros terminais são usados para resolver a incompatibilidade entre o poder de computação "centralizado" e a demanda "distribuída". Mais importante, em comparação com um número limitado de nós centrais, vários terminais móveis podem ser chamados de "capilares" que tocam milhares de cenários, o que determina que essa entrada será a chave para acelerar a penetração de aplicativos em grandes modelos.
Como "embolsar" o modelo grande?
"Comparado com os PCs ou servidores tradicionais, o maior desafio para os terminais móveis é como equilibrar a experiência e o consumo de energia. Este é um dos pontos centrais mais importantes do design central da Hongmeng." Gong Ti, presidente do Departamento de Software de Negócios de Terminal da Huawei , enfatizou.
Um modelo grande requer muitos recursos de computação e recursos de armazenamento, especialmente com base na configuração de hardware do telefone móvel existente, o que requer a coordenação do sistema de software para melhorar a eficiência e reduzir o consumo de energia.
Atualmente, para melhorar o desempenho dos telefones celulares, pelo menos 8 núcleos de chip precisam ser coordenados pelo sistema de telefonia móvel, e esse processo consumirá muito poder de computação. Se o agendamento de recursos heterogêneos for adotado, CPU, GPU e NPU podem ser coordenados com eficiência. De acordo com Gong Ti, a eficiência do agendamento pode ser aumentada em mais de 60%.
O sistema de telefonia móvel pode realizar cálculos e a menor unidade de agendamento é chamada de thread.Em um sistema operacional tradicional, dezenas de milhares de threads são executados ao mesmo tempo e haverá um grande número de threads inválidos. Em vista disso, um modelo de simultaneidade mais leve pode ser usado para lidar com operações concorrentes e reduzir o consumo de poder computacional por comutação de thread inválida. De acordo com Gong Ti, o modelo de simultaneidade pode economizar 50% da sobrecarga de troca de tarefas.
Além disso, em termos de agendamento de tarefas no sistema operacional, este também é o elemento mais básico que afeta a experiência suave.Comparado com o agendamento justo, o agendamento de prioridade dinâmica reduzirá bastante o consumo de energia. A programação de prioridade dinâmica é semelhante a um sistema de transporte inteligente, que pode ajustar dinamicamente o status de iluminação dos semáforos de acordo com as condições da estrada e fluxo de tráfego, congestionamento e atrasos.
No entanto, para que o modelo grande seja implantado no celular e ainda funcione, não basta atualizar e melhorar o sistema operacional do celular.
À medida que as previsões de grandes modelos se tornam mais precisas e as redes se tornam mais profundas, a capacidade de memória consumida pelas redes neurais tornou-se um problema central. Ao mesmo tempo, também envolve o problema da largura de banda da memória. Quando a rede está funcionando, a memória, a CPU e a bateria serão consumidas rapidamente. Este é definitivamente um fardo insuportável para os telefones celulares atuais.
** Portanto, antes de implantar no telefone celular, o modelo grande deve ser compactado para reduzir a demanda de poder de computação de inferência. No entanto, é importante garantir que o desempenho e a precisão originais permaneçam basicamente inalterados. **
A quantização é uma operação de compressão comum e importante, que pode reduzir o espaço de memória ocupado pelo modelo e melhorar o desempenho da inferência. Em essência, é converter o modelo de operação de ponto flutuante em um modelo de operação de número inteiro, porque a operação de número inteiro tem maior precisão e velocidade de operação mais rápida do que a operação de ponto flutuante.
Atualmente, a tecnologia quantitativa também está acelerando avanços. O modelo treinado no servidor geralmente usa operações de ponto flutuante de 32 bits (FP32).No lado do telefone móvel, a Qualcomm quantizou e comprimiu o modelo FP32 para o modelo INT4, alcançando 64 melhorias de memória e eficiência energética computacional. Os dados de implementação da Qualcomm mostram que, após o uso do treinamento de percepção de quantização da Qualcomm, muitos modelos AIGC podem ser quantizados para modelos INT 4. Comparado com INT8, o desempenho é aprimorado em cerca de 90% e a eficiência energética é aprimorada em cerca de 60%.
A tecnologia de compressão de modelo grande é, sem dúvida, o fator chave para os gigantes da IA vencerem o campo de batalha do terminal móvel. Isso também explica, até certo ponto, por que a Nvidia adquiriu "silenciosamente" a OmniML, uma startup de inteligência artificial que domina a tecnologia de modelos grandes de compressão, em fevereiro deste ano.
O modelo grande força o hardware do terminal a atualizar
"Este ano poderemos oferecer suporte a um modelo de IA generativa com 10 bilhões de parâmetros em execução em um telefone celular." Ziad Asghar, vice-presidente sênior de gerenciamento de produtos e chefe de IA da Qualcomm, disse recentemente que um modelo com 10 bilhões a 15 bilhões de parâmetros podem cobrir a maioria dos dados. A maioria dos casos de uso AIGC. Se o terminal já puder suportar esse nível de parâmetro, todos os cálculos poderão ser executados no terminal e o celular se tornará um verdadeiro assistente pessoal.
No entanto, a geração atual de chips de telefonia móvel também pode transportar e executar um modelo grande com um nível de parâmetro de 1 bilhão. A Qualcomm demonstrou com sucesso um modelo grande em execução no sistema Android no CVPR, a principal conferência acadêmica de visão computacional em junho deste ano ano, mas apenas 1,5 bilhão.parâmetro.
Os parâmetros saltaram quase dez vezes, e o grande modelo que se dirige para o terminal móvel já pisou no "acelerador", pelo que o telemóvel tem de ser atualizado para lidar com isso.
**Hardware de telefonia móvel precisa urgentemente de inovações em aceleradores de IA e memória. **
Primeiro, grandes modelos com parâmetros maiores requerem mais memória e espaço de armazenamento para armazenar os parâmetros do modelo e os resultados intermediários. Isso requer que a capacidade do chip de memória do terminal móvel e a largura de banda da interface de memória sejam atualizadas.
Em segundo lugar, parâmetros maiores inevitavelmente requerem recursos de computação e raciocínio mais poderosos para processar dados de entrada e resultados de saída.
Embora os aceleradores de IA (como vários IPs NPU) em chips de telefones celulares sejam quase padrão, o design é basicamente para a geração anterior de design de rede neural convolucional, não completamente para modelos grandes.
Para se adaptar a modelos grandes, os aceleradores de IA devem ter maior largura de banda de acesso à memória e reduzir a latência de acesso à memória. Isso requer algumas alterações na interface do acelerador AI (como atribuir mais pinos à interface de memória) e também requer alterações correspondentes na interconexão de dados no chip para atender aos requisitos de acesso à memória do acelerador AI.
Uma das razões importantes pelas quais a Qualcomm pode chamar de "telefones móveis com 10 bilhões de parâmetros em um ano" é que ela possui o processador Snapdragon 8 de segunda geração equipado com o mecanismo de IA mais rápido e avançado da história da Qualcomm. Com o novo processador , o desempenho da IA aumentou 4,35 vezes e a eficiência energética aumentou 60%.
**Claro, mesmo na nuvem, o treinamento e o raciocínio de modelos de parâmetros de ultragrande escala precisam romper cinco paredes: parede de memória + parede de poder de computação + parede de comunicação + parede de ajuste + parede de implantação e telefones celulares precisam romper camada por camada. **
No entanto, da "inteligência" à "inteligência artificial", para celulares, as oportunidades superam os desafios.
"O impacto do ciclo de inovação em eletrônicos de consumo é mais importante e pode até tirar uma indústria do impacto do ciclo econômico." O CEO da Glory Terminal, Zhao Ming, avaliou que a atual indústria de smartphones está em uma nova rodada de ciclo de inovação iniciado por IA e 5G+.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Quantos passos são necessários para carregar o modelo grande no celular?
Fonte original: Light Cone Intelligence
Fonte da imagem: Gerada por Unbounded AI
O modelo grande "corre" para o telefone celular, e a batalha da IA foi queimada da "nuvem" para o "terminal móvel".
"Na era da IA, o modelo Pangu da Huawei ajudará a ecologia de Hongmeng." Em 4 de agosto, Yu Chengdong, diretor executivo da Huawei, CEO do terminal BG e CEO da solução de carro inteligente BU, apresentou isso por meio da tecnologia subjacente do Pangu modelo, Harmony OS traz Aqui vem a próxima geração de sistemas operacionais de terminais inteligentes.
O uso de modelos grandes em telefones celulares não é novidade. Anteriormente, aplicativos e miniaplicativos como ChatGPT, Wenxin Yiyan e Miaoya usavam o poder da computação em nuvem para atender às necessidades de aplicativos de IA em terminais móveis.
**O próximo passo é deixar o modelo grande rodar direto no celular. **
Desde abril e maio deste ano, os três gigantes da tecnologia americana - Qualcomm, Microsoft e Nvidia, a estrela de IA mais atraente OpenAI e a "equipe principal" doméstica de IA Tencent, Baidu etc. esforços em terminais móveis Implantação leve de modelos grandes de IA. A Qualcomm até anunciou que está se transformando gradualmente em uma empresa de computação de borda inteligente (fornecendo serviços de computação em fontes de dados, como terminais móveis).
Sob o forte impulso dos gigantes, a tendência da indústria de modelos em grande escala que se deslocam da nuvem para o fim tornou-se muito clara.
Por que o modelo grande deve "rodar" no celular?
A maior característica do modelo grande é "grande", com dezenas de bilhões de bilhões ou até trilhões de parâmetros e, para melhor executar o modelo grande, o cluster de poder de computação foi atualizado para o nível de "dez mil cartões". Agora, por que você tem que "enfiar" um modelo grande em um celular pequeno do tamanho da palma da mão?
O modelo grande traz algumas melhorias de experiência para usuários de telefones celulares. Por exemplo, Xiaoyi, o assistente inteligente de terminal da Huawei, pode não apenas recomendar restaurantes com base em comandos de voz, mas também executar processamento de informações, como resumo, recuperação de informações e tradução multilíngue. Um longo texto em inglês com milhares de palavras pode ser processado por um celular assistente inteligente com capacidades de modelagem em grande escala. Um resumo é gerado, que também pode ser traduzido para o chinês. Especialmente o último ponto, na era da explosão da informação, ainda é muito valioso para melhorar a eficiência do aprendizado e do trabalho.
Além disso, os aplicativos AIGC, como o ChatGPT, sempre foram acompanhados por fortes disputas de privacidade e segurança, mas se forem executados completamente no lado final, esse problema pode ser totalmente evitado. Como o modelo grande é executado no lado final, os dados não sairão do lado final. Além disso, a velocidade de resposta será mais rápida.
** Por outro lado, a demanda por modelos grandes para terminais móveis, como telefones celulares, já é muito urgente. **
A tendência turbulenta de grandes modelos torna a nuvem cada vez mais incapaz de suportar sozinha a demanda por poder de computação. Alex Katouzian, vice-presidente sênior da Qualcomm, disse recentemente sem rodeios: "À medida que o crescimento dos dispositivos conectados e do tráfego de dados acelera e o custo dos data centers sobrepostos aumenta, é impossível (para nós) enviar todo o conteúdo para a nuvem".
Sem contar a grande quantidade de recursos como largura de banda de rede, armazenamento e hardware consumidos pela transmissão de dados, o poder de computação da nuvem por si só já deixou os fabricantes relevantes sobrecarregados. O ChatGPT está apenas no estágio de inferência, e estima-se que o custo mensal do poder de computação seja de cerca de 10 milhões de dólares americanos.
O maior problema não é "caro", mas "falta".
Anteriormente, até Sam Altaman, o fundador da OpenAI, revelou que havia escassez de GPUs, e até mesmo disse sem rodeios que não queria que muitas pessoas usassem o ChatGPT. Recentemente, alguns especialistas especulam que a capacidade de clusters H100 em grande escala de pequenos e grandes provedores de nuvem está prestes a se esgotar, e a tendência de demanda por H100 continuará até pelo menos o final de 2024. A atual capacidade de produção da Nvidia H100 ainda é severamente limitada pela cadeia de suprimentos.
Portanto, a nuvem e o terminal formam uma cooperação, e os recursos de poder de computação ociosos de telefones celulares e outros terminais são usados para resolver a incompatibilidade entre o poder de computação "centralizado" e a demanda "distribuída". Mais importante, em comparação com um número limitado de nós centrais, vários terminais móveis podem ser chamados de "capilares" que tocam milhares de cenários, o que determina que essa entrada será a chave para acelerar a penetração de aplicativos em grandes modelos.
Como "embolsar" o modelo grande?
"Comparado com os PCs ou servidores tradicionais, o maior desafio para os terminais móveis é como equilibrar a experiência e o consumo de energia. Este é um dos pontos centrais mais importantes do design central da Hongmeng." Gong Ti, presidente do Departamento de Software de Negócios de Terminal da Huawei , enfatizou.
Um modelo grande requer muitos recursos de computação e recursos de armazenamento, especialmente com base na configuração de hardware do telefone móvel existente, o que requer a coordenação do sistema de software para melhorar a eficiência e reduzir o consumo de energia.
Atualmente, para melhorar o desempenho dos telefones celulares, pelo menos 8 núcleos de chip precisam ser coordenados pelo sistema de telefonia móvel, e esse processo consumirá muito poder de computação. Se o agendamento de recursos heterogêneos for adotado, CPU, GPU e NPU podem ser coordenados com eficiência. De acordo com Gong Ti, a eficiência do agendamento pode ser aumentada em mais de 60%.
O sistema de telefonia móvel pode realizar cálculos e a menor unidade de agendamento é chamada de thread.Em um sistema operacional tradicional, dezenas de milhares de threads são executados ao mesmo tempo e haverá um grande número de threads inválidos. Em vista disso, um modelo de simultaneidade mais leve pode ser usado para lidar com operações concorrentes e reduzir o consumo de poder computacional por comutação de thread inválida. De acordo com Gong Ti, o modelo de simultaneidade pode economizar 50% da sobrecarga de troca de tarefas.
Além disso, em termos de agendamento de tarefas no sistema operacional, este também é o elemento mais básico que afeta a experiência suave.Comparado com o agendamento justo, o agendamento de prioridade dinâmica reduzirá bastante o consumo de energia. A programação de prioridade dinâmica é semelhante a um sistema de transporte inteligente, que pode ajustar dinamicamente o status de iluminação dos semáforos de acordo com as condições da estrada e fluxo de tráfego, congestionamento e atrasos.
No entanto, para que o modelo grande seja implantado no celular e ainda funcione, não basta atualizar e melhorar o sistema operacional do celular.
À medida que as previsões de grandes modelos se tornam mais precisas e as redes se tornam mais profundas, a capacidade de memória consumida pelas redes neurais tornou-se um problema central. Ao mesmo tempo, também envolve o problema da largura de banda da memória. Quando a rede está funcionando, a memória, a CPU e a bateria serão consumidas rapidamente. Este é definitivamente um fardo insuportável para os telefones celulares atuais.
** Portanto, antes de implantar no telefone celular, o modelo grande deve ser compactado para reduzir a demanda de poder de computação de inferência. No entanto, é importante garantir que o desempenho e a precisão originais permaneçam basicamente inalterados. **
A quantização é uma operação de compressão comum e importante, que pode reduzir o espaço de memória ocupado pelo modelo e melhorar o desempenho da inferência. Em essência, é converter o modelo de operação de ponto flutuante em um modelo de operação de número inteiro, porque a operação de número inteiro tem maior precisão e velocidade de operação mais rápida do que a operação de ponto flutuante.
Atualmente, a tecnologia quantitativa também está acelerando avanços. O modelo treinado no servidor geralmente usa operações de ponto flutuante de 32 bits (FP32).No lado do telefone móvel, a Qualcomm quantizou e comprimiu o modelo FP32 para o modelo INT4, alcançando 64 melhorias de memória e eficiência energética computacional. Os dados de implementação da Qualcomm mostram que, após o uso do treinamento de percepção de quantização da Qualcomm, muitos modelos AIGC podem ser quantizados para modelos INT 4. Comparado com INT8, o desempenho é aprimorado em cerca de 90% e a eficiência energética é aprimorada em cerca de 60%.
A tecnologia de compressão de modelo grande é, sem dúvida, o fator chave para os gigantes da IA vencerem o campo de batalha do terminal móvel. Isso também explica, até certo ponto, por que a Nvidia adquiriu "silenciosamente" a OmniML, uma startup de inteligência artificial que domina a tecnologia de modelos grandes de compressão, em fevereiro deste ano.
O modelo grande força o hardware do terminal a atualizar
"Este ano poderemos oferecer suporte a um modelo de IA generativa com 10 bilhões de parâmetros em execução em um telefone celular." Ziad Asghar, vice-presidente sênior de gerenciamento de produtos e chefe de IA da Qualcomm, disse recentemente que um modelo com 10 bilhões a 15 bilhões de parâmetros podem cobrir a maioria dos dados. A maioria dos casos de uso AIGC. Se o terminal já puder suportar esse nível de parâmetro, todos os cálculos poderão ser executados no terminal e o celular se tornará um verdadeiro assistente pessoal.
No entanto, a geração atual de chips de telefonia móvel também pode transportar e executar um modelo grande com um nível de parâmetro de 1 bilhão. A Qualcomm demonstrou com sucesso um modelo grande em execução no sistema Android no CVPR, a principal conferência acadêmica de visão computacional em junho deste ano ano, mas apenas 1,5 bilhão.parâmetro.
Os parâmetros saltaram quase dez vezes, e o grande modelo que se dirige para o terminal móvel já pisou no "acelerador", pelo que o telemóvel tem de ser atualizado para lidar com isso.
**Hardware de telefonia móvel precisa urgentemente de inovações em aceleradores de IA e memória. **
Primeiro, grandes modelos com parâmetros maiores requerem mais memória e espaço de armazenamento para armazenar os parâmetros do modelo e os resultados intermediários. Isso requer que a capacidade do chip de memória do terminal móvel e a largura de banda da interface de memória sejam atualizadas.
Em segundo lugar, parâmetros maiores inevitavelmente requerem recursos de computação e raciocínio mais poderosos para processar dados de entrada e resultados de saída.
Embora os aceleradores de IA (como vários IPs NPU) em chips de telefones celulares sejam quase padrão, o design é basicamente para a geração anterior de design de rede neural convolucional, não completamente para modelos grandes.
Para se adaptar a modelos grandes, os aceleradores de IA devem ter maior largura de banda de acesso à memória e reduzir a latência de acesso à memória. Isso requer algumas alterações na interface do acelerador AI (como atribuir mais pinos à interface de memória) e também requer alterações correspondentes na interconexão de dados no chip para atender aos requisitos de acesso à memória do acelerador AI.
Uma das razões importantes pelas quais a Qualcomm pode chamar de "telefones móveis com 10 bilhões de parâmetros em um ano" é que ela possui o processador Snapdragon 8 de segunda geração equipado com o mecanismo de IA mais rápido e avançado da história da Qualcomm. Com o novo processador , o desempenho da IA aumentou 4,35 vezes e a eficiência energética aumentou 60%.
**Claro, mesmo na nuvem, o treinamento e o raciocínio de modelos de parâmetros de ultragrande escala precisam romper cinco paredes: parede de memória + parede de poder de computação + parede de comunicação + parede de ajuste + parede de implantação e telefones celulares precisam romper camada por camada. **
No entanto, da "inteligência" à "inteligência artificial", para celulares, as oportunidades superam os desafios.
"O impacto do ciclo de inovação em eletrônicos de consumo é mais importante e pode até tirar uma indústria do impacto do ciclo econômico." O CEO da Glory Terminal, Zhao Ming, avaliou que a atual indústria de smartphones está em uma nova rodada de ciclo de inovação iniciado por IA e 5G+.