Quantos passos são necessários para carregar o modelo grande no celular?

Question

Fonte original: Light Cone Intelligence![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b1ee7bd50a-dd1a6f-1c6801)Fonte da imagem: Gerada por Unbounded AI‌O modelo grande "corre" para o telefone celular, e a batalha da IA foi queimada da "nuvem" para o "terminal móvel"."Na era da IA, o modelo Pangu da Huawei ajudará a ecologia de Hongmeng." Em 4 de agosto, Yu Chengdong, diretor executivo da Huawei, CEO do terminal BG e CEO da solução de carro inteligente BU, apresentou isso por meio da tecnologia subjacente do Pangu modelo, Harmony OS traz Aqui vem a próxima geração de sistemas operacionais de terminais inteligentes.O uso de modelos grandes em telefones celulares não é novidade. Anteriormente, aplicativos e miniaplicativos como ChatGPT, Wenxin Yiyan e Miaoya usavam o poder da computação em nuvem para atender às necessidades de aplicativos de IA em terminais móveis.**O próximo passo é deixar o modelo grande rodar direto no celular. **Desde abril e maio deste ano, os três gigantes da tecnologia americana - Qualcomm, Microsoft e Nvidia, a estrela de IA mais atraente OpenAI e a "equipe principal" doméstica de IA Tencent, Baidu etc. esforços em terminais móveis Implantação leve de modelos grandes de IA. A Qualcomm até anunciou que está se transformando gradualmente em uma empresa de computação de borda inteligente (fornecendo serviços de computação em fontes de dados, como terminais móveis).Sob o forte impulso dos gigantes, a tendência da indústria de modelos em grande escala que se deslocam da nuvem para o fim tornou-se muito clara.## Por que o modelo grande deve "rodar" no celular?A maior característica do modelo grande é "grande", com dezenas de bilhões de bilhões ou até trilhões de parâmetros e, para melhor executar o modelo grande, o cluster de poder de computação foi atualizado para o nível de "dez mil cartões". Agora, por que você tem que "enfiar" um modelo grande em um celular pequeno do tamanho da palma da mão?O modelo grande traz algumas melhorias de experiência para usuários de telefones celulares. Por exemplo, Xiaoyi, o assistente inteligente de terminal da Huawei, pode não apenas recomendar restaurantes com base em comandos de voz, mas também executar processamento de informações, como resumo, recuperação de informações e tradução multilíngue. Um longo texto em inglês com milhares de palavras pode ser processado por um celular assistente inteligente com capacidades de modelagem em grande escala. Um resumo é gerado, que também pode ser traduzido para o chinês. Especialmente o último ponto, na era da explosão da informação, ainda é muito valioso para melhorar a eficiência do aprendizado e do trabalho.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4d7d0cda67-dd1a6f-1c6801) **Jia Yongli, Presidente do Terminal BG AI da Huawei e Departamento de Negócios Inteligente para Todos os Cenários, explicou que, por um lado, o modelo de linguagem grande tem a capacidade de generalizar, o que pode ajudar os assistentes inteligentes de telefones celulares a melhorar sua compreensão. Por outro lado, a capacidade de plug-in do modelo grande Plug-in pode romper as barreiras entre os aplicativos no celular e expandir os recursos com a ajuda de ferramentas. **Além disso, os aplicativos AIGC, como o ChatGPT, sempre foram acompanhados por fortes disputas de privacidade e segurança, mas se forem executados completamente no lado final, esse problema pode ser totalmente evitado. Como o modelo grande é executado no lado final, os dados não sairão do lado final. Além disso, a velocidade de resposta será mais rápida.** Por outro lado, a demanda por modelos grandes para terminais móveis, como telefones celulares, já é muito urgente. **A tendência turbulenta de grandes modelos torna a nuvem cada vez mais incapaz de suportar sozinha a demanda por poder de computação. Alex Katouzian, vice-presidente sênior da Qualcomm, disse recentemente sem rodeios: "À medida que o crescimento dos dispositivos conectados e do tráfego de dados acelera e o custo dos data centers sobrepostos aumenta, é impossível (para nós) enviar todo o conteúdo para a nuvem".Sem contar a grande quantidade de recursos como largura de banda de rede, armazenamento e hardware consumidos pela transmissão de dados, o poder de computação da nuvem por si só já deixou os fabricantes relevantes sobrecarregados. O ChatGPT está apenas no estágio de inferência, e estima-se que o custo mensal do poder de computação seja de cerca de 10 milhões de dólares americanos.O maior problema não é "caro", mas "falta".Anteriormente, até Sam Altaman, o fundador da OpenAI, revelou que havia escassez de GPUs, e até mesmo disse sem rodeios que não queria que muitas pessoas usassem o ChatGPT. Recentemente, alguns especialistas especulam que a capacidade de clusters H100 em grande escala de pequenos e grandes provedores de nuvem está prestes a se esgotar, e a tendência de demanda por H100 continuará até pelo menos o final de 2024. A atual capacidade de produção da Nvidia H100 ainda é severamente limitada pela cadeia de suprimentos.Portanto, a nuvem e o terminal formam uma cooperação, e os recursos de poder de computação ociosos de telefones celulares e outros terminais são usados para resolver a incompatibilidade entre o poder de computação "centralizado" e a demanda "distribuída". Mais importante, em comparação com um número limitado de nós centrais, vários terminais móveis podem ser chamados de "capilares" que tocam milhares de cenários, o que determina que essa entrada será a chave para acelerar a penetração de aplicativos em grandes modelos.## Como "embolsar" o modelo grande?"Comparado com os PCs ou servidores tradicionais, o maior desafio para os terminais móveis é como equilibrar a experiência e o consumo de energia. Este é um dos pontos centrais mais importantes do design central da Hongmeng." Gong Ti, presidente do Departamento de Software de Negócios de Terminal da Huawei , enfatizou.Um modelo grande requer muitos recursos de computação e recursos de armazenamento, especialmente com base na configuração de hardware do telefone móvel existente, o que requer a coordenação do sistema de software para melhorar a eficiência e reduzir o consumo de energia.Atualmente, para melhorar o desempenho dos telefones celulares, pelo menos 8 núcleos de chip precisam ser coordenados pelo sistema de telefonia móvel, e esse processo consumirá muito poder de computação. Se o agendamento de recursos heterogêneos for adotado, CPU, GPU e NPU podem ser coordenados com eficiência. De acordo com Gong Ti, a eficiência do agendamento pode ser aumentada em mais de 60%.O sistema de telefonia móvel pode realizar cálculos e a menor unidade de agendamento é chamada de thread.Em um sistema operacional tradicional, dezenas de milhares de threads são executados ao mesmo tempo e haverá um grande número de threads inválidos. Em vista disso, um modelo de simultaneidade mais leve pode ser usado para lidar com operações concorrentes e reduzir o consumo de poder computacional por comutação de thread inválida. De acordo com Gong Ti, o modelo de simultaneidade pode economizar 50% da sobrecarga de troca de tarefas.Além disso, em termos de agendamento de tarefas no sistema operacional, este também é o elemento mais básico que afeta a experiência suave.Comparado com o agendamento justo, o agendamento de prioridade dinâmica reduzirá bastante o consumo de energia. A programação de prioridade dinâmica é semelhante a um sistema de transporte inteligente, que pode ajustar dinamicamente o status de iluminação dos semáforos de acordo com as condições da estrada e fluxo de tráfego, congestionamento e atrasos.No entanto, para que o modelo grande seja implantado no celular e ainda funcione, não basta atualizar e melhorar o sistema operacional do celular.À medida que as previsões de grandes modelos se tornam mais precisas e as redes se tornam mais profundas, a capacidade de memória consumida pelas redes neurais tornou-se um problema central. Ao mesmo tempo, também envolve o problema da largura de banda da memória. Quando a rede está funcionando, a memória, a CPU e a bateria serão consumidas rapidamente. Este é definitivamente um fardo insuportável para os telefones celulares atuais.** Portanto, antes de implantar no telefone celular, o modelo grande deve ser compactado para reduzir a demanda de poder de computação de inferência. No entanto, é importante garantir que o desempenho e a precisão originais permaneçam basicamente inalterados. **A quantização é uma operação de compressão comum e importante, que pode reduzir o espaço de memória ocupado pelo modelo e melhorar o desempenho da inferência. Em essência, é converter o modelo de operação de ponto flutuante em um modelo de operação de número inteiro, porque a operação de número inteiro tem maior precisão e velocidade de operação mais rápida do que a operação de ponto flutuante.Atualmente, a tecnologia quantitativa também está acelerando avanços. O modelo treinado no servidor geralmente usa operações de ponto flutuante de 32 bits (FP32).No lado do telefone móvel, a Qualcomm quantizou e comprimiu o modelo FP32 para o modelo INT4, alcançando 64 melhorias de memória e eficiência energética computacional. Os dados de implementação da Qualcomm mostram que, após o uso do treinamento de percepção de quantização da Qualcomm, muitos modelos AIGC podem ser quantizados para modelos INT 4. Comparado com INT8, o desempenho é aprimorado em cerca de 90% e a eficiência energética é aprimorada em cerca de 60%.A tecnologia de compressão de modelo grande é, sem dúvida, o fator chave para os gigantes da IA vencerem o campo de batalha do terminal móvel. Isso também explica, até certo ponto, por que a Nvidia adquiriu "silenciosamente" a OmniML, uma startup de inteligência artificial que domina a tecnologia de modelos grandes de compressão, em fevereiro deste ano.## O modelo grande força o hardware do terminal a atualizar"Este ano poderemos oferecer suporte a um modelo de IA generativa com 10 bilhões de parâmetros em execução em um telefone celular." Ziad Asghar, vice-presidente sênior de gerenciamento de produtos e chefe de IA da Qualcomm, disse recentemente que um modelo com 10 bilhões a 15 bilhões de parâmetros podem cobrir a maioria dos dados. A maioria dos casos de uso AIGC. Se o terminal já puder suportar esse nível de parâmetro, todos os cálculos poderão ser executados no terminal e o celular se tornará um verdadeiro assistente pessoal.No entanto, a geração atual de chips de telefonia móvel também pode transportar e executar um modelo grande com um nível de parâmetro de 1 bilhão. A Qualcomm demonstrou com sucesso um modelo grande em execução no sistema Android no CVPR, a principal conferência acadêmica de visão computacional em junho deste ano ano, mas apenas 1,5 bilhão.parâmetro.Os parâmetros saltaram quase dez vezes, e o grande modelo que se dirige para o terminal móvel já pisou no "acelerador", pelo que o telemóvel tem de ser atualizado para lidar com isso.**Hardware de telefonia móvel precisa urgentemente de inovações em aceleradores de IA e memória. **Primeiro, grandes modelos com parâmetros maiores requerem mais memória e espaço de armazenamento para armazenar os parâmetros do modelo e os resultados intermediários. Isso requer que a capacidade do chip de memória do terminal móvel e a largura de banda da interface de memória sejam atualizadas.Em segundo lugar, parâmetros maiores inevitavelmente requerem recursos de computação e raciocínio mais poderosos para processar dados de entrada e resultados de saída.Embora os aceleradores de IA (como vários IPs NPU) em chips de telefones celulares sejam quase padrão, o design é basicamente para a geração anterior de design de rede neural convolucional, não completamente para modelos grandes.Para se adaptar a modelos grandes, os aceleradores de IA devem ter maior largura de banda de acesso à memória e reduzir a latência de acesso à memória. Isso requer algumas alterações na interface do acelerador AI (como atribuir mais pinos à interface de memória) e também requer alterações correspondentes na interconexão de dados no chip para atender aos requisitos de acesso à memória do acelerador AI.Uma das razões importantes pelas quais a Qualcomm pode chamar de "telefones móveis com 10 bilhões de parâmetros em um ano" é que ela possui o processador Snapdragon 8 de segunda geração equipado com o mecanismo de IA mais rápido e avançado da história da Qualcomm. Com o novo processador , o desempenho da IA aumentou 4,35 vezes e a eficiência energética aumentou 60%.**Claro, mesmo na nuvem, o treinamento e o raciocínio de modelos de parâmetros de ultragrande escala precisam romper cinco paredes: parede de memória + parede de poder de computação + parede de comunicação + parede de ajuste + parede de implantação e telefones celulares precisam romper camada por camada. **No entanto, da "inteligência" à "inteligência artificial", para celulares, as oportunidades superam os desafios."O impacto do ciclo de inovação em eletrônicos de consumo é mais importante e pode até tirar uma indústria do impacto do ciclo econômico." O CEO da Glory Terminal, Zhao Ming, avaliou que a atual indústria de smartphones está em uma nova rodada de ciclo de inovação iniciado por IA e 5G+.