A grande tempestade de modelos explodiu durante a maior parte do ano, e o mercado AIGC começou a mudar novamente:
Demonstrações tecnológicas legais estão sendo substituídas por experiências completas de produtos. **
Por exemplo, o mais recente modelo de pintura de IA da OpenAI, DALL· Assim que o E 3 estreou, ele uniu forças com o ChatGPT para se tornar a nova ferramenta de produtividade mais esperada no ChatGPT Plus.
** **###### △DALL· O E3 reproduz com precisão todos os detalhes da entrada de texto
Por exemplo, o Copilot da Microsoft baseado no GPT-4 foi totalmente instalado no Windows 11, substituindo oficialmente a Cortana como uma nova geração de assistentes de IA no sistema operacional.
** **###### △ Use o Copilot para resumir as postagens do blog em um clique
Por outro exemplo, carros domésticos como Jiyue 01 têm oficialmente equipados grandes modelos no cockpit, e eles estão completamente offline ...
Se "grandes modelos remodelam tudo" em março de 2023 era apenas uma previsão otimista dos pioneiros da tecnologia, hoje, a ainda feroz guerra de 100 modelos e o progresso da aplicação prática tornaram essa visão cada vez mais ressonante dentro e fora da indústria.
Em outras palavras, de todo o método de produção pela Internet ao cockpit inteligente em todos os carros, uma era de autoinovação com grandes modelos como base técnica e impulsionando milhares de indústrias está chegando.
De acordo com o método de nomenclatura da era do vapor e da idade elétrica, ela pode ser chamada de "era da força modular".
Na "Era Moli", um dos cenários mais preocupantes é o terminal inteligente.
A razão é simples: a indústria de terminais inteligentes, representada por smartphones, PCs, carros inteligentes e até dispositivos XR, é uma das indústrias de tecnologia mais intimamente relacionadas com a vida das pessoas contemporâneas e, naturalmente, tornou-se um padrão ouro para testar a maturidade de tecnologias de ponta.
Portanto, quando a primeira onda de hype trazida pelo boom tecnológico se acalmar gradualmente, com o cenário do terminal inteligente como âncora, como as novas oportunidades e desafios da "era do poder modular" devem ser vistos e interpretados?
Agora, é hora de quebrá-lo, amassá-lo e penteá-lo.
Terminal Inteligente, Big Model Novo Campo de Batalha
Antes de analisar os desafios e oportunidades em detalhes, vamos voltar à questão essencial: por que a IA generativa é representada por grandes modelos tão popular, e até mesmo considerada a "quarta revolução industrial"?
Em resposta a esse fenômeno, muitas instituições têm realizado pesquisas para tentar prever ou resumir o desenvolvimento da IA generativa em diferentes cenários, como o "Generative AI: A Creative New World" da Sequoia Capital.
Entre elas, muitas empresas líderes no setor analisaram os cenários de pouso e possíveis mudanças de direção da IA generativa em setores específicos com base em sua própria experiência.
Por exemplo, a IA do lado do terminal representa o player Qualcomm, e há algum tempo lançou um white paper sobre o status de desenvolvimento e tendência da IA generativa "Hybrid AI is the Future of AI".
A partir disso, pode ser possível interpretar as três principais razões pelas quais a IA generativa é popular na indústria.
Em primeiro lugar, a tecnologia em si é bastante difícil.
Seja um grande modelo surgindo de forma inteligente ou uma pintura de IA que gera qualidade falsa com qualidade falsa, é tudo sobre o uso de efeitos para falar, e é uma área de trabalho real relacionada a texto, imagens, vídeo e automação, demonstrando uma incrível capacidade de interromper fluxos de trabalho tradicionais.
Em segundo lugar, existem ricos cenários potenciais de aterragem. O avanço geracional da IA trazido pelo grande modelo trouxe às pessoas imaginação infinita desde o início: o primeiro lote de experimentadores rapidamente percebeu os benefícios da IA generativa para funcionar.
A enorme demanda do lado do usuário pode ser vista a partir da taxa de crescimento de usuários de aplicativos representativos, como o ChatGPT.
** **#### △ChatGPT quebrou o recorde de mais de 100 milhões de usuários registrados de aplicativos populares, fonte Sequoia Capital
Desde a pesquisa inicial na Internet, programação, escritório, até o surgimento do turismo cultural, direito, medicina, indústria, transporte e outras aplicações de cena, aproveitando o vento da IA generativa, muito mais do que empresas que podem fornecer grandes modelos básicos, mas também um grande número de start-ups estão prosperando e crescendo.
Muitos especialistas do setor acreditam que, para os empreendedores, a camada de aplicação trazida por grandes modelos tem maiores oportunidades.
Há um avanço geracional da tecnologia na base, e uma explosão vigorosa da demanda de aplicação no topo, e o efeito ecológico é estimulado.
De acordo com a previsão da Bloomberg Intelligence, o mercado de IA generativa explodirá de US$ 40 bilhões para US$ 1,3 trilhão** até 2032, cobrindo uma ampla gama de participantes da cadeia ecológica, incluindo infraestrutura, modelos básicos, ferramentas de desenvolvedor, produtos de aplicativos, produtos terminais e assim por diante.
A formação desta cadeia ecológica promoveu novas mudanças na indústria e espera-se que faça com que a IA se torne ainda mais o núcleo de produtividade subjacente.
Com base neste pano de fundo, vamos olhar para o que está acontecendo na indústria inteligente hoje.
Por um lado, a tempestade de aplicações AIGC representada por grandes modelos é rapidamente ** da nuvem para o terminal ** no ritmo de iteração dos dias.
ChatGPT é o primeiro a atualizar a função multimodal de "conversa audiovisual" no terminal móvel, e os usuários podem tirar fotos e enviá-las, e eles podem falar com ChatGPT para o conteúdo da foto.
Por exemplo, "Como ajustar a altura do assento da bicicleta":
** **#### △ e diálogo gráfico GPT-4, dê 5 sugestões em segundos
A Qualcomm também percebeu rapidamente o grande modelo de Difusão Estável e ControlNet rodando mais de um bilhão de parâmetros no lado do terminal, e leva apenas mais de uma dúzia de segundos para gerar imagens de IA de alta qualidade em telefones celulares.
Muitos fabricantes de telemóveis também anunciaram que vão instalar o "cérebro" de grandes modelos para os seus assistentes de voz.
E não são apenas os telefones.
Em exposições de grande escala no país e no exterior, como o Salão do Automóvel de Xangai, o Salão do Automóvel de Chengdu, o Salão Automóvel de Munique, etc., a cooperação entre fabricantes de modelos básicos e fabricantes de automóveis está se tornando cada vez mais comum, e grandes modelos "entrar no carro" tornou-se um novo ponto de competição no campo do cockpit inteligente.
** **###### △ Uma frase pode fazer o modelo do carro comprar ingredientes no APP, e você pode cozinhar quando for para casa
Por outro lado, o surto de aplicações ** exacerbou a situação de que o poder de computação está em falta. **
É previsível que o custo de inferência do modelo aumente com o aumento do número de usuários ativos diários e sua frequência de uso, e confiar apenas no poder de computação em nuvem não é suficiente para promover rapidamente a escala da IA generativa.
Isso também pode ser visto pelo fato de que todas as esferas da vida estão aumentando sua atenção ao poder de computação da IA do lado do terminal.
Por exemplo, o player de IA do lado do terminal Qualcomm lançou uma nova geração de plataforma de computação de PC para melhoria de desempenho de chip de PC, usando a CPU Oryon auto-desenvolvida da Qualcomm, especialmente a NPU equipada com ela fornecerá um desempenho mais poderoso para IA generativa, que é chamada de plataforma da série Snapdragon X.
Esta nova plataforma de computação deverá ser lançada no Snapdragon Summit 2023.
Obviamente, seja do ponto de vista da aplicação ou do poder de computação, os terminais inteligentes tornaram-se um dos cenários com maior potencial de pouso do AIGC.
Recife AIGC Sob Maré
As coisas muitas vezes têm dois lados, assim como os grandes modelos, desde o rápido desenvolvimento até o pouso.
Quando a IA generativa disparou até hoje, o verdadeiro gargalo sob o enorme potencial da indústria de terminais inteligentes veio à tona.
**Uma das maiores restrições é o nível mais baixo de hardware. **
Como os investidores da Sequoia, Sonya Huang e Pat Grady, mencionaram em seu último artigo de análise de IA generativa "Generative AI's Act Two", a AIGC está crescendo rapidamente, mas o gargalo esperado não é a demanda do cliente, mas o poder de computação do lado da oferta.
O poder de computação aqui se refere principalmente aos aceleradores de hardware de IA e aprendizado de máquina, que podem ser divididos em cinco categorias da perspetiva de cenários de implantação:
Sistemas de classe de data center, aceleradores de nível de servidor, aceleradores para condução assistida e cenários de condução autônoma, computação de borda e aceleradores de ultrabaixa potência.
** **###### △5 tipos de aceleradores de IA, fonte do artigo do MIT "AI and ML Accelerator Survey and Trends"
Com a explosão do ChatGPT, o grande modelo levou a AIGC fenomenal para fora do círculo, fazendo com que o "** poder de computação em nuvem**", como centros de dados e processadores de nível de servidor, recebam muita atenção no curto prazo, e até mesmo a situação de escassez de oferta.
No entanto, à medida que a IA generativa entra em sua segunda fase, algumas questões sobre o poder de computação estão se tornando cada vez mais proeminentes.
**O primeiro e maior problema é o custo. **Como afirmado no white paper da Qualcomm "Hybrid AI is the Future of AI", agora mais de meio ano se passou, à medida que grandes modelos mudam da busca de tecnologia para o pouso de aplicativos, o modelo básico ** treinamento ** de cada empresa se estabeleceu gradualmente, e a maior parte do poder de computação caiu sobre o ** raciocínio ** de modelos grandes.
No curto prazo, o custo de inferência é aceitável, mas como há cada vez mais aplicativos para modelos grandes e mais e mais cenários de aplicativos, o custo de inferência em aceleradores como servidores aumentará drasticamente, eventualmente resultando no custo de chamar modelos grandes mais alto do que treinar modelos grandes em si.
Em outras palavras, depois que o modelo grande entra no segundo estágio, a demanda de longo prazo por poder de computação para inferência será muito maior do que a de um único treinamento, e confiar apenas no "poder de computação em nuvem" composto por data centers e processadores de nível de servidor é completamente insuficiente para atingir a inferência a um custo aceitável para os usuários.
De acordo com as estatísticas da Qualcomm no white paper, tomando o motor de busca com um modelo grande como exemplo, o custo de cada consulta de pesquisa pode chegar a 10 vezes o dos métodos tradicionais, e o custo anual só nesta área pode aumentar em bilhões de dólares.
Isso está destinado a se tornar uma restrição fundamental para o pouso de modelos grandes.
**Junto com isso, há problemas de latência, privacidade e personalização. **A Qualcomm também mencionou em "Hybrid AI is the Future of AI" que grandes modelos são implantados diretamente na nuvem, além da quantidade insuficiente de computação de servidor causada pelo aumento de usuários, a necessidade de "fila para uso" e outros bugs, também está fadada a resolver problemas de privacidade e personalização do usuário.
Se os usuários não quiserem fazer upload de dados para a nuvem, os cenários de uso de modelos grandes, como escritório e assistente inteligente, estarão sujeitos a muitas restrições, e a maioria desses cenários são distribuídos no lado do terminal; Se você precisa buscar melhores resultados, como personalizar modelos grandes para seu próprio uso, você precisa usar diretamente as informações pessoais para treinamento de modelos grandes.
Sob vários fatores, o "poder de computação terminal" que pode desempenhar um papel no raciocínio, ou seja, vários tipos de processadores, incluindo condução automática e condução assistida, edge computing (incorporado) e aceleradores de ultrabaixa potência, começaram a entrar no campo de visão das pessoas.
Os terminais têm um enorme poder de computação. De acordo com a previsão da IDC, o número de dispositivos IoT globais excederá 40 bilhões até 2025, gerando quase 80 zettabytes de dados, e mais da metade dos dados precisa depender do poder de computação de terminal ou borda para processamento.
No entanto, o terminal também tem problemas como consumo de energia limitado e dissipação de calor, resultando em poder de computação limitado.
Neste caso, como usar o enorme poder de computação escondido no terminal para romper o gargalo enfrentado pelo desenvolvimento do poder de computação em nuvem está se tornando um dos problemas técnicos mais comuns na "era do poder modular".
**Sem contar que, além do poder de computação, a implementação de grandes modelos também enfrenta desafios como algoritmos, dados e concorrência de mercado. **
Para o algoritmo, a arquitetura do modelo subjacente ainda é desconhecida. O ChatGPT alcançou bons resultados, mas sua rota técnica não é a direção arquitetônica do modelo de próxima geração.
Para os dados, dados de alta qualidade são indispensáveis para que outras empresas alcancem os grandes resultados de modelo do ChatGPT, mas o Ato Dois da Generative AI também aponta que os dados gerados pela empresa de aplicativos realmente não criam uma barreira.
A vantagem construída pelos dados é frágil e insustentável, e a próxima geração de modelos básicos provavelmente destruirá diretamente essa "parede", em contraste, usuários contínuos e estáveis podem realmente construir fontes de dados.
Para o mercado, atualmente não existem aplicações assassinas para produtos de grandes modelos, e ainda não se sabe para que tipo de cenários é adequado.
Nesta era, em que tipo de produtos é utilizado e que aplicações podem exercer o seu maior valor, o mercado ainda não deu um conjunto de metodologias ou respostas padrão que possam ser seguidas.
**Em resposta a esta série de problemas, existem atualmente duas formas principais de resolver problemas na indústria. **
Uma é melhorar o algoritmo do próprio modelo grande, sem alterar a "essência" do modelo, melhorar o seu tamanho e aumentar a sua capacidade de implementação em mais dispositivos;
Tomando o algoritmo Transformer como exemplo, tais modelos com um grande número de parâmetros devem ser ajustados na estrutura se quiserem rodar no lado final, então muitos algoritmos leves como MobileViT nasceram durante esse tempo.
Estes algoritmos procuram melhorar a estrutura e a quantidade de parâmetros sem afetar o efeito de saída, para que possam ser executados em mais dispositivos com modelos mais pequenos.
A outra é melhorar o poder de computação de IA do próprio hardware, para que modelos grandes possam pousar melhor no lado final.
Tais métodos incluem design multi-core em pilhas de hardware e software de desenvolvimento, que são usados para melhorar o desempenho de computação de hardware e a versatilidade de modelos em diferentes dispositivos, de modo a aumentar a possibilidade de modelos grandes pousarem no lado final.
A primeira pode ser chamada de adaptação do software ao hardware, e a segunda é que os fabricantes de hardware se adaptam à mudança da maré dos tempos. Mas, em qualquer dos sentidos, existe o risco de ser ultrapassado apenas pelas apostas. **
Sob a "era do poder modular", a tecnologia está mudando a cada dia que passa, e novos avanços podem aparecer de ambos os lados do software e hardware, e uma vez que as reservas técnicas necessárias estão faltando, eles podem ficar para trás.
Então, devemos acompanhar cegamente ou simplesmente perder o desenvolvimento desta onda de tecnologia? Nem por isso.
**Para as empresas que descobriram seu próprio valor na era da Internet e da IA, elas também podem ser capazes de explorar uma terceira ideia de solução na era AIGC com base em seus próprios cenários e acúmulo de tecnologia. **
Tomemos como exemplo a Qualcomm, uma empresa de IA com tecnologias de software e hardware.
Diante dos desafios da tecnologia de grandes modelos em diferentes cenários, a Qualcomm saltou da identidade de uma empresa de chips e abraçou a onda da AIGC cedo.
Além de melhorar continuamente o poder de computação de IA do chip do lado do terminal, a Qualcomm também está lançando tecnologia básica de IA, esforçando-se para acelerar a velocidade de toda a indústria de terminais inteligentes para adotar a AIGC como uma empresa habilitadora.
No entanto, existem também várias dificuldades previsíveis nesta abordagem:
Para modelos de IA maiores e mais complexos, como garantir o desempenho enquanto o faz funcionar sem problemas no terminal?
Quando usar diferentes modelos para melhor alocar o poder de computação entre terminais e nuvens?
Mesmo que o problema de modelos grandes sendo implantados no lado do terminal seja resolvido, qual parte deve ser implantada na nuvem e qual parte deve ser implantada no terminal, e como garantir que as conexões e funções entre diferentes partes do modelo grande não sejam afetadas?
Se a vantagem de desempenho no lado do terminal é insuficiente, como resolvê-la?
......
Esses problemas não aparecem em um único caso, mas já existem em todos os setores ou cenários afetados pelo AIGC.
Quer se trate de um método de quebra de jogo ou de uma experiência de aterragem real, a resposta só pode ser explorada a partir de cenários específicos e casos da indústria.
**Como quebrar o nevoeiro da "Modular Power Era"? **
A AIGC entrou na segunda fase, os grandes modelos estão a tornar-se mais populares e a indústria começou a explorar formas de aterrar.
** O white paper "Hybrid AI is the Future of AI" da Qualcomm mencionou que, tomando smartphones e PCs como exemplo, houve muitos casos de cenários de pouso AIGC na nova indústria de terminais inteligentes de campo de batalha. **
As empresas já estão implantando modelos menores e maiores no lado do terminal para problemas mais personalizados, incluindo encontrar mensagens, gerar mensagens de resposta, modificar eventos de calendário e navegação com um clique.
Por exemplo, "reservar um assento de restaurante favorito", com base no modelo grande, de acordo com a análise de dados do usuário de restaurantes favoritos e horários gratuitos, dar recomendações de agendamento, e adicionar os resultados ao calendário.
A Qualcomm acredita que, devido à quantidade limitada de parâmetros de modelo grande implantados pelo terminal e à falta de rede, pode haver "ilusão de IA" ao responder, e então pode ser baseado na tecnologia orquestradora para definir guarda-corpos quando o modelo grande carece de informações para evitar os problemas acima.
Se você não estiver satisfeito com o conteúdo gerado pelo modelo grande, você também pode enviar a pergunta para a nuvem para execução com um clique e, em seguida, feedback do resultado da geração do modelo grande com melhor resposta para o lado do terminal.
Desta forma, ele pode não apenas reduzir a pressão de poder de computação de grandes modelos executados na nuvem, mas também garantir que grandes modelos possam ser personalizados, protegendo ao máximo a privacidade do usuário.
**Quanto aos gargalos técnicos que precisam ser quebrados, como poder de computação terminal e algoritmos, alguns jogadores também desenvolveram algumas "maneiras de quebrar o jogo". **
No white paper, a Qualcomm introduziu uma classe de novas tecnologias que têm sido amplamente utilizadas no white paper, como a decodificação especulativa, que foi um incêndio há algum tempo.
Este é um método descoberto pelo Google e DeepMind ao mesmo tempo para acelerar a inferência de modelos grandes, e pode aplicar um modelo grande menor para acelerar a geração de modelos grandes.
Simplificando, é treinar um modelo menor e gerar um lote de "palavras candidatas" para o modelo grande com antecedência, em vez de deixar o modelo grande "pensar" e gerar por si só, e diretamente fazer "escolhas".
Uma vez que a velocidade de geração do modelo pequeno é várias vezes mais rápida do que o modelo grande, uma vez que o modelo grande sente que as palavras que o modelo pequeno já tem estão disponíveis, ele pode ser tomado diretamente sem gerá-lo lentamente você mesmo.
Este método aproveita principalmente o fato de que a velocidade de inferência de grandes modelos é mais afetada pela largura de banda da memória do que o aumento na quantidade computacional.
Devido ao grande número de parâmetros e excedendo em muito a capacidade do cache, os modelos grandes são mais propensos a serem limitados pela largura de banda da memória do que o desempenho do hardware de computação durante a inferência. Por exemplo, o GPT-3 precisa ler todos os 175 bilhões de parâmetros toda vez que gera uma palavra, e o hardware de computação muitas vezes fica ocioso enquanto espera por dados de memória do DRAM.
Em outras palavras, quando o modelo faz inferência em lote, há pouca diferença no tempo entre o processamento de 100 tokens e um token de cada vez.
Portanto, o uso de amostragem especulativa pode não apenas executar facilmente grandes modelos com dezenas de bilhões de parâmetros, mas também colocar parte do poder de computação no lado do terminal, garantindo a velocidade de inferência, mantendo o efeito de geração de grandes modelos.
......
Mas quer se trate de um cenário ou de uma tecnologia, no final, temos de encontrar os pontos de adaptação uns dos outros para produzir um valor de aplicação substancial**, tal como a relação entre software e hardware é inseparável:
Os avanços do algoritmo de software, como a IA generativa, ao procurar cenários de aterrissagem de terminais inteligentes, inevitavelmente enfrentarão requisitos técnicos combinados com hardware de IA móvel, como a Qualcomm.
Incluindo smartphones, PCs, XR, automóveis e Internet das Coisas, como podem vários segmentos da indústria de terminais inteligentes encontrar o seu próprio jogo e valor com base em hotspots AIGC?
Como podem as empresas aproveitar esta onda dos tempos para estimular o valor de aplicação deste tipo de tecnologia e não perder a oportunidade de transformação da produtividade em toda a indústria?
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O tamanho do mercado de 10 anos é de 1,3 trilhão de dólares americanos, e a era da energia modular chegou
Fonte original: Qubits
A grande tempestade de modelos explodiu durante a maior parte do ano, e o mercado AIGC começou a mudar novamente:
Demonstrações tecnológicas legais estão sendo substituídas por experiências completas de produtos. **
Por exemplo, o mais recente modelo de pintura de IA da OpenAI, DALL· Assim que o E 3 estreou, ele uniu forças com o ChatGPT para se tornar a nova ferramenta de produtividade mais esperada no ChatGPT Plus.
**
**###### △DALL· O E3 reproduz com precisão todos os detalhes da entrada de texto
Por exemplo, o Copilot da Microsoft baseado no GPT-4 foi totalmente instalado no Windows 11, substituindo oficialmente a Cortana como uma nova geração de assistentes de IA no sistema operacional.
**
**###### △ Use o Copilot para resumir as postagens do blog em um clique
Por outro exemplo, carros domésticos como Jiyue 01 têm oficialmente equipados grandes modelos no cockpit, e eles estão completamente offline ...
Se "grandes modelos remodelam tudo" em março de 2023 era apenas uma previsão otimista dos pioneiros da tecnologia, hoje, a ainda feroz guerra de 100 modelos e o progresso da aplicação prática tornaram essa visão cada vez mais ressonante dentro e fora da indústria.
Em outras palavras, de todo o método de produção pela Internet ao cockpit inteligente em todos os carros, uma era de autoinovação com grandes modelos como base técnica e impulsionando milhares de indústrias está chegando.
De acordo com o método de nomenclatura da era do vapor e da idade elétrica, ela pode ser chamada de "era da força modular".
Na "Era Moli", um dos cenários mais preocupantes é o terminal inteligente.
A razão é simples: a indústria de terminais inteligentes, representada por smartphones, PCs, carros inteligentes e até dispositivos XR, é uma das indústrias de tecnologia mais intimamente relacionadas com a vida das pessoas contemporâneas e, naturalmente, tornou-se um padrão ouro para testar a maturidade de tecnologias de ponta.
Portanto, quando a primeira onda de hype trazida pelo boom tecnológico se acalmar gradualmente, com o cenário do terminal inteligente como âncora, como as novas oportunidades e desafios da "era do poder modular" devem ser vistos e interpretados?
Agora, é hora de quebrá-lo, amassá-lo e penteá-lo.
Terminal Inteligente, Big Model Novo Campo de Batalha
Antes de analisar os desafios e oportunidades em detalhes, vamos voltar à questão essencial: por que a IA generativa é representada por grandes modelos tão popular, e até mesmo considerada a "quarta revolução industrial"?
Em resposta a esse fenômeno, muitas instituições têm realizado pesquisas para tentar prever ou resumir o desenvolvimento da IA generativa em diferentes cenários, como o "Generative AI: A Creative New World" da Sequoia Capital.
Entre elas, muitas empresas líderes no setor analisaram os cenários de pouso e possíveis mudanças de direção da IA generativa em setores específicos com base em sua própria experiência.
Por exemplo, a IA do lado do terminal representa o player Qualcomm, e há algum tempo lançou um white paper sobre o status de desenvolvimento e tendência da IA generativa "Hybrid AI is the Future of AI".
A partir disso, pode ser possível interpretar as três principais razões pelas quais a IA generativa é popular na indústria.
Em primeiro lugar, a tecnologia em si é bastante difícil.
Seja um grande modelo surgindo de forma inteligente ou uma pintura de IA que gera qualidade falsa com qualidade falsa, é tudo sobre o uso de efeitos para falar, e é uma área de trabalho real relacionada a texto, imagens, vídeo e automação, demonstrando uma incrível capacidade de interromper fluxos de trabalho tradicionais.
Em segundo lugar, existem ricos cenários potenciais de aterragem. O avanço geracional da IA trazido pelo grande modelo trouxe às pessoas imaginação infinita desde o início: o primeiro lote de experimentadores rapidamente percebeu os benefícios da IA generativa para funcionar.
A enorme demanda do lado do usuário pode ser vista a partir da taxa de crescimento de usuários de aplicativos representativos, como o ChatGPT.
**
**#### △ChatGPT quebrou o recorde de mais de 100 milhões de usuários registrados de aplicativos populares, fonte Sequoia Capital
Desde a pesquisa inicial na Internet, programação, escritório, até o surgimento do turismo cultural, direito, medicina, indústria, transporte e outras aplicações de cena, aproveitando o vento da IA generativa, muito mais do que empresas que podem fornecer grandes modelos básicos, mas também um grande número de start-ups estão prosperando e crescendo.
Muitos especialistas do setor acreditam que, para os empreendedores, a camada de aplicação trazida por grandes modelos tem maiores oportunidades.
Há um avanço geracional da tecnologia na base, e uma explosão vigorosa da demanda de aplicação no topo, e o efeito ecológico é estimulado.
De acordo com a previsão da Bloomberg Intelligence, o mercado de IA generativa explodirá de US$ 40 bilhões para US$ 1,3 trilhão** até 2032, cobrindo uma ampla gama de participantes da cadeia ecológica, incluindo infraestrutura, modelos básicos, ferramentas de desenvolvedor, produtos de aplicativos, produtos terminais e assim por diante.
Com base neste pano de fundo, vamos olhar para o que está acontecendo na indústria inteligente hoje.
Por um lado, a tempestade de aplicações AIGC representada por grandes modelos é rapidamente ** da nuvem para o terminal ** no ritmo de iteração dos dias.
ChatGPT é o primeiro a atualizar a função multimodal de "conversa audiovisual" no terminal móvel, e os usuários podem tirar fotos e enviá-las, e eles podem falar com ChatGPT para o conteúdo da foto.
Por exemplo, "Como ajustar a altura do assento da bicicleta":
**
**#### △ e diálogo gráfico GPT-4, dê 5 sugestões em segundos
A Qualcomm também percebeu rapidamente o grande modelo de Difusão Estável e ControlNet rodando mais de um bilhão de parâmetros no lado do terminal, e leva apenas mais de uma dúzia de segundos para gerar imagens de IA de alta qualidade em telefones celulares.
Muitos fabricantes de telemóveis também anunciaram que vão instalar o "cérebro" de grandes modelos para os seus assistentes de voz.
E não são apenas os telefones.
Em exposições de grande escala no país e no exterior, como o Salão do Automóvel de Xangai, o Salão do Automóvel de Chengdu, o Salão Automóvel de Munique, etc., a cooperação entre fabricantes de modelos básicos e fabricantes de automóveis está se tornando cada vez mais comum, e grandes modelos "entrar no carro" tornou-se um novo ponto de competição no campo do cockpit inteligente.
**
**###### △ Uma frase pode fazer o modelo do carro comprar ingredientes no APP, e você pode cozinhar quando for para casa
Por outro lado, o surto de aplicações ** exacerbou a situação de que o poder de computação está em falta. **
É previsível que o custo de inferência do modelo aumente com o aumento do número de usuários ativos diários e sua frequência de uso, e confiar apenas no poder de computação em nuvem não é suficiente para promover rapidamente a escala da IA generativa.
Isso também pode ser visto pelo fato de que todas as esferas da vida estão aumentando sua atenção ao poder de computação da IA do lado do terminal.
Por exemplo, o player de IA do lado do terminal Qualcomm lançou uma nova geração de plataforma de computação de PC para melhoria de desempenho de chip de PC, usando a CPU Oryon auto-desenvolvida da Qualcomm, especialmente a NPU equipada com ela fornecerá um desempenho mais poderoso para IA generativa, que é chamada de plataforma da série Snapdragon X.
Esta nova plataforma de computação deverá ser lançada no Snapdragon Summit 2023.
Obviamente, seja do ponto de vista da aplicação ou do poder de computação, os terminais inteligentes tornaram-se um dos cenários com maior potencial de pouso do AIGC.
Recife AIGC Sob Maré
As coisas muitas vezes têm dois lados, assim como os grandes modelos, desde o rápido desenvolvimento até o pouso.
Quando a IA generativa disparou até hoje, o verdadeiro gargalo sob o enorme potencial da indústria de terminais inteligentes veio à tona.
**Uma das maiores restrições é o nível mais baixo de hardware. **
Como os investidores da Sequoia, Sonya Huang e Pat Grady, mencionaram em seu último artigo de análise de IA generativa "Generative AI's Act Two", a AIGC está crescendo rapidamente, mas o gargalo esperado não é a demanda do cliente, mas o poder de computação do lado da oferta.
O poder de computação aqui se refere principalmente aos aceleradores de hardware de IA e aprendizado de máquina, que podem ser divididos em cinco categorias da perspetiva de cenários de implantação:
Sistemas de classe de data center, aceleradores de nível de servidor, aceleradores para condução assistida e cenários de condução autônoma, computação de borda e aceleradores de ultrabaixa potência.
**
**###### △5 tipos de aceleradores de IA, fonte do artigo do MIT "AI and ML Accelerator Survey and Trends"
Com a explosão do ChatGPT, o grande modelo levou a AIGC fenomenal para fora do círculo, fazendo com que o "** poder de computação em nuvem**", como centros de dados e processadores de nível de servidor, recebam muita atenção no curto prazo, e até mesmo a situação de escassez de oferta.
No entanto, à medida que a IA generativa entra em sua segunda fase, algumas questões sobre o poder de computação estão se tornando cada vez mais proeminentes.
**O primeiro e maior problema é o custo. **Como afirmado no white paper da Qualcomm "Hybrid AI is the Future of AI", agora mais de meio ano se passou, à medida que grandes modelos mudam da busca de tecnologia para o pouso de aplicativos, o modelo básico ** treinamento ** de cada empresa se estabeleceu gradualmente, e a maior parte do poder de computação caiu sobre o ** raciocínio ** de modelos grandes.
No curto prazo, o custo de inferência é aceitável, mas como há cada vez mais aplicativos para modelos grandes e mais e mais cenários de aplicativos, o custo de inferência em aceleradores como servidores aumentará drasticamente, eventualmente resultando no custo de chamar modelos grandes mais alto do que treinar modelos grandes em si.
Em outras palavras, depois que o modelo grande entra no segundo estágio, a demanda de longo prazo por poder de computação para inferência será muito maior do que a de um único treinamento, e confiar apenas no "poder de computação em nuvem" composto por data centers e processadores de nível de servidor é completamente insuficiente para atingir a inferência a um custo aceitável para os usuários.
De acordo com as estatísticas da Qualcomm no white paper, tomando o motor de busca com um modelo grande como exemplo, o custo de cada consulta de pesquisa pode chegar a 10 vezes o dos métodos tradicionais, e o custo anual só nesta área pode aumentar em bilhões de dólares.
Isso está destinado a se tornar uma restrição fundamental para o pouso de modelos grandes.
**Junto com isso, há problemas de latência, privacidade e personalização. **A Qualcomm também mencionou em "Hybrid AI is the Future of AI" que grandes modelos são implantados diretamente na nuvem, além da quantidade insuficiente de computação de servidor causada pelo aumento de usuários, a necessidade de "fila para uso" e outros bugs, também está fadada a resolver problemas de privacidade e personalização do usuário.
Se os usuários não quiserem fazer upload de dados para a nuvem, os cenários de uso de modelos grandes, como escritório e assistente inteligente, estarão sujeitos a muitas restrições, e a maioria desses cenários são distribuídos no lado do terminal; Se você precisa buscar melhores resultados, como personalizar modelos grandes para seu próprio uso, você precisa usar diretamente as informações pessoais para treinamento de modelos grandes.
Sob vários fatores, o "poder de computação terminal" que pode desempenhar um papel no raciocínio, ou seja, vários tipos de processadores, incluindo condução automática e condução assistida, edge computing (incorporado) e aceleradores de ultrabaixa potência, começaram a entrar no campo de visão das pessoas.
Os terminais têm um enorme poder de computação. De acordo com a previsão da IDC, o número de dispositivos IoT globais excederá 40 bilhões até 2025, gerando quase 80 zettabytes de dados, e mais da metade dos dados precisa depender do poder de computação de terminal ou borda para processamento.
No entanto, o terminal também tem problemas como consumo de energia limitado e dissipação de calor, resultando em poder de computação limitado.
Neste caso, como usar o enorme poder de computação escondido no terminal para romper o gargalo enfrentado pelo desenvolvimento do poder de computação em nuvem está se tornando um dos problemas técnicos mais comuns na "era do poder modular".
**Sem contar que, além do poder de computação, a implementação de grandes modelos também enfrenta desafios como algoritmos, dados e concorrência de mercado. **
Para o algoritmo, a arquitetura do modelo subjacente ainda é desconhecida. O ChatGPT alcançou bons resultados, mas sua rota técnica não é a direção arquitetônica do modelo de próxima geração.
Para os dados, dados de alta qualidade são indispensáveis para que outras empresas alcancem os grandes resultados de modelo do ChatGPT, mas o Ato Dois da Generative AI também aponta que os dados gerados pela empresa de aplicativos realmente não criam uma barreira.
A vantagem construída pelos dados é frágil e insustentável, e a próxima geração de modelos básicos provavelmente destruirá diretamente essa "parede", em contraste, usuários contínuos e estáveis podem realmente construir fontes de dados.
Para o mercado, atualmente não existem aplicações assassinas para produtos de grandes modelos, e ainda não se sabe para que tipo de cenários é adequado.
Nesta era, em que tipo de produtos é utilizado e que aplicações podem exercer o seu maior valor, o mercado ainda não deu um conjunto de metodologias ou respostas padrão que possam ser seguidas.
Uma é melhorar o algoritmo do próprio modelo grande, sem alterar a "essência" do modelo, melhorar o seu tamanho e aumentar a sua capacidade de implementação em mais dispositivos;
Tomando o algoritmo Transformer como exemplo, tais modelos com um grande número de parâmetros devem ser ajustados na estrutura se quiserem rodar no lado final, então muitos algoritmos leves como MobileViT nasceram durante esse tempo.
Estes algoritmos procuram melhorar a estrutura e a quantidade de parâmetros sem afetar o efeito de saída, para que possam ser executados em mais dispositivos com modelos mais pequenos.
A outra é melhorar o poder de computação de IA do próprio hardware, para que modelos grandes possam pousar melhor no lado final.
Tais métodos incluem design multi-core em pilhas de hardware e software de desenvolvimento, que são usados para melhorar o desempenho de computação de hardware e a versatilidade de modelos em diferentes dispositivos, de modo a aumentar a possibilidade de modelos grandes pousarem no lado final.
A primeira pode ser chamada de adaptação do software ao hardware, e a segunda é que os fabricantes de hardware se adaptam à mudança da maré dos tempos. Mas, em qualquer dos sentidos, existe o risco de ser ultrapassado apenas pelas apostas. **
Sob a "era do poder modular", a tecnologia está mudando a cada dia que passa, e novos avanços podem aparecer de ambos os lados do software e hardware, e uma vez que as reservas técnicas necessárias estão faltando, eles podem ficar para trás.
Então, devemos acompanhar cegamente ou simplesmente perder o desenvolvimento desta onda de tecnologia? Nem por isso.
**Para as empresas que descobriram seu próprio valor na era da Internet e da IA, elas também podem ser capazes de explorar uma terceira ideia de solução na era AIGC com base em seus próprios cenários e acúmulo de tecnologia. **
Tomemos como exemplo a Qualcomm, uma empresa de IA com tecnologias de software e hardware.
Diante dos desafios da tecnologia de grandes modelos em diferentes cenários, a Qualcomm saltou da identidade de uma empresa de chips e abraçou a onda da AIGC cedo.
Além de melhorar continuamente o poder de computação de IA do chip do lado do terminal, a Qualcomm também está lançando tecnologia básica de IA, esforçando-se para acelerar a velocidade de toda a indústria de terminais inteligentes para adotar a AIGC como uma empresa habilitadora.
No entanto, existem também várias dificuldades previsíveis nesta abordagem:
Para modelos de IA maiores e mais complexos, como garantir o desempenho enquanto o faz funcionar sem problemas no terminal?
Quando usar diferentes modelos para melhor alocar o poder de computação entre terminais e nuvens?
Mesmo que o problema de modelos grandes sendo implantados no lado do terminal seja resolvido, qual parte deve ser implantada na nuvem e qual parte deve ser implantada no terminal, e como garantir que as conexões e funções entre diferentes partes do modelo grande não sejam afetadas?
Se a vantagem de desempenho no lado do terminal é insuficiente, como resolvê-la?
......
Esses problemas não aparecem em um único caso, mas já existem em todos os setores ou cenários afetados pelo AIGC.
Quer se trate de um método de quebra de jogo ou de uma experiência de aterragem real, a resposta só pode ser explorada a partir de cenários específicos e casos da indústria.
**Como quebrar o nevoeiro da "Modular Power Era"? **
A AIGC entrou na segunda fase, os grandes modelos estão a tornar-se mais populares e a indústria começou a explorar formas de aterrar.
** O white paper "Hybrid AI is the Future of AI" da Qualcomm mencionou que, tomando smartphones e PCs como exemplo, houve muitos casos de cenários de pouso AIGC na nova indústria de terminais inteligentes de campo de batalha. **
As empresas já estão implantando modelos menores e maiores no lado do terminal para problemas mais personalizados, incluindo encontrar mensagens, gerar mensagens de resposta, modificar eventos de calendário e navegação com um clique.
Por exemplo, "reservar um assento de restaurante favorito", com base no modelo grande, de acordo com a análise de dados do usuário de restaurantes favoritos e horários gratuitos, dar recomendações de agendamento, e adicionar os resultados ao calendário.
A Qualcomm acredita que, devido à quantidade limitada de parâmetros de modelo grande implantados pelo terminal e à falta de rede, pode haver "ilusão de IA" ao responder, e então pode ser baseado na tecnologia orquestradora para definir guarda-corpos quando o modelo grande carece de informações para evitar os problemas acima.
Se você não estiver satisfeito com o conteúdo gerado pelo modelo grande, você também pode enviar a pergunta para a nuvem para execução com um clique e, em seguida, feedback do resultado da geração do modelo grande com melhor resposta para o lado do terminal.
Desta forma, ele pode não apenas reduzir a pressão de poder de computação de grandes modelos executados na nuvem, mas também garantir que grandes modelos possam ser personalizados, protegendo ao máximo a privacidade do usuário.
No white paper, a Qualcomm introduziu uma classe de novas tecnologias que têm sido amplamente utilizadas no white paper, como a decodificação especulativa, que foi um incêndio há algum tempo.
Este é um método descoberto pelo Google e DeepMind ao mesmo tempo para acelerar a inferência de modelos grandes, e pode aplicar um modelo grande menor para acelerar a geração de modelos grandes.
Simplificando, é treinar um modelo menor e gerar um lote de "palavras candidatas" para o modelo grande com antecedência, em vez de deixar o modelo grande "pensar" e gerar por si só, e diretamente fazer "escolhas".
Uma vez que a velocidade de geração do modelo pequeno é várias vezes mais rápida do que o modelo grande, uma vez que o modelo grande sente que as palavras que o modelo pequeno já tem estão disponíveis, ele pode ser tomado diretamente sem gerá-lo lentamente você mesmo.
Este método aproveita principalmente o fato de que a velocidade de inferência de grandes modelos é mais afetada pela largura de banda da memória do que o aumento na quantidade computacional.
Devido ao grande número de parâmetros e excedendo em muito a capacidade do cache, os modelos grandes são mais propensos a serem limitados pela largura de banda da memória do que o desempenho do hardware de computação durante a inferência. Por exemplo, o GPT-3 precisa ler todos os 175 bilhões de parâmetros toda vez que gera uma palavra, e o hardware de computação muitas vezes fica ocioso enquanto espera por dados de memória do DRAM.
Em outras palavras, quando o modelo faz inferência em lote, há pouca diferença no tempo entre o processamento de 100 tokens e um token de cada vez.
Portanto, o uso de amostragem especulativa pode não apenas executar facilmente grandes modelos com dezenas de bilhões de parâmetros, mas também colocar parte do poder de computação no lado do terminal, garantindo a velocidade de inferência, mantendo o efeito de geração de grandes modelos.
Mas quer se trate de um cenário ou de uma tecnologia, no final, temos de encontrar os pontos de adaptação uns dos outros para produzir um valor de aplicação substancial**, tal como a relação entre software e hardware é inseparável:
Os avanços do algoritmo de software, como a IA generativa, ao procurar cenários de aterrissagem de terminais inteligentes, inevitavelmente enfrentarão requisitos técnicos combinados com hardware de IA móvel, como a Qualcomm.
Incluindo smartphones, PCs, XR, automóveis e Internet das Coisas, como podem vários segmentos da indústria de terminais inteligentes encontrar o seu próprio jogo e valor com base em hotspots AIGC?
Como podem as empresas aproveitar esta onda dos tempos para estimular o valor de aplicação deste tipo de tecnologia e não perder a oportunidade de transformação da produtividade em toda a indústria?