A era dos grandes modelos de IA ≠ A era da IA apenas com modelos grandes

2023-09-27 09:43:40

Autor丨Jin Lei

Fonte丨Qubit QbitAI

Que tipo de tecnologia pode sobreviver ao batismo do tempo e permanecer nova?

A resposta pode ser resumida num padrão semelhante a uma “trilogia” – ascensão, desenvolvimento e aplicação em larga escala, mais outra iteração evolutiva deste processo.

Tomando a história como guia, a máquina a vapor liderou a primeira revolução industrial. Quando evoluiu para o motor de combustão interna e se tornou popular, o disruptor da segunda revolução industrial - a própria energia elétrica e vários equipamentos relacionados a ela estavam em sua infância. equipamentos avançam em direção à inovação iterativa em microeletrônica, vários motores a combustível ainda estão sendo aprimorados e popularizados.

A julgar por esta regra, embora os grandes modelos de linguagem (LLM, abreviadamente) tenham dominado todas as palavras-chave relacionadas à IA e atraído a atenção de todos desde o seu surgimento, isso não significa que "não havia IA antes do LLM".

Embora os grandes modelos estejam roubando a cena, a geração mais antiga de aplicativos de aprendizado de máquina, anteriormente especializados na tomada de decisões, bem como os aplicativos "tradicionais" de aprendizado profundo que se concentram nas capacidades de percepção, também não estão ociosos. adolescência e entrada na prática constante e prática.

Qual é a evidência?

Um grande fabricante de chips lançou uma série de manuais práticos de IA, direcionados às práticas de IA nos setores de manufatura e energia, medicina, finanças, transporte e logística e educação.

Na atualização deste ano do Manual Prático de IA para Logística, Transporte e Saúde, são registradas muitas aplicações de IA que foram ou estão sendo implementadas, bem como como implantá-las sem problemas e liberar totalmente seu potencial de aceleração de desempenho. Claro, eles também são usados em alguns chefes familiares.Exemplos de aplicação de empresas que vão fundo na linha de frente.

Portanto, a IA não envolve apenas modelos grandes. A era dos grandes modelos de IA também ≠ a era da IA apenas com modelos grandes.

IA madura já foi colocada em funcionamento

Talvez você ainda não consiga acreditar que a tecnologia de IA já está por trás até mesmo de pequenas entregas expressas.

É isso mesmo, e está quase envolvido em todo o processo logístico: encomenda, envio, triagem, transbordo, distribuição... A IA agora tem que “gerir” tudo.

Tomemos como exemplo a clássica tecnologia OCR (Optical Character Recognition), seu status no "mundo técnico" da logística pode ser considerado fundamental, melhorando muito a eficiência do trabalho.

Por exemplo, quando o remetente preenche o endereço e as informações de identidade durante o envio, e o armazém de comércio eletrônico verifica as informações do produto enviado, o OCR pode ser usado para obter entrada com um clique.

À medida que a tecnologia de IA se torna mais perfeita e a sua aplicação se aprofunda, esta velocidade atinge "não há mais rápido, apenas mais rápido".

Este é o caso do Yunda Express, com o qual estamos familiarizados: durante o processo de reconhecimento de OCR de três segmentos, originalmente esperava-se que a IA pudesse atingir uma precisão de reconhecimento de OCR de 95%.

Como resultado, a IA atual "ensinou uma lição a Yunda", não só a precisão subiu para quase 98%, mas o tempo também "caiu": de 130ms para 114ms.

△Os resultados dos testes de desempenho são baseados em testes realizados pela Yunda em outubro de 2022

Além disso, o reconhecimento OCR é apenas uma pequena parte do envolvimento da IA no setor de logística. Dê uma olhada na imagem para sentir o poder que ela desempenha agora:

Bem, a IA é tão abrangente que não admira que a velocidade da logística doméstica esteja a disparar.

Mas amigos, este é apenas o caso da IA acelerando milhares de indústrias. Na verdade, nossas viagens diárias também estão cheias do "sabor" da IA.

Por exemplo, a tecnologia de análise de vídeo AI pode analisar as condições de tráfego nas rodovias em tempo real.

Quer se trate de monitoramento do fluxo de tráfego, reconhecimento de placas de veículos ou aviso de acidentes, etc., pode-se dizer que a IA tem uma visão panorâmica de tudo.

Desta forma, as condições da estrada podem ser controladas de forma eficaz e precisa.

Outro exemplo são os aeroportos: câmeras alimentadas por tecnologia de IA também podem identificar aeronaves, veículos, pessoal e violações de fronteiras de maneira detalhada, o que proporciona uma certa garantia para a segurança da área de voo.

……

Não é difícil ver, a partir dos pequenos casos de uso acima, que a IA "madura", ou aqueles aplicativos populares de IA em estrela há alguns anos, podem não parecer populares, mas na verdade penetraram em todos os aspectos de nossas vidas, e seus O foco principal é a “redução de gastos e melhoria de eficiência”.

Então, o que está por trás de tais “economias de custos e ganhos de eficiência”?

Não seja muito pretensioso, apenas dê a resposta——

São as plataformas da Intel que ajudam, especificamente os processadores escaláveis Xeon®️. Da mesma forma, o fabricante de chips mencionado acima também é a Intel, e é a Intel que fornece manuais práticos de IA para vários setores.

Mas o que desbloqueia tais capacidades não é apenas uma CPU, mas bônus de otimização em nível de software da Intel; em outras palavras, é o resultado da “integração de software e hardware”.

Resumindo-se simplesmente a: processadores escalonáveis Xeon®️ e seu acelerador de IA integrado, bem como uma série de estruturas de IA e software de otimização, como OpenVINO™️ e oneAPI para ajudar.

Atualmente, existem apenas dois fatores que afetam o desempenho das aplicações de IA: poder computacional e velocidade de acesso aos dados.

O número de núcleos de CPU únicos nos mais recentes processadores escaláveis Xeon®️ de quarta geração aumentou para um máximo de 60 núcleos. Em termos de velocidade de acesso aos dados, o tamanho do cache em todos os níveis, o número de canais de memória, a velocidade de acesso à memória, etc., foram otimizados até certo ponto. Além disso, a tecnologia de memória de alta largura de banda da HBM também está integrada na série CPU Max.

Além disso, o conjunto de instruções da CPU também foi otimizado e aceleradores de hardware como Intel®️ Advanced Matrix Extensions (Intel®️ AMX) são integrados, responsáveis por cálculos de matriz e aceleração de cargas de trabalho de aprendizado profundo. Pode ser chamado de C -bit de aplicativos de IA acelerados por CPU.

É um pouco semelhante ao Tensor Core na GPU.

AMX consiste em duas partes, uma é um arquivo de registro 2D de 1kb e a outra é o módulo TMUL, que é usado para executar instruções de multiplicação de matrizes. Ele pode suportar os tipos de dados INT8 e BF16, e o BF16 tem melhor desempenho computacional que o FP32.

Com a bênção do conjunto de instruções AMX, o desempenho é melhorado em até 8 vezes ou até mais do que o conjunto de instruções de rede neural vetorial VNNI integrado ao processador escalonável Xeon®️ da geração anterior.

Além da plataforma central de hardware, o que realmente ajuda essas indústrias a implementar aplicações práticas de IA é uma série de ferramentas de software de IA “próprias”, mas não “privadas” da Intel.

Por exemplo, a aceleração de OCR mencionada anteriormente é inseparável da otimização do OpenVINO™️, que elimina muitos cálculos redundantes necessários para a parte de treinamento e suporta principalmente a parte de inferência.

É também uma estrutura otimizada construída especialmente para hardware Intel. São necessárias apenas 5 linhas de código para completar a substituição da estrutura original.

Os usuários podem otimizar os parâmetros operacionais do OpenVINO™️ para diferentes cenários de negócios.

Com essa combinação de software e hardware, a Intel não apenas libera totalmente o potencial computacional da CPU, mas também alcança desempenho próximo ao da GPU em cenários de raciocínio reais. Também tem vantagens adicionais, como baixo custo, baixo limite e fácil de usar.

No entanto, estas são apenas otimizações de tecnologias maduras de IA na plataforma Intel®️. As capacidades da Intel são muito mais do que isso.

Isso está de volta ao grande modelo.

Grandes modelos populares também estão sendo acelerados

Actualmente, grandes modelos de linguagem estão a ser perseguidos pelas principais empresas tecnológicas em todo o mundo, afinal, o círculo tecnológico considera-o agora como a tendência de desenvolvimento futuro.

Embora em comparação com essas tecnologias e aplicações maduras de IA, ainda esteja a alguma distância da implementação em grande escala, mas a sua liderança tecnológica é inquestionável, e espera-se que mesmo as aplicações de IA da "geração mais antiga" sejam combinadas com ela ou transformadas por ela. Renovado.

Como acelerador básico de potência de computação e desempenho de aplicativos, a Intel também está se preparando para o dia chuvoso nesta arena competitiva e já traçou seus planos.

Em primeiro lugar, não importa quão avançado seja um modelo grande, mais pessoas precisam de o utilizar para perceberem plenamente o seu valor. Se você quiser “brincar”, o custo é um problema antigo diante de seu enorme tamanho.

Portanto, a Intel revelou uma “ferramenta mágica de redução de peso” aprimorada que pode reduzir em 3/4 um grande modelo de linguagem com um bilhão de parâmetros e aumentar sua precisão, e também pode melhorar efetivamente o desempenho de inferência de grandes modelos no Intel. ®️ plataforma.

Especificamente, o que é utilizado é a tecnologia SmoothQuant, que a Intel adapta à sua própria plataforma e implementa melhorias. Essa abordagem foi integrada ao Compressor Neural Intel®️. Esta é uma biblioteca Python de código aberto que contém uma variedade de técnicas de compressão de modelo comumente usadas, como quantização, poda (esparsidade), destilação (extração de conhecimento) e pesquisa de arquitetura neural. Ela já suporta uma variedade de hardware de arquitetura Intel®️ e é compatível com TensorFlow, estruturas convencionais como PyTorch, ONNX Runtime e MXNet.

Em segundo lugar, a nível de hardware, a Intel também fez alguns esforços.

Por exemplo, o recentemente popular ChatGLM-6B usa o Intel®️ AMX integrado do processador escalável Xeon®️ de quarta geração para aumentar significativamente a velocidade de cálculo de ajuste fino do modelo; ele usa o HBM integrado com o processador da série Xeon®️ CPU Max para atender às necessidades de usuários em grande escala.Grande largura de banda de memória necessária para o ajuste fino do modelo.

△Arquitetura de tecnologia Intel® AMX

Além da CPU, a Intel também possui um chip dedicado de aceleração de aprendizado profundo Habana®️ Gaudi®️2, que pode implantar 8 placas aceleradoras (chamadas Unidade de Processamento Habana, conhecida como HPU) em um único servidor. Cada placa tem memória Até 96 GB, proporcionando muito espaço para modelos grandes.

Portanto, mesmo um modelo de linguagem de nível de 100 bilhões como o BLOOMZ com 176 bilhões de parâmetros pode controlar o atraso de desempenho para 3,7 segundos após a otimização pela Intel. Para o modelo menor BLOOMZ-7B com 7 bilhões de parâmetros, a latência de dispositivo único no Gaudi®️2 é de cerca de 37,21% da primeira geração do Gaudi®️; e quando o número de dispositivos é aumentado para 8, esse percentual cai ainda mais para cerca de 24,33%.

△Resultados do teste de latência de inferência BLOOMZ em Gaudi®️2 e na primeira geração de Gaudi®️

Então, no nível de software, para modelos populares de linguagem grande como ChatGLM, a Intel também pode otimizá-lo criando um modelo com estado OpenVINO™: compactando pesos para reduzir o uso de largura de banda de memória e melhorar a velocidade de inferência.

Isto é um reflexo direto da abordagem de “integração de software e hardware” da Intel em aplicações de modelos grandes. Além disso, o hardware não está mais limitado à CPU, mas há também o Gaudi®️ que pode rivalizar com a GPU em desempenho de treinamento e inferência e impressionar a todos em termos de desempenho de custo.

Por fim, em termos de segurança, a Intel também alcançou “o melhor dos dois mundos”: o Trusted Execution Environment (TEE) baseado em Intel®️ SGX/TDX pode fornecer um ambiente operacional mais seguro para modelos grandes sem trocar desempenho.

Esta é a “abordagem de aceleração” da Intel na era dos grandes modelos de IA.

Que outras mudanças isso trará?

Olhando para o desenvolvimento da tecnologia de IA, não é difícil descobrir que a Intel implementa um princípio muito claro: o uso é a última palavra. Mesmo apenas usá-lo em data centers e bordas não é suficiente. É melhor que cada computador e cada dispositivo terminal de informações de cada pessoa tenha a capacidade de acelerar aplicativos de IA de forma independente para ficar satisfeito com o "essencial".

Portanto, a Intel ajustou sua missão de inovação para: adicionar recursos de IA a vários produtos de hardware e promover a popularização de aplicativos de IA por meio de soluções de software abertas e de múltiplas arquiteturas e promover a ascensão da "economia central".

A "abordagem de aceleração" da Intel não visa apenas permitir que a tecnologia seja implementada e popularizada mais rapidamente, mas também promover a adoção, a inovação e a mudança, abrindo caminho para a próxima geração de mudanças tecnológicas.

Então, a Intel tem um objetivo final nesse caminho?

Talvez conforme repetido e enfatizado na Intel Innovation 2023: deixe a IA estar em todos os lugares (AI Everywhere).

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
1/3
1Simple Earn Annual Rate 24.4%
40k Popularidade
2Gate Launchpad List IKA
42k Popularidade
3ETH Trading Volume Surges
44k Popularidade
4Gate ETH 10th Anniversary Celebration
23k Popularidade
5Trump’s AI Strategy
18k Popularidade

Marcar

sitemap