O movimento de "emagrecimento de custos" dos grandes modelos

Fonte original: Cérebro corpo polar

Fonte da imagem: Gerado por Unbounded AI

Com grandes dados, grandes parâmetros e grande poder de computação, certas capacidades de grandes modelos "surgirão", o que é amplamente difundido no círculo tecnológico.

A ideia principal de fazer um modelo grande é: não diga facilmente que o modelo "não funciona", se "ainda não funciona", então torne-o maior.

Portanto, em menos de um ano, a escala de parâmetros do modelo grande aumentou 100 vezes, e agora ultrapassou o nível de trilhão, o consumo de recursos é enorme, e também trouxe custos de armazenamento cada vez mais altos, custos de inferência, custos de operação e manutenção e custos de pouso. e custos sociais.

Atualmente, o modelo grande ainda está no alvorecer da comercialização, e ainda há muitas incógnitas e incertezas sobre como recuperar o investimento no modelo grande, e o modelo grande foi ficando maior e se tornou um negócio extremamente queimador de dinheiro, apoiado pela Open AI da Microsoft, que perderá cerca de US $ 540 milhões em 2022.

O custo em constante expansão é a conta do dinheiro real e a "palha" que pesa sobre as grandes empresas-modelo. O CEO da Anthropic, Dario Amodei, previu recentemente que seu modelo custará US$ 10 bilhões nos próximos dois anos.

Para além das próprias empresas, a sociedade está também a suportar os custos ocultos dos grandes modelos. O Google informou que o PaLM consome cerca de 3,4 kWh de eletricidade em cerca de dois meses, o que equivale ao consumo total anual de energia de 300 residências. Os encargos e os custos do elevado consumo de energia para o ambiente trazidos pelo grande modelo são, em última análise, pagos por toda a sociedade.

Obviamente, tanto do ponto de vista comercial como ambiental, a dimensão do modelo de concorrência é insustentável.

A era da busca cega da grandeza já passou.

A questão é: como "reduzir o fardo" do grande modelo?

Na verdade, os principais fabricantes de modelos grandes em geral têm realizado ativamente a campanha de "emagrecimento de custos".

Por exemplo, a Microsoft anunciou no Microsoft Build 2020 que o supercomputador de supercomputação de IA que alimenta o GPT-3 pode tornar os modelos de IA 16 vezes mais eficientes do que outras plataformas, e um treinamento mais rápido pode reduzir o tempo e os custos de risco.

Os grandes modelos nacionais não são exceção.

Já na versão 2.0, o modelo grande Pangu tentou adotar uma arquitetura esparsa + densa para reduzir o custo de treinamento. Um mês após o seu lançamento, Wenxin Yiyan também melhorou o desempenho de inferência do modelo grande em quase 10 vezes através de meios técnicos, e o custo de inferência foi reduzido para um décimo do custo original.

Para evitar ficar inchado e pesado, é imperativo tornar-se uma ferramenta que todos possam usar, e o "movimento de emagrecimento de custos" de grandes modelos. Como? Este artigo falará sobre este assunto.

Uma mordida não pode fazer um homem gordo

Quais custos de modelos grandes podem ser otimizados, quais custos não podem ser reduzidos e quais custos precisam ser mais investidos? Antes de descobrir isso, você primeiro tem que saber como engordar. A fim de garantir o desempenho e a experiência do usuário (saúde) do modelo grande, a "redução de custos" pode ser realizada de forma razoável e precisa.

Para simplificar, os três elementos da IA - dados, poder de computação e algoritmos - ainda são os fatores mais críticos na determinação do custo de grandes modelos.

Comecemos pelos dados. **Entrada de lixo, saída de lixo, ainda aplicável na era dos modelos grandes.

A qualidade dos dados determina diretamente as capacidades do modelo grande. A OpenAI recrutou vários PhDs para processar dados profissionais em vários setores e contratou várias empresas de anotação de dados, como a empresa unicórnio Scale AI, para alimentar o GPT-3 com conjuntos de dados em larga escala. Ao mesmo tempo, o modelo de algoritmo continuará a ser atualizado iterativamente e a demanda por volume de dados continuará por um curto período de tempo com o aumento do uso e otimização de desempenho.

Uma das principais razões para o alto custo dos grandes modelos chineses é que ainda há uma lacuna entre a quantidade e a qualidade dos dados chineses e o inglês, e mais dados em chinês precisam ser coletados e processados para treinar grandes modelos chineses. Por outro lado, a estrutura gramatical do inglês é mais simples do que o chinês, a complexidade e diversidade dos textos chineses, algumas palavras chinesas podem expressar uma variedade de significados, contexto rico e muitas ambiguidades e dificuldades na compreensão do contexto, o que também aumenta a dificuldade de treinamento dos modelos chineses, e requer recursos adicionais para apoiar o treinamento de grandes modelos chineses.

Vamos falar sobre o poder de computação. **

Os recursos precisam ser computados e armazenados durante todo o treinamento, operação, serviço e iteração de modelos grandes.

O treinamento de grandes modelos se concentra em uma "estética violenta", e quanto maiores os parâmetros, mais recursos de computação são usados para treinamento. O GPT-3 usa um supercomputador que contém 10.000 GPUs e 285.000 núcleos de processador. O Wenxin 4.0 doméstico também é treinado no cluster Vanka baseado na plataforma de remo.

E isso não é tudo. Modelos grandes são expostos a serviços após a implantação e, à medida que o uso aumenta, mais e mais tarefas de inferência precisam ser concluídas. O processo de raciocínio de "pensar" e "produzir" em 24 horas também continuará a consumir recursos de computação, assim como o cérebro humano precisa consumir glicogênio ao lidar com um grande número de tarefas complexas, e é fácil sentir fome e ter que comer uma grande refeição para repor energia. Portanto, o custo de inferência de modelos grandes também é muito alto.

A inferência do GPT-3 após a implantação do 175B requer pelo menos cinco GPUs A100, e os grandes modelos que estão abertos a toda a sociedade na China, como Wenxin Yiyan, são ditos ter 8-10 vezes o custo de inferência como a geração anterior.

Por fim, vamos falar sobre o algoritmo. **

Para reduzir a enorme dependência de grandes modelos de recursos de computação, uma solução convencional é otimizar o modelo, com base no desempenho inalterado, com velocidade de inferência mais rápida, menor latência e menores requisitos de recursos, o que é equivalente a uma maior relação de entrada-saída de ROI, e o custo unitário dos recursos de computação necessários para treinamento e inferência é menor.

Há tanto trabalho quanto inteligência, e é impossível fazer um grande modelo que possa realmente ser jogado sem talentos. Desenvolvimento de algoritmos, testes, iteração, produtização, etc., todos exigem um grande número de talentos técnicos. Se o custo da mão de obra é alto ou não, depende se o modelo de negócios do modelo de grande porte é robusto.

A equipa de talentos com qualificações académicas completas é bastante competitiva na fase de investigação e desenvolvimento. A questão é: como ganhar dinheiro? Chamadas de API ou taxas de uso, um token é inferior a um centavo e o retorno do investimento pode estar longe; Assinatura paga (versão profissional), o modelo cabeça grande tem um efeito sifão, todos vão escolher OpenAI ou BATH e outros grandes fabricantes, se o seu próprio modelo grande pode ser aceito pelos usuários e dispostos a pagar, é desconhecido; Para personalizar o desenvolvimento para os clientes da indústria, a ToB deve ter um conhecimento profundo da indústria, pesquisa, desenvolvimento, testes e iteração, para que os engenheiros de algoritmos com um salário anual de dezenas de milhões possam permanecer no canteiro de obras por alguns meses, e a margem de lucro bruto do projeto não seja muito boa.

Portanto, se um modelo grande pode ter sucesso depende não apenas da capacidade do algoritmo em si, mas também se o ciclo de negócios do desenvolvimento à implementação é sustentável.

Feche a boca e abra as pernas

Se compararmos o custo do modelo grande com uma pessoa que quer perder gordura em excesso, então este objetivo pode ser dividido em duas maneiras básicas:

Uma delas é criar uma "diferença de calor". É manter a boca fechada e abrir as pernas, controlar o investimento, subtrair o excesso de custos, acelerar a comercialização e aumentar a renda e, naturalmente, perder peso.

O segundo é tornar-se um "fácil de perder peso". Entenda completamente o mecanismo dos grandes modelos, use uma nova arquitetura para resolver o problema do mecanismo de atenção do Transformer e tenha o físico de "não importa como você come, você não pode engordar".

Não parece que o segundo é muito tentador?

Não precisa controlar custos, atrair usuários, personalizar serviços e facilmente se deitar para ganhar dinheiro, e esse tipo de coisa boa? Verdadeiramente.

Atualmente, todos os grandes modelos de linguagem usam a arquitetura Transformer, que é difícil de processar textos longos e imagens de alta resolução, e o raciocínio lógico e a indução de conhecimento dependem da "produção vigorosa de milagres", o que é caro. Muitos dos princípios básicos ainda não são claros, o que leva a muitos problemas existentes, como a geração de "alucinações" e capacidade de raciocínio limitada.

O vencedor do Prêmio Turing, Yann LeCun, criticou o paradigma técnico dos grandes modelos de linguagem mais de uma vez, dizendo que "os LLMs têm uma compreensão muito superficial do mundo", e ele quer construir um "modelo de mundo" para aprender como o mundo funciona, em seguida, formar um modelo interno e, em seguida, usar esse modelo interno para realizar várias tarefas. Além disso, há muitos cientistas que discutem a inteligência geral da AGI a partir de seus respetivos campos de pesquisa.

Resumindo, muitos dos princípios dos grandes modelos linguísticos atuais não são claros e a tecnologia ainda está a mudar. No futuro, outros paradigmas tecnológicos podem surgir para subverter o modelo atual de busca cega de ser maior, e então pode não haver necessidade de custos excessivos e "emagrecimento" doloroso.

Você pode ter descoberto que pesquisar os princípios subjacentes e encontrar uma tecnologia AGI mais poderosa parece legal, mas realmente não é uma pontuação, e ainda não há um cronograma claro. O paradigma técnico desta rodada de grandes modelos de linguagem é viável na prática de engenharia, pode funcionar na indústria e tem um efeito claro de melhoria da qualidade e eficiência. Usá-lo primeiro e compreender o presente é a principal prioridade para as empresas de tecnologia.

Portanto, as grandes empresas-modelo só podem manter a boca fechada, abrir as pernas, controlar os custos o mais rápido possível, acelerar a comercialização e criar uma "diferença calórica" para um desenvolvimento benigno e sustentável.

Quatro Modernizações Movimento para Criar "Diferença Calórica"

Então, como exatamente você cria uma "diferença de calor"? **Com base nos principais métodos atualmente no mercado, nós os resumimos como o "Movimento das Quatro Modernizações": escala de dados, compressão de modelos, eficiência computacional e estratificação de negócios. **

A escala de dados é melhorar o benefício marginal dos dados e obter o melhor desempenho de custo através do efeito de escala. O efeito de escala é alcançado principalmente através de três maneiras, uma é a escala de concentração industrial, e o nível nacional propôs claramente "acelerar o cultivo do mercado de elementos de dados", envolvendo produção de dados, coleta, armazenamento, processamento, análise, serviço e outros links, a industrialização ajudará a reduzir o custo de dados de grandes empresas modelo. O segundo é a aplicação de ferramentas de IA, que reduz a participação manual em todos os aspetos da engenharia de dados, acelera o processamento de dados pré-treinados, reduz custos e melhora a eficiência para o treinamento de modelos. O terceiro é a escala de dados de feedback. Alguns grandes modelos que abriram seus serviços para toda a sociedade anteriormente, como Baidu Wenxin Yiyan, "SenseChat" da SenseTime, "Baichuan Model" da Baichuan Intelligence, "Spark Model" da iFLYTEK, etc., devem atingir a escala de dados ideal com benefícios marginais mais rapidamente.

Há um benefício marginal nos dados. O OpenAl já permite que os usuários decidam se permitem que eles usem dados de bate-papo para treinamento, o que significa que eles não podem mais confiar nos dados de feedback do usuário, de modo que o custo de armazenamento de dados e computação pode ser controlado.

A compressão do modelo consiste em melhorar o desempenho do modelo, obter um desempenho mais elevado com menos recursos e transformar o modelo grande que consome muitos recursos numa versão mais compacta e eficiente através da tecnologia de compressão. Semelhante à conversão de gordura em músculo, o músculo é mais denso e o peso (desempenho) permanece o mesmo, enquanto a pessoa se torna mais fina (menor).

Atualmente, existem três métodos comuns de compressão de grandes modelos: quantificação, poda e destilação de conhecimento. **

A quantificação, equivalente à lipoaspiração, é simples e grosseira, mas eficaz. Quanto maior a precisão do modelo, mais espaço de armazenamento é necessário. No entanto, na inferência, não é necessário capturar mudanças de gradiente muito pequenas em modelos complexos, de modo que a quantização pode reduzir diretamente a precisão dos parâmetros do modelo e "extrair" algumas informações detalhadas, reduzindo assim o espaço ocupado e não reduzindo a capacidade de inferência. Por exemplo, a Qualcomm AI Research usa tecnologia de quantização para manter a precisão do modelo em um nível mais baixo de precisão, e implantou o Stable Diffusion em smartphones Android pela primeira vez. A tecnologia quantitativa também tem sido aplicada em modelos nacionais de grande porte, como Wenxin e Pangu.

A poda, semelhante à "excisão", subtrai diretamente alguns ramos laterais que têm pouco efeito sobre o efeito, como um grande número de estruturas redundantes e neurônios, e esses pesos menores são removidos, o que tem pouco impacto no efeito do modelo e reduz o tamanho do modelo. É claro que a poda é um "trabalho artesanal", e quanto mais precisa for a poda, menor será a perda de precisão para o modelo e melhor será o efeito de compressão.

A destilação de conhecimento é deixar o modelo grande "sauna", e o modelo de 100 bilhões é destilado em uma passagem para produzir vários modelos pequenos com desempenho semelhante e estrutura mais simples, e o custo de pouso é menor. O desafio é que o modelo de destilação com uma escala de 100 bilhões também consome recursos de computação extremamente altos, e a diferença de volume de dados de 100 bilhões para dezenas de milhões é muito grande, o que é fácil de afetar o efeito da destilação. A destilação não destrutiva é um dos pontos de concorrência técnica dos principais fabricantes.

Uma vez que a tecnologia de compressão de modelos também consome recursos de computação, é particularmente importante melhorar a eficiência computacional da infraestrutura de computação.

A eficiência computacional é a premissa para os grandes fabricantes de modelos fornecerem serviços de modelos com maior eficiência.

O desempenho de chips e clusters de computação é o foco de pesquisa e otimização. O Microsoft Cloud Azure criou um supercomputador para computação de IA especificamente para OpenAI. Fabricantes nacionais, como Baidu e Huawei, têm chips autodesenvolvidos e estruturas de aprendizado profundo, que podem melhorar a eficiência da computação por meio da otimização de ponta a ponta, melhorar a velocidade de treinamento e a velocidade de inferência de grandes modelos e reduzir o tempo e os custos de treinamento.

No entanto, para modelos grandes não gerais, como modelos de indústria e modelos de indústria, o efeito de escala e a tecnologia de otimização de hardware são limitados, e o custo de construir e manter a infraestrutura por conta própria é muito alto, portanto, usar serviços em nuvem para treinar e implantar serviços é uma escolha mais econômica.

Em última análise, os grandes modelos precisam aumentar a receita comercial para atingir o objetivo de otimizar o ROI e recuperar custos. Atualmente, a comercialização de vários modelos de grande dimensão reflete características hierárquicas óbvias.

Para simplificar, é um modelo grande, com diferentes volumes, diferentes funções e diferentes direções, e o caminho da comercialização começou a ser claro.

O modelo geral baseia-se em economias de escala e mercados de elevado valor. OpenAI tem um grande número de usuários, e o desenvolvimento da economia de API tem um efeito de escala, e o investimento inicial pode ser compartilhado igualmente com o crescimento do volume de negócios. BATH (Baidu, Alibaba, Tencent, Huawei) e outros têm seus próprios negócios de nuvem e acumularam rica experiência em serviços do setor, especialmente as capacidades de alcance ao cliente de grandes governos e empresas, como finanças, mineração e assuntos governamentais, e têm grande potencial para transformação comercial. As altas exigências dos clientes ToB promovem a melhoria da experiência e do efeito do modelo, e também podem servir o mercado de ToC e amortizar ainda mais os custos através da escala.

O modelo da grande indústria restringe ativamente as fronteiras do produto e do negócio, concentra-se no core business e nas funções, e desenvolve pequenos modelos especializados com menos recursos, de modo a alcançar um bom equilíbrio de ROI entre investimento e comercialização. Por exemplo, no campo financeiro, o "Xuanyuan 70B" de Du Xiaoman incorporou um grande número de corpus financeiros profissionais para melhorar a compreensão do conhecimento financeiro, atender aos requisitos especiais dos clientes financeiros em termos de controlabilidade e segurança, e foi aplicado para julgamento por centenas de instituições financeiras.

Em suma, o grande modelo não é apenas um caminho universal e generalizado, mas também a privatização e implantação personalizada de milhares de indústrias produzirá fatores de tomada de decisão, como preço, privacidade e segurança, e também trará um grande número de oportunidades de negócios de segmentação. O modelo grande geral, o modelo grande da indústria e o modelo pequeno proprietário, hierárquico + esforços conjuntos abrem o caminho para a comercialização. A harmonia e a diferença testam a sabedoria de todos os papéis na cadeia industrial.

Para serviços sustentáveis e de longo prazo, é necessário manter a boca fechada e abrir as pernas, e a "redução de custos" do modelo grande é o único caminho.

Este processo pode ser doloroso, mas condensará um fosso para proteger o desenvolvimento saudável de toda a indústria.

Nos anos 40 do século 20, quando os computadores acabavam de nascer, as pessoas ficavam espantadas com o enorme corpo desse "monstro da máquina", mas então começou o salto da era da informação. Quando os smartphones nasceram, os fabricantes de feature phones foram extremamente sarcásticos sobre isso, mas eles não esperavam que esse tipo de conexão inclusiva, onde todos podem acessar a Internet, promoveu a prosperidade da Internet móvel.

À medida que os modelos grandes ficam cada vez melhores, "IA para todos" deixará de ser um sonho distante.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)