Quantos volumes é o treinamento de modelo grande? Desvende o mistério do poder de computação de grandes modelos

Question

Fonte do artigo: Titanium MediaAutor|Qin ConghuiEditor|Gai Hongda> A premissa de conquistar poder de computação é que o poder de computação está se tornando um novo modelo de negócios. O boom da "alquimia" de modelos em larga escala vai passar, e os provedores de serviços de poder de computação devem tomar precauções e virar no tempo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f385fd50ff-dd1a6f-69ad2a) *Fonte da imagem: Gerada por Unbounded AI*Usando 40 anos de dados meteorológicos globais, pré-treinamento com 200 placas GPU e, em cerca de 2 meses, um grande modelo meteorológico da Pangea com centenas de milhões de parâmetros foi treinado.Esta é a história de Bi Kaifeng, que se formou na Universidade de Tsinghua por 3 anos e treinou um grande modelo.No entanto, do ponto de vista do custo, em circunstâncias normais, uma GPU é de 7,8 yuan / hora, e o custo de treinamento do modelo meteorológico Bikaifeng Pangu pode exceder 2 milhões. Este ainda é um modelo vertical grande no campo meteorológico, e se for treinado em um modelo geral grande, o custo pode ser cem vezes.De acordo com as estatísticas, existem mais de 100 modelos grandes com 1 bilhão de parâmetros na China. No entanto, o grande modelo "Alchemy" da indústria enfrenta o problema de que GPUs high-end são difíceis de encontrar. O custo do poder de computação é alto, e a falta de poder de computação e fundos tornou-se o problema mais intuitivo na frente da indústria.  ## **GPU high-end, quanto está faltando? **  "Não, claro que falta, mas o que podemos fazer." Um alto executivo de uma grande fábrica desabafou quando perguntado se ele não tinha poder de computação.Isso parece ter se tornado um problema não resolvido reconhecido pela indústria, o preço de um NVIDIA A100 no pico foi especulado para 200.000 yuan, e o preço de aluguel mensal de um único servidor A100 também subiu para 50.000-70.000 / mês. Mas, mesmo assim, o preço alto ainda pode não ser capaz de obter o chip, e alguns fornecedores de poder de computação também encontraram experiências estranhas que são difíceis de encontrar antes, como pular bilhetes de fornecedor.Zhou Lijun, um executivo da indústria de computação em nuvem, disse de forma semelhante: "Há uma escassez de poder de computação. Temos muitos clientes que querem recursos de GPU high-end, mas eles não podem atender totalmente às necessidades do amplo mercado por enquanto. "![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f46d3c3ff5-dd1a6f-69ad2a) *O cluster de computação de alto desempenho de um provedor de serviços em nuvem com A100 está com interface esgotada*Acontece que a escassez de GPUs high-end não está resolvida na indústria no curto prazo. Com a eclosão de grandes modelos, a demanda do mercado por poder de computação cresceu rapidamente, mas a taxa de crescimento da oferta está longe de acompanhar. Embora o fornecimento de poder de computação definitivamente entrará no mercado do comprador a partir do mercado do vendedor a longo prazo, não se sabe quanto tempo esse tempo levará.Cada empresa está calculando quantos "bens" (GPUs NVIDIA) eles têm em suas mãos, e até mesmo usar isso para julgar a participação de mercado. Por exemplo, se você tem perto de 10.000 cartões em sua mão, e o mercado é de 100.000 cartões no total, a participação é de 10%. "Até o final do ano, serão cerca de 40.000, e se o mercado for 200.000, provavelmente será 20% do mercado." Pessoas familiarizadas com o assunto deram exemplos.Por um lado, você não pode comprar um cartão, por outro lado, o limiar para o treinamento de modelos grandes não é tão fácil de "começar" quanto a indústria assa. Como mencionado acima, o custo de treinamento do modelo meteorológico Bikaifeng Pangea pode exceder 2 milhões. No entanto, deve-se notar que o modelo meteorológico Bikaifeng Pangu é um modelo vertical grande treinado com base no modelo geral grande Pangu, e seus parâmetros são centenas de milhões. Se você quiser treinar um modelo grande de uso geral com parâmetros de escala bilionária ou maiores, o custo pode ser dez vezes ou cem vezes maior."Neste momento, a maior escala de investimento é na formação e, sem milhares de milhões de investimento de capital, é difícil continuar a fazer um modelo grande." Qiu Yuepeng, vice-presidente do Tencent Group, COO do Cloud and Smart Industry Business Group e presidente da Tencent Cloud, revelou."Corra rápido, pelo menos até que o dinheiro se esgote para obter a próxima rodada de 'financiamento'." Um empresário descreveu o atual grande modelo de "situação de guerra": "Este caminho é um beco sem saídaSe você não tem dezenas de bilhões de dólares atrás de você, é difícil ir. "Nesta situação, a visão comum na indústria é que, com a concorrência no grande mercado de modelos, o mercado também mudará de fanático para racional, e as empresas também controlarão os custos e ajustarão as estratégias com as mudanças esperadas.  ## **Resposta Positiva Insolúvel**  Se não há condições, é necessário criar condições - esta parece ser a mentalidade maioritária entre os participantes no grande modelo. E como criar condições para lidar com problemas reais, cada empresa também tem muitos métodos.Devido à escassez de chips de GPU high-end, e a GPU disponível no mercado chinês não é de última geração, o desempenho é geralmente menor, então as empresas precisam de mais tempo para treinar modelos grandes. Estas empresas estão também à procura de formas inovadoras de compensar a falta de capacidade de computação.Uma maneira de fazer isso é usar dados de maior qualidade para o treinamento, o que torna o treinamento mais eficiente.Recentemente, a Academia de Tecnologia da Informação e Comunicação (CAICT) assumiu a liderança no lançamento do "Research Report on Industry Large Model Standard System and Capacity Architecture", que mencionou a avaliação da camada de dados de grandes modelos. O relatório sugere que, em termos de qualidade dos dados, uma vez que terá um grande impacto no efeito do modelo, recomenda-se introduzir a rotulagem manual e a confirmação, e selecionar pelo menos uma certa proporção dos dados originais para rotulagem, de modo a construir conjuntos de dados de elevada qualidade.Além de reduzir o custo de grandes modelos através de dados de alta qualidade, para a indústria, melhorando as capacidades de infraestrutura e alcançando um funcionamento estável de mais de 100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000"Como um provedor de serviços em nuvem, ajudamos os clientes a construir uma infraestrutura estável e confiável. Como a estabilidade da placa de servidor GPU será fraca, qualquer falha interromperá o treinamento, resultando em um aumento no tempo total de treinamento. Os clusters de computação de alto desempenho podem fornecer aos clientes serviços mais estáveis, reduzir o tempo de treinamento e resolver alguns problemas de capacidade de computação. Zhou Lijun disse.Ao mesmo tempo, o agendamento de recursos da placa de poder de computação também testa a capacidade técnica do provedor de serviços. Xu Wei, chefe de Soluções de Internet do Leste da China da Volcano Engine, disse à Titanium Media que ter recursos de cartão de poder de computação é apenas um aspeto, e como programar recursos de cartão e realmente colocá-los em uso é uma habilidade central e capacidade de engenharia mais testada. "Dividir um cartão em muitos cartões pequenos e tentar obter agendamento distribuído e refinado pode reduzir ainda mais o custo do poder de computação." Xu Wei disse.A rede também afeta a velocidade e a eficiência do treinamento de grandes modelos. Treinamento de modelo grande é muitas vezes milhares de placas, conectar centenas de servidores GPU necessária velocidade de rede é extremamente alta, se a rede está um pouco congestionada, a velocidade de treinamento será muito lento, a eficiência é muito afetada. "Enquanto um servidor superaquecer e cair, todo o cluster pode ter que parar e as tarefas de treinamento terão que ser reiniciadas. Isso requer requisitos muito altos para recursos de O&M do serviço de nuvem e recursos de solução de problemas. Qiu Yuepeng disse.Alguns fornecedores encontraram outro caminho, e a transição da arquitetura de computação em nuvem para a arquitetura de supercomputação também se tornou uma maneira de reduzir custos, ou seja, no caso de atender às necessidades do usuário, tarefas de computação sem alto rendimento e cenários de tarefas paralelas, a nuvem de supercomputação é cerca de metade do preço da supercomputação em nuvem e, em seguida, através da otimização de desempenho, a utilização de recursos pode ser aumentada de 30% para 60%.Além disso, alguns fabricantes optam por usar plataformas domésticas para treinar e raciocinar modelos grandes para substituir a NVIDIA, o que é difícil de encontrar com uma placa. "Lançamos em conjunto a máquina all-in-one iFLYTEK Spark com a Huawei, o que é muito notável por poder fazer treinamento e raciocínio na plataforma nacional. Estou particularmente satisfeito em dizer que as capacidades de GPU da Huawei são agora as mesmas da NVIDIA, e Ren Zhengfei atribui grande importância a isso, e os três diretores da Huawei trabalharam na classe especial do iFLYTEK e agora o tornaram comparável ao A100 da NVIDIA. Liu Qingfeng, fundador e presidente da iFLYTEK, disse uma vez.Cada um dos métodos acima é um projeto relativamente grande, por isso é difícil para as empresas em geral se encontrarem através de centros de dados autoconstruídos, e muitas equipes de algoritmos escolhem os fabricantes de poder de computação mais profissionais para dar suporte. Entre eles, o armazenamento paralelo também é um grande custo, bem como as capacidades técnicas, as garantias de taxa de falha correspondentes, etc. também fazem parte do custo de hardware. Claro, considere até mesmo o custo da eletricidade da área de disponibilidade da IDC, custos operacionais como software, plataforma e custos de pessoal.Apenas o cluster de GPU no nível de kilocard terá um efeito de escala, e escolher um provedor de serviços de poder de computação equivale a dizer que o custo marginal é zero.Sun Ninghui, acadêmico da Academia Chinesa de Engenharia e pesquisador do Instituto de Tecnologia de Computação da Academia Chinesa de Ciências, também propôs em seu discurso que a AIGC provocou o surto da indústria de inteligência artificial, e a aplicação em larga escala da tecnologia inteligente tem um problema típico de cauda longa, ou seja, departamentos fortes com fortes capacidades de IA (segurança de rede, nove institutos da nona academia e escritórios meteorológicos, etc.), instituições de pesquisa científica e grandes e médias empresas representam apenas cerca de 20% do corpo principal da demanda de poder de computação, e os outros 80% são pequenas e médias empresas. Ou limitado pelo alto preço do poder de computação, é difícil obter dividendos de desenvolvimento na onda da era da IA.Portanto, a fim de realizar a aplicação em larga escala da tecnologia inteligente, a indústria de inteligência artificial é "aplaudida" e "aplaudida", e uma grande quantidade de poder de computação inteligente barato e fácil de usar é necessária, para que pequenas, médias e microempresas também possam usar o poder de computação de forma conveniente e barata.Seja a demanda urgente por poder de computação de grandes modelos ou os vários problemas que precisam ser resolvidos no processo de aplicação do poder de computação, uma nova mudança que precisa ser prestada atenção é que o poder de computação se tornou um novo modelo de serviço no processo de demanda de mercado e iteração de tecnologia.  ## **Explore um novo modelo de serviço de poder de computação**  Qual é o poder de computação do grande modelo que estamos agarrando? Para responder a essa pergunta, precisamos começar com o serviço de poder de computação.Em termos de tipos, o poder de computação é dividido em poder de computação geral, poder de computação inteligente e poder de supercomputação, e esse poder de computação tornou-se um serviço, que é o resultado do duplo impulso de mercado e tecnologia.A definição de serviço de poder de computação no "2023 Computing Power Service White Paper" (doravante referido como o "Livro Branco") é um novo campo da indústria de poder de computação baseado em poder de computação diversificado, ligado por rede de poder de computação, e destinado a fornecer poder de computação eficaz.A essência do serviço de poder de computação é alcançar uma produção unificada de poder de computação heterogêneo por meio de novas tecnologias de computação e integração cruzada com nuvem, big data, IA e outras tecnologias. Não há apenas poder de computação no serviço de poder de computação, é um encapsulamento unificado de poder de computação, armazenamento, rede e outros recursos, e a entrega de poder de computação é concluída na forma de serviços (como APIs).Entendendo isso, você descobrirá que, ao pegar chips NVIDIA, uma grande parte deles são provedores de serviços de poder de computação, ou seja, produtores de poder de computação. Os usuários da indústria que realmente chamam a API de poder de computação no front-end só precisam apresentar os requisitos de poder de computação correspondentes.De acordo com a Titanium Media App, do ponto de vista do lado do software, todo o grande modelo utilizado pela interação do software é dividido em três tipos, o primeiro grande modelo de chamada de API, cada família tem uma cotação, de acordo com a liquidação de preço; O segundo é possuir um modelo pequeno, comprar poder de computação sozinho ou até mesmo implantá-lo você mesmo; Em terceiro lugar, os grandes fornecedores de modelos cooperam com fornecedores de nuvem, ou seja, nuvens dedicadas, e pagam mensalmente. "Geralmente, estes são os três, o Kingsoft Office atualmente usa principalmente chamadas de API, e o pequeno modelo interno criou sua própria plataforma de agendamento de poder de computação." Yao Dong, vice-presidente do Kingsoft Office, disse ao Titanium Media App.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf2277488b-dd1a6f-69ad2a) Diagrama de estrutura da cadeia da indústria de hashrate, fonte: Academia Chinesa de Tecnologia da Informação e ComunicaçãoPor outras palavras, na cadeia industrial da estrutura de poder de computação, as empresas a montante completam principalmente o fornecimento de recursos de apoio para serviços de poder de computação, tais como poder de computação geral, poder de computação inteligente, poder de supercomputação, armazenamento e rede. Por exemplo, na batalha pelo poder de computação de grandes modelos, a NVIDIA pertence ao fornecimento de recursos básicos de poder de computação upstream para a indústria fornecer chips, e o aumento nos estoques de fabricantes de servidores, como a Inspur Information, também é afetado pela demanda do mercado.As empresas midstream são principalmente provedores de serviços em nuvem e novos provedores de serviços de poder de computação, e suas funções são principalmente realizar a produção de energia de computação por meio de orquestração de poder de computação, programação de poder de computação e tecnologia de negociação de poder de computação, e completar o fornecimento de poder de computação por meio de APIs. Os provedores de serviços de poder de computação acima mencionados, Tencent Cloud e Volcano Engine estão todos neste link. Quanto mais forte for a capacidade de computação orientada para os serviços do poder de servir as empresas midstream, menor será o limiar para o lado da aplicação e mais propício ao desenvolvimento inclusivo e ubíquo do poder de computação.As empresas a jusante dependem do poder de computação proporcionado pelos serviços de poder de computação para gerar e fabricar serviços de valor acrescentado, tais como os utilizadores da indústria. Esta parte do usuário só precisa apresentar a demanda, e o produtor de poder de computação configura o poder de computação correspondente de acordo com a demanda para completar a "tarefa de poder de computação" emitida pelo usuário.Isso tem mais custo e vantagens técnicas do que a compra original de servidores para construir um grande modelo de ambiente de poder de computação. O treinamento de Bi Kaifeng do Pangu Meteorological Big Model deve chamar diretamente a camada subjacente do Modelo Pangu, ou seja, o serviço de computação de alto desempenho da HUAWEI CLOUD, então o processo de outras grandes empresas modelo usará poder de computação ou pagará pelo poder de computação será diferente?  ## **Iteração do Modelo de Negócios do Poder de Computação**  ChatGLM é o primeiro lote de grandes modelos gerais lançados, tomando o uso do poder de computação ChatGLM do Zhipu AI como exemplo, de acordo com as informações que foram divulgadas publicamente, o ChatGLM AI usa vários provedores de serviços de poder de computação de IA mainstream na China. "Em teoria, tudo deveria ser útil." Pessoas familiarizadas com o assunto disseram que isso também pode incluir provedores de serviços de poder de computação domésticos/provedores de serviços em nuvem.O faturamento pago conforme o uso e o faturamento mensal são os principais modos do serviço de poder de computação atual, e há aproximadamente dois tipos de requisitos de uso, um é escolher a instância de serviço de poder de computação correspondente e, na interface do site oficial de um provedor de serviços em nuvem, ele pode fornecer servidores GPU de alto desempenho equipados com placas gráficas NVIDIA A800, A100, V100 e três placas gráficas convencionais.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6fb6682b2-dd1a6f-69ad2a) *Tipos de placas gráficas GPU de computação de alto desempenho fornecidas por um provedor de serviços de computação*A outra é escolher a plataforma de serviço MaaS correspondente e ajustar o modelo grande na plataforma MaaS. Tomando como exemplo o preço de publicação pay-as-you-go da plataforma Tencent Cloud TI-ONE, a configuração do 8C40G V100\*1 é de 20,32 yuan por hora, que pode ser usada para visão de aprendizagem automática, modelagem baseada em tarefas, notebook e modelagem visual.Atualmente, a indústria também está promovendo a "integração de computação e rede" de serviços de poder de computação, e através do julgamento abrangente de tarefas de computação, status de recursos de rede de computação e outras informações, um esquema de orquestração de rede de computação que pode suportar a programação de arquitetura cruzada, entre regiões e provedores de serviços é formado, e a implantação de recursos relacionados é concluída. Por exemplo, contanto que você economize uma quantia de dinheiro e a deposite na rede de poder de computação, as partições na rede de poder de computação podem ser chamadas à vontadeDe acordo com as características do aplicativo, selecione a partição mais adequada, a partição mais rápida e a partição mais econômica, e então cobre de acordo com a duração e deduza a taxa dos fundos pré-depositados.O mesmo se aplica aos prestadores de serviços em nuvem, enquanto produto único de serviços em nuvem, permitindo-lhes participar rapidamente na cadeia da indústria de poder de computação.De acordo com dados do Ministério da Indústria e Tecnologia da Informação, a escala total do poder de computação da China chegará a 180EFLOPS em 2022, ocupando o segundo lugar no mundo. Em 2022, a escala da indústria de energia de computação da China atingiu 1,8 trilhão. O poder de computação de grande modelo acelerou muito o desenvolvimento da indústria de poder de computação.Um ditado é que o atual serviço de poder de computação é, na verdade, um novo tipo de modelo de "venda de eletricidade". No entanto, de acordo com a divisão de trabalho diferente, alguns provedores de serviços de computação podem precisar ajudar os usuários a fazer mais depuração de desempenho do sistema, instalação de software, dever de operação de trabalho em grande escala e análise de características de operação, ou seja, parte do trabalho de operação e manutenção de última milha.Com a normalização da demanda de computação de alto desempenho de grandes modelos, os serviços de poder de computação, que nasceram dos serviços em nuvem, entraram rapidamente no campo de visão do público, formando uma cadeia industrial e um modelo de negócios únicos. É que no início da eclosão da indústria de poder de computação devido a grandes modelos, a escassez de GPUs high-end, o alto custo do poder de computação e a captura de "núcleos" formaram uma paisagem única pertencente a esta era."Nesta fase, o volume é quem pode obter o cartão na cadeia de suprimentos, a NVIDIA é o rei de toda a indústria no momento, e todos os mercados são controlados por ela, que é o status quo." Pessoas familiarizadas com o assunto comentaram. É como se quem recebe o cartão pudesse entregar o negócio quando a demanda supera a oferta.Mas nem toda a gente está a agarrar o "cartão", porque a escassez é temporária e o problema estará sempre resolvido. "A pessoa que faz a pesquisa de longo prazo não a agarra, apenas espera porque não vai morrerNeste momento, há apenas um grupo de startups que estão a agarrar cartas, e querem garantir que conseguem sobreviver até ao próximo ano. A pessoa disse.Em muitas incertezas, é uma tendência definitiva para o poder de computação se tornar um serviço, e o que os provedores de serviços de poder de computação devem fazer é estar prontos para tomar precauções quando o grande modelo retornar à racionalidade e o vento do mercado mudar rapidamente.Nota: A pedido do entrevistado, Zhou Lijun é um pseudónimo.**(Este artigo publicado pela primeira vez Titanium Media APP) **