Grandes modelos investigam profundamente o valor dos elementos de dados: depois dos algoritmos e do poder computacional, o valor das operadoras de armazenamento se torna mais proeminente

2023-09-27 08:03:34

Artigo| Relatividade Inteligente** (aixdlun)**

Autor | Ye Yuanfeng

18,8 biliões de dólares americanos, que é o valor total que o mercado espera ser gerado pela economia inteligente impulsionada pela IA em 2030. Entre eles, a mudança qualitativa nas capacidades de IA provocada por grandes modelos tornar-se-á, sem dúvida, uma importante força motriz.

Sob a onda de grandes modelos, a atenção da indústria a qualquer dimensão da troika de desenvolvimento de IA - poder de computação, algoritmos e dados - atingiu um novo nível. Evitar o "efeito barril" tornou-se a principal consideração no desenvolvimento de grandes modelos. modelos.

Neste processo, a atenção da indústria aos "dados" muitas vezes se concentra em "quantidade" + "qualidade".Uma maior quantidade de dados e maior qualidade de dados podem promover melhores efeitos de treinamento e aplicação de grandes modelos.tornou-se um consenso.

No entanto, como a inovação de grandes modelos requer dados cada vez mais complexos, não é mais suficiente focar apenas na "quantidade" + "qualidade" dos dados. O armazenamento que pode transportar dados e atender às necessidades de grandes modelos também merece a atenção de profissionais na área de grandes modelos.

Na recém-realizada Huawei Connectivity Conference 2023 (HC 2023), a Huawei apresentou sistematicamente como suas soluções de armazenamento podem resolver os problemas do treinamento e aplicação de grandes modelos e apoiar o processo de inovação de grandes modelos.

As ações da Huawei demonstram panorâmicamente a essência do desenvolvimento de grandes modelos a partir da dimensão dos dados - o desenvolvimento em grande escala de "elementos de dados" e como a inovação no armazenamento fornece energia para esta essência, ajudando os praticantes de grandes modelos a entrar melhor na era da economia inteligente.

A era dos grandes modelos é a era dos elementos de dados, e o valor do armazenamento como suporte é demonstrado.

Não há dúvida de que a demanda por poder computacional, algoritmos e dados para grandes modelos está aumentando rapidamente.

De acordo com estatísticas de pesquisa de mercado, nos últimos cinco anos, os parâmetros dos grandes modelos aumentaram 2.000 vezes, a capacidade de computação necessária aumentou 50.000 vezes, a demanda por armazenamento de dados aumentou 100.000 vezes e os requisitos de largura de banda de rede associados aumentaram 8.000 vezes.

Grandes aberturas, grandes fechamentos e grandes demandas exigem grandes instalações e investimentos.

No entanto, do ponto de vista da inovação, de facto, a dificuldade tanto dos algoritmos como do poder computacional está a diminuir ou a convergir.

Em termos de poder computacional, que é uma dor de cabeça para muitas empresas, embora a quantidade necessária seja grande, tudo vem da NVIDIA, Ascend e outros recursos de hardware de GPU, que dependem principalmente de investimentos de custos. Em outras palavras, desde que haja orçamento suficiente, os recursos computacionais podem ser fornecidos.

Do lado do algoritmo, embora os principais fabricantes continuem a ajustar e iterar, eles geralmente adotam a infraestrutura do modelo Transformer, que é desenvolvida com base em estruturas de desenvolvimento convencionais, como Pytorch, TensorFlow e MindSpore, e está convergindo gradualmente.

Neste momento, a pressão chega aos dados.

Com o desenvolvimento aprofundado de grandes modelos, a procura total de dados já saltou do nível TB para o nível PB, e o "pool" necessário está a tornar-se cada vez maior; ao mesmo tempo, a procura por tipos de dados é extremamente rica, e o modelo de um único texto Além das modalidades, os dados multimodais, como imagens, vídeos e vozes, estão explodindo, e os requisitos de dados estão se tornando cada vez mais complexos. Tudo isso está testando a capacidade de armazenamento de armazenamento e como melhorar trabalhar com poder de computação e algoritmos durante o treinamento e aplicação.

Durante este período, surgiram muitos problemas que aguardavam serem superados pelo armazenamento, incluindo principalmente:

Desempenho de leitura de arquivos pequenos. Os requisitos de dados de grandes modelos são principalmente grandes quantidades de pequenos arquivos, como imagens e textos. Um único servidor de IA pode ler mais de 20.000 imagens por segundo, o que muitas vezes leva a uma baixa eficiência de carregamento de dados (semelhante à ação de cópia em um PC pessoal , equivalente a Sob o espaço necessário, uma pasta contendo um grande número de arquivos pequenos será muito mais lenta do que um único arquivo grande), afetando a eficiência de treinamento de modelos grandes. Neste momento, o desempenho de arquivos pequenos e massivos tornou-se um gargalo, e o requisito básico para um modelo grande com trilhões de parâmetros atingiu 10 milhões de IOPS.

O ponto de interrupção CheckPoint retoma o treinamento. Durante o processo de treinamento de modelos grandes, devido a diversas necessidades, como ajuste de parâmetros, o CheckPoint será interrompido em momentos não especificados e, em seguida, reiniciado para continuar o treinamento (isso leva tempo e cria uma lacuna na utilização de recursos da GPU). Este é um recurso muito amigável para modelos de treinamento de longo prazo, mas o ajuste frequente de parâmetros pelas empresas geralmente resulta na redução da utilização da GPU (atualmente, a indústria geralmente interrompe uma vez a cada dois dias em média, e a utilização da GPU é de apenas 40%), o que requer armazenamento. Somente com um forte desempenho de leitura e gravação de arquivos grandes você pode reduzir o tempo de espera da GPU e melhorar a eficiência da utilização de recursos caros.

O problema da “alucinação de IA”. O fenômeno de que os resultados de saída de grandes modelos são "fabricados aleatoriamente" e obviamente conflitam com os fatos é um problema muito problemático na indústria. Esse fenômeno de auto-justificação de grandes modelos é chamado de "ilusão de IA". Parece que se trata de um problema algorítmico, mas na verdade, a indústria tem descoberto gradualmente durante a exploração que a sua solução requer uma “verificação” contínua ao nível dos dados (principalmente referentes à informação contextual), o que requer essencialmente que o armazenamento seja capaz de fornecer um sistema de conhecimento semelhante do "Dicionário da Enciclopédia" serve como o "hipocampo" do grande modelo para fornecer conhecimento preciso do setor.

Pode-se observar que, no nível da inovação, a solução dos desafios de armazenamento enfrentados por grandes modelos pode ter prioridade sobre o poder de computação e os algoritmos.

Na verdade, este ponto permite que grandes modelos retornem ainda mais à sua essência, que é usar modelos de IA com parâmetros maiores para explorar ainda mais o valor dos elementos de dados e promover a transformação e modernização de milhares de indústrias.

Hoje em dia, os elementos de dados tornaram-se os principais recursos da economia digital e da sociedade da informação, e são considerados outro factor de produção importante depois da terra, do trabalho, do capital e da tecnologia. Inúmeras inovações, incluindo grandes modelos, são todas baseadas em elementos de dados. Desenvolvimento profundo de valor.

O processo de desenvolvimento de grandes modelos pode ser visto como um processo no qual os elementos de dados continuam a passar do original para a produção de valor.

Neste processo, os algoritmos orientam a direção desde a frente, em direção a indústrias gerais ou específicas. O poder crescente da computação traz uma forte força motriz, enquanto o armazenamento fornece suporte e capacidades colaborativas. Quando o poder computacional depende principalmente do investimento em custos e os algoritmos convergem gradualmente, o valor inovador do armazenamento como portador de elementos de dados torna-se cada vez mais proeminente.

Deixe o valor dos elementos de dados se concretizar, o armazenamento da Huawei ataca pontos problemáticos em múltiplas dimensões

Como resolver os desafios de armazenamento? Os produtos OceanStor A800 de armazenamento de base de conhecimento de alto desempenho da Huawei e as soluções correspondentes têm treinamento líder abrangente e eficiência de promoção em cenários de treinamento e promoção de modelos da indústria. De modo geral, eles têm quatro características principais:

1. Desempenho geral extremamente alto, atendendo às necessidades de treinamento de modelos grandes

A principal solução de armazenamento da Huawei é atender à enorme demanda por dados de treinamento de modelos grandes em termos de desempenho geral, especialmente a demanda por desempenho de leitura de arquivos pequenos.

OceanStor A800 é baseado em uma arquitetura de separação CNC inovadora. Pode atingir 24 milhões de IOPS em um único quadro. Sua eficiência de carregamento do conjunto de treinamento é quatro vezes maior que a da indústria e seu desempenho pode ser expandido linearmente de acordo com as necessidades do cliente. Além disso, o sistema de arquivos distribuído OceanFS alcança dispersão global equilibrada, eliminando gargalos de CPU, trazendo uma experiência definitiva de melhoria de desempenho para arquivos pequenos e enormes e atendendo às necessidades de leitura de um grande número de arquivos pequenos.

Enquanto houver demanda por desempenho, o armazenamento da Huawei pode “suportar” mesmo que seja “aumentado”.

2. Otimize habilidades especiais para atender a necessidades específicas, como treinamento continuado de ponto de interrupção

Como fornecer melhor suporte em circunstâncias especiais, como a continuação do treinamento em pontos de interrupção, é um desafio que a Huawei Storage deve enfrentar simultaneamente durante a fase de treinamento de modelos grandes.

Por meio da colaboração de controle de disco e do sistema de arquivos paralelo NFS+, o armazenamento da Huawei atinge largura de banda ultra-alta de 500 GB/s em um único quadro e pode alcançar recuperação ultrarrápida do CheckPoint. A velocidade de retomada do treinamento de ponto de interrupção é três vezes maior que a da indústria. TB A leitura e gravação de nível CheckPoint podem ser alcançadas de horas a minutos (ou seja, o tempo médio de recuperação de modelos grandes com trilhões de parâmetros é acelerado de horas para minutos), reduzindo a cara espera da GPU.

Enquanto for necessário otimizar modelos grandes, os clientes podem realizar ajustes de parâmetros e outras operações com mais ousadia.

Além disso, seu plano de gerenciamento e controle possui particionamento de recursos + recursos de agendamento unificado, o que também pode tornar o armazenamento adequado para diferentes modelos de negócios.

Não importa o modelo de negócios para o qual os clientes desenvolvam, não importa quando os clientes optem por fazer uma pausa no processo, a Huawei Storage pode lidar melhor com isso.

3. Capacidades de resposta aprimoradas para atender às necessidades em tempo real de aplicações de modelos grandes

Após a conclusão da fase de treinamento, o Huawei Storage precisa atender às rigorosas necessidades de resposta de dados na fase de aplicação.

Atualmente, no estágio de aplicação de modelos grandes, graças à base de conhecimento vetorial integrada (armazenamento de conhecimento do setor na forma de vetores), o QPS de armazenamento da Huawei atingiu mais de 250.000 e foi capaz de atingir uma resposta no nível de milissegundos. Por um lado, pode acelerar o raciocínio, fazendo com que o consumo de recursos da GPU durante o processo de aplicação seja bastante reduzido, economizando efetivamente custos de implementação - atualmente, muitos modelos grandes consomem enormes recursos no estágio de aplicação aberta e algumas empresas estão sobrecarregadas; por outro lado , o "dicionário enciclopédico" torna os modelos grandes mais precisos. O conhecimento da indústria desempenha um importante papel de apoio na redução da ocorrência de alucinações de IA e pode melhorar muito a precisão do raciocínio.

4. A inovação arquitetônica garante a estabilidade e a confiabilidade de todo o sistema

O último e mais básico requisito para o armazenamento é que, independentemente das características que possua, ele deve garantir uma estrutura geral estável e confiável, sem causar problemas de segurança ou “cair da cadeia”.

O processo de armazenamento da Huawei para resolver uma série de requisitos problemáticos de dados de grandes modelos também aumentou a complexidade das soluções e sistemas de armazenamento até certo ponto. No entanto, ao mesmo tempo, a Huawei não sacrificou a confiabilidade do sistema. É inovador e totalmente interconectado. Arquitetura AA, pode atingir 5 camadas de proteção total e 6 noves de confiabilidade ultra-alta.

Como resultado, a confiabilidade dos dados e a estabilidade do treinamento de modelos grandes são garantidas de ponta a ponta.

Quem constrói rodas, percorre primeiro o caminho mais longo

O armazenamento da Huawei pode resolver os problemas de grandes modelos de dados. A causa raiz está em sua exploração inovadora de armazenamento de longo prazo.

A arquitetura de separação CNC do OceanStor A800 aproveita a inovação tecnológica de ponta da indústria de leitura e gravação direta de dados no disco, permitindo que o plano de dados seja conectado diretamente ao disco e separado do plano de controle para obter IO direto, assim reduzindo as operações da CPU durante a leitura e gravação de dados, melhora significativamente o desempenho do armazenamento.

Na verdade, a Huawei tem feito esforços tecnológicos em armazenamento há muito tempo e alcançou muitas inovações de ponta semelhantes.

Atualmente, o armazenamento Huawei OceanStor tem 12 centros de P&D em todo o mundo, mais de 4.000 funcionários de P&D e mais de 3.000 patentes. Seus produtos estão envolvidos em muitos campos, como soluções de armazenamento NAS de alto desempenho, soluções anti-ransomware de armazenamento, soluções de armazenamento de contêineres e virtualização de data center., que recebeu grande aclamação.

Em mais de 150 países ao redor do mundo, o armazenamento da Huawei atendeu mais de 25.000 clientes, incluindo operadores, finanças, governo, energia, medicina, manufatura, transporte e outros setores.

Pode-se dizer que as capacidades de armazenamento adaptadas ao desenvolvimento de valor dos elementos de dados e às necessidades de inovação de grandes modelos são o resultado inevitável do trabalho árduo de longo prazo da Huawei no caminho do armazenamento - o armazenamento da Huawei já fez um bom trabalho no atendimento aos dados necessidades de muitos campos (não apenas modelos de grande escala). Modelo) fornece preparativos para uma forte capacidade de carga e sinergia.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos

Recompensa
1
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1Simple Earn Annual Rate 24.4%
40k Popularidade
2Gate Launchpad List IKA
42k Popularidade
3ETH Trading Volume Surges
44k Popularidade
4Gate ETH 10th Anniversary Celebration
23k Popularidade
5Trump’s AI Strategy
18k Popularidade

Pino