Desde o nascimento do GPT-3, a IA generativa inaugurou um ponto de inflexão explosivo no campo da inteligência artificial com seu desempenho incrível e cenários de aplicação amplos, e os gigantes da tecnologia começaram a entrar na trilha da IA em grupos. No entanto, a operação de treinamento e inferência de modelo de linguagem grande (LLM) requer muito poder de computação, e com a atualização iterativa do modelo, a demanda de poder de computação e o custo aumentam exponencialmente. Tomando GPT-2 e GPT-3 como exemplo, a diferença no número de parâmetros entre GPT-2 e GPT-3 é de 1.166 vezes (150 milhões de parâmetros para GPT-2 e 175 bilhões de parâmetros para GPT-3), e o custo do GPT-3 pode chegar a US $ 12 milhões com base no modelo de preço da nuvem GPU pública naquele momento, que é 200 vezes maior que o GPT-2. No processo de uso real, cada pergunta do usuário precisa ser inferida e calculada, de acordo com a situação de 13 milhões de usuários únicos no início deste ano, a demanda correspondente de chip é de mais de 30.000 peças A100GPU. O custo inicial seria então de impressionantes US$ 800 milhões, com uma estimativa de US$ 700.000 por dia para inferência de modelos.
Poder de computação insuficiente e altos custos se tornaram um problema para toda a indústria de IA, mas o mesmo problema parece atormentar a indústria de blockchain também. Por um lado, a quarta redução pela metade do Bitcoin e a passagem de ETFs estão chegando, e à medida que o preço sobe no futuro, a demanda por hardware de computação por mineradores inevitavelmente aumentará significativamente. Por outro lado, a tecnologia "Zero-Knowledge Proof" (ZKP) está crescendo, e Vitalik enfatizou repetidamente que o impacto da ZK no espaço blockchain na próxima década será tão importante quanto o próprio blockchain. Embora o futuro desta tecnologia seja altamente antecipado pela indústria de blockchain, ZK também consome muito poder de computação e tempo no processo de geração de provas como IA devido ao complexo processo computacional.
No futuro próximo, uma escassez de poder de computação se tornará inevitável, então o mercado de poder de computação descentralizada será um bom negócio?
Definição de Mercado de Computação Descentralizada
O mercado de poder de computação descentralizada é basicamente equivalente à trilha de computação em nuvem descentralizada, mas em comparação com a computação em nuvem descentralizada, eu pessoalmente acho que este termo será mais apropriado para descrever os novos projetos mencionados mais tarde. O mercado de poder de computação descentralizada deve pertencer a um subconjunto de DePIN (rede de infraestrutura física descentralizada), e seu objetivo é criar um mercado de poder de computação aberto, através de incentivos de token, para que qualquer pessoa com recursos de computação ociosos possa fornecer seus recursos neste mercado, servindo principalmente a comunidade de usuários e desenvolvedores B-end. Em termos de projetos bem conhecidos, como o Render Network, uma rede de soluções de renderização baseada em GPUs descentralizadas, e o Akash Network, um mercado distribuído peer-to-peer para computação em nuvem, pertencem a essa faixa.
O seguinte começará com o conceito básico e, em seguida, discutirá os três mercados emergentes sob a trilha: o mercado de poder de computação AGI, o mercado de poder de computação Bitcoin e o mercado de poder de computação AGI no mercado de aceleração de hardware ZK, e os dois últimos serão discutidos em "Visualização de Trilha Potencial: Mercado de Poder de Computação Descentralizada (Parte II)".
Visão geral do hashrate
A origem do conceito de poder de computação pode ser rastreada até a invenção dos computadores, o computador original era um dispositivo mecânico para completar tarefas de computação, e poder de computação refere-se ao poder de computação de um dispositivo mecânico. Com o desenvolvimento da tecnologia de computador, o conceito de poder de computação também evoluiu, e agora poder de computação geralmente se refere à capacidade de hardware de computador (CPU, GPU, FPGA, etc.) e software (sistema operacional, compilador, aplicativo, etc.) para trabalhar em conjunto.
Definição
Poder de computação refere-se à quantidade de dados que um computador ou outro dispositivo de computação pode processar ou o número de tarefas de computação que podem ser concluídas em um determinado período de tempo. Hashrate é frequentemente usado para descrever o desempenho de um computador ou outro dispositivo de computação, e é uma medida importante do poder de processamento de um dispositivo de computação.
Métricas
O poder de computação pode ser medido de várias maneiras, como velocidade de computação, consumo de energia de computação, precisão de computação e paralelismo. No campo do computador, as métricas de poder de computação comumente usadas incluem FLOPS (operações de ponto flutuante por segundo), IPS (instruções por segundo), TPS (transações por segundo), etc.
FLOPS (Floating-Point Operations Per Second) refere-se à capacidade de um computador para lidar com operações de vírgula flutuante (operações matemáticas em números com pontos decimais, tendo em conta questões como precisão e erros de arredondamento), e mede quantas operações de vírgula flutuante um computador pode concluir por segundo. FLOPS é uma medida do poder de computação de alto desempenho de um computador, e é comumente usado para medir o poder de computação de supercomputadores, servidores de computação de alto desempenho e unidades de processamento gráfico (GPUs), entre outros. Por exemplo, um sistema de computador tem um FLOPS de 1 TFLOPS (1 trilhão de operações de ponto flutuante por segundo), o que significa que ele pode completar 1 trilhão de operações de ponto flutuante por segundo.
IPS (Instructions Per Second) refere-se à velocidade com que um computador processa instruções e mede quantas instruções um computador é capaz de executar por segundo. IPS é uma medida do desempenho de instrução única de um computador, e é frequentemente usado para medir o desempenho de uma unidade central de processamento (CPU), etc. Por exemplo, uma CPU com um IPS de 3 GHz (que pode executar 300 milhões de instruções por segundo) significa que pode executar 300 milhões de instruções por segundo.
TPS (Transactions Per Second) refere-se à capacidade de um computador para processar transações, e mede quantas transações um computador pode concluir por segundo. É frequentemente usado para medir o desempenho de um servidor de banco de dados. Por exemplo, um servidor de banco de dados com um TPS de 1000 significa que ele pode processar 1000 transações de banco de dados por segundo.
Além disso, existem alguns indicadores de poder de computação para cenários de aplicativos específicos, como velocidade de inferência, velocidade de processamento de imagem e precisão de reconhecimento de fala.
Tipo de hashrate
O poder de computação da GPU refere-se ao poder de computação de uma unidade de processamento gráfico. Ao contrário da CPU (Central Processing Unit), a GPU é uma peça de hardware especificamente projetada para processar dados gráficos, como imagens e vídeos, e tem um grande número de unidades de processamento e poder de computação paralela eficiente, que pode executar um grande número de operações de ponto flutuante ao mesmo tempo. Como as GPUs foram originalmente usadas para processamento gráfico de jogos, elas normalmente têm frequências de clock mais altas e maior largura de banda de memória do que as CPUs para suportar operações gráficas complexas.
Diferença entre CPU e GPU
Arquitetura: A arquitetura de computação de CPUs e GPUs é diferente. CPUs normalmente têm um ou mais núcleos, cada um dos quais é um processador de uso geral capaz de executar uma variedade de operações diferentes. As GPUs, por outro lado, têm um grande número de Stream Processors e Shaders, que são dedicados a realizar operações relacionadas ao processamento de imagem.
Computação paralela: as GPUs normalmente têm maiores capacidades de computação paralela. As CPUs têm um número limitado de núcleos e só podem executar uma instrução por núcleo, mas as GPUs podem ter milhares de processadores de fluxo que podem executar várias instruções e operações ao mesmo tempo. Como resultado, as GPUs geralmente são mais adequadas do que as CPUs para executar tarefas de computação paralela, como aprendizado de máquina e aprendizado profundo, que exigem muita computação paralela.
Programação: A programação de GPUs é mais complexa do que CPUs, exigindo o uso de linguagens de programação específicas (como CUDA ou OpenCL) e o uso de técnicas de programação específicas para aproveitar o poder de computação paralela das GPUs. Em contraste, as CPUs são mais simples de programar e podem usar linguagens de programação e ferramentas de programação comuns.
A importância do poder de computação
Na era da Revolução Industrial, o petróleo era o sangue do mundo, permeando todas as indústrias. O poder de computação está no blockchain e, na próxima era da IA, o poder de computação será o "petróleo digital" do mundo. Desde a corrida louca das grandes empresas por chips de IA e o fato de que as ações da Nvidia ultrapassaram um trilhão, até o recente bloqueio de chips high-end na China pelos Estados Unidos, até o tamanho do poder de computação, área de chips e até mesmo o plano de banir a nuvem GPU, sua importância é evidente, e o poder de computação será uma commodity na próxima era.
A Inteligência Artificial (IA) é uma nova ciência técnica que estuda e desenvolve teorias, métodos, tecnologias e sistemas de aplicação para simular, ampliar e expandir a inteligência humana. Originou-se nos anos cinquenta e sessenta do século 20, e depois de mais de meio século de evolução, experimentou o desenvolvimento entrelaçado de três ondas de simbolismo, conexionismo e atores. Uma definição mais específica de IA generativa é a Inteligência Geral Artificial (AGI), um sistema de IA com uma compreensão ampla que pode executar inteligência semelhante ou superior aos seres humanos em uma variedade de tarefas e domínios diferentes. A AGI basicamente precisa ser composta por três elementos: deep learning (DL), big data e poder de computação em larga escala.
Aprendizagem profunda
A aprendizagem profunda é um subcampo da aprendizagem automática (ML), e os algoritmos de aprendizagem profunda são redes neuronais modeladas a partir do cérebro humano. Por exemplo, o cérebro humano contém milhões de neurónios interligados que trabalham em conjunto para aprender e processar informação. Da mesma forma, as redes neurais de aprendizagem profunda (ou redes neurais artificiais) são compostas por várias camadas de neurônios artificiais que trabalham juntos dentro de um computador. Os neurónios artificiais são módulos de software chamados nós que utilizam cálculos matemáticos para processar dados. Redes neurais artificiais são algoritmos de aprendizagem profunda que usam esses nós para resolver problemas complexos.
As redes neurais podem ser divididas em camadas de entrada, camadas ocultas e camadas de saída, e os parâmetros são conectados entre diferentes camadas.
Camada de entrada: A camada de entrada é a primeira camada da rede neural e é responsável por receber dados de entrada externos. Cada neurônio da camada de entrada corresponde a uma característica dos dados de entrada. Por exemplo, ao processar dados de imagem, cada neurônio pode corresponder a um valor de pixel da imagem;
Camadas ocultas: A camada de entrada processa os dados e os passa para as camadas mais distantes da rede neural. Essas camadas ocultas processam informações em diferentes níveis, ajustando seu comportamento à medida que novas informações são recebidas. As redes de aprendizagem profunda têm centenas de camadas ocultas que podem ser usadas para analisar problemas de muitos ângulos diferentes. Por exemplo, se lhe for dada uma imagem de um animal desconhecido que deve ser classificada, pode compará-la com um animal que já conhece. Por exemplo, a forma das orelhas, o número de pernas e o tamanho das pupilas podem determinar que tipo de animal é. Camadas ocultas em redes neurais profundas funcionam da mesma maneira. Se um algoritmo de aprendizagem profunda tenta classificar uma imagem animal, cada uma das suas camadas ocultas processa as diferentes características do animal e tenta classificá-lo com precisão;
Camada de saída: A camada de saída é a última camada da rede neural e é responsável por gerar a saída da rede. Cada neurônio na camada de saída representa uma possível classe ou valor de saída. Por exemplo, em um problema de classificação, cada neurônio da camada de saída pode corresponder a uma categoria, enquanto em um problema de regressão, a camada de saída pode ter apenas um neurônio cujo valor representa o resultado previsto;
Parâmetros: Em uma rede neural, as conexões entre diferentes camadas são representadas por parâmetros de Pesos e Vieses, que são otimizados durante o treinamento para permitir que a rede identifique padrões com precisão e faça previsões nos dados. O aumento nos parâmetros pode aumentar a capacidade do modelo de uma rede neural, ou seja, a capacidade do modelo de aprender e representar padrões complexos nos dados. No entanto, o aumento nos parâmetros aumentará a demanda por poder de computação.
Big Data
Para treinar de forma eficaz, as redes neurais muitas vezes requerem uma grande quantidade de dados, diversos e de alta qualidade e múltiplas fontes. É a base para o treinamento e validação de modelos de aprendizado de máquina. Ao analisar big data, os modelos de aprendizado de máquina podem aprender padrões e relacionamentos nos dados para fazer previsões ou classificações.
Poder de computação maciço
A estrutura complexa multicamadas da rede neural, o grande número de parâmetros, a necessidade de processamento de big data, o método de treinamento iterativo (na etapa de treinamento, o modelo precisa iterar repetidamente, e a propagação avançada e retropropagação de cada camada precisam ser calculadas durante o processo de treinamento, incluindo o cálculo da função de ativação, o cálculo da função de perda, o cálculo do gradiente e a atualização do peso), a necessidade de computação de alta precisão, a capacidade de computação paralela, a tecnologia de otimização e regularização e o processo de avaliação e verificação do modelo, todos os quais levam à demanda por alto poder de computação. Os requisitos da AGI para poder de computação em larga escala aumentam cerca de 10 vezes a cada ano. Até agora, o modelo mais recente GPT-4 contém 1,8 trilhão de parâmetros, um único custo de treinamento de mais de 60 milhões de dólares americanos, e o poder de computação necessário é de 2,15e25 FLOPS (21,500 trilhões de cálculos de ponto flutuante). A demanda por poder de computação para o próximo modelo de treinamento ainda está se expandindo, e novos modelos também estão aumentando.
Economia da Computação de IA
Tamanho do mercado futuro
De acordo com as estimativas mais fidedignas, o "2022-2023 Global Computing Power Index Evaluation Report" compilado conjuntamente pela IDC (International Data Corporation) e pela Inspur Information e pelo Global Industry Research Institute da Universidade de Tsinghua, O tamanho do mercado global de computação de IA crescerá de US$ 19,50 bilhões em 2022 para US$ 34,66 bilhões em 2026, com o tamanho do mercado de computação de IA generativa crescendo de US$ 820 milhões em 2022 para US$ 10,99 bilhões em 2026. A computação generativa de IA crescerá de 4,2% para 31,7% do mercado global de computação de IA.
A produção de GPUs de IA foi monopolizada pela NVIDA, e elas são extremamente caras (o H100 mais recente foi vendido por US $ 40.000 por chip), e as GPUs foram compradas por gigantes do Vale do Silício assim que são lançadas, e alguns desses dispositivos são usados para treinar seus próprios novos modelos. A outra parte é alugada para desenvolvedores de IA por meio de plataformas de nuvem, como Google, Amazon e plataformas de computação em nuvem da Microsoft, que dominam um grande número de recursos de computação, como servidores, GPUs e TPUs. O poder de computação tornou-se um novo recurso monopolizado por gigantes, e um grande número de desenvolvedores relacionados à IA não pode sequer comprar uma GPU dedicada sem uma marcação e, para usar os equipamentos mais recentes, os desenvolvedores precisam alugar servidores em nuvem da AWS ou da Microsoft. De acordo com o relatório financeiro, este negócio tem lucros extremamente elevados, com os serviços na nuvem da AWS a terem uma margem bruta de 61%, enquanto a Microsoft tem uma margem bruta superior a 72%.
Então, temos que aceitar essa autoridade e controle centralizados e pagar 72% da taxa de lucro pelos recursos de computação? Será que os gigantes que monopolizam a Web2 terão o monopólio da próxima era?
O problema do poder de computação AGI descentralizado
Quando se trata de antitruste, a descentralização geralmente é a solução ideal e, a partir dos projetos existentes, podemos usar o protocolo para alcançar o poder de computação em larga escala exigido pela IA por meio de projetos de armazenamento em DePIN e GPUs ociosas como RDNR? A resposta é não, o caminho para matar dragões não é tão simples, os primeiros projetos não são especialmente projetados para o poder de computação AGI, não é viável, e o poder de computação precisa enfrentar pelo menos os seguintes cinco desafios na cadeia:
Verificação do trabalho: Para construir uma rede de computação verdadeiramente sem confiança e fornecer incentivos financeiros aos participantes, a rede deve ter uma maneira de verificar se o trabalho computacional de aprendizagem profunda é realmente realizado. No centro deste problema está a dependência estatal dos modelos de aprendizagem profunda; Em um modelo de aprendizagem profunda, a entrada de cada camada depende da saída da camada anterior. Isso significa que você não pode simplesmente validar uma camada em seu modelo sem considerar todas as camadas antes dela. Os cálculos para cada camada são baseados nos resultados de todas as camadas que a precederam. Portanto, para verificar o trabalho realizado em um determinado ponto (por exemplo, uma determinada camada), todo o trabalho deve ser executado desde o início do modelo até esse ponto específico;
Mercado: Como um mercado emergente, o mercado de poder de computação de IA está sujeito a dilemas de oferta e demanda, como problemas de arranque a frio, e a liquidez da oferta e da demanda precisa ser aproximadamente correspondida desde o início para que o mercado possa crescer com sucesso. A fim de capturar o fornecimento potencial de poder de hash, os participantes devem receber recompensas explícitas em troca de seus recursos de hash. O mercado precisa de um mecanismo para acompanhar o trabalho computacional realizado e pagar as taxas correspondentes aos provedores em tempo hábil. Nos mercados tradicionais, os intermediários lidam com tarefas como a gestão e a integração, reduzindo simultaneamente os custos operacionais através da fixação de pagamentos mínimos. No entanto, esta abordagem é mais dispendiosa quando se escala o mercado. Apenas uma pequena fração da oferta pode ser efetivamente capturada economicamente, o que conduz a um estado de equilíbrio limiar em que o mercado só pode captar e manter uma oferta limitada e não pode continuar a crescer;
Problema de tempo de inatividade: O problema de tempo de inatividade é um problema fundamental na teoria computacional, que envolve julgar se uma determinada tarefa computacional será concluída em um tempo finito ou nunca irá parar. Este problema é insolúvel, o que significa que não existe um algoritmo universal que possa prever se todas as tarefas computacionais irão parar num período de tempo finito. Por exemplo, no Ethereum, a execução de contratos inteligentes enfrenta um tempo de inatividade semelhante. ou seja, é impossível determinar antecipadamente quantos recursos de computação serão necessários para a execução de um contrato inteligente, ou se ele será concluído em um prazo razoável;
(No contexto da aprendizagem profunda, este problema será mais complexo à medida que os modelos e estruturas passarão da construção de gráficos estáticos para a construção e execução dinâmicas.) )
Privacidade: O design e desenvolvimento da consciência de privacidade é uma obrigação para a equipe do projeto. Embora uma grande quantidade de pesquisa de aprendizado de máquina possa ser realizada em conjuntos de dados disponíveis publicamente, o ajuste fino de modelos em dados proprietários do usuário é frequentemente necessário para melhorar o desempenho dos modelos e adaptá-los a aplicações específicas. Este ajustamento pode envolver o tratamento de dados pessoais e, por conseguinte, deve ter em conta os requisitos do Escudo de Proteção da Privacidade;
Paralelização: Este é um fator-chave na viabilidade dos projetos atuais, os modelos de aprendizagem profunda são frequentemente treinados em paralelo em grandes clusters de hardware com arquiteturas proprietárias e latência extremamente baixa, enquanto as GPUs em redes de computação distribuída exigem troca de dados frequente para introduzir latência e são limitadas pelas GPUs de menor desempenho. No caso de fontes de energia de computação não confiáveis e não confiáveis, como a paralelização heterogênea é um problema que deve ser resolvido, e o método viável atual é conseguir a paralelização através de modelos de transformadores, como os Transformadores de Comutador, que agora têm as características de alta paralelização.
Solução: Embora a tentativa atual no mercado de poder de computação AGI descentralizado ainda esteja no estágio inicial, acontece que há dois projetos que resolveram preliminarmente o design de consenso da rede descentralizada e o processo de implementação da rede de computação descentralizada em treinamento de modelo e inferência. O seguinte tomará Gensyn e Together como exemplos para analisar os métodos de design e problemas do mercado de poder de computação AGI descentralizado.
Gensyn é um mercado para o poder de computação AGI que ainda está em fase de construção e visa resolver os múltiplos desafios da computação descentralizada de aprendizagem profunda e reduzir o custo da aprendizagem profunda hoje. O Gensyn é essencialmente um protocolo de prova de participação de Camada 1 baseado na rede Polkadot, que recompensa diretamente os solucionadores (Solvers) por meio de contratos inteligentes em troca de seus dispositivos GPU ociosos para computação e executa tarefas de aprendizado de máquina.
Então, voltando à questão acima, o núcleo da construção de uma rede de computação verdadeiramente sem confiança é validar o trabalho de aprendizado de máquina que foi feito. Este é um problema altamente complexo que requer um equilíbrio a ser encontrado na intersecção da teoria da complexidade, teoria dos jogos, criptografia e otimização.
Gensyn propõe uma solução simples onde o solucionador envia os resultados da tarefa de aprendizado de máquina que eles concluíram. Para verificar se esses resultados são precisos, outro validador independente tenta fazer o mesmo trabalho novamente. Esse método pode ser chamado de replicação única porque apenas um validador será reexecutado. Isso significa que há apenas um esforço adicional para verificar a precisão do trabalho original. No entanto, se a pessoa que verifica o trabalho não é o solicitante do trabalho original, o problema de confiança permanece. Porque os próprios validadores podem não ser honestos, e o seu trabalho precisa de ser verificado. Isso leva a um problema potencial de que, se a pessoa que verifica o trabalho não é o solicitante do trabalho original, então outro validador é necessário para verificar seu trabalho. Mas este novo validador também pode não ser confiável, então outro validador é necessário para validar seu trabalho, que pode continuar para sempre, formando uma cadeia infinita de replicação. Aqui precisamos introduzir três conceitos-chave e entrelaçá-los para construir um sistema de participantes de quatro funções para resolver o problema da cadeia infinita.
Prova de Aprendizagem Probabilística: Use os metadados de um processo de otimização baseado em gradiente para construir um certificado do trabalho realizado. Ao replicar determinados estágios, você pode validar rapidamente esses certificados para garantir que o trabalho foi concluído conforme programado.
Protocolo de pináculo baseado em gráfico: Usa um protocolo pináculo baseado em gráficos de multigranularidade, bem como a execução consistente de avaliadores cruzados. Isso permite que os esforços de verificação sejam executados novamente e comparados para garantir a consistência e, finalmente, confirmados pelo próprio blockchain.
Jogos de incentivo no estilo Truebit: Use staking e slashing para criar jogos de incentivo que garantam que cada participante financeiramente sólido agirá honestamente e executará as tarefas pretendidas.
O sistema de contribuidores é composto por committers, solucionadores, validadores e denunciantes.
Transmitentes:
O transmitente é o utilizador final do sistema, fornece as tarefas que serão calculadas e paga pelas unidades de trabalho concluídas;
Solucionadores:
O solucionador é o principal trabalhador do sistema, realizando o treinamento do modelo e gerando provas que são verificadas pelos validadores;
Verificadores:
O verificador é a chave para ligar o processo de treinamento não determinístico à computação linear determinística, replicando uma parte da prova do solver e comparando a distância com o limiar esperado;
Denunciantes:
Os denunciantes são a última linha de defesa, verificando o trabalho dos validadores e fazendo desafios na esperança de pagamentos lucrativos de bônus.
O sistema funciona
O protocolo foi projetado para operar em um sistema de jogo que consistirá em oito fases, abrangendo quatro papéis principais dos participantes, e será usado para completar todo o processo desde a submissão da tarefa até a validação final.
Envio de tarefas: uma tarefa consiste em três informações específicas:
Metadados descrevendo tarefas e hiperparâmetros;
Um modelo binário (ou esquema básico);
Dados de formação pré-processados e acessíveis ao público.
Para apresentar a tarefa, o transmitente especifica os pormenores da tarefa num formato legível por máquina e apresenta-os à cadeia, juntamente com o modelo binário (ou esquema legível por máquina) e uma localização acessível ao público dos dados de formação pré-tratados. Os dados expostos podem ser armazenados em um armazenamento de objetos simples, como o AWS S3, ou em um armazenamento descentralizado, como IPFS, Arweave ou Subspace.
Definição de perfis: O processo de análise determina um limiar de distância de base para aprender a validar a prova. O validador irá periodicamente raspar a tarefa de análise e gerar um limiar de variação para a comparação da prova de aprendizagem. Para gerar limiares, os validadores executarão e executarão deterministicamente uma parte do treinamento, usando diferentes sementes aleatórias, gerando e verificando suas próprias provas. Durante esse processo, o validador estabelece um limite de distância geral esperado que pode ser usado como um esforço não determinístico para validar a solução.
Treinamento: Após análise, a tarefa vai para um pool de tarefas público (semelhante ao Mempool do Ethereum). Selecione um solucionador para executar a tarefa e removê-la do pool de tarefas. O solucionador executa a tarefa com base nos metadados enviados pelo transmitente, bem como nos dados de modelo e treinamento fornecidos. Ao executar a tarefa de treinamento, o solucionador também gera uma prova de aprendizado verificando e armazenando periodicamente metadados (incluindo parâmetros) do processo de treinamento para que o verificador possa replicar as seguintes etapas de otimização com a maior precisão possível.
Geração de provas: O solucionador armazena periodicamente pesos ou atualizações do modelo e o índice correspondente com o conjunto de dados de treinamento para identificar as amostras usadas para gerar atualizações de peso. A frequência do ponto de verificação pode ser ajustada para fornecer maior garantia ou economizar espaço de armazenamento. A prova pode ser "empilhada", o que significa que a prova pode começar com uma distribuição aleatória de pesos usados para inicializar os pesos, ou começar com pesos pré-treinados gerados usando suas próprias provas. Isso permite que o protocolo construa um conjunto de modelos básicos comprovados e pré-treinados (ou seja, modelos básicos) que podem ser ajustados para tarefas mais específicas.
Verificação da prova: Uma vez concluída a tarefa, o solucionador registra a tarefa na cadeia e exibe sua prova de aprendizagem em um local acessível ao público para o validador acessar. O validador extrai a tarefa de validação do pool de tarefas comum e executa trabalho computacional para executar novamente uma parte da prova e executar o cálculo de distância. A cadeia (juntamente com os limiares calculados durante a fase de análise) usa a distância resultante para determinar se a verificação corresponde à prova.
Desafio pontual baseado em gráficos: Depois de validar a prova de aprendizagem, o denunciante pode copiar o trabalho do validador para verificar se a validação em si é realizada corretamente. Se um denunciante acreditar que a verificação foi realizada por erro (malicioso ou não malicioso), ele pode contestar o quórum do contrato para receber uma recompensa. Esta recompensa pode vir de depósitos de solvers e validadores (no caso de um genuinamente positivo), ou do prizepool do cofre da lotaria (no caso de um falso positivo) e a arbitragem é realizada usando a própria cadeia. Os denunciantes (no seu caso, os validadores) só verificarão e, posteriormente, contestarão o trabalho se esperarem receber uma compensação adequada. Na prática, isto significa que se espera que os denunciantes entrem e saiam da rede com base no número de denunciantes com outras atividades (ou seja, com depósitos e desafios reais). Portanto, a estratégia padrão esperada para qualquer denunciante é ingressar na rede quando houver menos outros denunciantes, postar um depósito, selecionar aleatoriamente uma tarefa ativa e iniciar seu processo de verificação. Depois que a primeira tarefa terminar, eles pegarão outra tarefa ativa aleatória e repetirão até que o número de denunciantes exceda seu limite de pagamento determinado e, em seguida, deixarão a rede (ou, mais provavelmente, passarão para outra função na rede – validador ou solucionador – dependendo de suas capacidades de hardware) até que a situação se reverta novamente.
Arbitragem de contratos: Quando um validador é contestado por um denunciante, ele entra em um processo com a cadeia para descobrir onde está a ação ou entrada contestada e, finalmente, a cadeia executa a operação básica final e determina se a contestação é justificada. A fim de manter o denunciante honesto e credível e superar o dilema dos validadores, erros forçados regulares e pagamentos de jackpot são introduzidos aqui.
Liquidação: Durante o processo de liquidação, os participantes são pagos com base na conclusão de verificações de probabilidade e certeza. Dependendo dos resultados de verificações e desafios anteriores, haverá pagamentos diferentes para diferentes cenários. Se o trabalho for considerado executado corretamente e todas as verificações tiverem sido aprovadas, o provedor da solução e o validador serão recompensados com base na ação tomada.
Breve revisão do projeto
Gensyn projetou um sistema de jogo maravilhoso na camada de verificação e camada de incentivo, que pode identificar rapidamente o erro encontrando os pontos de divergência na rede, mas ainda faltam muitos detalhes no sistema atual. Por exemplo, como definir parâmetros para garantir que as recompensas e punições sejam razoáveis sem que o limite seja muito alto? O jogo considerou a diferença entre o caso extremo e o poder de computação do solucionador? Não há uma descrição detalhada da operação paralela heterogênea na versão atual do white paper, e parece que a implementação do Gensyn ainda é difícil e longa.
Together.ai
A Together é uma empresa que se concentra em código aberto de grandes modelos e está comprometida com soluções de computação de IA descentralizadas, esperando que qualquer pessoa possa acessar e usar IA em qualquer lugar. Estritamente falando, Together não é um projeto blockchain, mas o projeto resolveu preliminarmente o problema de latência na rede de computação AGI descentralizada. Portanto, o artigo a seguir analisa apenas a solução da Together e não avalia o projeto.
Como grandes modelos podem ser treinados e inferidos quando uma rede descentralizada é 100 vezes mais lenta do que um data center?
Vamos imaginar como seria a distribuição de dispositivos GPU que participam da rede se a descentralização fosse removida. Esses dispositivos serão distribuídos em diferentes continentes, em diferentes cidades, e precisarão ser conectados uns aos outros, e a latência e a largura de banda da conexão variarão. Como mostrado na figura abaixo, um cenário distribuído é simulado com dispositivos distribuídos na América do Norte, Europa e Ásia, com largura de banda e latência variáveis entre dispositivos. Então, o que precisa ser feito para conectá-lo em série?
Modelagem computacional de treinamento distribuído: A figura a seguir mostra o treinamento básico do modelo em vários dispositivos, e há três tipos de comunicação em termos de tipos de comunicação: Ativação Direta, Gradiente para Trás e Comunicação Lateral.
Em combinação com a largura de banda de comunicação e a latência, duas formas de paralelismo precisam ser consideradas: paralelismo de pipeline e paralelismo de dados, correspondendo aos três tipos de comunicação no caso de vários dispositivos:
No paralelismo de tubulação, todas as camadas do modelo são divididas em etapas, onde cada dispositivo processa uma fase, que é uma sequência contínua de camadas, como múltiplos blocos de transformadores; Na passagem para a frente, a ativação é passada para o próximo estágio, enquanto na passagem para trás, o gradiente da ativação é passado para o estágio anterior.
No paralelismo de dados, o dispositivo calcula independentemente os gradientes de diferentes microlotes, mas se comunica para sincronizar esses gradientes.
Otimização de Agendamento:
Num ambiente descentralizado, o processo de formação é muitas vezes limitado pela comunicação. Os algoritmos de agendamento geralmente atribuem tarefas que exigem uma grande quantidade de comunicação a dispositivos com velocidades de conexão mais rápidas e, considerando as dependências entre tarefas e a heterogeneidade da rede, o custo de uma estratégia de agendamento específica precisa ser modelado primeiro. A fim de capturar o custo de comunicação complexo do treinamento do modelo base, Together propõe uma nova fórmula e decompõe o modelo de custo em dois níveis através da teoria dos grafos:
A teoria dos grafos é um ramo da matemática que estuda a natureza e a estrutura dos grafos (redes). Um grafo é composto por vértices (nós) e arestas (linhas que conectam nós). O principal objetivo da teoria dos grafos é estudar as várias propriedades dos grafos, tais como a conectividade dos grafos, as cores dos grafos, a natureza dos caminhos e loops nos gráficos.
O primeiro nível é uma partição de grafo equilibrada (dividindo o conjunto de vértices do grafo em vários subconjuntos de tamanhos iguais ou aproximadamente iguais, enquanto minimiza o número de arestas entre os subconjuntos. Nesta segmentação, cada subconjunto representa uma partição, e o custo de comunicação é reduzido minimizando as bordas entre as partições, o que corresponde ao custo de comunicação do paralelismo de dados.
O segundo nível é um problema conjunto de correspondência de gráficos e caixeiro-viajante (um problema de correspondência de gráfico conjunto e caixeiro-viajante é um problema de otimização combinatória que combina elementos de correspondência de gráficos e problemas de caixeiro-viajante. O problema da correspondência de gráficos é encontrar uma correspondência no gráfico para que algum tipo de custo seja minimizado ou maximizado. O problema do caixeiro-viajante é encontrar o caminho mais curto para todos os nós no gráfico), correspondendo ao custo de comunicação do paralelismo do pipeline.
A figura acima é um diagrama esquemático do processo, porque o processo de implementação real envolve algumas fórmulas de cálculo complexas. Para facilitar a compreensão, explicaremos o processo no diagrama em termos leigos, e o processo de implementação detalhado pode ser consultado por si mesmo na documentação no site oficial do Together.
Suponha que há um conjunto de dispositivos D com dispositivos N, e a comunicação entre eles tem um atraso indeterminado (matriz A) e largura de banda (matriz B). Com base no conjunto de dispositivos D, primeiro geramos uma segmentação gráfica equilibrada. O número de dispositivos em cada divisão ou grupo de dispositivos é aproximadamente igual e todos eles lidam com os mesmos estágios de pipeline. Isso garante que, quando os dados são paralelos, grupos de dispositivos executam uma quantidade semelhante de trabalho. (O paralelismo de dados é quando vários dispositivos executam a mesma tarefa, enquanto os estágios de pipelining são quando os dispositivos executam diferentes etapas de tarefa em uma ordem específica). Com base na latência e largura de banda da comunicação, o "custo" de transferência de dados entre grupos de dispositivos pode ser calculado através de fórmulas. Cada grupo equilibrado de dispositivos é combinado para produzir um gráfico aproximado totalmente conectado, onde cada nó representa um estágio do pipeline e as bordas representam o custo de comunicação entre os dois estágios. Para minimizar os custos de comunicação, um algoritmo de correspondência é usado para determinar quais grupos de dispositivos devem trabalhar juntos.
Para maior otimização, o problema também pode ser modelado como um problema de caixeiro-viajante de loop aberto (open-loop significa que não há necessidade de retornar à origem do caminho) para encontrar um caminho ideal para transferir dados entre todos os dispositivos. Finalmente, a Together usa seu inovador algoritmo de agendamento para encontrar a estratégia de alocação ideal para um determinado modelo de custo, de modo a minimizar os custos de comunicação e maximizar o rendimento do treinamento. De acordo com medições reais, mesmo que a rede seja 100 vezes mais lenta sob essa otimização de programação, a taxa de transferência de treinamento de ponta a ponta é apenas cerca de 1,7 a 2,3 vezes mais lenta.
Para a otimização da compressão de comunicação, a Together introduz o algoritmo AQ-SGD (para o processo de cálculo detalhado, consulte o artigo Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees). O algoritmo AQ-SGD é uma nova tecnologia de compressão ativa projetada para resolver o problema de eficiência de comunicação do treinamento paralelo de dutos em redes de baixa velocidade. Ao contrário dos métodos anteriores de comprimir diretamente o valor da atividade, o AQ-SGD concentra-se em comprimir as mudanças no valor da atividade da mesma amostra de treinamento ao longo de diferentes períodos, e este método único introduz uma dinâmica interessante de "auto-execução", e espera-se que o desempenho do algoritmo melhore gradualmente à medida que o treinamento se estabiliza. Após rigorosa análise teórica, o algoritmo AQ-SGD prova que tem uma boa taxa de convergência sob certas condições técnicas e a função de quantização com erro limitado. O algoritmo pode ser implementado de forma eficiente sem adicionar sobrecarga de tempo de execução adicional de ponta a ponta, embora exija mais memória e SSDs para armazenar o valor ativo. Através da validação experimental extensiva em conjuntos de dados de classificação de sequência e modelagem de linguagem, o AQ-SGD pode compactar valores de atividade para 2-4 bits sem sacrificar o desempenho de convergência. Além disso, o AQ-SGD também pode ser integrado com algoritmos de compressão de gradiente de última geração para alcançar a "compressão de comunicação de ponta a ponta", ou seja, a troca de dados entre todas as máquinas, incluindo gradientes de modelo, valores de atividade direta e gradientes reversos, é compactada com baixa precisão, melhorando assim consideravelmente a eficiência de comunicação do treinamento distribuído. Em comparação com o desempenho de treinamento de ponta a ponta de uma rede de computação centralizada (por exemplo, 10 Gbps) sem compressão, atualmente é apenas 31% mais lento. Combinado com os dados de otimização de programação, embora ainda haja uma certa lacuna da rede de poder de computação centralizada, há uma esperança relativamente grande para recuperar o atraso no futuro.
Conclusão
Sob o período de dividendos trazido pela onda de IA, o mercado de poder de computação AGI é, sem dúvida, o mercado com o maior potencial e a maior demanda entre muitos mercados de poder de computação. No entanto, a dificuldade de desenvolvimento, os requisitos de hardware e os requisitos de capital também são os mais altos. Combinado com os dois projetos acima, ainda há uma certa distância da implementação do mercado de poder de computação AGI, e a rede descentralizada real é muito mais complexa do que a situação ideal, o que obviamente não é suficiente para competir com os gigantes da nuvem. No momento da redação deste artigo, observou-se também que alguns projetos que estão em sua infância (estágio PPT) começaram a explorar alguns novos pontos de entrada, como focar na etapa de inferência menos difícil ou no treinamento de pequenos modelos, que são tentativas mais práticas.
Embora enfrente muitos desafios, é importante a longo prazo que a descentralização e o significado sem permissão do poder de computação AGI não sejam concentrados em alguns gigantes centralizados. Porque a humanidade não precisa de uma nova "religião" ou de um novo "papa", muito menos de pagar dispendiosas "quotizações de membros".
Bibliografia
1.Gensyn Litepaper:
2.NeurIPS 2022: Superando gargalos de comunicação para treinamento descentralizado:
3.Ajuste fino de modelos de linguagem em redes lentas usando compactação de ativação com garantias:
4.O Protocolo de Computação de Machine Learning e o nosso futuro:
5.Microsoft:Divulgação de Resultados AF23 Q2:
Concorra por ingressos de IA: BAT e Byte Meituan competem por GPU:
IDC: Relatório de Avaliação do Índice Global de Poder de Computação 2022-2023:
Estimativa de treinamento de modelo grande da Guosheng Securities:
Asas da informação: Qual é a relação entre o poder de computação e a IA? :
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Visualização da pista potencial: Mercado de poder de computação descentralizada (Parte I)
Por Zeke, YBB Capital
Introdução
Desde o nascimento do GPT-3, a IA generativa inaugurou um ponto de inflexão explosivo no campo da inteligência artificial com seu desempenho incrível e cenários de aplicação amplos, e os gigantes da tecnologia começaram a entrar na trilha da IA em grupos. No entanto, a operação de treinamento e inferência de modelo de linguagem grande (LLM) requer muito poder de computação, e com a atualização iterativa do modelo, a demanda de poder de computação e o custo aumentam exponencialmente. Tomando GPT-2 e GPT-3 como exemplo, a diferença no número de parâmetros entre GPT-2 e GPT-3 é de 1.166 vezes (150 milhões de parâmetros para GPT-2 e 175 bilhões de parâmetros para GPT-3), e o custo do GPT-3 pode chegar a US $ 12 milhões com base no modelo de preço da nuvem GPU pública naquele momento, que é 200 vezes maior que o GPT-2. No processo de uso real, cada pergunta do usuário precisa ser inferida e calculada, de acordo com a situação de 13 milhões de usuários únicos no início deste ano, a demanda correspondente de chip é de mais de 30.000 peças A100GPU. O custo inicial seria então de impressionantes US$ 800 milhões, com uma estimativa de US$ 700.000 por dia para inferência de modelos.
Poder de computação insuficiente e altos custos se tornaram um problema para toda a indústria de IA, mas o mesmo problema parece atormentar a indústria de blockchain também. Por um lado, a quarta redução pela metade do Bitcoin e a passagem de ETFs estão chegando, e à medida que o preço sobe no futuro, a demanda por hardware de computação por mineradores inevitavelmente aumentará significativamente. Por outro lado, a tecnologia "Zero-Knowledge Proof" (ZKP) está crescendo, e Vitalik enfatizou repetidamente que o impacto da ZK no espaço blockchain na próxima década será tão importante quanto o próprio blockchain. Embora o futuro desta tecnologia seja altamente antecipado pela indústria de blockchain, ZK também consome muito poder de computação e tempo no processo de geração de provas como IA devido ao complexo processo computacional.
No futuro próximo, uma escassez de poder de computação se tornará inevitável, então o mercado de poder de computação descentralizada será um bom negócio?
Definição de Mercado de Computação Descentralizada
O mercado de poder de computação descentralizada é basicamente equivalente à trilha de computação em nuvem descentralizada, mas em comparação com a computação em nuvem descentralizada, eu pessoalmente acho que este termo será mais apropriado para descrever os novos projetos mencionados mais tarde. O mercado de poder de computação descentralizada deve pertencer a um subconjunto de DePIN (rede de infraestrutura física descentralizada), e seu objetivo é criar um mercado de poder de computação aberto, através de incentivos de token, para que qualquer pessoa com recursos de computação ociosos possa fornecer seus recursos neste mercado, servindo principalmente a comunidade de usuários e desenvolvedores B-end. Em termos de projetos bem conhecidos, como o Render Network, uma rede de soluções de renderização baseada em GPUs descentralizadas, e o Akash Network, um mercado distribuído peer-to-peer para computação em nuvem, pertencem a essa faixa.
O seguinte começará com o conceito básico e, em seguida, discutirá os três mercados emergentes sob a trilha: o mercado de poder de computação AGI, o mercado de poder de computação Bitcoin e o mercado de poder de computação AGI no mercado de aceleração de hardware ZK, e os dois últimos serão discutidos em "Visualização de Trilha Potencial: Mercado de Poder de Computação Descentralizada (Parte II)".
Visão geral do hashrate
A origem do conceito de poder de computação pode ser rastreada até a invenção dos computadores, o computador original era um dispositivo mecânico para completar tarefas de computação, e poder de computação refere-se ao poder de computação de um dispositivo mecânico. Com o desenvolvimento da tecnologia de computador, o conceito de poder de computação também evoluiu, e agora poder de computação geralmente se refere à capacidade de hardware de computador (CPU, GPU, FPGA, etc.) e software (sistema operacional, compilador, aplicativo, etc.) para trabalhar em conjunto.
Definição
Poder de computação refere-se à quantidade de dados que um computador ou outro dispositivo de computação pode processar ou o número de tarefas de computação que podem ser concluídas em um determinado período de tempo. Hashrate é frequentemente usado para descrever o desempenho de um computador ou outro dispositivo de computação, e é uma medida importante do poder de processamento de um dispositivo de computação.
Métricas
O poder de computação pode ser medido de várias maneiras, como velocidade de computação, consumo de energia de computação, precisão de computação e paralelismo. No campo do computador, as métricas de poder de computação comumente usadas incluem FLOPS (operações de ponto flutuante por segundo), IPS (instruções por segundo), TPS (transações por segundo), etc.
FLOPS (Floating-Point Operations Per Second) refere-se à capacidade de um computador para lidar com operações de vírgula flutuante (operações matemáticas em números com pontos decimais, tendo em conta questões como precisão e erros de arredondamento), e mede quantas operações de vírgula flutuante um computador pode concluir por segundo. FLOPS é uma medida do poder de computação de alto desempenho de um computador, e é comumente usado para medir o poder de computação de supercomputadores, servidores de computação de alto desempenho e unidades de processamento gráfico (GPUs), entre outros. Por exemplo, um sistema de computador tem um FLOPS de 1 TFLOPS (1 trilhão de operações de ponto flutuante por segundo), o que significa que ele pode completar 1 trilhão de operações de ponto flutuante por segundo.
IPS (Instructions Per Second) refere-se à velocidade com que um computador processa instruções e mede quantas instruções um computador é capaz de executar por segundo. IPS é uma medida do desempenho de instrução única de um computador, e é frequentemente usado para medir o desempenho de uma unidade central de processamento (CPU), etc. Por exemplo, uma CPU com um IPS de 3 GHz (que pode executar 300 milhões de instruções por segundo) significa que pode executar 300 milhões de instruções por segundo.
TPS (Transactions Per Second) refere-se à capacidade de um computador para processar transações, e mede quantas transações um computador pode concluir por segundo. É frequentemente usado para medir o desempenho de um servidor de banco de dados. Por exemplo, um servidor de banco de dados com um TPS de 1000 significa que ele pode processar 1000 transações de banco de dados por segundo.
Além disso, existem alguns indicadores de poder de computação para cenários de aplicativos específicos, como velocidade de inferência, velocidade de processamento de imagem e precisão de reconhecimento de fala.
Tipo de hashrate
O poder de computação da GPU refere-se ao poder de computação de uma unidade de processamento gráfico. Ao contrário da CPU (Central Processing Unit), a GPU é uma peça de hardware especificamente projetada para processar dados gráficos, como imagens e vídeos, e tem um grande número de unidades de processamento e poder de computação paralela eficiente, que pode executar um grande número de operações de ponto flutuante ao mesmo tempo. Como as GPUs foram originalmente usadas para processamento gráfico de jogos, elas normalmente têm frequências de clock mais altas e maior largura de banda de memória do que as CPUs para suportar operações gráficas complexas.
Diferença entre CPU e GPU
Arquitetura: A arquitetura de computação de CPUs e GPUs é diferente. CPUs normalmente têm um ou mais núcleos, cada um dos quais é um processador de uso geral capaz de executar uma variedade de operações diferentes. As GPUs, por outro lado, têm um grande número de Stream Processors e Shaders, que são dedicados a realizar operações relacionadas ao processamento de imagem.
Computação paralela: as GPUs normalmente têm maiores capacidades de computação paralela. As CPUs têm um número limitado de núcleos e só podem executar uma instrução por núcleo, mas as GPUs podem ter milhares de processadores de fluxo que podem executar várias instruções e operações ao mesmo tempo. Como resultado, as GPUs geralmente são mais adequadas do que as CPUs para executar tarefas de computação paralela, como aprendizado de máquina e aprendizado profundo, que exigem muita computação paralela.
Programação: A programação de GPUs é mais complexa do que CPUs, exigindo o uso de linguagens de programação específicas (como CUDA ou OpenCL) e o uso de técnicas de programação específicas para aproveitar o poder de computação paralela das GPUs. Em contraste, as CPUs são mais simples de programar e podem usar linguagens de programação e ferramentas de programação comuns.
A importância do poder de computação
Na era da Revolução Industrial, o petróleo era o sangue do mundo, permeando todas as indústrias. O poder de computação está no blockchain e, na próxima era da IA, o poder de computação será o "petróleo digital" do mundo. Desde a corrida louca das grandes empresas por chips de IA e o fato de que as ações da Nvidia ultrapassaram um trilhão, até o recente bloqueio de chips high-end na China pelos Estados Unidos, até o tamanho do poder de computação, área de chips e até mesmo o plano de banir a nuvem GPU, sua importância é evidente, e o poder de computação será uma commodity na próxima era.
! Visualização da pista potencial: Mercado de poder de computação descentralizada (Parte I)
Visão Geral da Inteligência Geral Artificial
A Inteligência Artificial (IA) é uma nova ciência técnica que estuda e desenvolve teorias, métodos, tecnologias e sistemas de aplicação para simular, ampliar e expandir a inteligência humana. Originou-se nos anos cinquenta e sessenta do século 20, e depois de mais de meio século de evolução, experimentou o desenvolvimento entrelaçado de três ondas de simbolismo, conexionismo e atores. Uma definição mais específica de IA generativa é a Inteligência Geral Artificial (AGI), um sistema de IA com uma compreensão ampla que pode executar inteligência semelhante ou superior aos seres humanos em uma variedade de tarefas e domínios diferentes. A AGI basicamente precisa ser composta por três elementos: deep learning (DL), big data e poder de computação em larga escala.
Aprendizagem profunda
A aprendizagem profunda é um subcampo da aprendizagem automática (ML), e os algoritmos de aprendizagem profunda são redes neuronais modeladas a partir do cérebro humano. Por exemplo, o cérebro humano contém milhões de neurónios interligados que trabalham em conjunto para aprender e processar informação. Da mesma forma, as redes neurais de aprendizagem profunda (ou redes neurais artificiais) são compostas por várias camadas de neurônios artificiais que trabalham juntos dentro de um computador. Os neurónios artificiais são módulos de software chamados nós que utilizam cálculos matemáticos para processar dados. Redes neurais artificiais são algoritmos de aprendizagem profunda que usam esses nós para resolver problemas complexos.
! Visualização da pista potencial: Mercado de poder de computação descentralizada (Parte I)
As redes neurais podem ser divididas em camadas de entrada, camadas ocultas e camadas de saída, e os parâmetros são conectados entre diferentes camadas.
Camada de entrada: A camada de entrada é a primeira camada da rede neural e é responsável por receber dados de entrada externos. Cada neurônio da camada de entrada corresponde a uma característica dos dados de entrada. Por exemplo, ao processar dados de imagem, cada neurônio pode corresponder a um valor de pixel da imagem;
Camadas ocultas: A camada de entrada processa os dados e os passa para as camadas mais distantes da rede neural. Essas camadas ocultas processam informações em diferentes níveis, ajustando seu comportamento à medida que novas informações são recebidas. As redes de aprendizagem profunda têm centenas de camadas ocultas que podem ser usadas para analisar problemas de muitos ângulos diferentes. Por exemplo, se lhe for dada uma imagem de um animal desconhecido que deve ser classificada, pode compará-la com um animal que já conhece. Por exemplo, a forma das orelhas, o número de pernas e o tamanho das pupilas podem determinar que tipo de animal é. Camadas ocultas em redes neurais profundas funcionam da mesma maneira. Se um algoritmo de aprendizagem profunda tenta classificar uma imagem animal, cada uma das suas camadas ocultas processa as diferentes características do animal e tenta classificá-lo com precisão;
Camada de saída: A camada de saída é a última camada da rede neural e é responsável por gerar a saída da rede. Cada neurônio na camada de saída representa uma possível classe ou valor de saída. Por exemplo, em um problema de classificação, cada neurônio da camada de saída pode corresponder a uma categoria, enquanto em um problema de regressão, a camada de saída pode ter apenas um neurônio cujo valor representa o resultado previsto;
Parâmetros: Em uma rede neural, as conexões entre diferentes camadas são representadas por parâmetros de Pesos e Vieses, que são otimizados durante o treinamento para permitir que a rede identifique padrões com precisão e faça previsões nos dados. O aumento nos parâmetros pode aumentar a capacidade do modelo de uma rede neural, ou seja, a capacidade do modelo de aprender e representar padrões complexos nos dados. No entanto, o aumento nos parâmetros aumentará a demanda por poder de computação.
Big Data
Para treinar de forma eficaz, as redes neurais muitas vezes requerem uma grande quantidade de dados, diversos e de alta qualidade e múltiplas fontes. É a base para o treinamento e validação de modelos de aprendizado de máquina. Ao analisar big data, os modelos de aprendizado de máquina podem aprender padrões e relacionamentos nos dados para fazer previsões ou classificações.
Poder de computação maciço
A estrutura complexa multicamadas da rede neural, o grande número de parâmetros, a necessidade de processamento de big data, o método de treinamento iterativo (na etapa de treinamento, o modelo precisa iterar repetidamente, e a propagação avançada e retropropagação de cada camada precisam ser calculadas durante o processo de treinamento, incluindo o cálculo da função de ativação, o cálculo da função de perda, o cálculo do gradiente e a atualização do peso), a necessidade de computação de alta precisão, a capacidade de computação paralela, a tecnologia de otimização e regularização e o processo de avaliação e verificação do modelo, todos os quais levam à demanda por alto poder de computação. Os requisitos da AGI para poder de computação em larga escala aumentam cerca de 10 vezes a cada ano. Até agora, o modelo mais recente GPT-4 contém 1,8 trilhão de parâmetros, um único custo de treinamento de mais de 60 milhões de dólares americanos, e o poder de computação necessário é de 2,15e25 FLOPS (21,500 trilhões de cálculos de ponto flutuante). A demanda por poder de computação para o próximo modelo de treinamento ainda está se expandindo, e novos modelos também estão aumentando.
Economia da Computação de IA
Tamanho do mercado futuro
De acordo com as estimativas mais fidedignas, o "2022-2023 Global Computing Power Index Evaluation Report" compilado conjuntamente pela IDC (International Data Corporation) e pela Inspur Information e pelo Global Industry Research Institute da Universidade de Tsinghua, O tamanho do mercado global de computação de IA crescerá de US$ 19,50 bilhões em 2022 para US$ 34,66 bilhões em 2026, com o tamanho do mercado de computação de IA generativa crescendo de US$ 820 milhões em 2022 para US$ 10,99 bilhões em 2026. A computação generativa de IA crescerá de 4,2% para 31,7% do mercado global de computação de IA.
! Visualização da pista potencial: Mercado de poder de computação descentralizada (Parte I)
Monopólio económico do poder de computação
A produção de GPUs de IA foi monopolizada pela NVIDA, e elas são extremamente caras (o H100 mais recente foi vendido por US $ 40.000 por chip), e as GPUs foram compradas por gigantes do Vale do Silício assim que são lançadas, e alguns desses dispositivos são usados para treinar seus próprios novos modelos. A outra parte é alugada para desenvolvedores de IA por meio de plataformas de nuvem, como Google, Amazon e plataformas de computação em nuvem da Microsoft, que dominam um grande número de recursos de computação, como servidores, GPUs e TPUs. O poder de computação tornou-se um novo recurso monopolizado por gigantes, e um grande número de desenvolvedores relacionados à IA não pode sequer comprar uma GPU dedicada sem uma marcação e, para usar os equipamentos mais recentes, os desenvolvedores precisam alugar servidores em nuvem da AWS ou da Microsoft. De acordo com o relatório financeiro, este negócio tem lucros extremamente elevados, com os serviços na nuvem da AWS a terem uma margem bruta de 61%, enquanto a Microsoft tem uma margem bruta superior a 72%.
! Visualização da pista potencial: Mercado de poder de computação descentralizada (Parte I)
Então, temos que aceitar essa autoridade e controle centralizados e pagar 72% da taxa de lucro pelos recursos de computação? Será que os gigantes que monopolizam a Web2 terão o monopólio da próxima era?
O problema do poder de computação AGI descentralizado
Quando se trata de antitruste, a descentralização geralmente é a solução ideal e, a partir dos projetos existentes, podemos usar o protocolo para alcançar o poder de computação em larga escala exigido pela IA por meio de projetos de armazenamento em DePIN e GPUs ociosas como RDNR? A resposta é não, o caminho para matar dragões não é tão simples, os primeiros projetos não são especialmente projetados para o poder de computação AGI, não é viável, e o poder de computação precisa enfrentar pelo menos os seguintes cinco desafios na cadeia:
Verificação do trabalho: Para construir uma rede de computação verdadeiramente sem confiança e fornecer incentivos financeiros aos participantes, a rede deve ter uma maneira de verificar se o trabalho computacional de aprendizagem profunda é realmente realizado. No centro deste problema está a dependência estatal dos modelos de aprendizagem profunda; Em um modelo de aprendizagem profunda, a entrada de cada camada depende da saída da camada anterior. Isso significa que você não pode simplesmente validar uma camada em seu modelo sem considerar todas as camadas antes dela. Os cálculos para cada camada são baseados nos resultados de todas as camadas que a precederam. Portanto, para verificar o trabalho realizado em um determinado ponto (por exemplo, uma determinada camada), todo o trabalho deve ser executado desde o início do modelo até esse ponto específico;
Mercado: Como um mercado emergente, o mercado de poder de computação de IA está sujeito a dilemas de oferta e demanda, como problemas de arranque a frio, e a liquidez da oferta e da demanda precisa ser aproximadamente correspondida desde o início para que o mercado possa crescer com sucesso. A fim de capturar o fornecimento potencial de poder de hash, os participantes devem receber recompensas explícitas em troca de seus recursos de hash. O mercado precisa de um mecanismo para acompanhar o trabalho computacional realizado e pagar as taxas correspondentes aos provedores em tempo hábil. Nos mercados tradicionais, os intermediários lidam com tarefas como a gestão e a integração, reduzindo simultaneamente os custos operacionais através da fixação de pagamentos mínimos. No entanto, esta abordagem é mais dispendiosa quando se escala o mercado. Apenas uma pequena fração da oferta pode ser efetivamente capturada economicamente, o que conduz a um estado de equilíbrio limiar em que o mercado só pode captar e manter uma oferta limitada e não pode continuar a crescer;
Problema de tempo de inatividade: O problema de tempo de inatividade é um problema fundamental na teoria computacional, que envolve julgar se uma determinada tarefa computacional será concluída em um tempo finito ou nunca irá parar. Este problema é insolúvel, o que significa que não existe um algoritmo universal que possa prever se todas as tarefas computacionais irão parar num período de tempo finito. Por exemplo, no Ethereum, a execução de contratos inteligentes enfrenta um tempo de inatividade semelhante. ou seja, é impossível determinar antecipadamente quantos recursos de computação serão necessários para a execução de um contrato inteligente, ou se ele será concluído em um prazo razoável;
(No contexto da aprendizagem profunda, este problema será mais complexo à medida que os modelos e estruturas passarão da construção de gráficos estáticos para a construção e execução dinâmicas.) )
Privacidade: O design e desenvolvimento da consciência de privacidade é uma obrigação para a equipe do projeto. Embora uma grande quantidade de pesquisa de aprendizado de máquina possa ser realizada em conjuntos de dados disponíveis publicamente, o ajuste fino de modelos em dados proprietários do usuário é frequentemente necessário para melhorar o desempenho dos modelos e adaptá-los a aplicações específicas. Este ajustamento pode envolver o tratamento de dados pessoais e, por conseguinte, deve ter em conta os requisitos do Escudo de Proteção da Privacidade;
Paralelização: Este é um fator-chave na viabilidade dos projetos atuais, os modelos de aprendizagem profunda são frequentemente treinados em paralelo em grandes clusters de hardware com arquiteturas proprietárias e latência extremamente baixa, enquanto as GPUs em redes de computação distribuída exigem troca de dados frequente para introduzir latência e são limitadas pelas GPUs de menor desempenho. No caso de fontes de energia de computação não confiáveis e não confiáveis, como a paralelização heterogênea é um problema que deve ser resolvido, e o método viável atual é conseguir a paralelização através de modelos de transformadores, como os Transformadores de Comutador, que agora têm as características de alta paralelização.
Solução: Embora a tentativa atual no mercado de poder de computação AGI descentralizado ainda esteja no estágio inicial, acontece que há dois projetos que resolveram preliminarmente o design de consenso da rede descentralizada e o processo de implementação da rede de computação descentralizada em treinamento de modelo e inferência. O seguinte tomará Gensyn e Together como exemplos para analisar os métodos de design e problemas do mercado de poder de computação AGI descentralizado.
Reunião
! Visualização da pista potencial: Mercado de poder de computação descentralizada (Parte I)
Gensyn é um mercado para o poder de computação AGI que ainda está em fase de construção e visa resolver os múltiplos desafios da computação descentralizada de aprendizagem profunda e reduzir o custo da aprendizagem profunda hoje. O Gensyn é essencialmente um protocolo de prova de participação de Camada 1 baseado na rede Polkadot, que recompensa diretamente os solucionadores (Solvers) por meio de contratos inteligentes em troca de seus dispositivos GPU ociosos para computação e executa tarefas de aprendizado de máquina.
Então, voltando à questão acima, o núcleo da construção de uma rede de computação verdadeiramente sem confiança é validar o trabalho de aprendizado de máquina que foi feito. Este é um problema altamente complexo que requer um equilíbrio a ser encontrado na intersecção da teoria da complexidade, teoria dos jogos, criptografia e otimização.
Gensyn propõe uma solução simples onde o solucionador envia os resultados da tarefa de aprendizado de máquina que eles concluíram. Para verificar se esses resultados são precisos, outro validador independente tenta fazer o mesmo trabalho novamente. Esse método pode ser chamado de replicação única porque apenas um validador será reexecutado. Isso significa que há apenas um esforço adicional para verificar a precisão do trabalho original. No entanto, se a pessoa que verifica o trabalho não é o solicitante do trabalho original, o problema de confiança permanece. Porque os próprios validadores podem não ser honestos, e o seu trabalho precisa de ser verificado. Isso leva a um problema potencial de que, se a pessoa que verifica o trabalho não é o solicitante do trabalho original, então outro validador é necessário para verificar seu trabalho. Mas este novo validador também pode não ser confiável, então outro validador é necessário para validar seu trabalho, que pode continuar para sempre, formando uma cadeia infinita de replicação. Aqui precisamos introduzir três conceitos-chave e entrelaçá-los para construir um sistema de participantes de quatro funções para resolver o problema da cadeia infinita.
Prova de Aprendizagem Probabilística: Use os metadados de um processo de otimização baseado em gradiente para construir um certificado do trabalho realizado. Ao replicar determinados estágios, você pode validar rapidamente esses certificados para garantir que o trabalho foi concluído conforme programado.
Protocolo de pináculo baseado em gráfico: Usa um protocolo pináculo baseado em gráficos de multigranularidade, bem como a execução consistente de avaliadores cruzados. Isso permite que os esforços de verificação sejam executados novamente e comparados para garantir a consistência e, finalmente, confirmados pelo próprio blockchain.
Jogos de incentivo no estilo Truebit: Use staking e slashing para criar jogos de incentivo que garantam que cada participante financeiramente sólido agirá honestamente e executará as tarefas pretendidas.
O sistema de contribuidores é composto por committers, solucionadores, validadores e denunciantes.
Transmitentes:
O transmitente é o utilizador final do sistema, fornece as tarefas que serão calculadas e paga pelas unidades de trabalho concluídas;
Solucionadores:
O solucionador é o principal trabalhador do sistema, realizando o treinamento do modelo e gerando provas que são verificadas pelos validadores;
Verificadores:
O verificador é a chave para ligar o processo de treinamento não determinístico à computação linear determinística, replicando uma parte da prova do solver e comparando a distância com o limiar esperado;
Denunciantes:
Os denunciantes são a última linha de defesa, verificando o trabalho dos validadores e fazendo desafios na esperança de pagamentos lucrativos de bônus.
O sistema funciona
O protocolo foi projetado para operar em um sistema de jogo que consistirá em oito fases, abrangendo quatro papéis principais dos participantes, e será usado para completar todo o processo desde a submissão da tarefa até a validação final.
Para apresentar a tarefa, o transmitente especifica os pormenores da tarefa num formato legível por máquina e apresenta-os à cadeia, juntamente com o modelo binário (ou esquema legível por máquina) e uma localização acessível ao público dos dados de formação pré-tratados. Os dados expostos podem ser armazenados em um armazenamento de objetos simples, como o AWS S3, ou em um armazenamento descentralizado, como IPFS, Arweave ou Subspace.
Definição de perfis: O processo de análise determina um limiar de distância de base para aprender a validar a prova. O validador irá periodicamente raspar a tarefa de análise e gerar um limiar de variação para a comparação da prova de aprendizagem. Para gerar limiares, os validadores executarão e executarão deterministicamente uma parte do treinamento, usando diferentes sementes aleatórias, gerando e verificando suas próprias provas. Durante esse processo, o validador estabelece um limite de distância geral esperado que pode ser usado como um esforço não determinístico para validar a solução.
Treinamento: Após análise, a tarefa vai para um pool de tarefas público (semelhante ao Mempool do Ethereum). Selecione um solucionador para executar a tarefa e removê-la do pool de tarefas. O solucionador executa a tarefa com base nos metadados enviados pelo transmitente, bem como nos dados de modelo e treinamento fornecidos. Ao executar a tarefa de treinamento, o solucionador também gera uma prova de aprendizado verificando e armazenando periodicamente metadados (incluindo parâmetros) do processo de treinamento para que o verificador possa replicar as seguintes etapas de otimização com a maior precisão possível.
Geração de provas: O solucionador armazena periodicamente pesos ou atualizações do modelo e o índice correspondente com o conjunto de dados de treinamento para identificar as amostras usadas para gerar atualizações de peso. A frequência do ponto de verificação pode ser ajustada para fornecer maior garantia ou economizar espaço de armazenamento. A prova pode ser "empilhada", o que significa que a prova pode começar com uma distribuição aleatória de pesos usados para inicializar os pesos, ou começar com pesos pré-treinados gerados usando suas próprias provas. Isso permite que o protocolo construa um conjunto de modelos básicos comprovados e pré-treinados (ou seja, modelos básicos) que podem ser ajustados para tarefas mais específicas.
Verificação da prova: Uma vez concluída a tarefa, o solucionador registra a tarefa na cadeia e exibe sua prova de aprendizagem em um local acessível ao público para o validador acessar. O validador extrai a tarefa de validação do pool de tarefas comum e executa trabalho computacional para executar novamente uma parte da prova e executar o cálculo de distância. A cadeia (juntamente com os limiares calculados durante a fase de análise) usa a distância resultante para determinar se a verificação corresponde à prova.
Desafio pontual baseado em gráficos: Depois de validar a prova de aprendizagem, o denunciante pode copiar o trabalho do validador para verificar se a validação em si é realizada corretamente. Se um denunciante acreditar que a verificação foi realizada por erro (malicioso ou não malicioso), ele pode contestar o quórum do contrato para receber uma recompensa. Esta recompensa pode vir de depósitos de solvers e validadores (no caso de um genuinamente positivo), ou do prizepool do cofre da lotaria (no caso de um falso positivo) e a arbitragem é realizada usando a própria cadeia. Os denunciantes (no seu caso, os validadores) só verificarão e, posteriormente, contestarão o trabalho se esperarem receber uma compensação adequada. Na prática, isto significa que se espera que os denunciantes entrem e saiam da rede com base no número de denunciantes com outras atividades (ou seja, com depósitos e desafios reais). Portanto, a estratégia padrão esperada para qualquer denunciante é ingressar na rede quando houver menos outros denunciantes, postar um depósito, selecionar aleatoriamente uma tarefa ativa e iniciar seu processo de verificação. Depois que a primeira tarefa terminar, eles pegarão outra tarefa ativa aleatória e repetirão até que o número de denunciantes exceda seu limite de pagamento determinado e, em seguida, deixarão a rede (ou, mais provavelmente, passarão para outra função na rede – validador ou solucionador – dependendo de suas capacidades de hardware) até que a situação se reverta novamente.
Arbitragem de contratos: Quando um validador é contestado por um denunciante, ele entra em um processo com a cadeia para descobrir onde está a ação ou entrada contestada e, finalmente, a cadeia executa a operação básica final e determina se a contestação é justificada. A fim de manter o denunciante honesto e credível e superar o dilema dos validadores, erros forçados regulares e pagamentos de jackpot são introduzidos aqui.
Liquidação: Durante o processo de liquidação, os participantes são pagos com base na conclusão de verificações de probabilidade e certeza. Dependendo dos resultados de verificações e desafios anteriores, haverá pagamentos diferentes para diferentes cenários. Se o trabalho for considerado executado corretamente e todas as verificações tiverem sido aprovadas, o provedor da solução e o validador serão recompensados com base na ação tomada.
Breve revisão do projeto
Gensyn projetou um sistema de jogo maravilhoso na camada de verificação e camada de incentivo, que pode identificar rapidamente o erro encontrando os pontos de divergência na rede, mas ainda faltam muitos detalhes no sistema atual. Por exemplo, como definir parâmetros para garantir que as recompensas e punições sejam razoáveis sem que o limite seja muito alto? O jogo considerou a diferença entre o caso extremo e o poder de computação do solucionador? Não há uma descrição detalhada da operação paralela heterogênea na versão atual do white paper, e parece que a implementação do Gensyn ainda é difícil e longa.
Together.ai
A Together é uma empresa que se concentra em código aberto de grandes modelos e está comprometida com soluções de computação de IA descentralizadas, esperando que qualquer pessoa possa acessar e usar IA em qualquer lugar. Estritamente falando, Together não é um projeto blockchain, mas o projeto resolveu preliminarmente o problema de latência na rede de computação AGI descentralizada. Portanto, o artigo a seguir analisa apenas a solução da Together e não avalia o projeto.
Como grandes modelos podem ser treinados e inferidos quando uma rede descentralizada é 100 vezes mais lenta do que um data center?
Vamos imaginar como seria a distribuição de dispositivos GPU que participam da rede se a descentralização fosse removida. Esses dispositivos serão distribuídos em diferentes continentes, em diferentes cidades, e precisarão ser conectados uns aos outros, e a latência e a largura de banda da conexão variarão. Como mostrado na figura abaixo, um cenário distribuído é simulado com dispositivos distribuídos na América do Norte, Europa e Ásia, com largura de banda e latência variáveis entre dispositivos. Então, o que precisa ser feito para conectá-lo em série?
! Visualização da pista potencial: Mercado de poder de computação descentralizada (Parte I)
Modelagem computacional de treinamento distribuído: A figura a seguir mostra o treinamento básico do modelo em vários dispositivos, e há três tipos de comunicação em termos de tipos de comunicação: Ativação Direta, Gradiente para Trás e Comunicação Lateral.
! Visualização da pista potencial: Mercado de poder de computação descentralizada (Parte I)
Em combinação com a largura de banda de comunicação e a latência, duas formas de paralelismo precisam ser consideradas: paralelismo de pipeline e paralelismo de dados, correspondendo aos três tipos de comunicação no caso de vários dispositivos:
No paralelismo de tubulação, todas as camadas do modelo são divididas em etapas, onde cada dispositivo processa uma fase, que é uma sequência contínua de camadas, como múltiplos blocos de transformadores; Na passagem para a frente, a ativação é passada para o próximo estágio, enquanto na passagem para trás, o gradiente da ativação é passado para o estágio anterior.
No paralelismo de dados, o dispositivo calcula independentemente os gradientes de diferentes microlotes, mas se comunica para sincronizar esses gradientes.
Otimização de Agendamento:
Num ambiente descentralizado, o processo de formação é muitas vezes limitado pela comunicação. Os algoritmos de agendamento geralmente atribuem tarefas que exigem uma grande quantidade de comunicação a dispositivos com velocidades de conexão mais rápidas e, considerando as dependências entre tarefas e a heterogeneidade da rede, o custo de uma estratégia de agendamento específica precisa ser modelado primeiro. A fim de capturar o custo de comunicação complexo do treinamento do modelo base, Together propõe uma nova fórmula e decompõe o modelo de custo em dois níveis através da teoria dos grafos:
! Visualização da pista potencial: Mercado de poder de computação descentralizada (Parte I)
A figura acima é um diagrama esquemático do processo, porque o processo de implementação real envolve algumas fórmulas de cálculo complexas. Para facilitar a compreensão, explicaremos o processo no diagrama em termos leigos, e o processo de implementação detalhado pode ser consultado por si mesmo na documentação no site oficial do Together.
Suponha que há um conjunto de dispositivos D com dispositivos N, e a comunicação entre eles tem um atraso indeterminado (matriz A) e largura de banda (matriz B). Com base no conjunto de dispositivos D, primeiro geramos uma segmentação gráfica equilibrada. O número de dispositivos em cada divisão ou grupo de dispositivos é aproximadamente igual e todos eles lidam com os mesmos estágios de pipeline. Isso garante que, quando os dados são paralelos, grupos de dispositivos executam uma quantidade semelhante de trabalho. (O paralelismo de dados é quando vários dispositivos executam a mesma tarefa, enquanto os estágios de pipelining são quando os dispositivos executam diferentes etapas de tarefa em uma ordem específica). Com base na latência e largura de banda da comunicação, o "custo" de transferência de dados entre grupos de dispositivos pode ser calculado através de fórmulas. Cada grupo equilibrado de dispositivos é combinado para produzir um gráfico aproximado totalmente conectado, onde cada nó representa um estágio do pipeline e as bordas representam o custo de comunicação entre os dois estágios. Para minimizar os custos de comunicação, um algoritmo de correspondência é usado para determinar quais grupos de dispositivos devem trabalhar juntos.
Para maior otimização, o problema também pode ser modelado como um problema de caixeiro-viajante de loop aberto (open-loop significa que não há necessidade de retornar à origem do caminho) para encontrar um caminho ideal para transferir dados entre todos os dispositivos. Finalmente, a Together usa seu inovador algoritmo de agendamento para encontrar a estratégia de alocação ideal para um determinado modelo de custo, de modo a minimizar os custos de comunicação e maximizar o rendimento do treinamento. De acordo com medições reais, mesmo que a rede seja 100 vezes mais lenta sob essa otimização de programação, a taxa de transferência de treinamento de ponta a ponta é apenas cerca de 1,7 a 2,3 vezes mais lenta.
Otimização de compressão de comunicação:
! Visualização da pista potencial: Mercado de poder de computação descentralizada (Parte I)
Para a otimização da compressão de comunicação, a Together introduz o algoritmo AQ-SGD (para o processo de cálculo detalhado, consulte o artigo Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees). O algoritmo AQ-SGD é uma nova tecnologia de compressão ativa projetada para resolver o problema de eficiência de comunicação do treinamento paralelo de dutos em redes de baixa velocidade. Ao contrário dos métodos anteriores de comprimir diretamente o valor da atividade, o AQ-SGD concentra-se em comprimir as mudanças no valor da atividade da mesma amostra de treinamento ao longo de diferentes períodos, e este método único introduz uma dinâmica interessante de "auto-execução", e espera-se que o desempenho do algoritmo melhore gradualmente à medida que o treinamento se estabiliza. Após rigorosa análise teórica, o algoritmo AQ-SGD prova que tem uma boa taxa de convergência sob certas condições técnicas e a função de quantização com erro limitado. O algoritmo pode ser implementado de forma eficiente sem adicionar sobrecarga de tempo de execução adicional de ponta a ponta, embora exija mais memória e SSDs para armazenar o valor ativo. Através da validação experimental extensiva em conjuntos de dados de classificação de sequência e modelagem de linguagem, o AQ-SGD pode compactar valores de atividade para 2-4 bits sem sacrificar o desempenho de convergência. Além disso, o AQ-SGD também pode ser integrado com algoritmos de compressão de gradiente de última geração para alcançar a "compressão de comunicação de ponta a ponta", ou seja, a troca de dados entre todas as máquinas, incluindo gradientes de modelo, valores de atividade direta e gradientes reversos, é compactada com baixa precisão, melhorando assim consideravelmente a eficiência de comunicação do treinamento distribuído. Em comparação com o desempenho de treinamento de ponta a ponta de uma rede de computação centralizada (por exemplo, 10 Gbps) sem compressão, atualmente é apenas 31% mais lento. Combinado com os dados de otimização de programação, embora ainda haja uma certa lacuna da rede de poder de computação centralizada, há uma esperança relativamente grande para recuperar o atraso no futuro.
Conclusão
Sob o período de dividendos trazido pela onda de IA, o mercado de poder de computação AGI é, sem dúvida, o mercado com o maior potencial e a maior demanda entre muitos mercados de poder de computação. No entanto, a dificuldade de desenvolvimento, os requisitos de hardware e os requisitos de capital também são os mais altos. Combinado com os dois projetos acima, ainda há uma certa distância da implementação do mercado de poder de computação AGI, e a rede descentralizada real é muito mais complexa do que a situação ideal, o que obviamente não é suficiente para competir com os gigantes da nuvem. No momento da redação deste artigo, observou-se também que alguns projetos que estão em sua infância (estágio PPT) começaram a explorar alguns novos pontos de entrada, como focar na etapa de inferência menos difícil ou no treinamento de pequenos modelos, que são tentativas mais práticas.
Embora enfrente muitos desafios, é importante a longo prazo que a descentralização e o significado sem permissão do poder de computação AGI não sejam concentrados em alguns gigantes centralizados. Porque a humanidade não precisa de uma nova "religião" ou de um novo "papa", muito menos de pagar dispendiosas "quotizações de membros".
Bibliografia
1.Gensyn Litepaper:
2.NeurIPS 2022: Superando gargalos de comunicação para treinamento descentralizado:
3.Ajuste fino de modelos de linguagem em redes lentas usando compactação de ativação com garantias:
4.O Protocolo de Computação de Machine Learning e o nosso futuro:
5.Microsoft:Divulgação de Resultados AF23 Q2:
Concorra por ingressos de IA: BAT e Byte Meituan competem por GPU:
IDC: Relatório de Avaliação do Índice Global de Poder de Computação 2022-2023:
Estimativa de treinamento de modelo grande da Guosheng Securities:
Asas da informação: Qual é a relação entre o poder de computação e a IA? :