*Nota do editor: Este artigo é baseado principalmente no discurso de David Aronchick na conferência Filecoin Unleashed Paris 2023. David é o CEO da Expanso e ex-chefe de computação de dados da Protocol Labs, que lançou o projeto Bacalhau. Este artigo representa as opiniões independentes dos criadores do conteúdo original e foi republicado com permissão. *
Segundo a IDC, até 2025, a quantidade de dados armazenados globalmente excederá 175 ZB. Trata-se de uma enorme quantidade de dados, equivalente a 175 trilhões de unidades flash USB de 1 GB. A maior parte desses dados é gerada entre 2020 e 2025, com um CAGR esperado de 61%.
Hoje, surgem dois grandes desafios na esfera de dados em rápido crescimento:
**A movimentação de dados é lenta e cara. **Se você tentar baixar 175 ZB de dados com a largura de banda atual, isso levará cerca de 1,8 bilhão de anos.
**As tarefas de conformidade são onerosas. **Existem centenas de regulamentações relacionadas a dados em todo o mundo, tornando quase impossível a tarefa de conformidade entre jurisdições.
O resultado combinado do lento crescimento da rede e das restrições regulamentares é que quase 68% dos dados institucionais estão inativos. Por esta razão, é particularmente importante transferir recursos de computação para armazenamento de dados (amplamente chamado de computação sobre dados, ou "computação de dados") em vez de mover dados para a computação, Bacalhau et al. As plataformas de computação em dados (CoD) estão funcionando difícil nisso.
Nos capítulos seguintes apresentaremos brevemente:
*Como as organizações lidam com os dados hoje.
Propor soluções alternativas baseadas na “computação de dados”.
Finalmente, levante a hipótese de por que a computação distribuída é importante.
status quo
Atualmente, existem três maneiras principais pelas quais as organizações lidam com os desafios de processamento de dados, nenhuma das quais é ideal.
Use um sistema centralizado
A abordagem mais comum é usar sistemas centralizados para processamento de dados em grande escala. Freqüentemente vemos organizações combinando estruturas de computação como Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, etc. para formar uma rede de sistemas clusterizados conectados a um servidor API centralizado. No entanto, estes sistemas não abordam eficazmente as violações da rede e outras questões regulamentares relacionadas com a mobilidade de dados.
Isto é parcialmente responsável por agências incorrerem em bilhões de dólares em multas e penalidades administrativas devido a violações de dados.
Construa você mesmo
Outra abordagem é que os desenvolvedores construam sistemas de coordenação personalizados que tenham a consciência e a robustez que a agência precisa. Esta abordagem é nova, mas muitas vezes enfrenta o risco de fracasso devido à dependência excessiva de um pequeno número de pessoas para manter e operar o sistema.
Fazer nada
Surpreendentemente, na maior parte das vezes, as instituições nada fazem relativamente aos seus dados. Por exemplo, uma cidade pode coletar diariamente uma grande quantidade de dados de vídeos de vigilância, mas devido ao alto custo, esses dados só podem ser visualizados em uma máquina local e não podem ser arquivados ou processados.
Construa uma computação distribuída real
Existem duas soluções principais para os problemas do processamento de dados.
Solução 1: construída em uma plataforma de computação de dados de código aberto
Solução 1: plataforma de computação de dados de código aberto
Os desenvolvedores podem usar uma plataforma de dados distribuídos de código aberto para computação, em vez do sistema de coordenação personalizado mencionado anteriormente. Como a plataforma é de código aberto e extensível, as agências só precisam construir os componentes de que necessitam. Essa configuração pode atender a cenários de aplicativos multinuvem, multicomputação e que não sejam de data center e navegar em ambientes regulatórios complexos. É importante ressaltar que o acesso à comunidade de código aberto não depende mais de um ou mais desenvolvedores para manutenção do sistema, reduzindo a probabilidade de falha.
Solução 2: Construa um protocolo de dados distribuídos
Com a ajuda de projetos de computação avançados como Bacalhau e Lilypad, os desenvolvedores podem dar um passo adiante e construir sistemas não apenas nas plataformas de dados de código aberto mencionadas na Solução Um, mas também em protocolos de dados verdadeiramente distribuídos, como a rede Filecoin.
Solução 2: Protocolo de computação de dados distribuídos
Isto significa que as instituições podem utilizar protocolos distribuídos que compreendem como coordenar e descrever os problemas dos utilizadores de uma forma mais detalhada, desbloqueando áreas da computação que estão próximas de onde os dados são gerados e armazenados. Idealmente, essa transformação de data centers para protocolos distribuídos pode ser feita com apenas pequenas alterações na experiência do cientista de dados.
Distribuição significa maximizar a escolha
Ao implementar um protocolo distribuído como a rede Filecoin, nossa visão é que os usuários possam acessar centenas (ou milhares) de máquinas distribuídas em diferentes regiões na mesma rede e seguir as mesmas regras de protocolo que outras máquinas. Basicamente, isso abre um oceano de opções para os cientistas de dados, pois eles podem solicitar à rede:
Selecione um conjunto de dados de qualquer lugar do mundo.
Siga qualquer estrutura de governança, seja HIPAA, GDPR ou FISMA.
Corra com o preço mais barato possível.
Juan Triangle | Decodificando abreviações: FHE (Fully Homomorphic Encryption), MPC (Multi-Party Computation), TEE (Trusted Execution Environment), ZKP (Zero-Knowledge Proof)
Falando do conceito de maximização de escolha, temos que mencionar o "triângulo de Juans".Este termo foi cunhado por Juan Benet, o fundador do Protocol Labs, para explicar porque diferentes casos de uso (no futuro) terão diferentes redes de computação distribuídas. Criado quando suportado.
O Triângulo de Juan propõe que as redes de computação muitas vezes exigem compromissos entre privacidade, verificabilidade e desempenho, e a abordagem tradicional "tamanho único" é difícil de aplicar a todos os casos de uso. Em vez disso, a natureza modular dos protocolos distribuídos permite que diferentes redes distribuídas (ou sub-redes) atendam às diferentes necessidades dos usuários – seja privacidade, verificabilidade ou desempenho. Em última análise, otimizamos com base no que consideramos importante. Nessa altura, haverá muitos prestadores de serviços externos (mostrados na caixa dentro do triângulo) para preencher estas lacunas e tornar a computação distribuída uma realidade.
Em resumo, o processamento de dados é um problema complexo que requer soluções prontas para uso. Aproveitar a computação de dados de código aberto para substituir os sistemas centralizados tradicionais é um bom primeiro passo. Em última análise, a implementação de uma plataforma de computação num protocolo distribuído como a rede Filecoin pode configurar livremente os recursos de computação de acordo com as necessidades individuais dos utilizadores, o que é crucial na era do big data e da inteligência artificial.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Uma análise aprofundada da importância e do potencial comercial da computação de dados distribuída
Segundo a IDC, até 2025, a quantidade de dados armazenados globalmente excederá 175 ZB. Trata-se de uma enorme quantidade de dados, equivalente a 175 trilhões de unidades flash USB de 1 GB. A maior parte desses dados é gerada entre 2020 e 2025, com um CAGR esperado de 61%.
Hoje, surgem dois grandes desafios na esfera de dados em rápido crescimento:
O resultado combinado do lento crescimento da rede e das restrições regulamentares é que quase 68% dos dados institucionais estão inativos. Por esta razão, é particularmente importante transferir recursos de computação para armazenamento de dados (amplamente chamado de computação sobre dados, ou "computação de dados") em vez de mover dados para a computação, Bacalhau et al. As plataformas de computação em dados (CoD) estão funcionando difícil nisso.
Nos capítulos seguintes apresentaremos brevemente:
*Como as organizações lidam com os dados hoje.
status quo
Atualmente, existem três maneiras principais pelas quais as organizações lidam com os desafios de processamento de dados, nenhuma das quais é ideal.
Use um sistema centralizado
A abordagem mais comum é usar sistemas centralizados para processamento de dados em grande escala. Freqüentemente vemos organizações combinando estruturas de computação como Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, etc. para formar uma rede de sistemas clusterizados conectados a um servidor API centralizado. No entanto, estes sistemas não abordam eficazmente as violações da rede e outras questões regulamentares relacionadas com a mobilidade de dados.
Isto é parcialmente responsável por agências incorrerem em bilhões de dólares em multas e penalidades administrativas devido a violações de dados.
Construa você mesmo
Outra abordagem é que os desenvolvedores construam sistemas de coordenação personalizados que tenham a consciência e a robustez que a agência precisa. Esta abordagem é nova, mas muitas vezes enfrenta o risco de fracasso devido à dependência excessiva de um pequeno número de pessoas para manter e operar o sistema.
Fazer nada
Surpreendentemente, na maior parte das vezes, as instituições nada fazem relativamente aos seus dados. Por exemplo, uma cidade pode coletar diariamente uma grande quantidade de dados de vídeos de vigilância, mas devido ao alto custo, esses dados só podem ser visualizados em uma máquina local e não podem ser arquivados ou processados.
Construa uma computação distribuída real
Existem duas soluções principais para os problemas do processamento de dados.
Solução 1: construída em uma plataforma de computação de dados de código aberto
Solução 1: plataforma de computação de dados de código aberto
Os desenvolvedores podem usar uma plataforma de dados distribuídos de código aberto para computação, em vez do sistema de coordenação personalizado mencionado anteriormente. Como a plataforma é de código aberto e extensível, as agências só precisam construir os componentes de que necessitam. Essa configuração pode atender a cenários de aplicativos multinuvem, multicomputação e que não sejam de data center e navegar em ambientes regulatórios complexos. É importante ressaltar que o acesso à comunidade de código aberto não depende mais de um ou mais desenvolvedores para manutenção do sistema, reduzindo a probabilidade de falha.
Solução 2: Construa um protocolo de dados distribuídos
Com a ajuda de projetos de computação avançados como Bacalhau e Lilypad, os desenvolvedores podem dar um passo adiante e construir sistemas não apenas nas plataformas de dados de código aberto mencionadas na Solução Um, mas também em protocolos de dados verdadeiramente distribuídos, como a rede Filecoin.
Solução 2: Protocolo de computação de dados distribuídos
Isto significa que as instituições podem utilizar protocolos distribuídos que compreendem como coordenar e descrever os problemas dos utilizadores de uma forma mais detalhada, desbloqueando áreas da computação que estão próximas de onde os dados são gerados e armazenados. Idealmente, essa transformação de data centers para protocolos distribuídos pode ser feita com apenas pequenas alterações na experiência do cientista de dados.
Distribuição significa maximizar a escolha
Ao implementar um protocolo distribuído como a rede Filecoin, nossa visão é que os usuários possam acessar centenas (ou milhares) de máquinas distribuídas em diferentes regiões na mesma rede e seguir as mesmas regras de protocolo que outras máquinas. Basicamente, isso abre um oceano de opções para os cientistas de dados, pois eles podem solicitar à rede:
Juan Triangle | Decodificando abreviações: FHE (Fully Homomorphic Encryption), MPC (Multi-Party Computation), TEE (Trusted Execution Environment), ZKP (Zero-Knowledge Proof)
Falando do conceito de maximização de escolha, temos que mencionar o "triângulo de Juans".Este termo foi cunhado por Juan Benet, o fundador do Protocol Labs, para explicar porque diferentes casos de uso (no futuro) terão diferentes redes de computação distribuídas. Criado quando suportado.
O Triângulo de Juan propõe que as redes de computação muitas vezes exigem compromissos entre privacidade, verificabilidade e desempenho, e a abordagem tradicional "tamanho único" é difícil de aplicar a todos os casos de uso. Em vez disso, a natureza modular dos protocolos distribuídos permite que diferentes redes distribuídas (ou sub-redes) atendam às diferentes necessidades dos usuários – seja privacidade, verificabilidade ou desempenho. Em última análise, otimizamos com base no que consideramos importante. Nessa altura, haverá muitos prestadores de serviços externos (mostrados na caixa dentro do triângulo) para preencher estas lacunas e tornar a computação distribuída uma realidade.
Em resumo, o processamento de dados é um problema complexo que requer soluções prontas para uso. Aproveitar a computação de dados de código aberto para substituir os sistemas centralizados tradicionais é um bom primeiro passo. Em última análise, a implementação de uma plataforma de computação num protocolo distribuído como a rede Filecoin pode configurar livremente os recursos de computação de acordo com as necessidades individuais dos utilizadores, o que é crucial na era do big data e da inteligência artificial.