Escrito por: Jay : : FP Compilado por: Deep Tide TechFlow
O lançamento do white paper do Bitcoin em 2008 provocou um repensar do conceito de confiança. Blockchain então expandiu sua definição para incluir a noção de um sistema sem confiança e evoluiu rapidamente para argumentar que diferentes tipos de valor, como soberania individual, democratização financeira e propriedade, poderiam ser aplicados a sistemas existentes. Obviamente, muita validação e discussão podem ser necessárias antes que o blockchain possa ser usado na prática, pois suas características podem parecer um tanto radicais em comparação com vários sistemas existentes. No entanto, se estivermos otimistas com esses cenários, construir pipelines de dados e analisar as informações valiosas contidas no armazenamento de blockchain tem o potencial de se tornar outro importante ponto de virada no desenvolvimento da indústria, porque podemos observar a Web3 que nunca existiu antes. inteligência.
Este documento explora o potencial de pipelines de dados nativos da Web3 projetando pipelines de dados comumente usados em mercados de TI existentes em um ambiente Web3. O artigo discute os benefícios desses dutos, os desafios que precisam ser enfrentados e o impacto desses dutos na indústria.
1. A singularidade vem da inovação da informação
"A linguagem é uma das diferenças mais importantes entre humanos e animais inferiores. Não é apenas a capacidade de emitir sons, mas de associar sons distintos com pensamentos distintos e usar esses sons como símbolos para a comunicação de ideias."
—Darwin
Historicamente, grandes avanços na civilização humana foram acompanhados por inovações no compartilhamento de informações. Nossos ancestrais usavam a linguagem, falada e escrita, para se comunicar uns com os outros e transmitir conhecimento às gerações futuras. Isso lhes dá uma grande vantagem sobre outras espécies. A invenção da escrita, do papel e da impressão possibilitou o compartilhamento mais amplo de informações, o que levou a grandes avanços na ciência, tecnologia e cultura. A impressão de tipos móveis de metal da Bíblia de Gutenberg, em particular, foi um divisor de águas, pois possibilitou a produção em massa de livros e outros materiais impressos. Isso teve um impacto profundo nos primórdios da Reforma, da Revolução Democrática e do progresso científico.
O rápido desenvolvimento da tecnologia de TI nos anos 2000 nos permitiu obter uma compreensão mais profunda do comportamento humano. Isso levou a uma mudança no estilo de vida, onde a maioria das pessoas nos tempos modernos toma várias decisões com base em informações digitais. É por esta razão que nos referimos à sociedade moderna como a "era da inovação de TI".
Apenas 20 anos após a comercialização total da Internet, a tecnologia de inteligência artificial mais uma vez surpreendeu o mundo. Existem muitos aplicativos que podem substituir o trabalho humano e muitas pessoas estão discutindo a civilização que a IA mudará. Alguns até negam, imaginando como tal tecnologia pode surgir tão rapidamente a ponto de abalar os alicerces de nossa sociedade. Embora a "Lei de Moore" afirme que o desempenho dos semicondutores aumenta exponencialmente com o tempo, as mudanças provocadas pelo advento dos GPTs são repentinas demais para serem confrontadas imediatamente.
Curiosamente, no entanto, o modelo GPT em si não é realmente uma arquitetura inovadora. Por outro lado, a indústria de IA listará os seguintes como principais fatores de sucesso para os modelos GPT: 1) Definir domínios de negócios que podem atingir grandes grupos de clientes e 2) Ajuste do modelo por meio de pipelines de dados - da aquisição de dados aos resultados finais e feedback baseado em resultados de. Em suma, esses aplicativos permitem a inovação, refinando os propósitos de entrega de serviços e atualizando os processos de processamento de dados/informações.
2. As decisões baseadas em dados estão em toda parte
A maior parte do que chamamos de inovação é, na verdade, baseada na manipulação de dados acumulados, não no acaso ou na intuição. Como diz o ditado, "No mercado capitalista, não são os fortes que sobrevivem, mas os sobreviventes que são fortes". As empresas de hoje são altamente competitivas e o mercado está saturado. Portanto, as empresas estão coletando e analisando todos os tipos de dados para conquistar até mesmo o menor nicho.
Podemos estar muito obcecados com a teoria da "destruição criativa" de Schumpeter e com muita ênfase na tomada de decisões com base na intuição. No entanto, mesmo uma grande intuição é, em última análise, o produto dos dados e informações acumulados por um indivíduo. O mundo digital penetrará mais profundamente em nossas vidas no futuro, e cada vez mais informações confidenciais serão apresentadas na forma de dados digitais.
O mercado Web3 está recebendo muita atenção por seu potencial de dar aos usuários controle sobre seus dados. No entanto, o campo blockchain, que é a tecnologia básica da Web3, atualmente está mais preocupado em resolver o trilema (Deep Tide Note: Triangular Dilemma, ou seja, questões de segurança, descentralização e escalabilidade). Para que as novas tecnologias sejam convincentes no mundo real, é importante desenvolver aplicativos e inteligência que possam ser usados de várias maneiras. Vimos isso acontecer no espaço de Big Data, e as metodologias para criar processamento de Big Data e pipelines de dados avançaram significativamente desde 2010. No contexto da Web3, esforços devem ser feitos para levar a indústria adiante e construir sistemas de fluxo de dados para gerar inteligência baseada em dados.
3. Oportunidades baseadas no fluxo de dados na cadeia
Então, quais oportunidades podemos capturar de sistemas de streaming nativos da Web3 e quais desafios precisamos enfrentar para aproveitar essas oportunidades?
3.1 Vantagens
Resumindo, o valor da configuração de fluxos de dados nativos da Web3 é que dados confiáveis podem ser distribuídos com segurança e eficiência para várias entidades, para que informações valiosas possam ser extraídas.
Redundância de dados - é menos provável que os dados na cadeia sejam perdidos e mais resilientes porque a rede de protocolo armazena fragmentos de dados em vários nós.
Segurança de dados - Os dados na cadeia são invioláveis, pois são verificados e consensualizados por uma rede de nós descentralizados.
Soberania de dados - Soberania de dados é o direito dos usuários de possuir e controlar seus próprios dados. Com o streaming de dados on-chain, os usuários podem ver como seus dados estão sendo usados e optar por compartilhá-los apenas com aqueles que têm uma necessidade legítima de acessá-los.
Sem permissão e transparente - os dados on-chain são transparentes e invioláveis. Isso garante que os dados que estão sendo processados também sejam uma fonte confiável de informações.
Operação estável - Quando os fluxos de dados são orquestrados por protocolos em um ambiente distribuído, cada camada é significativamente menos exposta ao tempo de inatividade, pois não há um único ponto de falha.
3.2 Casos de aplicação
A confiança é a base para que diferentes entidades interajam entre si e tomem decisões. Portanto, quando dados confiáveis podem ser distribuídos com segurança, significa que muitas interações e decisões podem ser feitas por meio de serviços Web3 nos quais várias entidades participam. Isso ajuda a maximizar o capital social e podemos imaginar vários casos de uso abaixo.
3.2.1 Aplicação de serviço/protocolo
Sistema de decisão automatizado baseado em regras - Os protocolos usam parâmetros-chave para executar serviços. Esses parâmetros são ajustados regularmente para estabilizar o status do serviço e fornecer aos usuários a melhor experiência. No entanto, o protocolo nem sempre pode monitorar o status do serviço e fazer alterações dinâmicas nos parâmetros em tempo hábil. Isso é o que o fluxo de dados on-chain faz. Os fluxos de dados na cadeia podem ser usados para analisar o status do serviço em tempo real e sugerir o melhor conjunto de parâmetros para atender aos requisitos do serviço (por exemplo, aplicar um mecanismo automático de taxa flutuante para protocolos de empréstimo).
Crescimento do mercado de crédito - O crédito tem sido tradicionalmente usado nos mercados financeiros como uma medida da capacidade de pagamento de um indivíduo. Isso ajuda a melhorar a eficiência do mercado. No entanto, a definição de crédito permanece obscura no mercado Web3. Isso se deve à escassez de dados pessoais e à falta de governança de dados em todos os setores. Portanto, torna-se difícil integrar e coletar informações. Ao construir um processo de coleta e processamento de dados fragmentados on-chain, é possível redefinir o mercado de crédito no mercado Web3 (por exemplo, pontuação MACRO (oráculo de risco de crédito multiativos) da Spectral).
Extensões sociais/NFT descentralizadas - As sociedades descentralizadas priorizam o controle do usuário, a proteção da privacidade, a resistência à censura e a governança da comunidade. Isso fornece um paradigma social alternativo. Portanto, um pipeline pode ser estabelecido para controlar e atualizar vários metadados com mais facilidade e facilitar a migração entre plataformas.
Detecção de Fraude - Os serviços Web3 que usam contratos inteligentes são vulneráveis a ataques mal-intencionados que podem roubar fundos, comprometer sistemas e levar a ataques de dissociação e liquidez. Ao criar um sistema que pode detectar esses ataques com antecedência, os serviços Web3 podem desenvolver planos de resposta rápida e proteger os usuários contra danos.
3.2.2 Iniciativas de cooperação e governança
DAOs totalmente on-chain - Organizações Autônomas Descentralizadas (DAOs) dependem fortemente de ferramentas off-chain para governança eficiente e financiamento público. Ao construir um processo de processamento de dados on-chain e criar um processo transparente para operações DAO, o valor do DAO nativo do Web3 pode ser ainda mais aprimorado.
Aliviando a fadiga da governança - As decisões do protocolo Web3 geralmente são feitas por meio da governança da comunidade. No entanto, existem muitos fatores que podem dificultar a participação dos participantes na governança, como barreiras geográficas, pressão de monitoramento, falta de experiência necessária para governança, agenda de governança publicada aleatoriamente e experiência do usuário inconveniente. As estruturas de governança de protocolo podem operar com mais eficiência e eficácia se for possível criar uma ferramenta que simplifique o processo para que os participantes passem da compreensão à implementação de itens individuais da agenda de governança.
Plataformas de Dados Abertos para Trabalhos Colaborativos – Nos círculos acadêmicos e industriais existentes, muitos dados e materiais de pesquisa não são divulgados publicamente, o que pode tornar o desenvolvimento geral do mercado muito ineficiente. Por outro lado, os pools de dados on-chain podem facilitar iniciativas mais colaborativas do que os mercados existentes porque são transparentes e acessíveis a qualquer pessoa. O desenvolvimento de muitos padrões de token e soluções DeFi são bons exemplos. Além disso, podemos operar conjuntos de dados públicos para diversos fins.
3.2.3 Diagnóstico de rede
Index Research - Vários indicadores são criados por usuários do Web3 para analisar e comparar o estado do protocolo. Múltiplas métricas objetivas (por exemplo, coeficiente Satoshi de Nakaflow) podem ser estudadas e exibidas em tempo real.
Métricas de protocolo - analisando dados como número de endereços ativos, número de transações, entrada/saída de ativos e taxas incorridas pela rede, o desempenho do protocolo pode ser analisado. Essas informações podem ser usadas para avaliar o impacto de atualizações de protocolo específicas, o status dos MEVs e a integridade da rede.
3.3 Desafios
Os dados na cadeia têm vantagens únicas que podem aumentar o valor da indústria. No entanto, para obter plenamente esses benefícios, muitos desafios devem ser enfrentados dentro e fora da indústria.
Falta de governança de dados - Governança de dados é o processo de estabelecer políticas e padrões de dados consistentes e compartilhados para facilitar a integração de cada primitivo de dados. Atualmente, cada protocolo on-chain estabelece seus próprios padrões e recupera seus próprios tipos de dados. O problema, no entanto, é a falta de governança de dados entre as entidades que agregam esses dados de protocolo e fornecem serviços de API aos usuários. Isso dificulta a integração entre os serviços e, como resultado, é difícil para os usuários obter insights confiáveis e abrangentes.
Ineficiência de custo - O armazenamento de dados frios no protocolo economiza a segurança dos dados dos usuários e os custos do servidor. No entanto, se os dados precisarem ser acessados com frequência para análise ou exigirem recursos de computação significativos, pode não ser econômico armazená-los no blockchain.
O problema do oráculo - Os contratos inteligentes só funcionam plenamente quando têm acesso a dados do mundo real. No entanto, esses dados nem sempre são confiáveis ou consistentes. Ao contrário das blockchains, que mantêm a integridade por meio de algoritmos de consenso, os dados externos não são determinísticos. As soluções Oracle devem evoluir para garantir a integridade, qualidade e escalabilidade dos dados externos, independentemente de uma camada de aplicativo específica.
O protocolo está em sua infância - o protocolo usa seu próprio token para incentivar os usuários a manter o serviço em execução e pagar por ele. No entanto, os parâmetros necessários para operar o protocolo (por exemplo, a definição precisa e o esquema de incentivos dos usuários do serviço) são frequentemente gerenciados de forma ingênua. Isso significa que a sustentabilidade econômica do protocolo é difícil de verificar. Se muitos protocolos se conectarem organicamente e criarem pipelines de dados, haverá maior incerteza sobre se os pipelines funcionarão bem.
Tempo lento de recuperação de dados - Os protocolos geralmente processam transações por meio do consenso de muitos nós, o que limita a velocidade e o volume do processamento de informações em comparação com a lógica de negócios de TI tradicional. Esse gargalo é difícil de resolver, a menos que o desempenho de todos os protocolos que compõem o pipeline seja significativamente melhorado.
O verdadeiro valor dos dados da Web3 - Blockchains são sistemas isolados que ainda não estão conectados ao mundo real. Ao coletar dados do Web3, precisamos considerar se os dados coletados podem fornecer insights significativos o suficiente para cobrir o custo de construção do pipeline de dados.
Sintaxe desconhecida - A infraestrutura de dados de TI existente e a infraestrutura de blockchain operam de maneira muito diferente. Até mesmo a linguagem de programação usada é diferente, e a infraestrutura de blockchain geralmente usa linguagens de baixo nível ou novas linguagens projetadas especificamente para as necessidades de blockchain. Isso dificulta que novos desenvolvedores e usuários do serviço aprendam a lidar com cada primitiva de dados, pois precisam aprender uma nova linguagem de programação ou uma nova forma de pensar sobre como trabalhar com dados blockchain.
4. Lego de dados Web3 em pipeline
Não há conexões entre as primitivas de dados Web3 atuais, elas extraem e processam dados independentemente. Isso dificulta a experimentação de sinergias no processamento de informações. Para resolver esse problema, este artigo apresenta um pipeline de dados comumente usado no mercado de TI e mapeia primitivas de dados Web3 existentes nesse pipeline. Isso tornará o caso de uso mais específico.
4.1 Pipeline de Dados Gerais
Construir um pipeline de dados é como o processo de conceituar e automatizar processos repetitivos de tomada de decisão na vida cotidiana. Ao fazer isso, informações de uma qualidade específica estão prontamente disponíveis e usadas para a tomada de decisões. Quanto mais dados não estruturados para processar, quanto mais frequentemente a informação for usada ou quanto mais análise em tempo real for necessária, o tempo e o custo de obter a proatividade necessária para decisões futuras podem ser economizados pela automatização desses processos.
O diagrama acima mostra uma arquitetura comum para construir pipelines de dados no mercado de infraestrutura de TI existente. Os dados adequados para fins analíticos são coletados da fonte de dados correta e armazenados em uma solução de armazenamento apropriada de acordo com a natureza dos dados e os requisitos analíticos. Por exemplo, os data lakes fornecem soluções de armazenamento de dados brutos para análises escaláveis e flexíveis, enquanto os data warehouses se concentram no armazenamento de dados estruturados para consultas e análises otimizadas para lógica de negócios específica. Os dados são então processados em insights ou informações úteis de várias maneiras.
Cada nível de solução também está disponível como um pacote de serviços. Também há um interesse crescente em grupos de produtos SaaS ETL (Extrair, Transformar, Carregar) que conectam a cadeia de processos desde a extração de dados até o carregamento (por exemplo, FiveTran, Panoply, Hivo, Rivery). A sequência nem sempre é unidirecional, e as camadas podem ser conectadas entre si de diversas formas, dependendo das necessidades específicas da organização. A coisa mais importante ao criar um pipeline de dados é minimizar o risco de perda de dados que pode ocorrer conforme os dados são enviados e recebidos para cada camada de servidor. Isso pode ser alcançado otimizando a dissociação de servidores e usando soluções confiáveis de armazenamento e processamento de dados.
4.2 Pipeline com ambiente on-chain
O diagrama conceitual do pipeline de dados apresentado anteriormente pode ser aplicado ao ambiente on-chain, conforme mostrado na figura acima, mas deve-se observar que um pipeline completamente descentralizado não pode ser formado, porque cada componente básico depende em alguma medida do Solução centralizada off-chain. Além disso, a figura acima não inclui atualmente todas as soluções Web3 e os limites de classificação podem ser confusos - por exemplo, KYVE, além de servir como uma plataforma de streaming de mídia, também inclui a função de um data lake, que pode ser considerado como um pipeline de dados em si. Além disso, o Space and Time é classificado como um banco de dados descentralizado, mas oferece serviços de gateway de API, como RestAPI e streaming, além de serviços ETL.
4.2.1 Captura/Processo
Para que usuários comuns ou dApps possam consumir/operar serviços com eficiência, eles precisam ser capazes de identificar e acessar facilmente fontes de dados, como transações, estado e eventos de log que são gerados principalmente dentro do protocolo. Essa camada é onde um middleware entra em ação, ajudando em processos como oráculos, mensagens, autenticação e gerenciamento de API. As principais soluções são as seguintes.
Plataforma de streaming/indexação
Bitquery, Ceramic, KYVE, Lens, Streamr Network, The Graph, exploradores de blocos de vários protocolos, etc.
Node-as-a-Service e outros serviços RPC/API
Alchemy、All that Node、Infura、Pocket Network、Quicknode等。
Oráculo
API3, Band Protocol, Chainlink, Nest Protocol, Pyth, Supra oráculos, etc.
4.2.2 Armazenamento
Em comparação com as soluções de armazenamento Web2, as soluções de armazenamento Web3 têm várias vantagens, como persistência e descentralização. Porém, também apresentam algumas desvantagens, como alto custo, dificuldade na atualização e consulta dos dados. Como resultado, várias soluções surgiram para suprir essas deficiências e permitir o processamento eficiente de dados estruturados e dinâmicos na Web3 - cada uma com características diferentes, como o tipo de dado processado, se é estruturado e se é Com função de consulta incorporada e assim sobre.
Rede de armazenamento descentralizada
Arweave、Filecoin、KYVE、Sia、Storj etc.
banco de dados descentralizado
Bancos de dados baseados em Arweave (Glacier, HollowDB, Kwil, WeaveDB), ComposeDB, OrbitDB, Polybase, Space and Time, Tableland, etc.
*Cada protocolo possui um mecanismo de armazenamento persistente diferente. Por exemplo, Arweave é um modelo baseado em blockchain, semelhante ao armazenamento Ethereum, armazenando dados permanentemente na cadeia, enquanto Filecoin, Sia e Storj são modelos baseados em contrato, armazenando dados fora da cadeia.
4.2.3 Conversão
No contexto da Web3, a camada de tradução é tão importante quanto a camada de armazenamento. Isso ocorre porque a estrutura do blockchain consiste basicamente em uma coleção distribuída de nós, o que facilita o uso da lógica de back-end escalável. Na indústria de IA, as pessoas estão explorando ativamente o uso dessas vantagens para pesquisas no campo do aprendizado federado, e surgiram protocolos dedicados ao aprendizado de máquina e operações de IA.
Treinamento/Modelagem/Computação de Dados
Akash、Bacalhau、Bitensor、Gensyn、Golem、Together 等。
*O aprendizado federal é um método para treinar modelos de inteligência artificial, distribuindo o modelo original em vários clientes nativos, usando dados armazenados para treiná-lo e, em seguida, coletando os parâmetros aprendidos em um servidor central.
4.2.4 Análise/Uso
Os serviços de painel e insights do usuário final e soluções analíticas listados abaixo são plataformas que permitem aos usuários observar e descobrir vários insights de protocolos específicos. Algumas dessas soluções também fornecem serviços de API para o produto final. No entanto, é importante observar que os dados nessas soluções nem sempre são precisos, pois geralmente usam ferramentas separadas fora da cadeia para armazenar e processar os dados. Erros entre as soluções também podem ser observados.
Ao mesmo tempo, existe uma plataforma chamada "Web3 Functions" que pode automaticamente/acionar a execução de contratos inteligentes, assim como plataformas centralizadas como o Google Cloud acionam/executam lógica de negócios específica. Usando essa plataforma, os usuários podem implementar a lógica de negócios de maneira nativa da Web3, em vez de apenas processar dados na cadeia para obter insights.
Chainalaysis, Glassnode, Messari, Nansen, The Tie, Token Terminal etc.
Funções Web3
Funções da Chainlink, Rede Gelato, etc.
5. Considerações Finais
Como disse Kant, só podemos testemunhar a aparência das coisas, mas não sua essência. Ainda assim, usamos registros de observações conhecidos como "dados" para processar informações e conhecimentos e vemos como as inovações na tecnologia da informação impulsionam o desenvolvimento da civilização. Portanto, construir um pipeline de dados no mercado Web3, além de ser descentralizado, pode desempenhar um papel fundamental como ponto de partida para realmente capturar essas oportunidades. Gostaria de concluir este artigo com algumas reflexões.
5.1 O papel das soluções de armazenamento se tornará mais importante
O pré-requisito mais importante para ter um pipeline de dados é estabelecer a governança de dados e API. Em um ecossistema cada vez mais diversificado, as especificações criadas por cada protocolo continuarão a ser recriadas, e os registros de transações fragmentados por meio de ecossistemas multicadeias tornarão mais difícil para os indivíduos obter insights abrangentes. Então, "soluções de armazenamento" são entidades que podem fornecer dados integrados em um formato unificado, coletando informações fragmentadas e atualizando as especificações de cada protocolo. Observamos que as soluções de armazenamento existentes no mercado, como Snowflake e Databricks, estão crescendo rapidamente, têm grandes bases de clientes, são verticalmente integradas operando em vários níveis no pipeline e lideram o setor.
5.2 Oportunidades no Mercado de Fontes de Dados
Casos de uso bem-sucedidos começaram a surgir quando os dados se tornaram mais acessíveis e o processamento melhorou. Isso cria um efeito circular positivo onde fontes de dados e ferramentas de coleta explodem – desde 2010, os tipos e volumes de dados digitais coletados a cada ano cresceram exponencialmente desde 2010, graças a enormes avanços na tecnologia para construir pipelines de dados. Aplicando esse histórico ao mercado Web3, muitas fontes de dados podem ser geradas recursivamente na cadeia no futuro. Isso também significa que o blockchain se expandirá em vários campos de negócios. Neste ponto, podemos esperar que a aquisição de dados avance por meio de mercados de dados como Ocean Protocol ou soluções DeWi (sem fio descentralizada), como Helium e XNET, bem como soluções de armazenamento.
5.3 O que importa são dados e análises significativos
No entanto, o mais importante é continuar se perguntando quais dados devem ser preparados para extrair os insights realmente necessários. Não há nada mais desperdiçador do que construir um pipeline de dados apenas para construir um pipeline de dados sem suposições explícitas para validar. Os mercados existentes alcançaram inúmeras inovações por meio da construção de pipelines de dados, mas também pagaram um preço incontável por meio de repetidas falhas inúteis. Também é bom ter discussões construtivas sobre o desenvolvimento da pilha de tecnologia, mas o setor precisa de tempo para pensar e discutir questões mais fundamentais, como quais dados devem ser armazenados no espaço do bloco ou para qual finalidade os dados devem ser usados . O "objetivo" deve ser perceber o valor do Web3 por meio de inteligência acionável e casos de uso e, nesse processo, o desenvolvimento de vários componentes básicos e a conclusão do pipeline são os "meios" para atingir esse objetivo.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Explique em detalhes o significado, os desafios e o impacto na indústria do pipeline de dados nativos Web3
Escrito por: Jay : : FP Compilado por: Deep Tide TechFlow
O lançamento do white paper do Bitcoin em 2008 provocou um repensar do conceito de confiança. Blockchain então expandiu sua definição para incluir a noção de um sistema sem confiança e evoluiu rapidamente para argumentar que diferentes tipos de valor, como soberania individual, democratização financeira e propriedade, poderiam ser aplicados a sistemas existentes. Obviamente, muita validação e discussão podem ser necessárias antes que o blockchain possa ser usado na prática, pois suas características podem parecer um tanto radicais em comparação com vários sistemas existentes. No entanto, se estivermos otimistas com esses cenários, construir pipelines de dados e analisar as informações valiosas contidas no armazenamento de blockchain tem o potencial de se tornar outro importante ponto de virada no desenvolvimento da indústria, porque podemos observar a Web3 que nunca existiu antes. inteligência.
Este documento explora o potencial de pipelines de dados nativos da Web3 projetando pipelines de dados comumente usados em mercados de TI existentes em um ambiente Web3. O artigo discute os benefícios desses dutos, os desafios que precisam ser enfrentados e o impacto desses dutos na indústria.
1. A singularidade vem da inovação da informação
"A linguagem é uma das diferenças mais importantes entre humanos e animais inferiores. Não é apenas a capacidade de emitir sons, mas de associar sons distintos com pensamentos distintos e usar esses sons como símbolos para a comunicação de ideias."
—Darwin
Historicamente, grandes avanços na civilização humana foram acompanhados por inovações no compartilhamento de informações. Nossos ancestrais usavam a linguagem, falada e escrita, para se comunicar uns com os outros e transmitir conhecimento às gerações futuras. Isso lhes dá uma grande vantagem sobre outras espécies. A invenção da escrita, do papel e da impressão possibilitou o compartilhamento mais amplo de informações, o que levou a grandes avanços na ciência, tecnologia e cultura. A impressão de tipos móveis de metal da Bíblia de Gutenberg, em particular, foi um divisor de águas, pois possibilitou a produção em massa de livros e outros materiais impressos. Isso teve um impacto profundo nos primórdios da Reforma, da Revolução Democrática e do progresso científico.
O rápido desenvolvimento da tecnologia de TI nos anos 2000 nos permitiu obter uma compreensão mais profunda do comportamento humano. Isso levou a uma mudança no estilo de vida, onde a maioria das pessoas nos tempos modernos toma várias decisões com base em informações digitais. É por esta razão que nos referimos à sociedade moderna como a "era da inovação de TI".
Apenas 20 anos após a comercialização total da Internet, a tecnologia de inteligência artificial mais uma vez surpreendeu o mundo. Existem muitos aplicativos que podem substituir o trabalho humano e muitas pessoas estão discutindo a civilização que a IA mudará. Alguns até negam, imaginando como tal tecnologia pode surgir tão rapidamente a ponto de abalar os alicerces de nossa sociedade. Embora a "Lei de Moore" afirme que o desempenho dos semicondutores aumenta exponencialmente com o tempo, as mudanças provocadas pelo advento dos GPTs são repentinas demais para serem confrontadas imediatamente.
Curiosamente, no entanto, o modelo GPT em si não é realmente uma arquitetura inovadora. Por outro lado, a indústria de IA listará os seguintes como principais fatores de sucesso para os modelos GPT: 1) Definir domínios de negócios que podem atingir grandes grupos de clientes e 2) Ajuste do modelo por meio de pipelines de dados - da aquisição de dados aos resultados finais e feedback baseado em resultados de. Em suma, esses aplicativos permitem a inovação, refinando os propósitos de entrega de serviços e atualizando os processos de processamento de dados/informações.
2. As decisões baseadas em dados estão em toda parte
A maior parte do que chamamos de inovação é, na verdade, baseada na manipulação de dados acumulados, não no acaso ou na intuição. Como diz o ditado, "No mercado capitalista, não são os fortes que sobrevivem, mas os sobreviventes que são fortes". As empresas de hoje são altamente competitivas e o mercado está saturado. Portanto, as empresas estão coletando e analisando todos os tipos de dados para conquistar até mesmo o menor nicho.
Podemos estar muito obcecados com a teoria da "destruição criativa" de Schumpeter e com muita ênfase na tomada de decisões com base na intuição. No entanto, mesmo uma grande intuição é, em última análise, o produto dos dados e informações acumulados por um indivíduo. O mundo digital penetrará mais profundamente em nossas vidas no futuro, e cada vez mais informações confidenciais serão apresentadas na forma de dados digitais.
O mercado Web3 está recebendo muita atenção por seu potencial de dar aos usuários controle sobre seus dados. No entanto, o campo blockchain, que é a tecnologia básica da Web3, atualmente está mais preocupado em resolver o trilema (Deep Tide Note: Triangular Dilemma, ou seja, questões de segurança, descentralização e escalabilidade). Para que as novas tecnologias sejam convincentes no mundo real, é importante desenvolver aplicativos e inteligência que possam ser usados de várias maneiras. Vimos isso acontecer no espaço de Big Data, e as metodologias para criar processamento de Big Data e pipelines de dados avançaram significativamente desde 2010. No contexto da Web3, esforços devem ser feitos para levar a indústria adiante e construir sistemas de fluxo de dados para gerar inteligência baseada em dados.
3. Oportunidades baseadas no fluxo de dados na cadeia
Então, quais oportunidades podemos capturar de sistemas de streaming nativos da Web3 e quais desafios precisamos enfrentar para aproveitar essas oportunidades?
3.1 Vantagens
Resumindo, o valor da configuração de fluxos de dados nativos da Web3 é que dados confiáveis podem ser distribuídos com segurança e eficiência para várias entidades, para que informações valiosas possam ser extraídas.
Redundância de dados - é menos provável que os dados na cadeia sejam perdidos e mais resilientes porque a rede de protocolo armazena fragmentos de dados em vários nós.
Segurança de dados - Os dados na cadeia são invioláveis, pois são verificados e consensualizados por uma rede de nós descentralizados.
Soberania de dados - Soberania de dados é o direito dos usuários de possuir e controlar seus próprios dados. Com o streaming de dados on-chain, os usuários podem ver como seus dados estão sendo usados e optar por compartilhá-los apenas com aqueles que têm uma necessidade legítima de acessá-los.
Sem permissão e transparente - os dados on-chain são transparentes e invioláveis. Isso garante que os dados que estão sendo processados também sejam uma fonte confiável de informações.
Operação estável - Quando os fluxos de dados são orquestrados por protocolos em um ambiente distribuído, cada camada é significativamente menos exposta ao tempo de inatividade, pois não há um único ponto de falha.
3.2 Casos de aplicação
A confiança é a base para que diferentes entidades interajam entre si e tomem decisões. Portanto, quando dados confiáveis podem ser distribuídos com segurança, significa que muitas interações e decisões podem ser feitas por meio de serviços Web3 nos quais várias entidades participam. Isso ajuda a maximizar o capital social e podemos imaginar vários casos de uso abaixo.
3.2.1 Aplicação de serviço/protocolo
Sistema de decisão automatizado baseado em regras - Os protocolos usam parâmetros-chave para executar serviços. Esses parâmetros são ajustados regularmente para estabilizar o status do serviço e fornecer aos usuários a melhor experiência. No entanto, o protocolo nem sempre pode monitorar o status do serviço e fazer alterações dinâmicas nos parâmetros em tempo hábil. Isso é o que o fluxo de dados on-chain faz. Os fluxos de dados na cadeia podem ser usados para analisar o status do serviço em tempo real e sugerir o melhor conjunto de parâmetros para atender aos requisitos do serviço (por exemplo, aplicar um mecanismo automático de taxa flutuante para protocolos de empréstimo).
Crescimento do mercado de crédito - O crédito tem sido tradicionalmente usado nos mercados financeiros como uma medida da capacidade de pagamento de um indivíduo. Isso ajuda a melhorar a eficiência do mercado. No entanto, a definição de crédito permanece obscura no mercado Web3. Isso se deve à escassez de dados pessoais e à falta de governança de dados em todos os setores. Portanto, torna-se difícil integrar e coletar informações. Ao construir um processo de coleta e processamento de dados fragmentados on-chain, é possível redefinir o mercado de crédito no mercado Web3 (por exemplo, pontuação MACRO (oráculo de risco de crédito multiativos) da Spectral).
Extensões sociais/NFT descentralizadas - As sociedades descentralizadas priorizam o controle do usuário, a proteção da privacidade, a resistência à censura e a governança da comunidade. Isso fornece um paradigma social alternativo. Portanto, um pipeline pode ser estabelecido para controlar e atualizar vários metadados com mais facilidade e facilitar a migração entre plataformas.
Detecção de Fraude - Os serviços Web3 que usam contratos inteligentes são vulneráveis a ataques mal-intencionados que podem roubar fundos, comprometer sistemas e levar a ataques de dissociação e liquidez. Ao criar um sistema que pode detectar esses ataques com antecedência, os serviços Web3 podem desenvolver planos de resposta rápida e proteger os usuários contra danos.
3.2.2 Iniciativas de cooperação e governança
DAOs totalmente on-chain - Organizações Autônomas Descentralizadas (DAOs) dependem fortemente de ferramentas off-chain para governança eficiente e financiamento público. Ao construir um processo de processamento de dados on-chain e criar um processo transparente para operações DAO, o valor do DAO nativo do Web3 pode ser ainda mais aprimorado.
Aliviando a fadiga da governança - As decisões do protocolo Web3 geralmente são feitas por meio da governança da comunidade. No entanto, existem muitos fatores que podem dificultar a participação dos participantes na governança, como barreiras geográficas, pressão de monitoramento, falta de experiência necessária para governança, agenda de governança publicada aleatoriamente e experiência do usuário inconveniente. As estruturas de governança de protocolo podem operar com mais eficiência e eficácia se for possível criar uma ferramenta que simplifique o processo para que os participantes passem da compreensão à implementação de itens individuais da agenda de governança.
Plataformas de Dados Abertos para Trabalhos Colaborativos – Nos círculos acadêmicos e industriais existentes, muitos dados e materiais de pesquisa não são divulgados publicamente, o que pode tornar o desenvolvimento geral do mercado muito ineficiente. Por outro lado, os pools de dados on-chain podem facilitar iniciativas mais colaborativas do que os mercados existentes porque são transparentes e acessíveis a qualquer pessoa. O desenvolvimento de muitos padrões de token e soluções DeFi são bons exemplos. Além disso, podemos operar conjuntos de dados públicos para diversos fins.
3.2.3 Diagnóstico de rede
Index Research - Vários indicadores são criados por usuários do Web3 para analisar e comparar o estado do protocolo. Múltiplas métricas objetivas (por exemplo, coeficiente Satoshi de Nakaflow) podem ser estudadas e exibidas em tempo real.
Métricas de protocolo - analisando dados como número de endereços ativos, número de transações, entrada/saída de ativos e taxas incorridas pela rede, o desempenho do protocolo pode ser analisado. Essas informações podem ser usadas para avaliar o impacto de atualizações de protocolo específicas, o status dos MEVs e a integridade da rede.
3.3 Desafios
Os dados na cadeia têm vantagens únicas que podem aumentar o valor da indústria. No entanto, para obter plenamente esses benefícios, muitos desafios devem ser enfrentados dentro e fora da indústria.
Falta de governança de dados - Governança de dados é o processo de estabelecer políticas e padrões de dados consistentes e compartilhados para facilitar a integração de cada primitivo de dados. Atualmente, cada protocolo on-chain estabelece seus próprios padrões e recupera seus próprios tipos de dados. O problema, no entanto, é a falta de governança de dados entre as entidades que agregam esses dados de protocolo e fornecem serviços de API aos usuários. Isso dificulta a integração entre os serviços e, como resultado, é difícil para os usuários obter insights confiáveis e abrangentes.
Ineficiência de custo - O armazenamento de dados frios no protocolo economiza a segurança dos dados dos usuários e os custos do servidor. No entanto, se os dados precisarem ser acessados com frequência para análise ou exigirem recursos de computação significativos, pode não ser econômico armazená-los no blockchain.
O problema do oráculo - Os contratos inteligentes só funcionam plenamente quando têm acesso a dados do mundo real. No entanto, esses dados nem sempre são confiáveis ou consistentes. Ao contrário das blockchains, que mantêm a integridade por meio de algoritmos de consenso, os dados externos não são determinísticos. As soluções Oracle devem evoluir para garantir a integridade, qualidade e escalabilidade dos dados externos, independentemente de uma camada de aplicativo específica.
O protocolo está em sua infância - o protocolo usa seu próprio token para incentivar os usuários a manter o serviço em execução e pagar por ele. No entanto, os parâmetros necessários para operar o protocolo (por exemplo, a definição precisa e o esquema de incentivos dos usuários do serviço) são frequentemente gerenciados de forma ingênua. Isso significa que a sustentabilidade econômica do protocolo é difícil de verificar. Se muitos protocolos se conectarem organicamente e criarem pipelines de dados, haverá maior incerteza sobre se os pipelines funcionarão bem.
Tempo lento de recuperação de dados - Os protocolos geralmente processam transações por meio do consenso de muitos nós, o que limita a velocidade e o volume do processamento de informações em comparação com a lógica de negócios de TI tradicional. Esse gargalo é difícil de resolver, a menos que o desempenho de todos os protocolos que compõem o pipeline seja significativamente melhorado.
O verdadeiro valor dos dados da Web3 - Blockchains são sistemas isolados que ainda não estão conectados ao mundo real. Ao coletar dados do Web3, precisamos considerar se os dados coletados podem fornecer insights significativos o suficiente para cobrir o custo de construção do pipeline de dados.
Sintaxe desconhecida - A infraestrutura de dados de TI existente e a infraestrutura de blockchain operam de maneira muito diferente. Até mesmo a linguagem de programação usada é diferente, e a infraestrutura de blockchain geralmente usa linguagens de baixo nível ou novas linguagens projetadas especificamente para as necessidades de blockchain. Isso dificulta que novos desenvolvedores e usuários do serviço aprendam a lidar com cada primitiva de dados, pois precisam aprender uma nova linguagem de programação ou uma nova forma de pensar sobre como trabalhar com dados blockchain.
4. Lego de dados Web3 em pipeline
Não há conexões entre as primitivas de dados Web3 atuais, elas extraem e processam dados independentemente. Isso dificulta a experimentação de sinergias no processamento de informações. Para resolver esse problema, este artigo apresenta um pipeline de dados comumente usado no mercado de TI e mapeia primitivas de dados Web3 existentes nesse pipeline. Isso tornará o caso de uso mais específico.
4.1 Pipeline de Dados Gerais
Construir um pipeline de dados é como o processo de conceituar e automatizar processos repetitivos de tomada de decisão na vida cotidiana. Ao fazer isso, informações de uma qualidade específica estão prontamente disponíveis e usadas para a tomada de decisões. Quanto mais dados não estruturados para processar, quanto mais frequentemente a informação for usada ou quanto mais análise em tempo real for necessária, o tempo e o custo de obter a proatividade necessária para decisões futuras podem ser economizados pela automatização desses processos.
O diagrama acima mostra uma arquitetura comum para construir pipelines de dados no mercado de infraestrutura de TI existente. Os dados adequados para fins analíticos são coletados da fonte de dados correta e armazenados em uma solução de armazenamento apropriada de acordo com a natureza dos dados e os requisitos analíticos. Por exemplo, os data lakes fornecem soluções de armazenamento de dados brutos para análises escaláveis e flexíveis, enquanto os data warehouses se concentram no armazenamento de dados estruturados para consultas e análises otimizadas para lógica de negócios específica. Os dados são então processados em insights ou informações úteis de várias maneiras.
Cada nível de solução também está disponível como um pacote de serviços. Também há um interesse crescente em grupos de produtos SaaS ETL (Extrair, Transformar, Carregar) que conectam a cadeia de processos desde a extração de dados até o carregamento (por exemplo, FiveTran, Panoply, Hivo, Rivery). A sequência nem sempre é unidirecional, e as camadas podem ser conectadas entre si de diversas formas, dependendo das necessidades específicas da organização. A coisa mais importante ao criar um pipeline de dados é minimizar o risco de perda de dados que pode ocorrer conforme os dados são enviados e recebidos para cada camada de servidor. Isso pode ser alcançado otimizando a dissociação de servidores e usando soluções confiáveis de armazenamento e processamento de dados.
4.2 Pipeline com ambiente on-chain
O diagrama conceitual do pipeline de dados apresentado anteriormente pode ser aplicado ao ambiente on-chain, conforme mostrado na figura acima, mas deve-se observar que um pipeline completamente descentralizado não pode ser formado, porque cada componente básico depende em alguma medida do Solução centralizada off-chain. Além disso, a figura acima não inclui atualmente todas as soluções Web3 e os limites de classificação podem ser confusos - por exemplo, KYVE, além de servir como uma plataforma de streaming de mídia, também inclui a função de um data lake, que pode ser considerado como um pipeline de dados em si. Além disso, o Space and Time é classificado como um banco de dados descentralizado, mas oferece serviços de gateway de API, como RestAPI e streaming, além de serviços ETL.
4.2.1 Captura/Processo
Para que usuários comuns ou dApps possam consumir/operar serviços com eficiência, eles precisam ser capazes de identificar e acessar facilmente fontes de dados, como transações, estado e eventos de log que são gerados principalmente dentro do protocolo. Essa camada é onde um middleware entra em ação, ajudando em processos como oráculos, mensagens, autenticação e gerenciamento de API. As principais soluções são as seguintes.
Plataforma de streaming/indexação
Bitquery, Ceramic, KYVE, Lens, Streamr Network, The Graph, exploradores de blocos de vários protocolos, etc.
Node-as-a-Service e outros serviços RPC/API
Alchemy、All that Node、Infura、Pocket Network、Quicknode等。
Oráculo
API3, Band Protocol, Chainlink, Nest Protocol, Pyth, Supra oráculos, etc.
4.2.2 Armazenamento
Em comparação com as soluções de armazenamento Web2, as soluções de armazenamento Web3 têm várias vantagens, como persistência e descentralização. Porém, também apresentam algumas desvantagens, como alto custo, dificuldade na atualização e consulta dos dados. Como resultado, várias soluções surgiram para suprir essas deficiências e permitir o processamento eficiente de dados estruturados e dinâmicos na Web3 - cada uma com características diferentes, como o tipo de dado processado, se é estruturado e se é Com função de consulta incorporada e assim sobre.
Rede de armazenamento descentralizada
Arweave、Filecoin、KYVE、Sia、Storj etc.
banco de dados descentralizado
Bancos de dados baseados em Arweave (Glacier, HollowDB, Kwil, WeaveDB), ComposeDB, OrbitDB, Polybase, Space and Time, Tableland, etc.
*Cada protocolo possui um mecanismo de armazenamento persistente diferente. Por exemplo, Arweave é um modelo baseado em blockchain, semelhante ao armazenamento Ethereum, armazenando dados permanentemente na cadeia, enquanto Filecoin, Sia e Storj são modelos baseados em contrato, armazenando dados fora da cadeia.
4.2.3 Conversão
No contexto da Web3, a camada de tradução é tão importante quanto a camada de armazenamento. Isso ocorre porque a estrutura do blockchain consiste basicamente em uma coleção distribuída de nós, o que facilita o uso da lógica de back-end escalável. Na indústria de IA, as pessoas estão explorando ativamente o uso dessas vantagens para pesquisas no campo do aprendizado federado, e surgiram protocolos dedicados ao aprendizado de máquina e operações de IA.
Treinamento/Modelagem/Computação de Dados
Akash、Bacalhau、Bitensor、Gensyn、Golem、Together 等。
*O aprendizado federal é um método para treinar modelos de inteligência artificial, distribuindo o modelo original em vários clientes nativos, usando dados armazenados para treiná-lo e, em seguida, coletando os parâmetros aprendidos em um servidor central.
4.2.4 Análise/Uso
Os serviços de painel e insights do usuário final e soluções analíticas listados abaixo são plataformas que permitem aos usuários observar e descobrir vários insights de protocolos específicos. Algumas dessas soluções também fornecem serviços de API para o produto final. No entanto, é importante observar que os dados nessas soluções nem sempre são precisos, pois geralmente usam ferramentas separadas fora da cadeia para armazenar e processar os dados. Erros entre as soluções também podem ser observados.
Ao mesmo tempo, existe uma plataforma chamada "Web3 Functions" que pode automaticamente/acionar a execução de contratos inteligentes, assim como plataformas centralizadas como o Google Cloud acionam/executam lógica de negócios específica. Usando essa plataforma, os usuários podem implementar a lógica de negócios de maneira nativa da Web3, em vez de apenas processar dados na cadeia para obter insights.
Dune Analytics、Flipside Crypto、Footprint、Transpose 等。
Chainalaysis, Glassnode, Messari, Nansen, The Tie, Token Terminal etc.
Funções da Chainlink, Rede Gelato, etc.
5. Considerações Finais
Como disse Kant, só podemos testemunhar a aparência das coisas, mas não sua essência. Ainda assim, usamos registros de observações conhecidos como "dados" para processar informações e conhecimentos e vemos como as inovações na tecnologia da informação impulsionam o desenvolvimento da civilização. Portanto, construir um pipeline de dados no mercado Web3, além de ser descentralizado, pode desempenhar um papel fundamental como ponto de partida para realmente capturar essas oportunidades. Gostaria de concluir este artigo com algumas reflexões.
5.1 O papel das soluções de armazenamento se tornará mais importante
O pré-requisito mais importante para ter um pipeline de dados é estabelecer a governança de dados e API. Em um ecossistema cada vez mais diversificado, as especificações criadas por cada protocolo continuarão a ser recriadas, e os registros de transações fragmentados por meio de ecossistemas multicadeias tornarão mais difícil para os indivíduos obter insights abrangentes. Então, "soluções de armazenamento" são entidades que podem fornecer dados integrados em um formato unificado, coletando informações fragmentadas e atualizando as especificações de cada protocolo. Observamos que as soluções de armazenamento existentes no mercado, como Snowflake e Databricks, estão crescendo rapidamente, têm grandes bases de clientes, são verticalmente integradas operando em vários níveis no pipeline e lideram o setor.
5.2 Oportunidades no Mercado de Fontes de Dados
Casos de uso bem-sucedidos começaram a surgir quando os dados se tornaram mais acessíveis e o processamento melhorou. Isso cria um efeito circular positivo onde fontes de dados e ferramentas de coleta explodem – desde 2010, os tipos e volumes de dados digitais coletados a cada ano cresceram exponencialmente desde 2010, graças a enormes avanços na tecnologia para construir pipelines de dados. Aplicando esse histórico ao mercado Web3, muitas fontes de dados podem ser geradas recursivamente na cadeia no futuro. Isso também significa que o blockchain se expandirá em vários campos de negócios. Neste ponto, podemos esperar que a aquisição de dados avance por meio de mercados de dados como Ocean Protocol ou soluções DeWi (sem fio descentralizada), como Helium e XNET, bem como soluções de armazenamento.
5.3 O que importa são dados e análises significativos
No entanto, o mais importante é continuar se perguntando quais dados devem ser preparados para extrair os insights realmente necessários. Não há nada mais desperdiçador do que construir um pipeline de dados apenas para construir um pipeline de dados sem suposições explícitas para validar. Os mercados existentes alcançaram inúmeras inovações por meio da construção de pipelines de dados, mas também pagaram um preço incontável por meio de repetidas falhas inúteis. Também é bom ter discussões construtivas sobre o desenvolvimento da pilha de tecnologia, mas o setor precisa de tempo para pensar e discutir questões mais fundamentais, como quais dados devem ser armazenados no espaço do bloco ou para qual finalidade os dados devem ser usados . O "objetivo" deve ser perceber o valor do Web3 por meio de inteligência acionável e casos de uso e, nesse processo, o desenvolvimento de vários componentes básicos e a conclusão do pipeline são os "meios" para atingir esse objetivo.