От разрозненности к совместной работе: значение собственных конвейеров данных Web3

2023-08-13 10:32:18

Автор Джей :: FP

Сборник: Deep Tide TechFlow

Выпуск белой книги Биткойн в 2008 году вызвал переосмысление концепции доверия. Затем блокчейн расширил свое определение, включив в него понятие системы, не требующей доверия, и быстро эволюционировал, утверждая, что к существующим системам можно применять различные типы ценностей, такие как индивидуальный суверенитет, финансовая демократизация и право собственности. Конечно, может потребоваться много проверок и обсуждений, прежде чем блокчейн можно будет использовать на практике, потому что его характеристики могут показаться несколько радикальными по сравнению с различными существующими системами. Однако, если мы с оптимизмом относимся к этим сценариям, построение конвейеров данных и анализ ценной информации, содержащейся в хранилище блокчейнов, может стать еще одним важным поворотным моментом в развитии отрасли, потому что мы можем наблюдать за Web3, которого никогда раньше не было. интеллект.

В этом документе исследуется потенциал собственных конвейеров данных Web3 путем проецирования конвейеров данных, обычно используемых на существующих ИТ-рынках, в среду Web3. В статье обсуждаются преимущества этих трубопроводов, проблемы, которые необходимо решить, и влияние этих трубопроводов на отрасль.

1. Уникальность исходит от информационных инноваций

"Язык — одно из самых важных различий между людьми и низшими животными. Это не только способность издавать звуки, но и связывать определенные звуки с определенными мыслями и использовать эти звуки в качестве символов для передачи идей", — Дарвин.

Исторически сложилось так, что крупные достижения человеческой цивилизации сопровождались инновациями в области обмена информацией. Наши предки использовали язык, как устный, так и письменный, для общения друг с другом и передачи знаний будущим поколениям. Это дает им большое преимущество перед другими видами. Изобретение письма, бумаги и печати сделало возможным более широкий обмен информацией, что привело к значительным достижениям в науке, технике и культуре. В частности, печать Библии Гутенберга металлическими подвижными литерами стала переломным моментом, поскольку она сделала возможным массовое производство книг и других печатных материалов. Это оказало глубокое влияние на начало Реформации, Демократической революции и научного прогресса.

Стремительное развитие ИТ-технологий в 2000-х годах позволило нам глубже понять поведение человека. Это привело к изменению образа жизни, когда большинство людей в наше время принимают различные решения на основе цифровой информации. Именно по этой причине мы называем современное общество «эрой ИТ-инноваций».

Всего через 20 лет после полной коммерциализации Интернета технологии искусственного интеллекта снова поразили мир. Есть много приложений, которые могут заменить человеческий труд, и многие люди обсуждают цивилизацию, которую ИИ изменит. Некоторые даже отрицают это, недоумевая, как такая технология могла появиться так быстро, что она может потрясти основы нашего общества. Хотя существует «закон Мура», показывающий, что производительность полупроводников со временем будет увеличиваться в геометрической прогрессии, изменения, вызванные появлением GPT, слишком внезапны, чтобы с ними можно было столкнуться немедленно.

Интересно, однако, что сама модель GPT на самом деле не является революционной архитектурой. С другой стороны, индустрия ИИ перечислит следующие основные факторы успеха для моделей GPT: 1) определение бизнес-доменов, которые могут быть нацелены на большие группы клиентов, и 2) настройка модели через конвейеры данных — от сбора данных до конечного результата. результаты и основанная на результатах обратная связь. Короче говоря, эти приложения позволяют внедрять инновации, уточняя цели предоставления услуг и модернизируя процессы обработки данных/информации.

2. Решения, основанные на данных, везде

Большая часть того, что мы называем инновациями, на самом деле основана на манипулировании накопленными данными, а не на случайности или интуиции. Как говорится, «на капиталистическом рынке выживают не сильные, а сильны выжившие». Сегодняшние предприятия очень конкурентоспособны, и рынок насыщен. Следовательно, предприятия собирают и анализируют все виды данных, чтобы занять даже самую маленькую нишу.

Мы можем быть слишком одержимы теорией Шумпетера о «созидательном разрушении» и слишком много внимания уделяем принятию решений на основе интуиции. Однако даже великая интуиция в конечном итоге является продуктом накопленных данных и информации. Цифровой мир в будущем все глубже проникнет в нашу жизнь, и все больше чувствительной информации будет представляться в виде цифровых данных.

Рынок Web3 привлекает большое внимание из-за его потенциала, позволяющего пользователям контролировать свои данные. Однако область блокчейна, которая является базовой технологией Web3, в настоящее время больше связана с решением трилеммы (Deep Tide Note: Triangular Dilemma, то есть вопросы безопасности, децентрализации и масштабируемости). Чтобы новые технологии были убедительны в реальном мире, важно разрабатывать приложения и интеллект, которые можно использовать разными способами. Мы видели, как это происходит в пространстве больших данных, и примерно с 2010 года методологии построения обработки больших данных и конвейеров данных значительно продвинулись вперед. В контексте Web3 необходимо приложить усилия для продвижения отрасли вперед и создания систем потоков данных для создания интеллектуальных данных на основе данных.

3. Возможности, основанные на потоке данных в цепочке

Итак, какие возможности мы можем использовать в собственных системах потоковой передачи Web3 и какие проблемы нам необходимо решить, чтобы воспользоваться этими возможностями?

3.1 Преимущества

Короче говоря, ценность настройки собственных потоков данных Web3 заключается в том, что надежные данные можно безопасно и эффективно распределять между несколькими объектами, чтобы можно было извлечь ценную информацию.

Избыточность данных — данные в цепочке с меньшей вероятностью будут потеряны и более устойчивы, поскольку сеть протоколов хранит фрагменты данных на нескольких узлах.
Безопасность данных. Данные в цепочке защищены от несанкционированного доступа, поскольку они проверяются и согласовываются сетью децентрализованных узлов.
Суверенитет данных. Суверенитет данных — это право пользователей владеть и контролировать свои собственные данные. С потоковой передачей данных пользователи могут видеть, как используются их данные, и делиться ими только с теми, у кого есть законная потребность в доступе к ним.
Без разрешения и прозрачно — данные в цепочке прозрачны и защищены от несанкционированного доступа. Это гарантирует, что обрабатываемые данные также являются надежным источником информации.
Стабильная работа - когда поток данных организован протоколом в распределенной среде, поскольку нет единой точки отказа, вероятность того, что каждый уровень подвергается простою, значительно снижается.

3.2 Случаи применения

Доверие является основой взаимодействия различных субъектов друг с другом и принятия решений. Следовательно, когда надежные данные можно безопасно распространять, это означает, что многие взаимодействия и решения могут приниматься через службы Web3, в которых участвуют различные сущности. Это помогает максимизировать социальный капитал, и мы можем представить несколько вариантов использования ниже.

3.2.1 Приложение службы/протокола

Автоматизированная система принятия решений на основе правил. Протоколы используют ключевые параметры для запуска служб. Эти параметры регулярно корректируются, чтобы стабилизировать статус службы и предоставить пользователям наилучшие возможности. Однако протокол не всегда может отслеживать состояние сервиса и своевременно вносить динамические изменения в параметры. Это то, что делает поток данных в цепочке. Потоки данных в цепочке можно использовать для анализа состояния службы в режиме реального времени и предложения наилучшего набора параметров, соответствующих требованиям службы (например, применение автоматического механизма плавающей ставки для протоколов кредитования).

Рост кредитного рынка. Кредит традиционно использовался на финансовых рынках как мера способности человека погашать кредит. Это помогает повысить эффективность рынка. Однако определение кредита остается неясным на рынке Web3. Это связано с нехваткой персональных данных и отсутствием управления данными в разных отраслях. Поэтому становится сложно интегрировать и собирать информацию. Создав процесс сбора и обработки фрагментированных данных в сети, можно переопределить кредитный рынок на рынке Web3 (например, оценка MACRO (оракул кредитного риска с несколькими активами) Spectral).
Децентрализованные социальные/NFT-расширения. Децентрализованные общества отдают приоритет контролю пользователей, защите конфиденциальности, сопротивлению цензуре и управлению сообществом. Это обеспечивает альтернативную социальную парадигму. Следовательно, можно установить конвейер для более плавного контроля и обновления различных метаданных и облегчения миграции между платформами.
Обнаружение мошенничества — службы Web3, использующие смарт-контракты, уязвимы для вредоносных атак, которые могут похитить средства, скомпрометировать системы и привести к атакам на развязку и ликвидность. Создавая систему, которая может заранее обнаруживать такие атаки, службы Web3 могут разрабатывать планы быстрого реагирования и защищать пользователей от вреда.

3.2.2 Инициативы по сотрудничеству и управлению

Полностью ончейновые DAO — децентрализованные автономные организации (DAO) в значительной степени полагаются на автономные инструменты для эффективного управления и государственного финансирования. Построив процесс обработки данных в сети и создав прозрачный процесс для операций DAO, можно еще больше повысить ценность родного DAO Web3.
Снижение усталости от управления — решения по протоколу Web3 часто принимаются через управление сообществом. Однако существует множество факторов, которые могут затруднить участие участников в управлении, например, географические барьеры, давление мониторинга, отсутствие опыта, необходимого для управления, произвольно опубликованная повестка дня управления и неудобный пользовательский интерфейс. Структура управления протоколом могла бы работать более эффективно и действенно, если бы можно было создать инструмент, упрощающий для участников процесс перехода от понимания к фактической реализации отдельных пунктов повестки дня управления.
Платформы открытых данных для совместной работы. В существующих академических и промышленных кругах многие данные и исследовательские материалы не раскрываются публично, что может сделать общее развитие рынка очень неэффективным. С другой стороны, пулы данных в сети могут способствовать большему количеству совместных инициатив, чем существующие рынки, потому что они прозрачны и доступны для всех. Хорошими примерами являются разработка многих стандартов токенов и решений DeFi. Кроме того, мы можем использовать общедоступные пулы данных для различных целей.

3.2.3 Диагностика сети

Index Research — пользователи Web3 создают различные индикаторы для анализа и сравнения состояния протокола. Множественные объективные показатели (например, коэффициент Сатоши Накафлоу) можно изучать и отображать в режиме реального времени.
Метрики протокола. Анализируя данные, такие как количество активных адресов, количество транзакций, приток/отток активов и комиссии, взимаемые сетью, можно анализировать производительность протокола. Эту информацию можно использовать для оценки влияния определенных обновлений протокола, состояния MEV и работоспособности сети.

3.3 Проблемы

Ончейн-данные обладают уникальными преимуществами, которые могут повысить ценность отрасли. Однако для полной реализации этих преимуществ необходимо решить множество проблем как внутри отрасли, так и за ее пределами.

Отсутствие управления данными. Управление данными — это процесс установления согласованных и общих политик и стандартов данных для облегчения интеграции каждого примитива данных. В настоящее время каждый сетевой протокол устанавливает свои собственные стандарты и извлекает свои собственные типы данных. Проблема, однако, заключается в отсутствии управления данными между объектами, которые объединяют эти данные протокола и предоставляют услуги API пользователям. Это затрудняет интеграцию между службами, и, как следствие, пользователям трудно получить надежную и исчерпывающую информацию.
Экономическая неэффективность - Хранение холодных данных в протоколе экономит безопасность данных пользователей и затраты на сервер. Однако, если к данным необходимо часто обращаться для анализа или требуются значительные вычислительные ресурсы, хранить их в блокчейне может быть нерентабельно.
Проблема оракула — смарт-контракты полностью функциональны только тогда, когда у них есть доступ к данным из реального мира. Однако эти данные не всегда надежны и непротиворечивы. В отличие от блокчейнов, которые поддерживают целостность с помощью алгоритмов консенсуса, внешние данные не являются детерминированными. Решения Oracle должны развиваться, чтобы гарантировать целостность, качество и масштабируемость внешних данных независимо от конкретного прикладного уровня.
Протокол находится в зачаточном состоянии — протокол использует собственный токен, чтобы стимулировать пользователей поддерживать работу службы и платить за нее. Однако параметры, необходимые для работы протокола (например, точное определение и схема поощрения пользователей услуг), часто управляются наивно. Это означает, что экономическую устойчивость протокола трудно проверить. Если многие протоколы подключаются органично и создают конвейеры данных, будет больше неопределенности в отношении того, будут ли конвейеры работать хорошо.
Медленное время извлечения данных. Протоколы обычно обрабатывают транзакции на основе консенсуса многих узлов, что ограничивает скорость и объем обработки информации по сравнению с традиционной бизнес-логикой ИТ. Это узкое место трудно устранить, если производительность всех протоколов, составляющих конвейер, не будет значительно улучшена.
Реальная ценность данных Web3 — блокчейны — это изолированные системы, которые еще не подключены к реальному миру. При сборе данных Web3 нам необходимо учитывать, могут ли собранные данные предоставить содержательную информацию, достаточную для покрытия затрат на создание конвейера данных.
Незнакомый синтаксис. Существующая инфраструктура ИТ-данных и инфраструктура блокчейна работают совершенно по-разному. Даже используемый язык программирования отличается, а инфраструктура блокчейна часто использует низкоуровневые языки или новые языки, разработанные специально для нужд блокчейна. Это затрудняет для новых разработчиков и пользователей услуг изучение того, как работать с каждым примитивом данных, поскольку им необходимо изучить новый язык программирования или новый способ мышления о работе с данными блокчейна.

4. Конвейерные данные Web3 Lego

Между текущими примитивами данных Web3 нет никаких связей, они извлекают и обрабатывают данные независимо. Это затрудняет эксперименты с синергией в обработке информации. Чтобы решить эту проблему, в этом документе представлен конвейер данных, обычно используемый на рынке ИТ, и сопоставлены существующие примитивы данных Web3 с этим конвейером. Это сделает вариант использования более конкретным.

4.1 Общий конвейер данных

Создание конвейера данных похоже на процесс концептуализации и автоматизации повторяющихся процессов принятия решений в повседневной жизни. Таким образом, информация определенного качества легкодоступна и используется для принятия решений. Чем больше неструктурированных данных нужно обработать, чем чаще используется информация или чем больше требуется анализа в реальном времени, тем меньше времени и затрат на проактивность, необходимую для принятия будущих решений, можно сэкономить за счет автоматизации этих процессов.

На приведенной выше диаграмме показана общая архитектура построения конвейеров данных на рынке существующей ИТ-инфраструктуры. Данные, подходящие для аналитических целей, собираются из правильного источника данных и хранятся в соответствующем решении для хранения в соответствии с характером данных и аналитическими требованиями. Например, озера данных предоставляют решения для хранения необработанных данных для масштабируемого и гибкого анализа, в то время как хранилища данных сосредоточены на хранении структурированных данных для запросов и анализа, оптимизированных для конкретной бизнес-логики. Затем данные обрабатываются различными способами, превращаясь в понимание или полезную информацию.

Каждый уровень решения также доступен в виде пакетной услуги. Также растет интерес к группам продуктов SaaS ETL (Extract, Transform, Load), которые соединяют цепочку процессов от извлечения данных до загрузки (например, FiveTran, Panoply, Hivo, Rivery). Последовательность не всегда однонаправленная, и слои могут быть связаны друг с другом различными способами, в зависимости от конкретных потребностей организации. Самое главное при построении конвейера данных — свести к минимуму риск потери данных, который может возникнуть при отправке и получении данных на каждом уровне сервера. Этого можно добиться за счет оптимизации разделения серверов и использования надежных решений для хранения и обработки данных.

4.2 Конвейер с ончейн-средой

Концептуальная схема конвейера данных, представленная ранее, может быть применена к среде ончейн, как показано на рисунке выше, но следует отметить, что полностью децентрализованный конвейер не может быть сформирован, потому что каждый базовый компонент в той или иной степени зависит от Централизованное решение вне сети. Кроме того, приведенный выше рисунок в настоящее время включает не все решения Web3, и границы классификации могут быть размыты — например, KYVE, помимо работы в качестве платформы потокового мультимедиа, также включает в себя функцию озера данных, которую можно рассматривается как конвейер данных. Кроме того, Space and Time классифицируется как децентрализованная база данных, но предлагает услуги шлюза API, такие как RestAPI и потоковая передача, а также услуги ETL.

4.2.1 Захват/обработка

Чтобы обычные пользователи или dApps могли эффективно потреблять/эксплуатировать сервисы, они должны иметь возможность легко идентифицировать и получать доступ к источникам данных, изначально созданным в рамках протокола, таким как транзакции, состояние и события журнала. На этом уровне в игру вступает ПО промежуточного слоя, помогающее с такими процессами, как оракулы, обмен сообщениями, аутентификация и управление API. Основные решения следующие.

Платформа потоковой передачи/индексирования

Bitquery, Ceramic, KYVE, Lens, Streamr Network, The Graph, обозреватели блоков различных протоколов и т. д.

узел как услуга и другие услуги RPC/API

Alchemy、All that Node、Infura、Pocket Network、Quicknode 等。

Оракул

API 3, Band Protocol, Chainlink, Nest Protocol, Pyth, Supra oracles и т. д.

4.2.2 Хранение

По сравнению с решениями для хранения Web2, решения для хранения Web3 имеют ряд преимуществ, таких как постоянство и децентрализация. Однако они также имеют некоторые недостатки, такие как высокая стоимость, сложность обновления данных и запросов. В результате появились различные решения для устранения этих недостатков и обеспечения эффективной обработки структурированных и динамических данных в Web3, каждое из которых имеет различные характеристики, такие как тип обрабатываемых данных, является ли оно структурированным и имеет ли оно встроенную функцию запроса и т. д. на.

Децентрализованная сеть хранения

Arweave, Filecoin, KYVE, Sia, Storj и т. д.

Децентрализованная база данных

Базы данных на основе Arweave (Glacier, HollowDB, Kwil, WeaveDB), ComposeDB, OrbitDB, Polybase, Space and Time, Tableland и т. д.

* Каждый протокол имеет свой механизм постоянного хранения. Например, Arweave — это модель на основе блокчейна, аналогичная хранилищу Ethereum, которая постоянно хранит данные в цепочке, а Filecoin, Sia и Storj — модели на основе контрактов, хранящие данные вне цепочки.

4.2.3 Преобразование

В контексте Web3 уровень перевода так же важен, как и уровень хранения. Это связано с тем, что структура блокчейна в основном состоит из распределенного набора узлов, что упрощает использование масштабируемой внутренней логики. В индустрии ИИ люди активно изучают использование этих преимуществ для исследований в области федеративного обучения, и появились протоколы, посвященные машинному обучению и операциям ИИ.

Обучение данных/моделирование/расчет

Акаш, Бакальхау, Битензор, Генсин, Голем, Вместе 等.

* Федеративное обучение — это метод обучения моделей искусственного интеллекта путем распространения исходной модели на несколько собственных клиентов, использования сохраненных данных для ее обучения и последующего сбора изученных параметров на центральном сервере.

4.2.4 Анализ/использование

Перечисленные ниже сервисы информационных панелей и аналитические решения для конечных пользователей представляют собой платформы, которые позволяют пользователям наблюдать и находить различные аналитические данные из определенных протоколов. Некоторые из этих решений также предоставляют услуги API для конечного продукта. Однако важно отметить, что данные в этих решениях не всегда точны, поскольку они в основном используют отдельные инструменты вне сети для хранения и обработки данных. Также можно наблюдать ошибки между решениями.

В то же время существует платформа под названием «Функции Web3», которая может автоматически/инициировать выполнение смарт-контрактов, точно так же, как централизованные платформы, такие как Google Cloud, запускают/выполняют определенную бизнес-логику. Используя эту платформу, пользователи могут реализовывать бизнес-логику нативным для Web3 способом, а не просто обрабатывать данные в цепочке для получения информации.

Службы панели управления

Dune Analytics, Flipside Crypto, Footprint, Transpose 等.

Понимание и анализ конечных пользователей

Chainalaysis, Glassnode, Messari, Nansen, The Tie, Token Terminal и т. д.

Функции Web3

Функции Chainlink, сеть Gelato и т. д.

5. Заключительные мысли

Как сказал Кант, мы можем наблюдать только видимость вещей, но не их сущность. Тем не менее, мы используем записи наблюдений, называемые «данными», для обработки информации и знаний, и мы видим, как инновации в информационных технологиях стимулируют развитие цивилизации. Таким образом, построение конвейера данных на рынке Web3, помимо децентрализации, может сыграть ключевую роль в качестве отправной точки для фактического использования этих возможностей. Я хотел бы завершить эту статью несколькими мыслями.

5.1 Роль решений для хранения данных станет более важной

Наиболее важной предпосылкой для конвейера данных является организация управления данными и API. Во все более разнообразной экосистеме спецификации, созданные каждым протоколом, будут продолжать создаваться заново, а фрагментированные записи транзакций в многоцепочечных экосистемах усложнят для отдельных лиц получение исчерпывающей информации. Затем «решения для хранения» — это объекты, которые могут предоставлять интегрированные данные в унифицированном формате путем сбора фрагментированной информации и обновления спецификаций каждого протокола. Мы наблюдаем, что существующие на рынке решения для хранения данных, такие как Snowflake и Databricks, быстро растут, имеют большую клиентскую базу, вертикально интегрированы, работают на разных уровнях конвейера и лидируют в отрасли.

5.2 Возможности на рынке источников данных

Успешные варианты использования начали появляться, когда данные стали более доступными и обработка улучшилась. Это создает положительный круговой эффект, когда источники данных и инструменты сбора резко увеличиваются — с 2010 года типы и объемы цифровых данных, собираемых каждый год, выросли в геометрической прогрессии с 2010 года благодаря огромному прогрессу в технологиях построения конвейеров данных. Применяя этот фон к рынку Web3, многие источники данных могут быть рекурсивно сгенерированы в сети в будущем. Это также означает, что блокчейн будет расширяться в различных сферах бизнеса. На данный момент мы можем ожидать, что сбор данных будет продвигаться через рынки данных, такие как Ocean Protocol или решения DeWi (децентрализованная беспроводная связь), такие как Helium и XNET, а также решения для хранения.

5.3 Важны значимые данные и анализ

Однако самое главное — постоянно спрашивать, какие данные следует подготовить для извлечения действительно необходимых сведений. Нет ничего более расточительного, чем создание конвейера данных ради построения конвейера данных без явных предположений для проверки. Существующие рынки добились множества инноваций благодаря созданию конвейеров данных, но также заплатили бесчисленную цену из-за повторяющихся бессмысленных неудач. Также полезно вести конструктивные дискуссии о развитии стека технологий, но отрасли нужно время, чтобы подумать и обсудить более фундаментальные вопросы, например, какие данные следует хранить в блочном пространстве или для каких целей эти данные следует использовать. . «Цель» должна заключаться в том, чтобы реализовать ценность Web3 с помощью практических данных и вариантов использования, и в этом процессе разработка нескольких основных компонентов и завершение конвейера являются «средствами» для достижения этой цели.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
1
Поделиться

комментарий

0/400

Matthewsmith

· 2024-08-31 13:15

Покупайте падения 🤑

Посмотреть ОригиналОтветить0

Тема
Gate 2025 Q2 Report Released
27k Популярность
CPI Data Incoming
58k Популярность
Altcoin Season Update
8k Популярность
4Gate Derivatives Volume Hits New High
16k Популярность
5Join Gate VIP to Win MacBook
30k Популярность
6MicroStrategy Buys More Bitcoin
2k Популярность
7BTC Hits New High
113k Популярность
8My Gate Moments
27k Популярность
9VIP Exclusive Airdrop Carnival
26k Популярность
10Fed June Meeting Minutes
7k Популярность

Закрепить

Карта сайта