Автор: Джей : : FP Составитель: Deep Tide TechFlow
Выпуск белой книги Биткойн в 2008 году вызвал переосмысление концепции доверия. Затем блокчейн расширил свое определение, включив в него понятие системы, не требующей доверия, и быстро эволюционировал, утверждая, что к существующим системам можно применять различные типы ценностей, такие как индивидуальный суверенитет, финансовая демократизация и право собственности. Конечно, может потребоваться много проверок и обсуждений, прежде чем блокчейн можно будет использовать на практике, потому что его характеристики могут показаться несколько радикальными по сравнению с различными существующими системами. Однако, если мы с оптимизмом относимся к этим сценариям, построение конвейеров данных и анализ ценной информации, содержащейся в хранилище блокчейнов, может стать еще одним важным поворотным моментом в развитии отрасли, потому что мы можем наблюдать Web3, которого никогда не было. интеллект.
В этом документе исследуется потенциал собственных конвейеров данных Web3 путем проецирования конвейеров данных, обычно используемых на существующих ИТ-рынках, в среду Web3. В статье обсуждаются преимущества этих трубопроводов, проблемы, которые необходимо решить, и влияние этих трубопроводов на отрасль.
1. Необычность исходит от информационных инноваций
«Язык — одно из самых важных различий между людьми и низшими животными. Это не только способность издавать звуки, но и связывать отдельные звуки с отдельными мыслями и использовать эти звуки в качестве символов для передачи идей».
— Дарвин
Исторически сложилось так, что крупные достижения человеческой цивилизации сопровождались инновациями в области обмена информацией. Наши предки использовали язык, как устный, так и письменный, для общения друг с другом и передачи знаний будущим поколениям. Это дает им большое преимущество перед другими видами. Изобретение письма, бумаги и печати сделало возможным более широкий обмен информацией, что привело к значительным достижениям в науке, технике и культуре. В частности, печать Библии Гутенберга металлическими подвижными литерами стала переломным моментом, поскольку она сделала возможным массовое производство книг и других печатных материалов. Это оказало глубокое влияние на начало Реформации, Демократической революции и научного прогресса.
Стремительное развитие ИТ-технологий в 2000-х годах позволило нам глубже понять поведение человека. Это привело к изменению образа жизни, когда большинство людей в наше время принимают различные решения на основе цифровой информации. Именно по этой причине мы называем современное общество «эпохой ИТ-инноваций».
Всего через 20 лет после полной коммерциализации Интернета технологии искусственного интеллекта снова поразили мир. Есть много приложений, которые могут заменить человеческий труд, и многие люди обсуждают цивилизацию, которую ИИ изменит. Некоторые даже отрицают это, недоумевая, как такая технология могла появиться так быстро, что она может потрясти основы нашего общества. В то время как «закон Мура» гласит, что производительность полупроводников увеличивается экспоненциально с течением времени, изменения, вызванные появлением ТШП, слишком внезапны, чтобы с ними можно было столкнуться немедленно.
Интересно, однако, что сама модель GPT на самом деле не является революционной архитектурой. С другой стороны, индустрия искусственного интеллекта перечислит следующие основные факторы успеха для моделей GPT: 1) определение бизнес-доменов, которые могут быть ориентированы на большие группы клиентов, и 2) настройка модели с помощью конвейеров данных — от сбора данных до конечных результатов. и основанная на результатах обратная связь. Короче говоря, эти приложения позволяют внедрять инновации, уточняя цели предоставления услуг и совершенствуя процессы обработки данных/информации.
2. Решения, основанные на данных, везде
Большая часть того, что мы называем инновациями, на самом деле основана на манипулировании накопленными данными, а не на случайности или интуиции. Как говорится, «на капиталистическом рынке выживают не сильные, а сильные — выжившие». Сегодняшние предприятия очень конкурентоспособны, и рынок насыщен. Следовательно, предприятия собирают и анализируют все виды данных, чтобы занять даже самую маленькую нишу.
Мы можем быть слишком одержимы Шумпетеровской (глубокое примечание: Шумпетер, известный экономист) теорией «созидательного разрушения» и слишком много внимания уделяем принятию решений, основанных на интуиции. Однако даже великая интуиция в конечном итоге является продуктом накопленных данных и информации. Цифровой мир в будущем все глубже проникнет в нашу жизнь, и все больше чувствительной информации будет представляться в виде цифровых данных.
Рынок Web3 привлекает большое внимание из-за его потенциала, позволяющего пользователям контролировать свои данные. Однако область блокчейна, которая является базовой технологией Web3, в настоящее время больше связана с решением трилеммы (Deep Tide Note: Triangular Dilemma, то есть вопросы безопасности, децентрализации и масштабируемости). Чтобы новые технологии были убедительны в реальном мире, важно разрабатывать приложения и интеллект, которые можно использовать разными способами. Мы видели, как это происходит в пространстве больших данных, и примерно с 2010 года методологии построения обработки больших данных и конвейеров данных значительно продвинулись вперед. В контексте Web3 необходимо приложить усилия для продвижения отрасли вперед и создания систем потоков данных для создания интеллектуальных данных на основе данных.
3. Возможности, основанные на потоке данных в цепочке
Итак, какие возможности мы можем использовать в собственных системах потоковой передачи Web3 и какие проблемы нам необходимо решить, чтобы воспользоваться этими возможностями?
3.1 Преимущества
Короче говоря, ценность настройки собственных потоков данных Web3 заключается в том, что надежные данные можно безопасно и эффективно распределять между несколькими объектами, чтобы можно было извлечь ценную информацию.
Избыточность данных — данные в цепочке с меньшей вероятностью будут потеряны и более устойчивы, поскольку сеть протоколов хранит фрагменты данных на нескольких узлах.
Безопасность данных. Данные в цепочке защищены от несанкционированного доступа, поскольку они проверяются и согласовываются сетью децентрализованных узлов.
Суверенитет данных. Суверенитет данных — это право пользователей владеть и контролировать свои собственные данные. С потоковой передачей данных пользователи могут видеть, как используются их данные, и делиться ими только с теми, у кого есть законная потребность в доступе к ним.
Без разрешения и прозрачно — данные в цепочке прозрачны и защищены от несанкционированного доступа. Это гарантирует, что обрабатываемые данные также являются надежным источником информации.
Стабильная работа. Когда потоки данных управляются протоколами в распределенной среде, каждый уровень значительно меньше подвержен простоям, поскольку отсутствует единая точка отказа.
3.2 Случаи применения
Доверие является основой взаимодействия различных субъектов друг с другом и принятия решений. Следовательно, когда надежные данные можно безопасно распространять, это означает, что многие взаимодействия и решения могут приниматься через службы Web3, в которых участвуют различные сущности. Это помогает максимизировать социальный капитал, и мы можем представить несколько вариантов использования ниже.
3.2.1 Приложение службы/протокола
Автоматизированная система принятия решений на основе правил. Протоколы используют ключевые параметры для запуска служб. Эти параметры регулярно корректируются, чтобы стабилизировать статус службы и предоставить пользователям наилучшие возможности. Однако протокол не всегда может отслеживать состояние сервиса и своевременно вносить динамические изменения в параметры. Это то, что делает поток данных в цепочке. Потоки данных в цепочке можно использовать для анализа состояния службы в режиме реального времени и предложения наилучшего набора параметров, соответствующих требованиям службы (например, применение автоматического механизма плавающей ставки для протоколов кредитования).
Рост кредитного рынка. Кредит традиционно использовался на финансовых рынках как мера способности человека погашать кредит. Это помогает повысить эффективность рынка. Однако определение кредита остается неясным на рынке Web3. Это связано с нехваткой персональных данных и отсутствием управления данными в разных отраслях. Поэтому становится сложно интегрировать и собирать информацию. Создав процесс сбора и обработки фрагментированных данных в сети, можно переопределить кредитный рынок на рынке Web3 (например, оценка MACRO (оракул кредитного риска с несколькими активами) Spectral).
Децентрализованные социальные/NFT-расширения. Децентрализованные общества отдают приоритет контролю пользователей, защите конфиденциальности, сопротивлению цензуре и управлению сообществом. Это обеспечивает альтернативную социальную парадигму. Следовательно, можно установить конвейер для более плавного контроля и обновления различных метаданных и облегчения миграции между платформами.
Обнаружение мошенничества. Службы Web3, использующие смарт-контракты, уязвимы для злонамеренных атак, которые могут похитить средства, скомпрометировать системы и привести к атакам на развязку и ликвидность. Создавая систему, которая может заранее обнаруживать такие атаки, службы Web3 могут разрабатывать планы быстрого реагирования и защищать пользователей от вреда.
3.2.2 Инициативы сотрудничества и управления
Полностью ончейновые DAO — децентрализованные автономные организации (DAO) в значительной степени полагаются на автономные инструменты для эффективного управления и государственного финансирования. Построив процесс обработки данных в сети и создав прозрачный процесс для операций DAO, можно еще больше повысить ценность родного DAO Web3.
Снятие усталости от управления. Решения по протоколу Web3 часто принимаются через управление сообществом. Однако существует множество факторов, которые могут затруднить участие участников в управлении, например, географические барьеры, давление мониторинга, отсутствие опыта, необходимого для управления, произвольно опубликованная повестка дня управления и неудобный пользовательский интерфейс. Структура управления протоколом могла бы работать более эффективно и действенно, если бы можно было создать инструмент, упрощающий для участников процесс перехода от понимания к фактической реализации отдельных пунктов повестки дня управления.
Платформы открытых данных для совместной работы. В существующих академических и промышленных кругах многие данные и исследовательские материалы не раскрываются публично, что может сделать общее развитие рынка очень неэффективным. С другой стороны, пулы данных в сети могут способствовать большему количеству совместных инициатив, чем существующие рынки, потому что они прозрачны и доступны для всех. Хорошими примерами являются разработка многих стандартов токенов и решений DeFi. Кроме того, мы можем использовать общедоступные пулы данных для различных целей.
3.2.3 Диагностика сети
Исследование индексов. Пользователи Web3 создают различные индикаторы для анализа и сравнения состояния протокола. Множественные объективные показатели (например, коэффициент Сатоши Накафлоу) можно изучать и отображать в режиме реального времени.
Метрики протокола. Анализируя данные, такие как количество активных адресов, количество транзакций, приток/отток активов и комиссии, взимаемые сетью, можно анализировать производительность протокола. Эту информацию можно использовать для оценки влияния конкретных обновлений протокола, состояния MEV и работоспособности сети.
3.3 Проблемы
Ончейн-данные обладают уникальными преимуществами, которые могут повысить ценность отрасли. Однако для полной реализации этих преимуществ необходимо решить множество проблем как внутри отрасли, так и за ее пределами.
Отсутствие управления данными. Управление данными — это процесс установления согласованных и общих политик и стандартов данных для облегчения интеграции каждого примитива данных. В настоящее время каждый сетевой протокол устанавливает свои собственные стандарты и извлекает свои собственные типы данных. Проблема, однако, заключается в отсутствии управления данными между объектами, которые объединяют эти данные протокола и предоставляют услуги API пользователям. Это затрудняет интеграцию между службами, и, как следствие, пользователям трудно получить надежную и исчерпывающую информацию.
Экономическая неэффективность. Хранение холодных данных в протоколе снижает безопасность данных пользователей и затраты на сервер. Однако, если к данным необходимо часто обращаться для анализа или требуются значительные вычислительные ресурсы, хранить их в блокчейне может быть невыгодно.
Проблема оракула. Смарт-контракты могут полноценно функционировать только тогда, когда у них есть доступ к данным из реального мира. Однако эти данные не всегда надежны и непротиворечивы. В отличие от блокчейнов, которые поддерживают целостность с помощью алгоритмов консенсуса, внешние данные не являются детерминированными. Решения Oracle должны развиваться, чтобы гарантировать целостность, качество и масштабируемость внешних данных независимо от конкретного прикладного уровня.
Протокол находится в зачаточном состоянии — протокол использует собственный токен, чтобы стимулировать пользователей поддерживать работу сервиса и платить за него. Однако параметры, необходимые для работы протокола (например, точное определение и схема поощрения пользователей услуг), часто управляются наивно. Это означает, что экономическую устойчивость протокола трудно проверить. Если многие протоколы подключаются органично и создают конвейеры данных, будет большая неопределенность в отношении того, будут ли конвейеры работать хорошо.
Медленное время извлечения данных. Протоколы обычно обрабатывают транзакции на основе консенсуса многих узлов, что ограничивает скорость и объем обработки информации по сравнению с традиционной бизнес-логикой ИТ. Это узкое место трудно устранить, если производительность всех протоколов, составляющих конвейер, не будет значительно улучшена.
Истинная ценность данных Web3. Блокчейны — это разрозненные системы, которые еще не подключены к реальному миру. При сборе данных Web3 нам необходимо учитывать, могут ли собранные данные предоставить содержательную информацию, достаточную для покрытия затрат на создание конвейера данных.
Незнакомый синтаксис. Существующая инфраструктура ИТ-данных и инфраструктура блокчейна работают совершенно по-разному. Даже используемый язык программирования отличается, а инфраструктура блокчейна часто использует низкоуровневые языки или новые языки, разработанные специально для нужд блокчейна. Это затрудняет для новых разработчиков и пользователей услуг изучение того, как работать с каждым примитивом данных, поскольку им необходимо изучить новый язык программирования или новый способ мышления о работе с данными блокчейна.
4. Конвейерные данные Web3 Lego
Между текущими примитивами данных Web3 нет никаких связей, они извлекают и обрабатывают данные независимо. Это затрудняет эксперименты с синергией в обработке информации. Чтобы решить эту проблему, в этом документе представлен конвейер данных, обычно используемый на рынке ИТ, и сопоставлены существующие примитивы данных Web3 с этим конвейером. Это сделает вариант использования более конкретным.
4.1 Общий конвейер данных
Создание конвейера данных похоже на процесс концептуализации и автоматизации повторяющихся процессов принятия решений в повседневной жизни. Таким образом, информация определенного качества легкодоступна и используется для принятия решений. Чем больше неструктурированных данных нужно обработать, чем чаще используется информация или чем больше требуется анализа в реальном времени, тем меньше времени и затрат на проактивность, необходимую для принятия будущих решений, можно сэкономить за счет автоматизации этих процессов.
На приведенной выше диаграмме показана общая архитектура построения конвейеров данных на рынке существующей ИТ-инфраструктуры. Данные, подходящие для аналитических целей, собираются из правильного источника данных и хранятся в соответствующем решении для хранения в соответствии с характером данных и аналитическими требованиями. Например, озера данных предоставляют решения для хранения необработанных данных для масштабируемого и гибкого анализа, в то время как хранилища данных сосредоточены на хранении структурированных данных для запросов и анализа, оптимизированных для конкретной бизнес-логики. Затем данные обрабатываются различными способами, превращаясь в понимание или полезную информацию.
Каждый уровень решения также доступен в виде пакетной услуги. Также растет интерес к группам продуктов SaaS ETL (Extract, Transform, Load), которые соединяют цепочку процессов от извлечения данных до загрузки (например, FiveTran, Panoply, Hivo, Rivery). Последовательность не всегда однонаправленная, и слои могут быть связаны друг с другом различными способами, в зависимости от конкретных потребностей организации. Самое главное при построении конвейера данных — свести к минимуму риск потери данных, который может возникнуть при отправке и получении данных на каждом уровне сервера. Этого можно добиться за счет оптимизации разделения серверов и использования надежных решений для хранения и обработки данных.
4.2 Конвейер с ончейн-средой
Концептуальная схема конвейера данных, представленная ранее, может быть применена к среде ончейн, как показано на рисунке выше, но следует отметить, что полностью децентрализованный конвейер не может быть сформирован, потому что каждый базовый компонент в той или иной степени зависит от Централизованное решение вне сети. Кроме того, приведенный выше рисунок в настоящее время включает не все решения Web3, и границы классификации могут быть размыты — например, KYVE, помимо работы в качестве платформы потокового мультимедиа, также включает в себя функцию озера данных, которую можно рассматривается как конвейер данных. Кроме того, Space and Time классифицируется как децентрализованная база данных, но предлагает услуги шлюза API, такие как RestAPI и потоковая передача, а также услуги ETL.
4.2.1 Захват/Обработка
Чтобы обычные пользователи или dApps могли эффективно потреблять/управлять услугами, они должны иметь возможность легко идентифицировать и получать доступ к источникам данных, таким как транзакции, состояние и события журнала, которые в основном генерируются внутри протокола. На этом уровне в игру вступает ПО промежуточного слоя, помогающее с такими процессами, как оракулы, обмен сообщениями, аутентификация и управление API. Основные решения следующие.
Платформа потоковой передачи/индексирования
Bitquery, Ceramic, KYVE, Lens, Streamr Network, The Graph, обозреватели блоков различных протоколов и т. д.
Узел как услуга и другие службы RPC/API
Alchemy、All that Node、Infura、Pocket Network、Quicknode 等。
Оракул
API3, Band Protocol, Chainlink, Nest Protocol, Pyth, Supra oracles и т. д.
4.2.2 Хранение
По сравнению с решениями для хранения Web2, решения для хранения Web3 имеют ряд преимуществ, таких как постоянство и децентрализация. Однако они также имеют некоторые недостатки, такие как высокая стоимость, сложность обновления данных и запросов. В результате появились различные решения для устранения этих недостатков и обеспечения эффективной обработки структурированных и динамических данных в Web3, каждое из которых имеет различные характеристики, такие как тип обрабатываемых данных, является ли оно структурированным и имеет ли оно встроенную функцию запроса и т. д. на.
Децентрализованная сеть хранения
Arweave, Filecoin, KYVE, Sia, Storj и т. д.
децентрализованная база данных
Базы данных на основе Arweave (Glacier, HollowDB, Kwil, WeaveDB), ComposeDB, OrbitDB, Polybase, Space and Time, Tableland и т. д.
*Каждый протокол имеет свой механизм постоянного хранения. Например, Arweave — это модель на основе блокчейна, аналогичная хранилищу Ethereum, которая постоянно хранит данные в цепочке, а Filecoin, Sia и Storj — модели на основе контрактов, хранящие данные вне цепочки.
4.2.3 Преобразование
В контексте Web3 уровень перевода так же важен, как и уровень хранения. Это связано с тем, что структура блокчейна в основном состоит из распределенного набора узлов, что упрощает использование масштабируемой внутренней логики. В индустрии ИИ люди активно изучают использование этих преимуществ для исследований в области федеративного обучения, и появились протоколы, посвященные машинному обучению и операциям ИИ.
Обучение данным/моделирование/вычисления
Акаш, Бакальхау, Битензор, Генсин, Голем, Вместе 等.
*Федеральное обучение — это метод обучения моделей искусственного интеллекта путем распространения исходной модели на несколько собственных клиентов, использования сохраненных данных для ее обучения и последующего сбора изученных параметров на центральном сервере.
4.2.4 Анализ/использование
Перечисленные ниже сервисы информационных панелей и аналитические решения для конечных пользователей представляют собой платформы, которые позволяют пользователям наблюдать и находить различные аналитические данные из определенных протоколов. Некоторые из этих решений также предоставляют услуги API для конечного продукта. Однако важно отметить, что данные в этих решениях не всегда точны, поскольку они в основном используют отдельные инструменты вне сети для хранения и обработки данных. Также можно наблюдать ошибки между решениями.
В то же время существует платформа под названием «Функции Web3», которая может автоматически/инициировать выполнение смарт-контрактов, точно так же, как централизованные платформы, такие как Google Cloud, запускают/выполняют определенную бизнес-логику. Используя эту платформу, пользователи могут реализовывать бизнес-логику нативным для Web3 способом, а не просто обрабатывать данные в цепочке для получения информации.
Chainalaysis, Glassnode, Messari, Nansen, The Tie, Token Terminal и т. д.
Веб3-функции
Функции Chainlink, сеть Gelato и т. д.
5. Заключительные мысли
Как сказал Кант, мы можем наблюдать только видимость вещей, но не их сущность. Тем не менее, мы используем записи наблюдений, известные как «данные», для обработки информации и знаний, и мы видим, как инновации в информационных технологиях стимулируют развитие цивилизации. Таким образом, построение конвейера данных на рынке Web3, помимо децентрализации, может сыграть ключевую роль в качестве отправной точки для фактического использования этих возможностей. Я хотел бы завершить эту статью несколькими мыслями.
5.1 Роль решений для хранения данных станет более важной
Наиболее важной предпосылкой для конвейера данных является организация управления данными и API. Во все более разнообразной экосистеме спецификации, созданные каждым протоколом, будут продолжать создаваться заново, а фрагментированные записи транзакций в многоцепочечных экосистемах усложнят для отдельных лиц получение исчерпывающей информации. Затем «решения для хранения» — это объекты, которые могут предоставлять интегрированные данные в унифицированном формате путем сбора фрагментированной информации и обновления спецификаций каждого протокола. Мы наблюдаем, что существующие на рынке решения для хранения данных, такие как Snowflake и Databricks, быстро растут, имеют большую клиентскую базу, вертикально интегрированы, работают на разных уровнях конвейера и лидируют в отрасли.
5.2 Возможности на рынке источников данных
Успешные варианты использования начали появляться, когда данные стали более доступными и обработка улучшилась. Это создает положительный круговой эффект, когда источники данных и инструменты сбора резко увеличиваются — с 2010 года типы и объемы цифровых данных, собираемых каждый год, выросли в геометрической прогрессии с 2010 года благодаря огромному прогрессу в технологиях построения конвейеров данных. Применяя этот фон к рынку Web3, многие источники данных могут быть рекурсивно сгенерированы в сети в будущем. Это также означает, что блокчейн будет расширяться в различных сферах бизнеса. На данный момент мы можем ожидать, что сбор данных будет продвигаться через рынки данных, такие как Ocean Protocol или решения DeWi (децентрализованная беспроводная связь), такие как Helium и XNET, а также решения для хранения.
5.3 Важны значимые данные и анализ
Однако самое главное — постоянно спрашивать, какие данные следует подготовить для извлечения действительно необходимых сведений. Нет ничего более расточительного, чем создание конвейера данных ради построения конвейера данных без явных предположений для проверки. Существующие рынки добились множества инноваций благодаря созданию конвейеров данных, но также заплатили бесчисленную цену из-за повторяющихся бессмысленных неудач. Также полезно вести конструктивные дискуссии о развитии стека технологий, но отрасли нужно время, чтобы подумать и обсудить более фундаментальные вопросы, например, какие данные следует хранить в блочном пространстве или для каких целей эти данные следует использовать. . «Цель» должна заключаться в том, чтобы реализовать ценность Web3 с помощью практических данных и вариантов использования, и в этом процессе разработка нескольких основных компонентов и завершение конвейера являются «средствами» для достижения этой цели.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Подробно объясните значение, проблемы и влияние на отрасль собственного конвейера данных Web3.
Автор: Джей : : FP Составитель: Deep Tide TechFlow
Выпуск белой книги Биткойн в 2008 году вызвал переосмысление концепции доверия. Затем блокчейн расширил свое определение, включив в него понятие системы, не требующей доверия, и быстро эволюционировал, утверждая, что к существующим системам можно применять различные типы ценностей, такие как индивидуальный суверенитет, финансовая демократизация и право собственности. Конечно, может потребоваться много проверок и обсуждений, прежде чем блокчейн можно будет использовать на практике, потому что его характеристики могут показаться несколько радикальными по сравнению с различными существующими системами. Однако, если мы с оптимизмом относимся к этим сценариям, построение конвейеров данных и анализ ценной информации, содержащейся в хранилище блокчейнов, может стать еще одним важным поворотным моментом в развитии отрасли, потому что мы можем наблюдать Web3, которого никогда не было. интеллект.
В этом документе исследуется потенциал собственных конвейеров данных Web3 путем проецирования конвейеров данных, обычно используемых на существующих ИТ-рынках, в среду Web3. В статье обсуждаются преимущества этих трубопроводов, проблемы, которые необходимо решить, и влияние этих трубопроводов на отрасль.
1. Необычность исходит от информационных инноваций
«Язык — одно из самых важных различий между людьми и низшими животными. Это не только способность издавать звуки, но и связывать отдельные звуки с отдельными мыслями и использовать эти звуки в качестве символов для передачи идей».
— Дарвин
Исторически сложилось так, что крупные достижения человеческой цивилизации сопровождались инновациями в области обмена информацией. Наши предки использовали язык, как устный, так и письменный, для общения друг с другом и передачи знаний будущим поколениям. Это дает им большое преимущество перед другими видами. Изобретение письма, бумаги и печати сделало возможным более широкий обмен информацией, что привело к значительным достижениям в науке, технике и культуре. В частности, печать Библии Гутенберга металлическими подвижными литерами стала переломным моментом, поскольку она сделала возможным массовое производство книг и других печатных материалов. Это оказало глубокое влияние на начало Реформации, Демократической революции и научного прогресса.
Стремительное развитие ИТ-технологий в 2000-х годах позволило нам глубже понять поведение человека. Это привело к изменению образа жизни, когда большинство людей в наше время принимают различные решения на основе цифровой информации. Именно по этой причине мы называем современное общество «эпохой ИТ-инноваций».
Всего через 20 лет после полной коммерциализации Интернета технологии искусственного интеллекта снова поразили мир. Есть много приложений, которые могут заменить человеческий труд, и многие люди обсуждают цивилизацию, которую ИИ изменит. Некоторые даже отрицают это, недоумевая, как такая технология могла появиться так быстро, что она может потрясти основы нашего общества. В то время как «закон Мура» гласит, что производительность полупроводников увеличивается экспоненциально с течением времени, изменения, вызванные появлением ТШП, слишком внезапны, чтобы с ними можно было столкнуться немедленно.
Интересно, однако, что сама модель GPT на самом деле не является революционной архитектурой. С другой стороны, индустрия искусственного интеллекта перечислит следующие основные факторы успеха для моделей GPT: 1) определение бизнес-доменов, которые могут быть ориентированы на большие группы клиентов, и 2) настройка модели с помощью конвейеров данных — от сбора данных до конечных результатов. и основанная на результатах обратная связь. Короче говоря, эти приложения позволяют внедрять инновации, уточняя цели предоставления услуг и совершенствуя процессы обработки данных/информации.
2. Решения, основанные на данных, везде
Большая часть того, что мы называем инновациями, на самом деле основана на манипулировании накопленными данными, а не на случайности или интуиции. Как говорится, «на капиталистическом рынке выживают не сильные, а сильные — выжившие». Сегодняшние предприятия очень конкурентоспособны, и рынок насыщен. Следовательно, предприятия собирают и анализируют все виды данных, чтобы занять даже самую маленькую нишу.
Мы можем быть слишком одержимы Шумпетеровской (глубокое примечание: Шумпетер, известный экономист) теорией «созидательного разрушения» и слишком много внимания уделяем принятию решений, основанных на интуиции. Однако даже великая интуиция в конечном итоге является продуктом накопленных данных и информации. Цифровой мир в будущем все глубже проникнет в нашу жизнь, и все больше чувствительной информации будет представляться в виде цифровых данных.
Рынок Web3 привлекает большое внимание из-за его потенциала, позволяющего пользователям контролировать свои данные. Однако область блокчейна, которая является базовой технологией Web3, в настоящее время больше связана с решением трилеммы (Deep Tide Note: Triangular Dilemma, то есть вопросы безопасности, децентрализации и масштабируемости). Чтобы новые технологии были убедительны в реальном мире, важно разрабатывать приложения и интеллект, которые можно использовать разными способами. Мы видели, как это происходит в пространстве больших данных, и примерно с 2010 года методологии построения обработки больших данных и конвейеров данных значительно продвинулись вперед. В контексте Web3 необходимо приложить усилия для продвижения отрасли вперед и создания систем потоков данных для создания интеллектуальных данных на основе данных.
3. Возможности, основанные на потоке данных в цепочке
Итак, какие возможности мы можем использовать в собственных системах потоковой передачи Web3 и какие проблемы нам необходимо решить, чтобы воспользоваться этими возможностями?
3.1 Преимущества
Короче говоря, ценность настройки собственных потоков данных Web3 заключается в том, что надежные данные можно безопасно и эффективно распределять между несколькими объектами, чтобы можно было извлечь ценную информацию.
Избыточность данных — данные в цепочке с меньшей вероятностью будут потеряны и более устойчивы, поскольку сеть протоколов хранит фрагменты данных на нескольких узлах.
Безопасность данных. Данные в цепочке защищены от несанкционированного доступа, поскольку они проверяются и согласовываются сетью децентрализованных узлов.
Суверенитет данных. Суверенитет данных — это право пользователей владеть и контролировать свои собственные данные. С потоковой передачей данных пользователи могут видеть, как используются их данные, и делиться ими только с теми, у кого есть законная потребность в доступе к ним.
Без разрешения и прозрачно — данные в цепочке прозрачны и защищены от несанкционированного доступа. Это гарантирует, что обрабатываемые данные также являются надежным источником информации.
Стабильная работа. Когда потоки данных управляются протоколами в распределенной среде, каждый уровень значительно меньше подвержен простоям, поскольку отсутствует единая точка отказа.
3.2 Случаи применения
Доверие является основой взаимодействия различных субъектов друг с другом и принятия решений. Следовательно, когда надежные данные можно безопасно распространять, это означает, что многие взаимодействия и решения могут приниматься через службы Web3, в которых участвуют различные сущности. Это помогает максимизировать социальный капитал, и мы можем представить несколько вариантов использования ниже.
3.2.1 Приложение службы/протокола
Автоматизированная система принятия решений на основе правил. Протоколы используют ключевые параметры для запуска служб. Эти параметры регулярно корректируются, чтобы стабилизировать статус службы и предоставить пользователям наилучшие возможности. Однако протокол не всегда может отслеживать состояние сервиса и своевременно вносить динамические изменения в параметры. Это то, что делает поток данных в цепочке. Потоки данных в цепочке можно использовать для анализа состояния службы в режиме реального времени и предложения наилучшего набора параметров, соответствующих требованиям службы (например, применение автоматического механизма плавающей ставки для протоколов кредитования).
Рост кредитного рынка. Кредит традиционно использовался на финансовых рынках как мера способности человека погашать кредит. Это помогает повысить эффективность рынка. Однако определение кредита остается неясным на рынке Web3. Это связано с нехваткой персональных данных и отсутствием управления данными в разных отраслях. Поэтому становится сложно интегрировать и собирать информацию. Создав процесс сбора и обработки фрагментированных данных в сети, можно переопределить кредитный рынок на рынке Web3 (например, оценка MACRO (оракул кредитного риска с несколькими активами) Spectral).
Децентрализованные социальные/NFT-расширения. Децентрализованные общества отдают приоритет контролю пользователей, защите конфиденциальности, сопротивлению цензуре и управлению сообществом. Это обеспечивает альтернативную социальную парадигму. Следовательно, можно установить конвейер для более плавного контроля и обновления различных метаданных и облегчения миграции между платформами.
Обнаружение мошенничества. Службы Web3, использующие смарт-контракты, уязвимы для злонамеренных атак, которые могут похитить средства, скомпрометировать системы и привести к атакам на развязку и ликвидность. Создавая систему, которая может заранее обнаруживать такие атаки, службы Web3 могут разрабатывать планы быстрого реагирования и защищать пользователей от вреда.
3.2.2 Инициативы сотрудничества и управления
Полностью ончейновые DAO — децентрализованные автономные организации (DAO) в значительной степени полагаются на автономные инструменты для эффективного управления и государственного финансирования. Построив процесс обработки данных в сети и создав прозрачный процесс для операций DAO, можно еще больше повысить ценность родного DAO Web3.
Снятие усталости от управления. Решения по протоколу Web3 часто принимаются через управление сообществом. Однако существует множество факторов, которые могут затруднить участие участников в управлении, например, географические барьеры, давление мониторинга, отсутствие опыта, необходимого для управления, произвольно опубликованная повестка дня управления и неудобный пользовательский интерфейс. Структура управления протоколом могла бы работать более эффективно и действенно, если бы можно было создать инструмент, упрощающий для участников процесс перехода от понимания к фактической реализации отдельных пунктов повестки дня управления.
Платформы открытых данных для совместной работы. В существующих академических и промышленных кругах многие данные и исследовательские материалы не раскрываются публично, что может сделать общее развитие рынка очень неэффективным. С другой стороны, пулы данных в сети могут способствовать большему количеству совместных инициатив, чем существующие рынки, потому что они прозрачны и доступны для всех. Хорошими примерами являются разработка многих стандартов токенов и решений DeFi. Кроме того, мы можем использовать общедоступные пулы данных для различных целей.
3.2.3 Диагностика сети
Исследование индексов. Пользователи Web3 создают различные индикаторы для анализа и сравнения состояния протокола. Множественные объективные показатели (например, коэффициент Сатоши Накафлоу) можно изучать и отображать в режиме реального времени.
Метрики протокола. Анализируя данные, такие как количество активных адресов, количество транзакций, приток/отток активов и комиссии, взимаемые сетью, можно анализировать производительность протокола. Эту информацию можно использовать для оценки влияния конкретных обновлений протокола, состояния MEV и работоспособности сети.
3.3 Проблемы
Ончейн-данные обладают уникальными преимуществами, которые могут повысить ценность отрасли. Однако для полной реализации этих преимуществ необходимо решить множество проблем как внутри отрасли, так и за ее пределами.
Отсутствие управления данными. Управление данными — это процесс установления согласованных и общих политик и стандартов данных для облегчения интеграции каждого примитива данных. В настоящее время каждый сетевой протокол устанавливает свои собственные стандарты и извлекает свои собственные типы данных. Проблема, однако, заключается в отсутствии управления данными между объектами, которые объединяют эти данные протокола и предоставляют услуги API пользователям. Это затрудняет интеграцию между службами, и, как следствие, пользователям трудно получить надежную и исчерпывающую информацию.
Экономическая неэффективность. Хранение холодных данных в протоколе снижает безопасность данных пользователей и затраты на сервер. Однако, если к данным необходимо часто обращаться для анализа или требуются значительные вычислительные ресурсы, хранить их в блокчейне может быть невыгодно.
Проблема оракула. Смарт-контракты могут полноценно функционировать только тогда, когда у них есть доступ к данным из реального мира. Однако эти данные не всегда надежны и непротиворечивы. В отличие от блокчейнов, которые поддерживают целостность с помощью алгоритмов консенсуса, внешние данные не являются детерминированными. Решения Oracle должны развиваться, чтобы гарантировать целостность, качество и масштабируемость внешних данных независимо от конкретного прикладного уровня.
Протокол находится в зачаточном состоянии — протокол использует собственный токен, чтобы стимулировать пользователей поддерживать работу сервиса и платить за него. Однако параметры, необходимые для работы протокола (например, точное определение и схема поощрения пользователей услуг), часто управляются наивно. Это означает, что экономическую устойчивость протокола трудно проверить. Если многие протоколы подключаются органично и создают конвейеры данных, будет большая неопределенность в отношении того, будут ли конвейеры работать хорошо.
Медленное время извлечения данных. Протоколы обычно обрабатывают транзакции на основе консенсуса многих узлов, что ограничивает скорость и объем обработки информации по сравнению с традиционной бизнес-логикой ИТ. Это узкое место трудно устранить, если производительность всех протоколов, составляющих конвейер, не будет значительно улучшена.
Истинная ценность данных Web3. Блокчейны — это разрозненные системы, которые еще не подключены к реальному миру. При сборе данных Web3 нам необходимо учитывать, могут ли собранные данные предоставить содержательную информацию, достаточную для покрытия затрат на создание конвейера данных.
Незнакомый синтаксис. Существующая инфраструктура ИТ-данных и инфраструктура блокчейна работают совершенно по-разному. Даже используемый язык программирования отличается, а инфраструктура блокчейна часто использует низкоуровневые языки или новые языки, разработанные специально для нужд блокчейна. Это затрудняет для новых разработчиков и пользователей услуг изучение того, как работать с каждым примитивом данных, поскольку им необходимо изучить новый язык программирования или новый способ мышления о работе с данными блокчейна.
4. Конвейерные данные Web3 Lego
Между текущими примитивами данных Web3 нет никаких связей, они извлекают и обрабатывают данные независимо. Это затрудняет эксперименты с синергией в обработке информации. Чтобы решить эту проблему, в этом документе представлен конвейер данных, обычно используемый на рынке ИТ, и сопоставлены существующие примитивы данных Web3 с этим конвейером. Это сделает вариант использования более конкретным.
4.1 Общий конвейер данных
Создание конвейера данных похоже на процесс концептуализации и автоматизации повторяющихся процессов принятия решений в повседневной жизни. Таким образом, информация определенного качества легкодоступна и используется для принятия решений. Чем больше неструктурированных данных нужно обработать, чем чаще используется информация или чем больше требуется анализа в реальном времени, тем меньше времени и затрат на проактивность, необходимую для принятия будущих решений, можно сэкономить за счет автоматизации этих процессов.
На приведенной выше диаграмме показана общая архитектура построения конвейеров данных на рынке существующей ИТ-инфраструктуры. Данные, подходящие для аналитических целей, собираются из правильного источника данных и хранятся в соответствующем решении для хранения в соответствии с характером данных и аналитическими требованиями. Например, озера данных предоставляют решения для хранения необработанных данных для масштабируемого и гибкого анализа, в то время как хранилища данных сосредоточены на хранении структурированных данных для запросов и анализа, оптимизированных для конкретной бизнес-логики. Затем данные обрабатываются различными способами, превращаясь в понимание или полезную информацию.
Каждый уровень решения также доступен в виде пакетной услуги. Также растет интерес к группам продуктов SaaS ETL (Extract, Transform, Load), которые соединяют цепочку процессов от извлечения данных до загрузки (например, FiveTran, Panoply, Hivo, Rivery). Последовательность не всегда однонаправленная, и слои могут быть связаны друг с другом различными способами, в зависимости от конкретных потребностей организации. Самое главное при построении конвейера данных — свести к минимуму риск потери данных, который может возникнуть при отправке и получении данных на каждом уровне сервера. Этого можно добиться за счет оптимизации разделения серверов и использования надежных решений для хранения и обработки данных.
4.2 Конвейер с ончейн-средой
Концептуальная схема конвейера данных, представленная ранее, может быть применена к среде ончейн, как показано на рисунке выше, но следует отметить, что полностью децентрализованный конвейер не может быть сформирован, потому что каждый базовый компонент в той или иной степени зависит от Централизованное решение вне сети. Кроме того, приведенный выше рисунок в настоящее время включает не все решения Web3, и границы классификации могут быть размыты — например, KYVE, помимо работы в качестве платформы потокового мультимедиа, также включает в себя функцию озера данных, которую можно рассматривается как конвейер данных. Кроме того, Space and Time классифицируется как децентрализованная база данных, но предлагает услуги шлюза API, такие как RestAPI и потоковая передача, а также услуги ETL.
4.2.1 Захват/Обработка
Чтобы обычные пользователи или dApps могли эффективно потреблять/управлять услугами, они должны иметь возможность легко идентифицировать и получать доступ к источникам данных, таким как транзакции, состояние и события журнала, которые в основном генерируются внутри протокола. На этом уровне в игру вступает ПО промежуточного слоя, помогающее с такими процессами, как оракулы, обмен сообщениями, аутентификация и управление API. Основные решения следующие.
Платформа потоковой передачи/индексирования
Bitquery, Ceramic, KYVE, Lens, Streamr Network, The Graph, обозреватели блоков различных протоколов и т. д.
Узел как услуга и другие службы RPC/API
Alchemy、All that Node、Infura、Pocket Network、Quicknode 等。
Оракул
API3, Band Protocol, Chainlink, Nest Protocol, Pyth, Supra oracles и т. д.
4.2.2 Хранение
По сравнению с решениями для хранения Web2, решения для хранения Web3 имеют ряд преимуществ, таких как постоянство и децентрализация. Однако они также имеют некоторые недостатки, такие как высокая стоимость, сложность обновления данных и запросов. В результате появились различные решения для устранения этих недостатков и обеспечения эффективной обработки структурированных и динамических данных в Web3, каждое из которых имеет различные характеристики, такие как тип обрабатываемых данных, является ли оно структурированным и имеет ли оно встроенную функцию запроса и т. д. на.
Децентрализованная сеть хранения
Arweave, Filecoin, KYVE, Sia, Storj и т. д.
децентрализованная база данных
Базы данных на основе Arweave (Glacier, HollowDB, Kwil, WeaveDB), ComposeDB, OrbitDB, Polybase, Space and Time, Tableland и т. д.
*Каждый протокол имеет свой механизм постоянного хранения. Например, Arweave — это модель на основе блокчейна, аналогичная хранилищу Ethereum, которая постоянно хранит данные в цепочке, а Filecoin, Sia и Storj — модели на основе контрактов, хранящие данные вне цепочки.
4.2.3 Преобразование
В контексте Web3 уровень перевода так же важен, как и уровень хранения. Это связано с тем, что структура блокчейна в основном состоит из распределенного набора узлов, что упрощает использование масштабируемой внутренней логики. В индустрии ИИ люди активно изучают использование этих преимуществ для исследований в области федеративного обучения, и появились протоколы, посвященные машинному обучению и операциям ИИ.
Обучение данным/моделирование/вычисления
Акаш, Бакальхау, Битензор, Генсин, Голем, Вместе 等.
*Федеральное обучение — это метод обучения моделей искусственного интеллекта путем распространения исходной модели на несколько собственных клиентов, использования сохраненных данных для ее обучения и последующего сбора изученных параметров на центральном сервере.
4.2.4 Анализ/использование
Перечисленные ниже сервисы информационных панелей и аналитические решения для конечных пользователей представляют собой платформы, которые позволяют пользователям наблюдать и находить различные аналитические данные из определенных протоколов. Некоторые из этих решений также предоставляют услуги API для конечного продукта. Однако важно отметить, что данные в этих решениях не всегда точны, поскольку они в основном используют отдельные инструменты вне сети для хранения и обработки данных. Также можно наблюдать ошибки между решениями.
В то же время существует платформа под названием «Функции Web3», которая может автоматически/инициировать выполнение смарт-контрактов, точно так же, как централизованные платформы, такие как Google Cloud, запускают/выполняют определенную бизнес-логику. Используя эту платформу, пользователи могут реализовывать бизнес-логику нативным для Web3 способом, а не просто обрабатывать данные в цепочке для получения информации.
Dune Analytics, Flipside Crypto, Footprint, Transpose 等.
Chainalaysis, Glassnode, Messari, Nansen, The Tie, Token Terminal и т. д.
Функции Chainlink, сеть Gelato и т. д.
5. Заключительные мысли
Как сказал Кант, мы можем наблюдать только видимость вещей, но не их сущность. Тем не менее, мы используем записи наблюдений, известные как «данные», для обработки информации и знаний, и мы видим, как инновации в информационных технологиях стимулируют развитие цивилизации. Таким образом, построение конвейера данных на рынке Web3, помимо децентрализации, может сыграть ключевую роль в качестве отправной точки для фактического использования этих возможностей. Я хотел бы завершить эту статью несколькими мыслями.
5.1 Роль решений для хранения данных станет более важной
Наиболее важной предпосылкой для конвейера данных является организация управления данными и API. Во все более разнообразной экосистеме спецификации, созданные каждым протоколом, будут продолжать создаваться заново, а фрагментированные записи транзакций в многоцепочечных экосистемах усложнят для отдельных лиц получение исчерпывающей информации. Затем «решения для хранения» — это объекты, которые могут предоставлять интегрированные данные в унифицированном формате путем сбора фрагментированной информации и обновления спецификаций каждого протокола. Мы наблюдаем, что существующие на рынке решения для хранения данных, такие как Snowflake и Databricks, быстро растут, имеют большую клиентскую базу, вертикально интегрированы, работают на разных уровнях конвейера и лидируют в отрасли.
5.2 Возможности на рынке источников данных
Успешные варианты использования начали появляться, когда данные стали более доступными и обработка улучшилась. Это создает положительный круговой эффект, когда источники данных и инструменты сбора резко увеличиваются — с 2010 года типы и объемы цифровых данных, собираемых каждый год, выросли в геометрической прогрессии с 2010 года благодаря огромному прогрессу в технологиях построения конвейеров данных. Применяя этот фон к рынку Web3, многие источники данных могут быть рекурсивно сгенерированы в сети в будущем. Это также означает, что блокчейн будет расширяться в различных сферах бизнеса. На данный момент мы можем ожидать, что сбор данных будет продвигаться через рынки данных, такие как Ocean Protocol или решения DeWi (децентрализованная беспроводная связь), такие как Helium и XNET, а также решения для хранения.
5.3 Важны значимые данные и анализ
Однако самое главное — постоянно спрашивать, какие данные следует подготовить для извлечения действительно необходимых сведений. Нет ничего более расточительного, чем создание конвейера данных ради построения конвейера данных без явных предположений для проверки. Существующие рынки добились множества инноваций благодаря созданию конвейеров данных, но также заплатили бесчисленную цену из-за повторяющихся бессмысленных неудач. Также полезно вести конструктивные дискуссии о развитии стека технологий, но отрасли нужно время, чтобы подумать и обсудить более фундаментальные вопросы, например, какие данные следует хранить в блочном пространстве или для каких целей эти данные следует использовать. . «Цель» должна заключаться в том, чтобы реализовать ценность Web3 с помощью практических данных и вариантов использования, и в этом процессе разработка нескольких основных компонентов и завершение конвейера являются «средствами» для достижения этой цели.