*Примечание редактора: эта статья в основном основана на выступлении Дэвида Арончика на конференции Filecoin Unleashed Paris 2023. Дэвид — генеральный директор Expanso и бывший руководитель отдела вычислений данных в Protocol Labs, той же лаборатории, которая отвечала за запуск проекта Bacalhau. Эта статья представляет собой независимые взгляды создателей оригинального контента и переиздана с разрешения. *
По данным IDC, к 2025 году объем данных, хранящихся во всем мире, превысит 175 ЗБ. Это огромный объем данных, эквивалентный 175 триллионам USB-флешек емкостью 1 ГБ. Большая часть этих данных генерируется в период с 2020 по 2025 год, при этом ожидаемый среднегодовой темп роста составит 61%.
Сегодня в быстро растущей сфере данных возникают две основные проблемы:
** Мобильные данные работают медленно и дорого. **Если вы попытаетесь загрузить 175 ЗБ данных с текущей пропускной способностью, это займет около 1,8 миллиарда лет.
**Соблюдение является обременительным. **В мире существуют сотни нормативных актов, касающихся данных, что делает задачу обеспечения соответствия между юрисдикциями практически невозможной.
Совокупный результат вялого роста сети и нормативных ограничений заключается в том, что почти 68 процентов институциональных данных находятся в состоянии покоя. По этой причине особенно важно перемещать вычислительные ресурсы в место хранения данных (широко называемое «вычисление над данными», то есть «вычисление данных»), а не перемещать данные в место хранения данных. (CoD) Платформы усердно работают над этим.
В следующих главах мы кратко представим:
Как организации сегодня обрабатывают данные.
Предложите альтернативные решения, основанные на «вычислении данных».
Наконец, выскажите гипотезу, почему распределенные вычисления важны.
статус-кво
В настоящее время существует три основных способа, с помощью которых организации решают проблемы обработки данных, ни один из которых не является идеальным.
Использование централизованной системы
Наиболее распространенным подходом является использование централизованных систем для крупномасштабной обработки данных. Мы часто видим организации, объединяющие такие вычислительные платформы, как Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray и т. д., чтобы сформировать сеть кластерных систем, подключенных к централизованному серверу API. Однако эти системы неэффективно решают проблемы сетевых нарушений и других нормативных проблем, связанных с мобильностью данных.
Частично это является причиной того, что агентства несут миллиарды долларов в виде административных штрафов и санкций из-за утечки данных.
Построй сам
Другой подход заключается в том, чтобы разработчики создавали собственные системы координации, которые обладают той осведомленностью и надежностью, которые необходимы агентству. Этот подход является новым, но часто сталкивается с риском неудачи из-за чрезмерной зависимости от небольшого числа людей для обслуживания и управления системой.
Ничего не делать
Удивительно, но в большинстве случаев учреждения ничего не делают со своими данными. Например, город может каждый день собирать большой объем данных с видеонаблюдения, но из-за высокой стоимости эти данные можно просмотреть только на локальной машине и их невозможно заархивировать или обработать.
Создайте настоящие распределенные вычисления
Есть два основных решения проблем обработки данных.
Решение 1. Создано на платформе обработки данных с открытым исходным кодом.
Решение 1. Платформа для обработки данных с открытым исходным кодом
Разработчики могут использовать для вычислений платформу распределенных данных с открытым исходным кодом вместо упомянутой ранее пользовательской системы координации. Поскольку платформа имеет открытый исходный код и ее можно расширять, агентствам нужно создавать только те компоненты, которые им нужны. Эта установка может соответствовать сценариям приложений с несколькими облаками, несколькими компьютерами, не относящимся к центрам обработки данных, и ориентироваться в сложных нормативных средах. Важно отметить, что доступ к сообществу открытого исходного кода больше не зависит от одного или нескольких разработчиков при обслуживании системы, что снижает вероятность сбоя.
Решение 2. Создано на основе протокола распределенных данных
С помощью передовых вычислительных проектов, таких как Bacalhau и Lilypad, разработчики могут сделать еще один шаг вперед и создавать системы не только на платформах данных с открытым исходным кодом, упомянутых в первом решении, но также на действительно распределенных протоколах данных, таких как сеть Filecoin.
Решение 2. Протокол вычислений распределенных данных
Это означает, что учреждения могут использовать распределенные протоколы, которые понимают, как более детально координировать и описывать проблемы пользователей, открывая доступ к областям вычислений, близким к местам генерации и хранения данных. Этот переход от центров обработки данных к распределенным протоколам в идеале можно осуществить лишь с небольшими изменениями в опыте специалиста по обработке данных.
Распространение означает максимизацию выбора
Развертывая распределенный протокол, такой как сеть Filecoin, мы стремимся к тому, чтобы пользователи могли получить доступ к сотням (или тысячам) машин, распределенных в разных регионах одной сети, и следовать тем же правилам протокола, что и другие машины. По сути, это открывает море возможностей для специалистов по обработке данных, поскольку они могут запрашивать сеть:
Выберите набор данных из любой точки мира.
Следуйте любой структуре управления, будь то HIPAA, GDPR или FISMA.
Говоря о концепции максимизации выбора, мы должны упомянуть «треугольник Хуана» — термин, который был введен в объяснение основателя Protocol Labs Хуана Бенета о том, почему разные варианты использования (в будущем) будут иметь разные распределенные вычислительные сети. .
Треугольник Хуана предполагает, что вычислительные сети часто требуют компромисса между конфиденциальностью, проверяемостью и производительностью, а традиционный подход «один размер подходит всем» трудно применить к каждому варианту использования. Вместо этого модульная природа распределенных протоколов позволяет различным распределенным сетям (или подсетям) удовлетворять разные потребности пользователей — будь то конфиденциальность, проверяемость или производительность. В конечном счете, мы оптимизируем, основываясь на том, что мы считаем важным. К тому времени появится множество поставщиков услуг (показаны прямоугольниками внутри треугольника), которые заполнят эти пробелы и сделают распределенные вычисления реальностью.
Подводя итог, обработка данных — сложная проблема, требующая нестандартных решений. Использование вычислений с открытым исходным кодом для замены традиционных централизованных систем является хорошим первым шагом. В конечном итоге, развернув вычислительную платформу на распределенных протоколах, таких как сеть Filecoin, вычислительные ресурсы можно свободно настраивать в соответствии с индивидуальными потребностями пользователей, что имеет решающее значение в эпоху больших данных и искусственного интеллекта.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Глубокое погружение в важность и бизнес-потенциал распределенных вычислений данных.
По данным IDC, к 2025 году объем данных, хранящихся во всем мире, превысит 175 ЗБ. Это огромный объем данных, эквивалентный 175 триллионам USB-флешек емкостью 1 ГБ. Большая часть этих данных генерируется в период с 2020 по 2025 год, при этом ожидаемый среднегодовой темп роста составит 61%.
Сегодня в быстро растущей сфере данных возникают две основные проблемы:
Совокупный результат вялого роста сети и нормативных ограничений заключается в том, что почти 68 процентов институциональных данных находятся в состоянии покоя. По этой причине особенно важно перемещать вычислительные ресурсы в место хранения данных (широко называемое «вычисление над данными», то есть «вычисление данных»), а не перемещать данные в место хранения данных. (CoD) Платформы усердно работают над этим.
В следующих главах мы кратко представим:
статус-кво
В настоящее время существует три основных способа, с помощью которых организации решают проблемы обработки данных, ни один из которых не является идеальным.
Использование централизованной системы
Наиболее распространенным подходом является использование централизованных систем для крупномасштабной обработки данных. Мы часто видим организации, объединяющие такие вычислительные платформы, как Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray и т. д., чтобы сформировать сеть кластерных систем, подключенных к централизованному серверу API. Однако эти системы неэффективно решают проблемы сетевых нарушений и других нормативных проблем, связанных с мобильностью данных.
Частично это является причиной того, что агентства несут миллиарды долларов в виде административных штрафов и санкций из-за утечки данных.
Построй сам
Другой подход заключается в том, чтобы разработчики создавали собственные системы координации, которые обладают той осведомленностью и надежностью, которые необходимы агентству. Этот подход является новым, но часто сталкивается с риском неудачи из-за чрезмерной зависимости от небольшого числа людей для обслуживания и управления системой.
Ничего не делать
Удивительно, но в большинстве случаев учреждения ничего не делают со своими данными. Например, город может каждый день собирать большой объем данных с видеонаблюдения, но из-за высокой стоимости эти данные можно просмотреть только на локальной машине и их невозможно заархивировать или обработать.
Создайте настоящие распределенные вычисления
Есть два основных решения проблем обработки данных.
Решение 1. Создано на платформе обработки данных с открытым исходным кодом.
Решение 1. Платформа для обработки данных с открытым исходным кодом
Разработчики могут использовать для вычислений платформу распределенных данных с открытым исходным кодом вместо упомянутой ранее пользовательской системы координации. Поскольку платформа имеет открытый исходный код и ее можно расширять, агентствам нужно создавать только те компоненты, которые им нужны. Эта установка может соответствовать сценариям приложений с несколькими облаками, несколькими компьютерами, не относящимся к центрам обработки данных, и ориентироваться в сложных нормативных средах. Важно отметить, что доступ к сообществу открытого исходного кода больше не зависит от одного или нескольких разработчиков при обслуживании системы, что снижает вероятность сбоя.
Решение 2. Создано на основе протокола распределенных данных
С помощью передовых вычислительных проектов, таких как Bacalhau и Lilypad, разработчики могут сделать еще один шаг вперед и создавать системы не только на платформах данных с открытым исходным кодом, упомянутых в первом решении, но также на действительно распределенных протоколах данных, таких как сеть Filecoin.
Решение 2. Протокол вычислений распределенных данных
Это означает, что учреждения могут использовать распределенные протоколы, которые понимают, как более детально координировать и описывать проблемы пользователей, открывая доступ к областям вычислений, близким к местам генерации и хранения данных. Этот переход от центров обработки данных к распределенным протоколам в идеале можно осуществить лишь с небольшими изменениями в опыте специалиста по обработке данных.
Распространение означает максимизацию выбора
Развертывая распределенный протокол, такой как сеть Filecoin, мы стремимся к тому, чтобы пользователи могли получить доступ к сотням (или тысячам) машин, распределенных в разных регионах одной сети, и следовать тем же правилам протокола, что и другие машины. По сути, это открывает море возможностей для специалистов по обработке данных, поскольку они могут запрашивать сеть:
Треугольник Хуана | Расшифровка сокращений: FHE (полностью гомоморфное шифрование), MPC (многосторонние вычисления), TEE (доверенная среда выполнения), ZKP (доказательство с нулевым разглашением)
Говоря о концепции максимизации выбора, мы должны упомянуть «треугольник Хуана» — термин, который был введен в объяснение основателя Protocol Labs Хуана Бенета о том, почему разные варианты использования (в будущем) будут иметь разные распределенные вычислительные сети. .
Треугольник Хуана предполагает, что вычислительные сети часто требуют компромисса между конфиденциальностью, проверяемостью и производительностью, а традиционный подход «один размер подходит всем» трудно применить к каждому варианту использования. Вместо этого модульная природа распределенных протоколов позволяет различным распределенным сетям (или подсетям) удовлетворять разные потребности пользователей — будь то конфиденциальность, проверяемость или производительность. В конечном счете, мы оптимизируем, основываясь на том, что мы считаем важным. К тому времени появится множество поставщиков услуг (показаны прямоугольниками внутри треугольника), которые заполнят эти пробелы и сделают распределенные вычисления реальностью.
Подводя итог, обработка данных — сложная проблема, требующая нестандартных решений. Использование вычислений с открытым исходным кодом для замены традиционных централизованных систем является хорошим первым шагом. В конечном итоге, развернув вычислительную платформу на распределенных протоколах, таких как сеть Filecoin, вычислительные ресурсы можно свободно настраивать в соответствии с индивидуальными потребностями пользователей, что имеет решающее значение в эпоху больших данных и искусственного интеллекта.