Глибоке занурення в важливість і бізнес-потенціал розподілених обчислень даних

2023-09-02 10:02:49

*Примітка редактора: ця стаття в основному базується на виступі Девіда Арончіка на конференції Filecoin Unleashed 2023 у Парижі. Девід є генеральним директором Expanso та колишнім керівником відділу обробки даних у Protocol Labs, яка запустила проект Bacalhau. Ця стаття представляє незалежні думки автора оригінального вмісту, і було надано дозвіл на повторну публікацію. *

За даними IDC, до 2025 року обсяг даних, що зберігаються в усьому світі, перевищить 175 ZB. Це величезна кількість даних, еквівалентна 175 трильйонам USB-накопичувачів об’ємом 1 ГБ. Більшість цих даних отримано між 2020 і 2025 роками з прогнозованим CAGR 61%.

Сьогодні у сфері даних, що швидко розвивається, постають дві основні проблеми:

**Переміщення даних повільне та дороге. **Якщо ви спробуєте завантажити 175 ZB даних із поточною пропускною здатністю, це займе приблизно 1,8 мільярда років.
**Завдання щодо відповідності є обтяжливими. **Існують сотні нормативних актів, пов’язаних із даними, у всьому світі, що робить завдання міжюрисдикційної відповідності майже неможливим.

Сукупним результатом слабкого зростання мережі та нормативних обмежень є те, що майже 68% даних агентства неактивні. Через це особливо важливо переміщувати обчислювальні ресурси в місце зберігання даних (широко називається compute-over-data, тобто «обчислення даних»), а не переміщувати дані в місце обчислення. (CoD) Платформи працюють над цим.

У наступних розділах ми коротко представимо:

Як організації обробляють дані сьогодні.
Запропонуйте альтернативні рішення на основі «обчислення даних».
Нарешті, припустіть, чому розподілені обчислення важливі.

статус кво

На даний момент існують три основні способи, якими організації вирішують проблеми обробки даних, жоден із яких не є ідеальним.

Використовуйте централізовану систему

Найпоширенішим підходом є використання централізованих систем для великомасштабної обробки даних. Ми часто бачимо, як організації поєднують обчислювальні інфраструктури, такі як Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray тощо, щоб сформувати мережу кластерних систем, підключених до централізованого сервера API. Однак ці системи не можуть ефективно вирішувати порушення мережі та інші нормативні проблеми, пов’язані з мобільністю даних.

Це частково відповідає за те, що агентства зазнають мільярдів доларів адміністративних штрафів і пені через витік даних.

Побудуй сам

Інший підхід полягає в тому, щоб розробники створювали спеціальні системи координації, які мають обізнаність і надійність, необхідні установам. Цей підхід є новим, але часто ризикує невдачею через надмірну залежність від невеликої кількості людей для підтримки та керування системою.

Нічого не робити

Дивно, але здебільшого установи нічого не роблять зі своїми даними. Наприклад, місто може щодня збирати велику кількість даних із відео камер спостереження, але через високу вартість ці дані можна переглядати лише на локальній машині, їх неможливо архівувати чи обробити.

Створіть справжні розподілені обчислення

Є два основних рішення проблемних точок обробки даних.

Рішення 1: створіть обчислювальну платформу даних з відкритим кодом

Рішення 1: Платформа обчислення даних з відкритим кодом

Розробники можуть використовувати для обчислень платформу розподілених даних з відкритим вихідним кодом замість спеціальної системи координації, згаданої раніше. Оскільки платформа є відкритим вихідним кодом і розширюваною, агентствам потрібно створювати лише ті компоненти, які їм потрібні. Це налаштування може відповідати сценаріям додатків із кількома хмарами, декількома комп’ютерами, не в центрі обробки даних, а також керувати складними нормативними середовищами. Важливо, що доступ до спільноти з відкритим кодом більше не залежить від одного або кількох розробників для обслуговування системи, що зменшує ймовірність збою.

Рішення 2: побудовано на протоколі розподілених даних

За допомогою передових обчислювальних проектів, таких як Bacalhau і Lilypad, розробники можуть піти на крок далі і створювати системи не лише на платформах даних з відкритим кодом, згаданих у Рішенні One, але й на дійсно розподілених протоколах даних, таких як мережа Filecoin.

Рішення 2: протокол розподілених даних

Це означає, що установи можуть використовувати розподілені протоколи, які розуміють, як координувати та описувати проблеми користувачів у більш деталізований спосіб, розблоковуючи області обчислень, близькі до того, де генеруються та зберігаються дані. Цю трансформацію від центрів обробки даних до розподілених протоколів можна ідеально виконати лише з незначними змінами в досвіді спеціаліста з обробки даних.

Розподілений означає максимізацію вибору

Завдяки розгортанню розподіленого протоколу, такого як мережа Filecoin, наше бачення полягає в тому, щоб користувачі могли отримати доступ до сотень (або тисяч) машин, розподілених у різних регіонах однієї мережі, і дотримуватися тих самих правил протоколу, що й інші машини. Це, по суті, відкриває океан варіантів для дослідників даних, оскільки вони можуть попросити мережу:

Виберіть набір даних з будь-якої точки світу.
Дотримання будь-якої структури управління, будь то HIPAA, GDPR або FISMA.
Запускайте за найнижчою можливою ціною.

Трикутник Хуана | Акроніми декодування: FHE (повністю гомоморфне шифрування), MPC (багатостороннє обчислення), TEE (довірене середовище виконання), ZKP (доказ нульового знання)

Говорячи про концепцію максимізації вибору, ми повинні згадати «трикутник Хуана», термін, який був введений засновником Protocol Labs Хуаном Бенетом, коли він пояснював, чому різні випадки використання (у майбутньому) матимуть різні розподілені обчислювальні мережі. підтримується.

Трикутник Хуана припускає, що обчислювальні мережі часто вимагають компромісу між конфіденційністю, можливістю перевірки та продуктивністю, а традиційний підхід «одного розміру для всіх» важко застосувати до кожного випадку використання. Натомість модульна природа розподілених протоколів дозволяє різним розподіленим мережам (або підмережам) задовольняти різні потреби користувачів — будь то конфіденційність, можливість перевірки чи продуктивність. Зрештою, ми оптимізуємо виходячи з того, що вважаємо важливим. До того часу з’явиться багато сторонніх постачальників послуг (показаних прямокутниками всередині трикутника), які заповнять ці прогалини та зроблять розподілене обчислення реальністю.

Підсумовуючи, обробка даних є складною проблемою, яка потребує готових рішень. Заміна традиційних централізованих систем обчисленням даних з відкритим кодом є хорошим першим кроком. Зрештою, завдяки розгортанню обчислювальної платформи на розподілених протоколах, таких як мережа Filecoin, обчислювальні ресурси можна вільно конфігурувати відповідно до індивідуальних потреб користувачів, що має вирішальне значення в еру великих даних і штучного інтелекту.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
1/3
1ETH Breaks Through $3,800
16k Популярність
2Gate June Transparency Report
9k Популярність
3Altcoins on the Rise
16k Популярність
4Gate Square Creator Spark Program
158k Популярність
5Content Mining & Earn Rich Commission
1852k Популярність

Закріпити

карта сайту