*Lưu ý của biên tập viên: Bài viết này chủ yếu dựa trên bài phát biểu của David Aronchick tại Hội nghị giải phóng Filecoin năm 2023 ở Paris. David là Giám đốc điều hành của Expanso và cựu Giám đốc Điện toán Dữ liệu tại Phòng thí nghiệm Giao thức, phòng thí nghiệm chịu trách nhiệm khởi động dự án Bacalhau. Bài viết này thể hiện quan điểm độc lập của người sáng tạo nội dung gốc và đã được tái bản với sự cho phép. *
Theo IDC, đến năm 2025, lượng dữ liệu được lưu trữ trên toàn cầu sẽ vượt quá 175 ZB. Đây là một lượng dữ liệu khổng lồ, tương đương với 175 nghìn tỷ ổ USB flash 1 GB. Hầu hết dữ liệu này được tạo ra từ năm 2020 đến năm 2025, với tốc độ CAGR dự kiến là 61%.
Kho dữ liệu đang phát triển nhanh chóng ngày nay đặt ra hai thách thức lớn:
**Di chuyển dữ liệu chậm và tốn kém. **Nếu bạn cố tải xuống 175 ZB dữ liệu với băng thông hiện tại thì sẽ mất khoảng 1,8 tỷ năm.
**Việc tuân thủ là khó khăn. **Có hàng trăm quy định liên quan đến dữ liệu trên khắp thế giới, khiến việc tuân thủ giữa các khu vực pháp lý gần như không thể thực hiện được.
Kết quả tổng hợp của sự tăng trưởng mạng lưới mờ nhạt và các hạn chế về quy định là gần 68% dữ liệu của cơ quan không hoạt động. Vì lý do này, điều đặc biệt quan trọng là chuyển tài nguyên máy tính sang nơi lưu trữ dữ liệu (được gọi rộng rãi là tính toán trên dữ liệu hoặc "điện toán dữ liệu") thay vì di chuyển dữ liệu sang máy tính, Bacalhau và cộng sự. khó khăn về điều này.
Trong các chương tiếp theo, chúng tôi sẽ giới thiệu ngắn gọn:
Cách các tổ chức xử lý dữ liệu ngày nay.
Đề xuất các giải pháp thay thế dựa trên “tính toán dữ liệu”.
Cuối cùng, hãy đưa ra giả thuyết tại sao tính toán phân tán lại quan trọng.
hiện trạng
Hiện tại, có ba cách chính mà các tổ chức đang giải quyết các thách thức xử lý dữ liệu, không có cách nào là lý tưởng.
Sử dụng hệ thống tập trung
Cách tiếp cận phổ biến nhất là sử dụng các hệ thống tập trung để xử lý dữ liệu quy mô lớn. Chúng ta thường thấy các tổ chức kết hợp các framework tính toán như Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, v.v. để tạo thành một mạng lưới các hệ thống phân cụm được kết nối với máy chủ API tập trung. Tuy nhiên, các hệ thống này không giải quyết hiệu quả các vi phạm mạng và các vấn đề pháp lý khác xung quanh việc di chuyển dữ liệu.
Điều này một phần đã dẫn đến hàng tỷ đô la tiền phạt hành chính và hình phạt cho các tổ chức do vi phạm dữ liệu.
Tự mình xây dựng nó
Một cách tiếp cận khác là dành cho các nhà phát triển xây dựng các hệ thống điều phối tùy chỉnh có nhận thức và tính mạnh mẽ mà các tổ chức cần. Cách tiếp cận này mới lạ nhưng thường có nguy cơ thất bại do phụ thuộc quá nhiều vào một số ít người để duy trì và vận hành hệ thống.
Không làm gì cả
Đáng ngạc nhiên là phần lớn các tổ chức không làm gì với dữ liệu của họ. Ví dụ: một thành phố có thể thu thập một lượng lớn dữ liệu từ video giám sát mỗi ngày, nhưng do chi phí cao nên dữ liệu này chỉ có thể được xem trên máy cục bộ và không thể lưu trữ hoặc xử lý.
Xây dựng điện toán phân tán đích thực
Có hai giải pháp chính cho các điểm khó xử lý dữ liệu.
Giải pháp 1: Được xây dựng trên nền tảng điện toán dữ liệu nguồn mở
Giải pháp 1: Nền tảng tính toán dữ liệu nguồn mở
Các nhà phát triển có thể sử dụng nền tảng dữ liệu phân tán nguồn mở để tính toán thay vì các hệ thống điều phối tùy chỉnh được đề cập trước đó. Vì nền tảng này là nguồn mở và có thể mở rộng nên các tổ chức chỉ cần xây dựng các thành phần họ cần. Thiết lập này đáp ứng các kịch bản nhiều đám mây, nhiều máy tính, không phải trung tâm dữ liệu và có thể điều hướng các môi trường pháp lý phức tạp. Điều quan trọng là quyền truy cập vào cộng đồng nguồn mở không còn phụ thuộc vào một hoặc nhiều nhà phát triển để bảo trì hệ thống, giảm khả năng xảy ra lỗi.
Giải pháp 2: Xây dựng trên giao thức dữ liệu phân tán
Với sự trợ giúp của các dự án điện toán tiên tiến như Bacalhau và Lilypad, các nhà phát triển có thể tiến thêm một bước nữa và xây dựng hệ thống không chỉ trên nền tảng dữ liệu nguồn mở được đề cập trong Giải pháp 1 mà còn trên các giao thức dữ liệu phân tán thực sự như mạng Filecoin.
Giải pháp 2: Giao thức tính toán dữ liệu phân tán
Điều này có nghĩa là các tổ chức có thể sử dụng các giao thức phân tán để hiểu cách phối hợp và mô tả các vấn đề của người dùng theo những cách chi tiết hơn, mở khóa các lĩnh vực điện toán gần nơi dữ liệu được tạo và lưu trữ. Lý tưởng nhất là việc chuyển đổi từ trung tâm dữ liệu sang giao thức phân tán này có thể được thực hiện chỉ với những thay đổi nhỏ đối với trải nghiệm của nhà khoa học dữ liệu.
Phân phối có nghĩa là tối đa hóa lựa chọn
Bằng cách triển khai trên giao thức phân tán như mạng Filecoin, tầm nhìn của chúng tôi là người dùng có thể truy cập hàng trăm (hoặc hàng nghìn) máy được phân phối ở các vùng khác nhau trên cùng một mạng và tuân theo các quy tắc giao thức giống như các máy khác. Về cơ bản, điều này mở ra nhiều lựa chọn cho các nhà khoa học dữ liệu, vì họ có thể yêu cầu mạng:
Chọn một tập dữ liệu từ bất cứ nơi nào trên thế giới.
Tuân thủ mọi cấu trúc quản trị, có thể là HIPAA, GDPR hoặc FISMA.
Chạy ở mức giá rẻ nhất có thể.
Tam giác Juan | Các chữ viết tắt giải mã: FHE (Mã hóa hoàn toàn đồng hình), MPC (Tính toán nhiều bên), TEE (Môi trường thực thi đáng tin cậy), ZKP (Bằng chứng không có kiến thức)
Nói đến khái niệm tối đa hóa sự lựa chọn, chúng ta phải nhắc đến “tam giác Juans”, thuật ngữ này được đặt ra bởi Juan Benet, người sáng lập Protocol Labs, để giải thích tại sao các trường hợp sử dụng khác nhau (trong tương lai) sẽ có các mạng máy tính phân tán khác nhau. Được tạo khi được hỗ trợ.
Tam giác của Juan đề xuất rằng các mạng máy tính thường yêu cầu sự cân bằng giữa quyền riêng tư, khả năng xác minh và hiệu suất và cách tiếp cận "một kích thước phù hợp với tất cả" truyền thống rất khó áp dụng cho mọi trường hợp sử dụng. Thay vào đó, bản chất mô-đun của các giao thức phân tán cho phép các mạng phân tán (hoặc mạng con) khác nhau đáp ứng các nhu cầu khác nhau của người dùng—cho dù đó là quyền riêng tư, khả năng xác minh hay hiệu suất. Cuối cùng, chúng tôi tối ưu hóa dựa trên những gì chúng tôi cho là quan trọng. Đến lúc đó, sẽ có nhiều nhà cung cấp dịch vụ bên (được hiển thị dưới dạng các hộp trong hình tam giác) lấp đầy những khoảng trống này và biến điện toán phân tán thành hiện thực.
Tóm lại, xử lý dữ liệu là một vấn đề phức tạp đòi hỏi các giải pháp sẵn có. Tận dụng điện toán dữ liệu nguồn mở để thay thế các hệ thống tập trung truyền thống là bước đi đầu tiên tốt. Cuối cùng, việc triển khai nền tảng điện toán trên giao thức phân tán như mạng Filecoin có thể tự do định cấu hình tài nguyên máy tính theo nhu cầu cá nhân của người dùng, điều này rất quan trọng trong kỷ nguyên dữ liệu lớn và trí tuệ nhân tạo.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Cái nhìn sâu sắc về tầm quan trọng và tiềm năng kinh doanh của điện toán dữ liệu phân tán
Theo IDC, đến năm 2025, lượng dữ liệu được lưu trữ trên toàn cầu sẽ vượt quá 175 ZB. Đây là một lượng dữ liệu khổng lồ, tương đương với 175 nghìn tỷ ổ USB flash 1 GB. Hầu hết dữ liệu này được tạo ra từ năm 2020 đến năm 2025, với tốc độ CAGR dự kiến là 61%.
Kho dữ liệu đang phát triển nhanh chóng ngày nay đặt ra hai thách thức lớn:
Kết quả tổng hợp của sự tăng trưởng mạng lưới mờ nhạt và các hạn chế về quy định là gần 68% dữ liệu của cơ quan không hoạt động. Vì lý do này, điều đặc biệt quan trọng là chuyển tài nguyên máy tính sang nơi lưu trữ dữ liệu (được gọi rộng rãi là tính toán trên dữ liệu hoặc "điện toán dữ liệu") thay vì di chuyển dữ liệu sang máy tính, Bacalhau và cộng sự. khó khăn về điều này.
Trong các chương tiếp theo, chúng tôi sẽ giới thiệu ngắn gọn:
hiện trạng
Hiện tại, có ba cách chính mà các tổ chức đang giải quyết các thách thức xử lý dữ liệu, không có cách nào là lý tưởng.
Sử dụng hệ thống tập trung
Cách tiếp cận phổ biến nhất là sử dụng các hệ thống tập trung để xử lý dữ liệu quy mô lớn. Chúng ta thường thấy các tổ chức kết hợp các framework tính toán như Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, v.v. để tạo thành một mạng lưới các hệ thống phân cụm được kết nối với máy chủ API tập trung. Tuy nhiên, các hệ thống này không giải quyết hiệu quả các vi phạm mạng và các vấn đề pháp lý khác xung quanh việc di chuyển dữ liệu.
Điều này một phần đã dẫn đến hàng tỷ đô la tiền phạt hành chính và hình phạt cho các tổ chức do vi phạm dữ liệu.
Tự mình xây dựng nó
Một cách tiếp cận khác là dành cho các nhà phát triển xây dựng các hệ thống điều phối tùy chỉnh có nhận thức và tính mạnh mẽ mà các tổ chức cần. Cách tiếp cận này mới lạ nhưng thường có nguy cơ thất bại do phụ thuộc quá nhiều vào một số ít người để duy trì và vận hành hệ thống.
Không làm gì cả
Đáng ngạc nhiên là phần lớn các tổ chức không làm gì với dữ liệu của họ. Ví dụ: một thành phố có thể thu thập một lượng lớn dữ liệu từ video giám sát mỗi ngày, nhưng do chi phí cao nên dữ liệu này chỉ có thể được xem trên máy cục bộ và không thể lưu trữ hoặc xử lý.
Xây dựng điện toán phân tán đích thực
Có hai giải pháp chính cho các điểm khó xử lý dữ liệu.
Giải pháp 1: Được xây dựng trên nền tảng điện toán dữ liệu nguồn mở
Giải pháp 1: Nền tảng tính toán dữ liệu nguồn mở
Các nhà phát triển có thể sử dụng nền tảng dữ liệu phân tán nguồn mở để tính toán thay vì các hệ thống điều phối tùy chỉnh được đề cập trước đó. Vì nền tảng này là nguồn mở và có thể mở rộng nên các tổ chức chỉ cần xây dựng các thành phần họ cần. Thiết lập này đáp ứng các kịch bản nhiều đám mây, nhiều máy tính, không phải trung tâm dữ liệu và có thể điều hướng các môi trường pháp lý phức tạp. Điều quan trọng là quyền truy cập vào cộng đồng nguồn mở không còn phụ thuộc vào một hoặc nhiều nhà phát triển để bảo trì hệ thống, giảm khả năng xảy ra lỗi.
Giải pháp 2: Xây dựng trên giao thức dữ liệu phân tán
Với sự trợ giúp của các dự án điện toán tiên tiến như Bacalhau và Lilypad, các nhà phát triển có thể tiến thêm một bước nữa và xây dựng hệ thống không chỉ trên nền tảng dữ liệu nguồn mở được đề cập trong Giải pháp 1 mà còn trên các giao thức dữ liệu phân tán thực sự như mạng Filecoin.
Giải pháp 2: Giao thức tính toán dữ liệu phân tán
Điều này có nghĩa là các tổ chức có thể sử dụng các giao thức phân tán để hiểu cách phối hợp và mô tả các vấn đề của người dùng theo những cách chi tiết hơn, mở khóa các lĩnh vực điện toán gần nơi dữ liệu được tạo và lưu trữ. Lý tưởng nhất là việc chuyển đổi từ trung tâm dữ liệu sang giao thức phân tán này có thể được thực hiện chỉ với những thay đổi nhỏ đối với trải nghiệm của nhà khoa học dữ liệu.
Phân phối có nghĩa là tối đa hóa lựa chọn
Bằng cách triển khai trên giao thức phân tán như mạng Filecoin, tầm nhìn của chúng tôi là người dùng có thể truy cập hàng trăm (hoặc hàng nghìn) máy được phân phối ở các vùng khác nhau trên cùng một mạng và tuân theo các quy tắc giao thức giống như các máy khác. Về cơ bản, điều này mở ra nhiều lựa chọn cho các nhà khoa học dữ liệu, vì họ có thể yêu cầu mạng:
Tam giác Juan | Các chữ viết tắt giải mã: FHE (Mã hóa hoàn toàn đồng hình), MPC (Tính toán nhiều bên), TEE (Môi trường thực thi đáng tin cậy), ZKP (Bằng chứng không có kiến thức)
Nói đến khái niệm tối đa hóa sự lựa chọn, chúng ta phải nhắc đến “tam giác Juans”, thuật ngữ này được đặt ra bởi Juan Benet, người sáng lập Protocol Labs, để giải thích tại sao các trường hợp sử dụng khác nhau (trong tương lai) sẽ có các mạng máy tính phân tán khác nhau. Được tạo khi được hỗ trợ.
Tam giác của Juan đề xuất rằng các mạng máy tính thường yêu cầu sự cân bằng giữa quyền riêng tư, khả năng xác minh và hiệu suất và cách tiếp cận "một kích thước phù hợp với tất cả" truyền thống rất khó áp dụng cho mọi trường hợp sử dụng. Thay vào đó, bản chất mô-đun của các giao thức phân tán cho phép các mạng phân tán (hoặc mạng con) khác nhau đáp ứng các nhu cầu khác nhau của người dùng—cho dù đó là quyền riêng tư, khả năng xác minh hay hiệu suất. Cuối cùng, chúng tôi tối ưu hóa dựa trên những gì chúng tôi cho là quan trọng. Đến lúc đó, sẽ có nhiều nhà cung cấp dịch vụ bên (được hiển thị dưới dạng các hộp trong hình tam giác) lấp đầy những khoảng trống này và biến điện toán phân tán thành hiện thực.
Tóm lại, xử lý dữ liệu là một vấn đề phức tạp đòi hỏi các giải pháp sẵn có. Tận dụng điện toán dữ liệu nguồn mở để thay thế các hệ thống tập trung truyền thống là bước đi đầu tiên tốt. Cuối cùng, việc triển khai nền tảng điện toán trên giao thức phân tán như mạng Filecoin có thể tự do định cấu hình tài nguyên máy tính theo nhu cầu cá nhân của người dùng, điều này rất quan trọng trong kỷ nguyên dữ liệu lớn và trí tuệ nhân tạo.