分散データコンピューティングの重要性とビジネスの可能性についての詳細な考察

2023-09-02 10:02:49

※編集者注：この記事は主に、パリで開催された2023 Filecoin Unleashed ConferenceでのDavid Aronchick氏の講演に基づいています。 David は Expanso の CEO であり、Bacalhau プロジェクトを立ち上げた Protocol Labs の元データコンピューティング部門責任者です。この記事は元のコンテンツ作成者の独立した意見を表しており、再公開の許可が与えられています。 *

IDC によると、2025 年までに世界中で保存されるデータの量は 175 ZB を超えるとのことです。これは、1 GB USB フラッシュドライブ 175 兆個に相当する膨大な量のデータです。このデータのほとんどは 2020 年から 2025 年の間に生成され、CAGR は 61% と予想されます。

今日の急速に成長するデータスフィアには、次の 2 つの大きな課題があります。

** モバイルデータ通信は遅くて高価です。 **現在の帯域幅で 175 ZB のデータをダウンロードしようとすると、約 18 億年かかります。
**コンプライアンスのタスクは面倒です。 **世界中には何百ものデータ関連の規制があり、法域を超えて準拠することはほぼ不可能です。

ネットワークの成長の鈍化と規制上の制約が重なった結果、機関データの 68% 近くが保存されたままになっています。このため、データをコンピューティングに移動するのではなく、コンピューティングリソースをデータストレージに転送することが特に重要であると、Bacalhau らはコンピューティングオンデータ (CoD) プラットフォームで取り組んでいます。これには厳しい。

次の章では、以下について簡単に紹介します。

組織が今日データをどのように扱うか。 ※「データコンピューティング」に基づいた代替ソリューションを提案します。
最後に、分散コンピューティングがなぜ重要なのか仮説を立てます。

＃＃現状

現在、組織がデータ処理の課題に対処する主な方法は 3 つありますが、どれも理想的ではありません。

集中システムの使用

最も一般的なアプローチは、大規模なデータ処理に集中システムを使用することです。 Adobe Spark、Hadoop、Databricks、Kubernetes、Kafka、Ray などのコンピューティングフレームワークを組み合わせて、集中化された API サーバーに接続されたクラスター化システムのネットワークを形成している組織をよく見かけます。ただし、これらのシステムは、ネットワーク侵害やデータモビリティに関するその他の規制問題に効果的に対処することはできません。

これにより、データ侵害による組織への数十億ドルの行政罰金や罰金が発生しました。

自分で構築する

もう 1 つのアプローチは、開発者が政府機関が必要とする認識と堅牢性を備えたカスタム調整システムを構築することです。このアプローチは新しいものですが、システムの保守と実行を少数の人員に過度に依存するため、失敗のリスクに直面することがよくあります。

＃＃＃何もしない

驚くべきことに、ほとんどの場合、機関はデータを何も処理しません。たとえば、都市は毎日監視ビデオから大量のデータを収集できますが、コストが高いため、このデータはローカルマシンでのみ表示でき、アーカイブしたり処理したりすることはできません。

真の分散コンピューティングを構築する

データ処理の問題点に対する主な解決策は 2 つあります。

ソリューション 1: オープンソースのデータコンピューティングプラットフォーム上に構築

ソリューション 1: オープンソースデータコンピューティングプラットフォーム

開発者は、前述のカスタム調整システムの代わりに、オープンソースの分散データプラットフォームを計算に使用できます。このプラットフォームはオープンソースで拡張可能なため、政府機関は必要なコンポーネントを構築するだけで済みます。このセットアップは、マルチクラウド、マルチコンピューティング、非データセンターアプリケーションのシナリオに対応し、複雑な規制環境に対処できます。重要なのは、オープンソースコミュニティへのアクセスは、システムメンテナンスのために 1 人以上の開発者に依存しなくなり、障害の可能性が減少することです。

ソリューション 2: 分散データプロトコルに基づいて構築する

Bacalhau や Lilypad などの高度なコンピューティングプロジェクトの助けを借りて、開発者はさらに一歩進んで、ソリューション 1 で述べたオープンソースデータプラットフォームだけでなく、Filecoin ネットワークのような真の分散型データプロトコル上でもシステムを構築できます。

ソリューション 2: 分散データコンピューティングプロトコル

これは、教育機関がユーザーの問題をより詳細に調整および説明する方法を理解する分散プロトコルを使用できることを意味し、データが生成および保存される場所に近いコンピューティング領域のロックを解除できます。データセンターから分散プロトコルへのこの変換は、データサイエンティストの経験にわずかな変更を加えるだけで理想的に実行できます。

分散とは選択の最大化を意味します

Filecoin ネットワークなどの分散プロトコルに導入することで、ユーザーが同じネットワーク上の異なる地域に分散された数百 (または数千) のマシンにアクセスし、他のマシンと同じプロトコルルールに従うことができる、というのが私たちのビジョンです。これにより、データサイエンティストはネットワークをリクエストできるため、基本的に選択肢が広がります。

世界中のどこからでもデータセットを選択します。
HIPAA、GDPR、FISMA など、あらゆるガバナンス構造に従います。 ※可能な限り安い価格で運営しております。

Juan Triangle | デコード略語: FHE (完全準同型暗号化)、MPC (マルチパーティ計算)、TEE (信頼できる実行環境)、ZKP (ゼロ知識証明)

選択の最大化の概念といえば、「フアンの三角形」について言及する必要があります。この用語は、(将来の) 異なるユースケースに異なる分散コンピューティングネットワークが使用される理由を説明するために、Protocol Labs の創設者である Juan Benet によって造られました。サポートされると作成されます。

Juan の Triangle は、コンピューティングネットワークではプライバシー、検証可能性、パフォーマンスの間でトレードオフが必要になることが多く、従来の「フリーサイズ」アプローチをすべてのユースケースに適用するのは難しいと提案しています。その代わりに、分散プロトコルのモジュール式の性質により、さまざまな分散ネットワーク (またはサブネットワーク) が、プライバシー、検証可能性、パフォーマンスなど、さまざまなユーザーのニーズを満たすことができます。最終的には、何が重要だと考えるかに基づいて最適化します。それまでに、多くのパーティサービスプロバイダー (三角形内のボックスで示されている) がこれらのギャップを埋め、分散コンピューティングを現実のものにするでしょう。

要約すると、 データ処理は、すぐに使えるソリューションを必要とする複雑な問題です。オープンソースデータコンピューティングを活用して従来の集中型システムを置き換えることは、良い第一歩です。最終的には、Filecoin ネットワークなどの分散プロトコルにコンピューティングプラットフォームを展開することで、ユーザーの個別のニーズに応じてコンピューティングリソースを自由に構成できるようになります。これは、ビッグデータと人工知能の時代において非常に重要です。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
1/3
1ETH Breaks Through $3,800
15k 人気度
2Gate June Transparency Report
8k 人気度
3Altcoins on the Rise
16k 人気度
4Gate Square Creator Spark Program
158k 人気度
5Content Mining & Earn Rich Commission
1852k 人気度

ピン

サイトマップ

分散データ コンピューティングの重要性とビジネスの可能性についての詳細な考察