*NDLR : Cet article s'appuie principalement sur le discours de David Aronchick lors de la conférence Filecoin Unleashed 2023 à Paris. David est le PDG d'Expanso et l'ancien responsable du calcul des données chez Protocol Labs, le même laboratoire responsable du lancement du projet Bacalhau. Cet article représente les opinions indépendantes du créateur du contenu original et la permission de le republier a été accordée. *
Selon IDC, d’ici 2025, la quantité de données stockées dans le monde dépassera 175 ZB. Il s’agit d’une énorme quantité de données, équivalente à 175 000 milliards de clés USB de 1 Go. La plupart de ces données sont générées entre 2020 et 2025, avec un TCAC projeté de 61 %.
La sphère des données, en croissance rapide, présente aujourd'hui deux défis majeurs :
**Le déplacement de données est lent et coûteux. **Si vous essayiez de télécharger 175 Zo de données avec la bande passante actuelle, cela prendrait environ 1,8 milliard d'années.
**Les tâches de conformité sont onéreuses. **Il existe des centaines de réglementations liées aux données dans le monde, ce qui rend la tâche de conformité entre juridictions presque impossible.
Le résultat combiné de la lente croissance du réseau et des contraintes réglementaires est que près de 68 % des données institutionnelles sont inactives. Pour cette raison, il est particulièrement important de transférer les ressources informatiques vers le stockage de données (généralement appelé calcul sur données ou « calcul de données ») plutôt que de déplacer les données vers l'informatique, Bacalhau et al. Les plates-formes Computing on Data (CoD) travaillent dessus.
Dans les chapitres suivants, nous présenterons brièvement :
Comment les organisations gèrent les données aujourd'hui.
Proposer des solutions alternatives basées sur le « data computing ».
Enfin, formulez une hypothèse sur l'importance de l'informatique distribuée.
statu quo
Actuellement, les organisations disposent de trois méthodes principales pour relever les défis liés au traitement des données, dont aucune n’est idéale.
Utiliser un système centralisé
L’approche la plus courante consiste à utiliser des systèmes centralisés pour le traitement des données à grande échelle. Nous voyons souvent des organisations combiner des frameworks informatiques tels qu'Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, etc. pour former un réseau de systèmes en cluster connectés à un serveur API centralisé. Cependant, ces systèmes ne peuvent pas résoudre efficacement les violations de réseau et autres problèmes réglementaires liés à la mobilité des données.
Cela est en partie responsable du fait que les agences encourent des milliards de dollars en amendes administratives et en pénalités en raison de violations de données.
Construisez-le vous-même
Une autre approche consiste pour les développeurs à créer des systèmes de coordination personnalisés qui possèdent la connaissance et la robustesse dont les institutions ont besoin. Cette approche est nouvelle, mais elle risque souvent d'échouer en raison d'une dépendance excessive à l'égard d'un petit nombre de personnes pour entretenir et faire fonctionner le système.
Rien à faire
Étonnamment, la plupart du temps, les institutions ne font rien avec leurs données. Par exemple, une ville peut collecter chaque jour une grande quantité de données à partir de vidéos de surveillance, mais en raison de leur coût élevé, ces données ne peuvent être visualisées que sur une machine locale et ne peuvent pas être archivées ou traitées.
Créer une véritable informatique distribuée
Il existe deux solutions principales aux problèmes liés au traitement des données.
Solution 1 : S'appuyer sur une plateforme de calcul de données open source
Solution 1 : Plateforme de calcul de données open source
Les développeurs peuvent utiliser une plate-forme de données distribuées open source pour le calcul au lieu du système de coordination personnalisé mentionné précédemment. La plateforme étant open source et extensible, les agences n'ont qu'à créer les composants dont elles ont besoin. Cette configuration peut répondre à des scénarios d’applications multi-cloud, multi-calculs et hors centres de données et naviguer dans des environnements réglementaires complexes. Il est important de noter que l'accès à la communauté open source ne dépend plus d'un ou plusieurs développeurs pour la maintenance du système, ce qui réduit le risque de pannes.
Solution 2 : s'appuyer sur un protocole de données distribué
Avec l'aide de projets informatiques avancés tels que Bacalhau et Lilypad, les développeurs peuvent aller plus loin et créer des systèmes non seulement sur les plates-formes de données open source mentionnées dans la première solution, mais également sur des protocoles de données véritablement distribués tels que le réseau Filecoin.
Solution 2 : protocole de calcul de données distribuées
Cela signifie que les institutions peuvent utiliser des protocoles distribués qui comprennent comment coordonner et décrire les problèmes des utilisateurs de manière plus fine, ouvrant ainsi les zones informatiques proches de l'endroit où les données sont générées et stockées. Cette transformation des centres de données vers des protocoles distribués peut idéalement se faire avec seulement des changements mineurs dans l'expérience du data scientist.
Distribué signifie maximiser la sélection
En déployant sur un protocole distribué tel que le réseau Filecoin, notre vision est que les utilisateurs puissent accéder à des centaines (ou des milliers) de machines réparties dans différentes régions sur le même réseau, et suivre les mêmes règles de protocole que les autres machines. Cela ouvre essentiellement une mer d'options pour les data scientists, car ils peuvent demander le réseau :
Sélectionnez un ensemble de données de n'importe où dans le monde.
Suivez n'importe quelle structure de gouvernance, qu'il s'agisse de HIPAA, GDPR ou FISMA.
Courez au prix le moins cher possible.
Triangle de Juan | Décodage des acronymes : FHE (Fully Homomorphic Encryption), MPC (Multi-Party Computation), TEE (Trusted Execution Environment), ZKP (Zero-Knowledge Proof)
En parlant du concept de maximisation des choix, il faut mentionner le « triangle de Juan », terme inventé par Juan Benet, fondateur de Protocol Labs, pour expliquer pourquoi différents cas d'utilisation (dans le futur) auront différents réseaux informatiques distribués. Créé lorsqu'il est pris en charge.
Le Triangle de Juan propose que les réseaux informatiques nécessitent souvent un compromis entre confidentialité, vérifiabilité et performances, et que l'approche traditionnelle « taille unique » est difficile à appliquer à chaque cas d'utilisation. Au lieu de cela, la nature modulaire des protocoles distribués permet à différents réseaux distribués (ou sous-réseaux) de répondre aux différents besoins des utilisateurs, qu'il s'agisse de confidentialité, de vérifiabilité ou de performances. En fin de compte, nous optimisons en fonction de ce que nous pensons être important. D’ici là, de nombreux fournisseurs de services (représentés par des cases dans le triangle) combleront ces lacunes et feront de l’informatique distribuée une réalité.
En résumé, le traitement des données est un problème complexe qui nécessite des solutions prêtes à l'emploi. Remplacer les systèmes centralisés traditionnels par un calcul de données open source est une bonne première étape. A terme, le déploiement d'une plateforme informatique sur un protocole distribué tel que le réseau Filecoin permet de configurer librement les ressources informatiques en fonction des besoins individuels des utilisateurs, ce qui est crucial à l'ère du big data et de l'intelligence artificielle.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Une plongée approfondie dans l'importance et le potentiel commercial de l'informatique de données distribuées
Selon IDC, d’ici 2025, la quantité de données stockées dans le monde dépassera 175 ZB. Il s’agit d’une énorme quantité de données, équivalente à 175 000 milliards de clés USB de 1 Go. La plupart de ces données sont générées entre 2020 et 2025, avec un TCAC projeté de 61 %.
La sphère des données, en croissance rapide, présente aujourd'hui deux défis majeurs :
Le résultat combiné de la lente croissance du réseau et des contraintes réglementaires est que près de 68 % des données institutionnelles sont inactives. Pour cette raison, il est particulièrement important de transférer les ressources informatiques vers le stockage de données (généralement appelé calcul sur données ou « calcul de données ») plutôt que de déplacer les données vers l'informatique, Bacalhau et al. Les plates-formes Computing on Data (CoD) travaillent dessus.
Dans les chapitres suivants, nous présenterons brièvement :
statu quo
Actuellement, les organisations disposent de trois méthodes principales pour relever les défis liés au traitement des données, dont aucune n’est idéale.
Utiliser un système centralisé
L’approche la plus courante consiste à utiliser des systèmes centralisés pour le traitement des données à grande échelle. Nous voyons souvent des organisations combiner des frameworks informatiques tels qu'Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, etc. pour former un réseau de systèmes en cluster connectés à un serveur API centralisé. Cependant, ces systèmes ne peuvent pas résoudre efficacement les violations de réseau et autres problèmes réglementaires liés à la mobilité des données.
Cela est en partie responsable du fait que les agences encourent des milliards de dollars en amendes administratives et en pénalités en raison de violations de données.
Construisez-le vous-même
Une autre approche consiste pour les développeurs à créer des systèmes de coordination personnalisés qui possèdent la connaissance et la robustesse dont les institutions ont besoin. Cette approche est nouvelle, mais elle risque souvent d'échouer en raison d'une dépendance excessive à l'égard d'un petit nombre de personnes pour entretenir et faire fonctionner le système.
Rien à faire
Étonnamment, la plupart du temps, les institutions ne font rien avec leurs données. Par exemple, une ville peut collecter chaque jour une grande quantité de données à partir de vidéos de surveillance, mais en raison de leur coût élevé, ces données ne peuvent être visualisées que sur une machine locale et ne peuvent pas être archivées ou traitées.
Créer une véritable informatique distribuée
Il existe deux solutions principales aux problèmes liés au traitement des données.
Solution 1 : S'appuyer sur une plateforme de calcul de données open source
Solution 1 : Plateforme de calcul de données open source
Les développeurs peuvent utiliser une plate-forme de données distribuées open source pour le calcul au lieu du système de coordination personnalisé mentionné précédemment. La plateforme étant open source et extensible, les agences n'ont qu'à créer les composants dont elles ont besoin. Cette configuration peut répondre à des scénarios d’applications multi-cloud, multi-calculs et hors centres de données et naviguer dans des environnements réglementaires complexes. Il est important de noter que l'accès à la communauté open source ne dépend plus d'un ou plusieurs développeurs pour la maintenance du système, ce qui réduit le risque de pannes.
Solution 2 : s'appuyer sur un protocole de données distribué
Avec l'aide de projets informatiques avancés tels que Bacalhau et Lilypad, les développeurs peuvent aller plus loin et créer des systèmes non seulement sur les plates-formes de données open source mentionnées dans la première solution, mais également sur des protocoles de données véritablement distribués tels que le réseau Filecoin.
Solution 2 : protocole de calcul de données distribuées
Cela signifie que les institutions peuvent utiliser des protocoles distribués qui comprennent comment coordonner et décrire les problèmes des utilisateurs de manière plus fine, ouvrant ainsi les zones informatiques proches de l'endroit où les données sont générées et stockées. Cette transformation des centres de données vers des protocoles distribués peut idéalement se faire avec seulement des changements mineurs dans l'expérience du data scientist.
Distribué signifie maximiser la sélection
En déployant sur un protocole distribué tel que le réseau Filecoin, notre vision est que les utilisateurs puissent accéder à des centaines (ou des milliers) de machines réparties dans différentes régions sur le même réseau, et suivre les mêmes règles de protocole que les autres machines. Cela ouvre essentiellement une mer d'options pour les data scientists, car ils peuvent demander le réseau :
Triangle de Juan | Décodage des acronymes : FHE (Fully Homomorphic Encryption), MPC (Multi-Party Computation), TEE (Trusted Execution Environment), ZKP (Zero-Knowledge Proof)
En parlant du concept de maximisation des choix, il faut mentionner le « triangle de Juan », terme inventé par Juan Benet, fondateur de Protocol Labs, pour expliquer pourquoi différents cas d'utilisation (dans le futur) auront différents réseaux informatiques distribués. Créé lorsqu'il est pris en charge.
Le Triangle de Juan propose que les réseaux informatiques nécessitent souvent un compromis entre confidentialité, vérifiabilité et performances, et que l'approche traditionnelle « taille unique » est difficile à appliquer à chaque cas d'utilisation. Au lieu de cela, la nature modulaire des protocoles distribués permet à différents réseaux distribués (ou sous-réseaux) de répondre aux différents besoins des utilisateurs, qu'il s'agisse de confidentialité, de vérifiabilité ou de performances. En fin de compte, nous optimisons en fonction de ce que nous pensons être important. D’ici là, de nombreux fournisseurs de services (représentés par des cases dans le triangle) combleront ces lacunes et feront de l’informatique distribuée une réalité.
En résumé, le traitement des données est un problème complexe qui nécessite des solutions prêtes à l'emploi. Remplacer les systèmes centralisés traditionnels par un calcul de données open source est une bonne première étape. A terme, le déploiement d'une plateforme informatique sur un protocole distribué tel que le réseau Filecoin permet de configurer librement les ressources informatiques en fonction des besoins individuels des utilisateurs, ce qui est crucial à l'ère du big data et de l'intelligence artificielle.