*Nota del editor: este artículo se basa principalmente en el discurso de David Aronchick en la Conferencia Filecoin Unleashed 2023 en París. David es el director ejecutivo de Expanso y ex director de informática de datos de Protocol Labs, que lanzó el proyecto Bacalhau. Este artículo representa las opiniones independientes del creador del contenido original y se ha concedido permiso para volver a publicarlo. *
Según IDC, para 2025, la cantidad de datos almacenados a nivel mundial superará los 175 ZB. Se trata de una enorme cantidad de datos, equivalente a 175 billones de unidades flash USB de 1 GB. La mayoría de estos datos se generan entre 2020 y 2025, con una tasa compuesta anual esperada del 61%.
Hoy en día, surgen dos desafíos importantes en la esfera de datos en rápido crecimiento:
**Los datos móviles son lentos y caros. **Si intentara descargar 175 ZB de datos con el ancho de banda actual, tardaría aproximadamente 1.800 millones de años.
**El cumplimiento es oneroso. **Existen cientos de regulaciones relacionadas con datos en todo el mundo, lo que hace que el cumplimiento entre jurisdicciones sea casi imposible.
El resultado combinado del crecimiento mediocre de la red y las limitaciones regulatorias es que casi el 68% de los datos de las agencias están inactivos. Por esta razón, es particularmente importante transferir recursos informáticos al almacenamiento de datos (ampliamente llamado computación sobre datos o "computación de datos") en lugar de mover datos a la computación, Bacalhau et al. Computing on Data (CoD) Platforms están trabajando duro en esto.
En los siguientes capítulos presentaremos brevemente:
Cómo las organizaciones manejan los datos hoy.
Proponer una solución alternativa basada en “Computación de Datos”.
Finalmente, formule una hipótesis sobre por qué la computación distribuida es importante.
status quo
Actualmente, existen tres formas principales en que las organizaciones abordan los desafíos del procesamiento de datos, ninguna de las cuales es ideal.
Utilice un sistema centralizado
El enfoque más común es utilizar sistemas centralizados para el procesamiento de datos a gran escala. A menudo vemos organizaciones que combinan marcos informáticos como Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, etc. para formar una red de sistemas agrupados conectados a un servidor API centralizado. Sin embargo, estos sistemas no abordan eficazmente las violaciones de la red y otras cuestiones regulatorias relacionadas con la movilidad de datos.
Esto es en parte responsable de que las agencias incurran en miles de millones de dólares en multas y sanciones administrativas debido a violaciones de datos.
Constrúyelo tú mismo
Otro enfoque es que los desarrolladores creen sistemas de coordinación personalizados que tengan la conciencia y la solidez que la agencia necesita. Este enfoque es novedoso, pero a menudo corre el riesgo de fracasar debido a la dependencia excesiva de un pequeño número de personas para mantener y ejecutar el sistema.
Hacer nada
Sorprendentemente, en su mayor parte, las instituciones no hacen nada con respecto a sus datos. Por ejemplo, una ciudad puede recopilar una gran cantidad de datos de videos de vigilancia todos los días, pero debido al alto costo, estos datos solo se pueden ver en la máquina local y no se pueden archivar ni procesar.
Construya una informática distribuida real
Hay dos soluciones principales a los puntos débiles del procesamiento de datos.
Solución 1: construida sobre una plataforma informática de datos de código abierto
Solución 1: plataforma de computación de datos de código abierto
Los desarrolladores pueden utilizar una plataforma de datos distribuidos de código abierto para el cálculo en lugar del sistema de coordinación personalizado mencionado anteriormente. Debido a que la plataforma es de código abierto y extensible, las agencias solo necesitan crear los componentes que necesitan. Esta configuración puede cumplir con escenarios de aplicaciones de múltiples nubes, múltiples computadoras y sin centros de datos y navegar por entornos regulatorios complejos. Es importante destacar que el acceso a la comunidad de código abierto ya no depende de uno o más desarrolladores para el mantenimiento del sistema, lo que reduce la probabilidad de fallas.
Solución 2: basada en protocolo de datos distribuidos
Con la ayuda de proyectos informáticos avanzados como Bacalhau y Lilypad, los desarrolladores pueden ir un paso más allá y construir sistemas no sólo en las plataformas de datos de código abierto mencionadas en la Solución Uno, sino también en protocolos de datos verdaderamente distribuidos como la red Filecoin.
Solución 2: protocolo de computación de datos distribuidos
Esto significa que las instituciones pueden utilizar protocolos distribuidos que comprendan cómo coordinar y describir los problemas de los usuarios de manera más granular, desbloqueando áreas de computación cercanas a donde se generan y almacenan los datos. Idealmente, esta transformación de centros de datos a protocolos distribuidos se puede realizar con solo cambios menores en la experiencia del científico de datos.
Distribuir significa maximizar las opciones
Al implementar un protocolo distribuido como la red Filecoin, nuestra visión es que los usuarios puedan acceder a cientos (o miles) de máquinas distribuidas en diferentes regiones en la misma red y seguir las mismas reglas de protocolo que otras máquinas. Básicamente, esto abre un mar de opciones para los científicos de datos, ya que pueden solicitar la red:
Seleccione conjuntos de datos de cualquier parte del mundo.
Siga cualquier estructura de gobierno, ya sea HIPAA, GDPR o FISMA.
Corre al precio más barato posible.
Triángulo de Juan | Acrónimos de decodificación: FHE (Cifrado totalmente homomórfico), MPC (Computación multipartita), TEE (Entorno de ejecución confiable), ZKP (Prueba de conocimiento cero)
Hablando del concepto de maximización de opciones, tenemos que mencionar el "triángulo de Juan", un término que fue introducido en la explicación del fundador de Protocol Labs, Juan Benet, de por qué diferentes casos de uso (en el futuro) tendrán diferentes redes informáticas distribuidas. .
El Triángulo de Juan propone que las redes informáticas a menudo requieren compensaciones entre privacidad, verificabilidad y rendimiento, y el enfoque tradicional de "talla única" es difícil de aplicar a todos los casos de uso. En cambio, la naturaleza modular de los protocolos distribuidos permite que diferentes redes distribuidas (o subredes) satisfagan diferentes necesidades de los usuarios, ya sea privacidad, verificabilidad o rendimiento. En última instancia, optimizamos en función de lo que creemos que es importante. En ese momento, habrá muchos proveedores de servicios (que se muestran en el cuadro dentro del triángulo) para llenar estos vacíos y hacer de la computación distribuida una realidad.
En resumen, el procesamiento de datos es un problema complejo que requiere soluciones listas para usar. Reemplazar los sistemas centralizados tradicionales con computación de datos de código abierto es un buen primer paso. En última instancia, implementar una plataforma informática en un protocolo distribuido como la red Filecoin puede configurar libremente los recursos informáticos de acuerdo con las necesidades individuales de los usuarios, lo cual es crucial en la era del big data y la inteligencia artificial.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Una inmersión profunda en la importancia y el potencial empresarial de la informática de datos distribuidos
Según IDC, para 2025, la cantidad de datos almacenados a nivel mundial superará los 175 ZB. Se trata de una enorme cantidad de datos, equivalente a 175 billones de unidades flash USB de 1 GB. La mayoría de estos datos se generan entre 2020 y 2025, con una tasa compuesta anual esperada del 61%.
Hoy en día, surgen dos desafíos importantes en la esfera de datos en rápido crecimiento:
El resultado combinado del crecimiento mediocre de la red y las limitaciones regulatorias es que casi el 68% de los datos de las agencias están inactivos. Por esta razón, es particularmente importante transferir recursos informáticos al almacenamiento de datos (ampliamente llamado computación sobre datos o "computación de datos") en lugar de mover datos a la computación, Bacalhau et al. Computing on Data (CoD) Platforms están trabajando duro en esto.
En los siguientes capítulos presentaremos brevemente:
status quo
Actualmente, existen tres formas principales en que las organizaciones abordan los desafíos del procesamiento de datos, ninguna de las cuales es ideal.
Utilice un sistema centralizado
El enfoque más común es utilizar sistemas centralizados para el procesamiento de datos a gran escala. A menudo vemos organizaciones que combinan marcos informáticos como Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, etc. para formar una red de sistemas agrupados conectados a un servidor API centralizado. Sin embargo, estos sistemas no abordan eficazmente las violaciones de la red y otras cuestiones regulatorias relacionadas con la movilidad de datos.
Esto es en parte responsable de que las agencias incurran en miles de millones de dólares en multas y sanciones administrativas debido a violaciones de datos.
Constrúyelo tú mismo
Otro enfoque es que los desarrolladores creen sistemas de coordinación personalizados que tengan la conciencia y la solidez que la agencia necesita. Este enfoque es novedoso, pero a menudo corre el riesgo de fracasar debido a la dependencia excesiva de un pequeño número de personas para mantener y ejecutar el sistema.
Hacer nada
Sorprendentemente, en su mayor parte, las instituciones no hacen nada con respecto a sus datos. Por ejemplo, una ciudad puede recopilar una gran cantidad de datos de videos de vigilancia todos los días, pero debido al alto costo, estos datos solo se pueden ver en la máquina local y no se pueden archivar ni procesar.
Construya una informática distribuida real
Hay dos soluciones principales a los puntos débiles del procesamiento de datos.
Solución 1: construida sobre una plataforma informática de datos de código abierto
Solución 1: plataforma de computación de datos de código abierto
Los desarrolladores pueden utilizar una plataforma de datos distribuidos de código abierto para el cálculo en lugar del sistema de coordinación personalizado mencionado anteriormente. Debido a que la plataforma es de código abierto y extensible, las agencias solo necesitan crear los componentes que necesitan. Esta configuración puede cumplir con escenarios de aplicaciones de múltiples nubes, múltiples computadoras y sin centros de datos y navegar por entornos regulatorios complejos. Es importante destacar que el acceso a la comunidad de código abierto ya no depende de uno o más desarrolladores para el mantenimiento del sistema, lo que reduce la probabilidad de fallas.
Solución 2: basada en protocolo de datos distribuidos
Con la ayuda de proyectos informáticos avanzados como Bacalhau y Lilypad, los desarrolladores pueden ir un paso más allá y construir sistemas no sólo en las plataformas de datos de código abierto mencionadas en la Solución Uno, sino también en protocolos de datos verdaderamente distribuidos como la red Filecoin.
Solución 2: protocolo de computación de datos distribuidos
Esto significa que las instituciones pueden utilizar protocolos distribuidos que comprendan cómo coordinar y describir los problemas de los usuarios de manera más granular, desbloqueando áreas de computación cercanas a donde se generan y almacenan los datos. Idealmente, esta transformación de centros de datos a protocolos distribuidos se puede realizar con solo cambios menores en la experiencia del científico de datos.
Distribuir significa maximizar las opciones
Al implementar un protocolo distribuido como la red Filecoin, nuestra visión es que los usuarios puedan acceder a cientos (o miles) de máquinas distribuidas en diferentes regiones en la misma red y seguir las mismas reglas de protocolo que otras máquinas. Básicamente, esto abre un mar de opciones para los científicos de datos, ya que pueden solicitar la red:
Triángulo de Juan | Acrónimos de decodificación: FHE (Cifrado totalmente homomórfico), MPC (Computación multipartita), TEE (Entorno de ejecución confiable), ZKP (Prueba de conocimiento cero)
Hablando del concepto de maximización de opciones, tenemos que mencionar el "triángulo de Juan", un término que fue introducido en la explicación del fundador de Protocol Labs, Juan Benet, de por qué diferentes casos de uso (en el futuro) tendrán diferentes redes informáticas distribuidas. .
El Triángulo de Juan propone que las redes informáticas a menudo requieren compensaciones entre privacidad, verificabilidad y rendimiento, y el enfoque tradicional de "talla única" es difícil de aplicar a todos los casos de uso. En cambio, la naturaleza modular de los protocolos distribuidos permite que diferentes redes distribuidas (o subredes) satisfagan diferentes necesidades de los usuarios, ya sea privacidad, verificabilidad o rendimiento. En última instancia, optimizamos en función de lo que creemos que es importante. En ese momento, habrá muchos proveedores de servicios (que se muestran en el cuadro dentro del triángulo) para llenar estos vacíos y hacer de la computación distribuida una realidad.
En resumen, el procesamiento de datos es un problema complejo que requiere soluciones listas para usar. Reemplazar los sistemas centralizados tradicionales con computación de datos de código abierto es un buen primer paso. En última instancia, implementar una plataforma informática en un protocolo distribuido como la red Filecoin puede configurar libremente los recursos informáticos de acuerdo con las necesidades individuales de los usuarios, lo cual es crucial en la era del big data y la inteligencia artificial.