Desde el nacimiento de GPT-3, la IA generativa ha marcado el comienzo de un punto de inflexión explosivo en el campo de la inteligencia artificial con su asombroso rendimiento y sus amplios escenarios de aplicación, y los gigantes tecnológicos han comenzado a saltar a la pista de la IA en grupos. Sin embargo, el funcionamiento del entrenamiento y la inferencia de modelos de lenguaje grandes (LLM) requiere mucha potencia de cálculo y, con la actualización iterativa del modelo, la demanda de potencia de cálculo y el costo aumentan exponencialmente. Tomando GPT-2 y GPT-3 como ejemplo, la diferencia en el número de parámetros entre GPT-2 y GPT-3 es de 1.166 veces (150 millones de parámetros para GPT-2 y 175 mil millones de parámetros para GPT-3), y el costo de GPT-3 puede alcanzar hasta 12 millones de dólares según el modelo de precios de la nube pública de GPU en ese momento, que es 200 veces mayor que el de GPT-2. En el proceso de uso real, cada pregunta del usuario debe inferirse y calcularse, de acuerdo con la situación de 13 millones de usuarios únicos a principios de este año, la demanda de chips correspondiente es de más de 30,000 piezas A100GPU. El costo inicial sería entonces de la asombrosa cifra de 800 millones de dólares, con un estimado de 700.000 dólares por día para la inferencia del modelo.
La potencia de cálculo insuficiente y los altos costos se han convertido en un problema para toda la industria de la IA, pero el mismo problema parece afectar también a la industria de la cadena de bloques. Por un lado, se avecina el cuarto halving de Bitcoin y el paso de los ETF, y a medida que el precio suba en el futuro, la demanda de hardware informático por parte de los mineros aumentará inevitablemente significativamente. Por otro lado, la tecnología "Zero-Knowledge Proof" (ZKP) está en auge, y Vitalik ha enfatizado repetidamente que el impacto de ZK en el espacio blockchain en la próxima década será tan importante como la propia blockchain. Aunque el futuro de esta tecnología es muy esperado por la industria blockchain, ZK también consume mucha potencia de cálculo y tiempo en el proceso de generación de pruebas como la IA debido al complejo proceso computacional.
En el futuro previsible, la escasez de potencia informática será inevitable, así que ¿será el mercado descentralizado de potencia informática un buen negocio?
Definición de mercado de computación descentralizada
El mercado de la potencia de cómputo descentralizado es en realidad básicamente equivalente a la pista de computación en la nube descentralizada, pero en comparación con la computación en la nube descentralizada, personalmente creo que este término será más apropiado para describir los nuevos proyectos que se mencionan más adelante. El mercado de potencia de cómputo descentralizado debe pertenecer a un subconjunto de DePIN (red de infraestructura física descentralizada), y su objetivo es crear un mercado abierto de potencia de cómputo, a través de incentivos simbólicos, para que cualquier persona con recursos de cómputo inactivos pueda proporcionar sus recursos en este mercado, sirviendo principalmente a la comunidad de usuarios y desarrolladores de extremo B. En cuanto a proyectos conocidos, como Render Network, una red de soluciones de renderizado basadas en GPUs descentralizadas, y Akash Network, un marketplace distribuido peer-to-peer para cloud computing, pertenecen a esta pista.
A continuación se comenzará con el concepto básico, y luego se discutirán los tres mercados emergentes bajo la pista: el mercado de potencia de cómputo AGI, el mercado de potencia de cómputo de Bitcoin y el mercado de potencia de cómputo AGI en el mercado de aceleración de hardware ZK, y los dos últimos se discutirán en "Vista previa de la pista potencial: Mercado de potencia de cómputo descentralizado (Parte II)".
Descripción general de la tasa de hash
El origen del concepto de potencia de cálculo se remonta a la invención de las computadoras, la computadora original era un dispositivo mecánico para completar tareas informáticas, y la potencia de cálculo se refiere a la potencia de cálculo de un dispositivo mecánico. Con el desarrollo de la tecnología informática, el concepto de potencia informática también ha evolucionado, y ahora la potencia informática suele referirse a la capacidad del hardware informático (CPU, GPU, FPGA, etc.) y del software (sistema operativo, compilador, aplicación, etc.) para trabajar juntos.
Definición
La potencia de cálculo se refiere a la cantidad de datos que una computadora u otro dispositivo informático puede procesar o la cantidad de tareas informáticas que se pueden completar en un cierto período de tiempo. La tasa de hash se usa a menudo para describir el rendimiento de una computadora u otro dispositivo informático, y es una medida importante de la potencia de procesamiento de un dispositivo informático.
Métricas
La potencia de cálculo se puede medir de varias maneras, como la velocidad de cálculo, el consumo de energía de cálculo, la precisión de cálculo y el paralelismo. En el campo de la informática, las métricas de potencia de cálculo más utilizadas incluyen FLOPS (operaciones de coma flotante por segundo), IPS (instrucciones por segundo), TPS (transacciones por segundo), etc.
FLOPS (Operaciones de coma flotante por segundo) se refiere a la capacidad de una computadora para manejar operaciones de coma flotante (operaciones matemáticas en números con puntos decimales, teniendo en cuenta problemas como errores de precisión y redondeo), y mide cuántas operaciones de coma flotante puede completar una computadora por segundo. FLOPS es una medida de la potencia de cálculo de alto rendimiento de una computadora y se usa comúnmente para medir la potencia de cálculo de supercomputadoras, servidores de computación de alto rendimiento y unidades de procesamiento de gráficos (GPU), entre otros. Por ejemplo, un sistema informático tiene un FLOPS de 1 TFLOPS (1 billón de operaciones de coma flotante por segundo), lo que significa que puede completar 1 billón de operaciones de coma flotante por segundo.
IPS (Instructions Per Second) se refiere a la velocidad a la que una computadora procesa las instrucciones y mide cuántas instrucciones es capaz de ejecutar una computadora por segundo. IPS es una medida del rendimiento de una sola instrucción de una computadora y, a menudo, se usa para medir el rendimiento de una unidad central de procesamiento (CPU), etc. Por ejemplo, una CPU con un IPS de 3 GHz (que puede ejecutar 300 millones de instrucciones por segundo) significa que puede ejecutar 300 millones de instrucciones por segundo.
TPS (Transacciones por segundo) se refiere a la capacidad de una computadora para procesar transacciones y mide cuántas transacciones puede completar una computadora por segundo. A menudo se utiliza para medir el rendimiento de un servidor de bases de datos. Por ejemplo, un servidor de base de datos con un TPS de 1000 significa que puede procesar 1000 transacciones de base de datos por segundo.
Además, hay algunos indicadores de potencia informática para escenarios de aplicación específicos, como la velocidad de inferencia, la velocidad de procesamiento de imágenes y la precisión del reconocimiento de voz.
Tipo de hashrate
La potencia de cálculo de la GPU se refiere a la potencia de cálculo de una unidad de procesamiento gráfico. A diferencia de la CPU (Unidad Central de Procesamiento), la GPU es una pieza de hardware diseñada específicamente para procesar datos gráficos como imágenes y videos, y tiene una gran cantidad de unidades de procesamiento y una potencia de cómputo paralelo eficiente, que puede realizar una gran cantidad de operaciones de punto flotante al mismo tiempo. Dado que las GPU se utilizaron originalmente para el procesamiento de gráficos de juegos, suelen tener frecuencias de reloj más altas y un mayor ancho de banda de memoria que las CPU para admitir operaciones gráficas complejas.
Diferencia entre CPU y GPU
Arquitectura: La arquitectura informática de las CPU y las GPU es diferente. Las CPU suelen tener uno o más núcleos, cada uno de los cuales es un procesador de propósito general capaz de realizar una variedad de operaciones diferentes. Las GPU, por otro lado, cuentan con una gran cantidad de Stream Processors y Shaders, que se dedican a realizar operaciones relacionadas con el procesamiento de imágenes.
Computación paralela: las GPU suelen tener mayores capacidades de computación paralela. Las CPU tienen un número limitado de núcleos y solo pueden ejecutar una instrucción por núcleo, pero las GPU pueden tener miles de procesadores de flujo que pueden ejecutar varias instrucciones y operaciones al mismo tiempo. Como resultado, las GPU suelen ser más adecuadas que las CPU para realizar tareas informáticas paralelas, como el aprendizaje automático y el aprendizaje profundo, que requieren una gran cantidad de computación paralela.
Programación: La programación de GPU es más compleja que la de las CPU, ya que requiere el uso de lenguajes de programación específicos (como CUDA u OpenCL) y el uso de técnicas de programación específicas para aprovechar la potencia de cálculo paralelo de las GPU. Por el contrario, las CPU son más sencillas de programar y pueden utilizar lenguajes de programación y herramientas de programación comunes.
La importancia de la potencia de cómputo
En la era de la Revolución Industrial, el petróleo era la sangre del mundo, impregnando todas las industrias. El poder de cómputo está en la cadena de bloques, y en la próxima era de la IA, el poder de cómputo será el "petróleo digital" del mundo. Desde la loca carrera de las grandes empresas por los chips de IA y el hecho de que las acciones de Nvidia superaron el billón, hasta el reciente bloqueo de chips de gama alta en China por parte de Estados Unidos, pasando por el tamaño de la potencia de cálculo, el área de los chips e incluso el plan para prohibir la nube de GPU, su importancia es evidente, y la potencia de cálculo será una mercancía en la próxima era.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-0827192de8-dd1a6f-cd5cc0.webp)
Visión general de la inteligencia artificial general
La Inteligencia Artificial (IA) es una nueva ciencia técnica que estudia y desarrolla teorías, métodos, tecnologías y sistemas de aplicación para simular, extender y expandir la inteligencia humana. Se originó en los años cincuenta y sesenta del siglo XX, y después de más de medio siglo de evolución, ha experimentado el desarrollo entrelazado de tres olas de simbolismo, conexionismo y actores. Una definición más específica de IA generativa es la Inteligencia General Artificial (AGI), un sistema de IA con una amplia comprensión que puede realizar una inteligencia similar o superior a la de los humanos en una variedad de tareas y dominios diferentes. Básicamente, la AGI debe estar compuesta por tres elementos: aprendizaje profundo (DL), big data y potencia informática a gran escala.
Aprendizaje profundo
El aprendizaje profundo es un subcampo del aprendizaje automático (ML), y los algoritmos de aprendizaje profundo son redes neuronales modeladas a partir del cerebro humano. Por ejemplo, el cerebro humano contiene millones de neuronas interconectadas que trabajan juntas para aprender y procesar información. Del mismo modo, las redes neuronales de aprendizaje profundo (o redes neuronales artificiales) están formadas por múltiples capas de neuronas artificiales que trabajan juntas dentro de un ordenador. Las neuronas artificiales son módulos de software llamados nodos que utilizan cálculos matemáticos para procesar datos. Las redes neuronales artificiales son algoritmos de aprendizaje profundo que utilizan estos nodos para resolver problemas complejos.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-23a44030b8-dd1a6f-cd5cc0.webp)
Las redes neuronales se pueden dividir en capas de entrada, capas ocultas y capas de salida, y los parámetros están conectados entre diferentes capas.
Capa de entrada: La capa de entrada es la primera capa de la red neuronal y es responsable de recibir datos de entrada externos. Cada neurona de la capa de entrada corresponde a una entidad de los datos de entrada. Por ejemplo, al procesar datos de imagen, cada neurona puede corresponder a un valor de píxel de la imagen;
Capas ocultas: la capa de entrada procesa los datos y los pasa a las capas más lejanas de la red neuronal. Estas capas ocultas procesan la información a diferentes niveles, ajustando su comportamiento a medida que se recibe nueva información. Las redes de aprendizaje profundo tienen cientos de capas ocultas que se pueden utilizar para analizar problemas desde muchos ángulos diferentes. Por ejemplo, si te dan una imagen de un animal desconocido que debe ser clasificado, puedes compararla con un animal que ya conoces. Por ejemplo, la forma de las orejas, el número de patas y el tamaño de las pupilas pueden determinar qué tipo de animal es. Las capas ocultas en las redes neuronales profundas funcionan de la misma manera. Si un algoritmo de aprendizaje profundo intenta clasificar una imagen de animal, cada una de sus capas ocultas procesa las diferentes características del animal e intenta clasificarlo con precisión;
Capa de salida: La capa de salida es la última capa de la red neuronal y se encarga de generar la salida de la red. Cada neurona de la capa de salida representa una posible clase o valor de salida. Por ejemplo, en un problema de clasificación, cada neurona de la capa de salida puede corresponder a una categoría, mientras que en un problema de regresión, la capa de salida puede tener solo una neurona cuyo valor representa el resultado predicho;
Parámetros: En una red neuronal, las conexiones entre las diferentes capas se representan mediante parámetros de ponderación y sesgo, que se optimizan durante el entrenamiento para permitir que la red identifique patrones con precisión y realice predicciones en los datos. El aumento de los parámetros puede aumentar la capacidad del modelo de una red neuronal, es decir, la capacidad del modelo para aprender y representar patrones complejos en los datos. Sin embargo, el aumento de los parámetros aumentará la demanda de potencia de cálculo.
Big Data
Para entrenar de manera efectiva, las redes neuronales a menudo requieren una gran cantidad de datos, diversos y de alta calidad y múltiples fuentes. Es la base para el entrenamiento y la validación de modelos de aprendizaje automático. Mediante el análisis de big data, los modelos de aprendizaje automático pueden aprender patrones y relaciones en los datos para hacer predicciones o clasificaciones.
Potencia de cómputo masiva
La estructura compleja multicapa de la red neuronal, la gran cantidad de parámetros, la necesidad de procesamiento de big data, el método de entrenamiento iterativo (en la etapa de entrenamiento, el modelo debe iterar repetidamente, y la propagación hacia adelante y hacia atrás de cada capa debe calcularse durante el proceso de entrenamiento, incluido el cálculo de la función de activación, el cálculo de la función de pérdida, el cálculo del gradiente y la actualización del peso), la necesidad de computación de alta precisión, la capacidad de computación paralela, la tecnología de optimización y regularización, y el proceso de evaluación y verificación del modelo, todo lo cual conduce a la demanda de alta potencia de cómputo. Los requisitos de AGI para la potencia informática a gran escala aumentan aproximadamente 10 veces cada año. Hasta ahora, el último modelo GPT-4 contiene 1,8 billones de parámetros, un coste de entrenamiento único de más de 60 millones de dólares estadounidenses y la potencia de cálculo necesaria es de 2,15e25 FLOPS (21.500 billones de cálculos de coma flotante). La demanda de potencia informática para el próximo entrenamiento de modelos sigue expandiéndose, y los nuevos modelos también están aumentando.
Economía de la computación con IA
Tamaño del mercado futuro
Según las estimaciones más autorizadas, el "Informe de evaluación del Índice de Potencia Informática Global 2022-2023" compilado conjuntamente por IDC (International Data Corporation) e Inspur Information y el Instituto de Investigación de la Industria Global de la Universidad de Tsinghua, El tamaño del mercado mundial de computación de IA crecerá de $ 19.50 mil millones en 2022 a $ 34.66 mil millones en 2026, y el tamaño del mercado de computación de IA generativa crecerá de $ 820 millones en 2022 a $ 10.99 mil millones en 2026. La computación generativa de IA crecerá del 4,2% al 31,7% del mercado total de computación de IA.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-f96a0c08e0-dd1a6f-cd5cc0.webp)
Monopolio económico de la potencia de cálculo
La producción de GPU de IA ha sido monopolizada por NVIDA, y son extremadamente caras (la última H100 se ha vendido por 40.000 dólares por chip), y las GPU han sido adquiridas por los gigantes de Silicon Valley tan pronto como se lanzan, y algunos de estos dispositivos se utilizan para entrenar sus propios modelos nuevos. La otra parte se alquila a los desarrolladores de IA a través de plataformas en la nube, como Google, Amazon y las plataformas de computación en la nube de Microsoft, que dominan una gran cantidad de recursos informáticos como servidores, GPU y TPU. La potencia informática se ha convertido en un nuevo recurso monopolizado por los gigantes, y un gran número de desarrolladores relacionados con la IA ni siquiera pueden comprar una GPU dedicada sin un margen de beneficio, y para utilizar los últimos equipos, los desarrolladores tienen que alquilar servidores en la nube de AWS o Microsoft. Según el informe financiero, este negocio tiene ganancias extremadamente altas, ya que los servicios en la nube de AWS tienen un margen bruto del 61%, mientras que Microsoft tiene un margen bruto más alto del 72%.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-a2d9d13bc5-dd1a6f-cd5cc0.webp)
Entonces, ¿tenemos que aceptar esta autoridad y control centralizados, y pagar el 72% de la tarifa de ganancia por los recursos informáticos? ¿Tendrán los gigantes que monopolizan la Web2 el monopolio de la próxima era?
El problema de la potencia de cómputo AGI descentralizada
Cuando se trata de antimonopolio, la descentralización suele ser la solución óptima y, a partir de los proyectos existentes, ¿podemos utilizar el protocolo para lograr la potencia informática a gran escala que requiere la IA a través de proyectos de almacenamiento en DePIN y GPU inactivas como RDNR? La respuesta es no, el camino para matar dragones no es tan sencillo, los primeros proyectos no están especialmente diseñados para la potencia de cálculo AGI, no es factible y la potencia de cálculo debe enfrentarse al menos a los siguientes cinco retos de la cadena:
Verificación del trabajo: Para construir una red informática verdaderamente confiable y proporcionar incentivos financieros a los participantes, la red debe tener una forma de verificar que el trabajo computacional de aprendizaje profundo se realiza realmente. En el centro de este problema se encuentra la dependencia del estado de los modelos de aprendizaje profundo; En un modelo de aprendizaje profundo, la entrada de cada capa depende de la salida de la capa anterior. Esto significa que no se puede validar una capa del modelo sin tener en cuenta todas las capas anteriores. Los cálculos de cada capa se basan en los resultados de todas las capas que la precedieron. Por lo tanto, para verificar el trabajo realizado en un punto en particular (por ejemplo, una capa en particular), todo el trabajo debe realizarse desde el inicio del modelo hasta ese punto en particular;
Mercado: Como mercado emergente, el mercado de potencia informática de IA está sujeto a dilemas de oferta y demanda, como problemas de arranque en frío, y la liquidez de la oferta y la demanda debe coincidir aproximadamente desde el principio para que el mercado pueda crecer con éxito. Con el fin de capturar el suministro potencial de poder de hash, se deben ofrecer a los participantes recompensas explícitas a cambio de sus recursos de hash. El marketplace necesita un mecanismo para llevar un control del trabajo computacional realizado y pagar las tarifas correspondientes a los proveedores de manera oportuna. En los mercados tradicionales, los intermediarios se encargan de tareas como la gestión y la incorporación, al tiempo que reducen los costes operativos mediante el establecimiento de pagos mínimos. Sin embargo, este enfoque es más costoso cuando se escala el mercado. Sólo una pequeña fracción de la oferta puede capturarse eficazmente desde el punto de vista económico, lo que conduce a un estado de umbral de equilibrio en el que el mercado sólo puede captar y mantener una oferta limitada y no puede crecer más;
Problema del tiempo de inactividad: El problema del tiempo de inactividad es un problema fundamental en la teoría computacional, que implica juzgar si una tarea computacional determinada se completará en un tiempo finito o nunca se detendrá. Este problema es irresoluble, lo que significa que no existe un algoritmo universal que pueda predecir si todas las tareas computacionales se detendrán en un tiempo finito. Por ejemplo, en Ethereum, la ejecución de contratos inteligentes se enfrenta a un tiempo de inactividad similar. es decir, es imposible determinar de antemano cuántos recursos informáticos se requerirán para la ejecución de un contrato inteligente, o si se completará en un tiempo razonable;
(En el contexto del aprendizaje profundo, este problema será más complejo a medida que los modelos y marcos cambien de la construcción de grafos estáticos a la construcción y ejecución dinámicas). )
Privacidad: El diseño y desarrollo de la conciencia de privacidad es una necesidad para el equipo del proyecto. Si bien se puede realizar una gran cantidad de investigación de aprendizaje automático en conjuntos de datos disponibles públicamente, a menudo se requiere un ajuste fino de los modelos en datos de usuario patentados para mejorar el rendimiento de los modelos y adaptarlos a aplicaciones específicas. Este proceso de ajuste puede implicar el tratamiento de datos personales y, por lo tanto, debe tener en cuenta los requisitos del Escudo de la privacidad;
Paralelización: Este es un factor clave en la viabilidad de los proyectos actuales, los modelos de aprendizaje profundo a menudo se entrenan en paralelo en grandes clústeres de hardware con arquitecturas propietarias y latencia extremadamente baja, mientras que las GPU en redes de computación distribuida requieren un intercambio frecuente de datos para introducir latencia y están limitadas por las GPU de menor rendimiento. En el caso de fuentes de energía informática poco confiables y poco confiables, la paralelización heterogénea es un problema que debe resolverse, y el método factible actual es lograr la paralelización a través de modelos de transformadores, como los transformadores de interruptor, que ahora tienen las características de alta paralelización.
Solución: Aunque el intento actual en el mercado de potencia de computación AGI descentralizada aún se encuentra en la etapa inicial, hay dos proyectos que han resuelto preliminarmente el diseño consensuado de la red descentralizada y el proceso de implementación de la red informática descentralizada en el entrenamiento e inferencia de modelos. A continuación se tomarán Gensyn y Together como ejemplos para analizar los métodos de diseño y los problemas del mercado de potencia de cómputo AGI descentralizado.
Reencuentro
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-1c80fe339c-dd1a6f-cd5cc0.webp)
Gensyn es un mercado para la potencia de cómputo AGI que aún se encuentra en la etapa de construcción y tiene como objetivo resolver los múltiples desafíos de la computación de aprendizaje profundo descentralizada y reducir el costo del aprendizaje profundo en la actualidad. Gensyn es esencialmente un protocolo proof-of-stake de capa 1 basado en la red Polkadot, que recompensa directamente a los solucionadores (Solvers) a través de contratos inteligentes a cambio de sus dispositivos GPU inactivos para la computación, y realiza tareas de aprendizaje automático.
Así que, volviendo a la pregunta anterior, el núcleo de la construcción de una red informática verdaderamente fiable es validar el trabajo de aprendizaje automático que se ha realizado. Este es un problema muy complejo que requiere encontrar un equilibrio en la intersección de la teoría de la complejidad, la teoría de juegos, la criptografía y la optimización.
Gensyn propone una solución sencilla en la que el solucionador envía los resultados de la tarea de aprendizaje automático que ha completado. Para verificar que estos resultados son precisos, otro validador independiente intenta hacer el mismo trabajo de nuevo. Este método se puede denominar replicación única porque solo se volverá a ejecutar un validador. Esto significa que solo hay un esfuerzo adicional para verificar la exactitud del trabajo original. Sin embargo, si la persona que verifica el trabajo no es el solicitante del trabajo original, entonces el problema de confianza persiste. Porque los propios validadores pueden no ser honestos y su trabajo debe ser verificado. Esto conduce a un problema potencial de que si la persona que verifica el trabajo no es el solicitante del trabajo original, entonces se necesita otro validador para verificar su trabajo. Pero este nuevo validador tampoco puede ser de fiar, por lo que se necesita otro validador para validar su trabajo, que puede continuar para siempre, formando una cadena infinita de replicación. Aquí necesitamos introducir tres conceptos clave y entrelazarlos para construir un sistema de participantes de cuatro roles para resolver el problema de la cadena infinita.
Prueba de aprendizaje probabilístico: Utilice los metadatos de un proceso de optimización basado en gradientes para construir un certificado de trabajo realizado. Al replicar ciertas etapas, puede validar rápidamente estos certificados para asegurarse de que el trabajo se ha completado según lo programado.
Protocolo de localización basado en gráficos: utiliza un protocolo de pináculo basado en gráficos de granularidad múltiple, así como una ejecución coherente de evaluadores cruzados. Esto permite que los esfuerzos de verificación se vuelvan a ejecutar y comparar para garantizar la coherencia y, en última instancia, se confirmen por la propia cadena de bloques.
Juegos de incentivos al estilo Truebit: Utiliza el staking y el slashing para crear juegos de incentivos que garanticen que todos los participantes financieramente sólidos actúen con honestidad y realicen las tareas previstas.
El sistema de colaboradores está formado por committers, solucionadores, validadores y denunciantes.
Remitentes:
El remitente es el usuario final del sistema, proporciona las tareas que se calcularán y paga por las unidades de trabajo completadas;
Solvers:
El solucionador es el trabajador principal del sistema, que realiza el entrenamiento del modelo y genera pruebas que son verificadas por los validadores;
Verificadores:
El verificador es la clave para vincular el proceso de entrenamiento no determinista con el cálculo lineal determinista, replicando una parte de la prueba del solucionador y comparando la distancia con el umbral esperado;
Denunciantes:
Los denunciantes son la última línea de defensa, ya que comprueban el trabajo de los validadores y presentan impugnaciones con la esperanza de obtener lucrativos pagos de bonificaciones.
El sistema funciona
El protocolo está diseñado para operar en un sistema de juego que constará de ocho fases, que cubrirán cuatro roles principales de los participantes, y se utilizará para completar el proceso completo desde el envío de la tarea hasta la validación final.
Envío de tareas: Una tarea consta de tres datos específicos:
Metadatos que describen tareas e hiperparámetros;
Un modelo binario (o esquema básico);
Datos de entrenamiento preprocesados y de acceso público.
Para enviar la tarea, el remitente especifica los detalles de la tarea en un formato legible por máquina y lo envía a la cadena junto con el binario del modelo (o esquema legible por máquina) y una ubicación de acceso público de los datos de entrenamiento preprocesados. Los datos expuestos se pueden almacenar en un almacén de objetos simple, como AWS S3, o en un almacenamiento descentralizado, como IPFS, Arweave o Subspace.
Elaboración de perfiles: El proceso de análisis determina un umbral de distancia de referencia para el aprendizaje para validar la prueba. El validador raspará periódicamente la tarea de análisis y generará un umbral de variación para la comparación de la prueba de aprendizaje. Para generar umbrales, los validadores ejecutarán y volverán a ejecutar de forma determinista una parte del entrenamiento, utilizando diferentes semillas aleatorias, generando y comprobando sus propias pruebas. Durante este proceso, el validador establece un umbral de distancia esperado general que se puede utilizar como un esfuerzo no determinista para validar la solución.
Entrenamiento: Después del análisis, la tarea pasa a un grupo de tareas público (similar al Mempool de Ethereum). Seleccione un solucionador para ejecutar la tarea y elimínela del grupo de tareas. El solucionador realiza la tarea en función de los metadatos enviados por el remitente, así como del modelo y los datos de entrenamiento proporcionados. Al realizar la tarea de entrenamiento, el solucionador también genera una prueba de aprendizaje mediante la comprobación y el almacenamiento periódicos de metadatos (incluidos los parámetros) del proceso de entrenamiento para que el verificador pueda replicar los siguientes pasos de optimización con la mayor precisión posible.
Generación de pruebas: el solucionador almacena periódicamente las ponderaciones o actualizaciones del modelo y el índice correspondiente con el conjunto de datos de entrenamiento para identificar las muestras utilizadas para generar actualizaciones de ponderación. La frecuencia de los puntos de control se puede ajustar para proporcionar una mayor seguridad o para ahorrar espacio de almacenamiento. La prueba se puede "apilar", lo que significa que la prueba puede comenzar con una distribución aleatoria de pesos utilizados para inicializar los pesos, o comenzar con pesos previamente entrenados generados con sus propias pruebas. Esto permite que el protocolo cree un conjunto de modelos base probados y previamente entrenados (es decir, modelos base) que se pueden ajustar para tareas más específicas.
Verificación de la prueba: Una vez completada la tarea, el solucionador registra la tarea en la cadena y muestra su prueba de aprendizaje en una ubicación de acceso público para que el validador pueda acceder. El validador extrae la tarea de validación del grupo de tareas común y realiza un trabajo computacional para volver a ejecutar una parte de la prueba y realizar el cálculo de la distancia. A continuación, la cadena (junto con los umbrales calculados durante la fase de análisis) utiliza la distancia resultante para determinar si la verificación coincide con la prueba.
Desafío de localización basado en gráficos: Después de validar la prueba de aprendizaje, el denunciante puede copiar el trabajo del validador para comprobar que la validación en sí se realiza correctamente. Si un denunciante cree que la verificación se ha realizado por error (maliciosa o no maliciosa), puede impugnar el quórum del contrato para recibir una recompensa. Esta recompensa puede provenir de depósitos de solucionadores y validadores (en el caso de un positivo genuino), o del fondo de premios de la bóveda de lotería (en el caso de un falso positivo) y el arbitraje se realiza utilizando la propia cadena. Los denunciantes (en su caso, los validadores) solo verificarán y posteriormente impugnarán el trabajo si esperan recibir una compensación adecuada. En la práctica, esto significa que se espera que los denunciantes se unan y abandonen la red en función del número de denunciantes con otras actividades (es decir, con depósitos en vivo y desafíos). Por lo tanto, la estrategia predeterminada esperada para cualquier denunciante es unirse a la red cuando haya menos denunciantes, publicar un depósito, seleccionar al azar una tarea activa y comenzar su proceso de verificación. Una vez finalizada la primera tarea, tomarán otra tarea activa aleatoria y repetirán hasta que el número de denunciantes supere su umbral de pago determinado, y luego abandonarán la red (o, más probablemente, se trasladarán a otro rol en la red, validador o solucionador, dependiendo de sus capacidades de hardware) hasta que la situación se revierta nuevamente.
Arbitraje de contratos: Cuando un validador es cuestionado por un denunciante, entra en un proceso con la cadena para averiguar dónde está la acción o el insumo en disputa, y finalmente la cadena realiza la operación básica final y determina si la impugnación está justificada. Con el fin de mantener al denunciante honesto y creíble y superar el dilema de los validadores, aquí se introducen errores forzados regulares y pagos de botes.
Liquidación: Durante el proceso de liquidación, se paga a los participantes en función de la conclusión de las comprobaciones de probabilidad y certeza. Dependiendo de los resultados de las verificaciones y desafíos anteriores, habrá diferentes pagos para diferentes escenarios. Si se considera que el trabajo se ha realizado correctamente y se han superado todas las comprobaciones, el proveedor de la solución y el validador son recompensados en función de la acción realizada.
Breve reseña del proyecto
Gensyn ha diseñado un maravilloso sistema de juego en la capa de verificación y la capa de incentivos, que puede identificar rápidamente el error al encontrar los puntos de divergencia en la red, pero todavía faltan muchos detalles en el sistema actual. Por ejemplo, ¿cómo establecer parámetros para garantizar que las recompensas y los castigos sean razonables sin que el umbral sea demasiado alto? ¿Ha tenido en cuenta el juego la diferencia entre el caso extremo y la potencia de cálculo del solucionador? No hay una descripción detallada de la operación paralela heterogénea en la versión actual del libro blanco, y parece que la implementación de Gensyn sigue siendo difícil y larga.
Together.ai
Together es una empresa que se centra en el código abierto de grandes modelos y está comprometida con las soluciones informáticas de IA descentralizadas, con la esperanza de que cualquiera pueda acceder y utilizar la IA en cualquier lugar. Estrictamente hablando, Together no es un proyecto de cadena de bloques, pero el proyecto ha resuelto preliminarmente el problema de latencia en la red informática descentralizada AGI. Por lo tanto, en el siguiente artículo solo se analiza la solución de Together y no se evalúa el proyecto.
¿Cómo se pueden entrenar e inferir modelos grandes cuando una red descentralizada es 100 veces más lenta que un centro de datos?
Imaginemos cómo sería la distribución de los dispositivos GPU que participan en la red si se eliminara la descentralización. Estos dispositivos se distribuirán en diferentes continentes, en diferentes ciudades, y deberán estar conectados entre sí, y la latencia y el ancho de banda de la conexión variarán. Como se muestra en la figura siguiente, se simula un escenario distribuido con dispositivos distribuidos en América del Norte, Europa y Asia, con un ancho de banda y una latencia variables entre los dispositivos. Entonces, ¿qué hay que hacer para conectarlo en serie?
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-42ef6469f3-dd1a6f-cd5cc0.webp)
Modelado informático de entrenamiento distribuido: en la siguiente figura se muestra el entrenamiento básico del modelo en varios dispositivos y hay tres tipos de comunicación en términos de tipos de comunicación: activación hacia adelante, gradiente hacia atrás y comunicación lateral.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-ea4665b014-dd1a6f-cd5cc0.webp)
En combinación con el ancho de banda y la latencia de comunicación, se deben considerar dos formas de paralelismo: el paralelismo de canalización y el paralelismo de datos, que corresponden a los tres tipos de comunicación en el caso de varios dispositivos:
En el paralelismo de tuberías, todas las capas del modelo se dividen en etapas, donde cada dispositivo procesa una fase, que es una secuencia continua de capas, como múltiples bloques de transformadores; En el paso hacia adelante, la activación se pasa a la siguiente etapa, mientras que en el paso hacia atrás, el gradiente de la activación se pasa a la etapa anterior.
En el paralelismo de datos, el dispositivo calcula de forma independiente los gradientes de diferentes microlotes, pero se comunica para sincronizar estos gradientes.
Optimización de la programación:
En un entorno descentralizado, el proceso de formación suele estar limitado por la comunicación. Los algoritmos de programación generalmente asignan tareas que requieren una gran cantidad de comunicación a dispositivos con velocidades de conexión más rápidas y, teniendo en cuenta las dependencias entre las tareas y la heterogeneidad de la red, primero se debe modelar el costo de una estrategia de programación específica. Con el fin de capturar el complejo costo de comunicación de entrenar el modelo base, Together propone una fórmula novedosa y descompone el modelo de costos en dos niveles a través de la teoría de grafos:
La teoría de grafos es una rama de las matemáticas que estudia la naturaleza y estructura de los grafos (redes). Un grafo se compone de vértices (nodos) y aristas (líneas que conectan nodos). El objetivo principal de la teoría de grafos es estudiar las diversas propiedades de los grafos, como la conectividad de los grafos, los colores de los grafos, la naturaleza de las trayectorias y los bucles en los grafos.
El primer nivel es una partición de grafo equilibrada (dividiendo el conjunto de vértices del grafo en varios subconjuntos de tamaños iguales o aproximadamente iguales, mientras se minimiza el número de aristas entre los subconjuntos. En esta segmentación, cada subconjunto representa una partición y el costo de comunicación se reduce minimizando los bordes entre las particiones, lo que corresponde al costo de comunicación del paralelismo de datos.
El segundo nivel es un problema conjunto de coincidencia de grafos y de viajante de comercio (un problema conjunto de emparejamiento de grafos y de viajante de comercio es un problema de optimización combinatoria que combina elementos de emparejamiento de grafos y problemas de viajante de comercio. El problema de la coincidencia de gráficos es encontrar una coincidencia en el gráfico para que se minimice o maximice algún tipo de costo. El problema del vendedor viajero es encontrar el camino más corto a todos los nodos del gráfico), correspondiente al costo de comunicación del paralelismo de la tubería.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-15383f3e42-dd1a6f-cd5cc0.webp)
La figura anterior es un diagrama esquemático del proceso, ya que el proceso de implementación real implica algunas fórmulas de cálculo complejas. Para que sea más fácil de entender, a continuación se explica el proceso en el diagrama en términos sencillos, y el proceso de implementación detallado puede ser consultado por usted mismo en la documentación en el sitio web oficial de Together.
Supongamos que hay un dispositivo configurado D con N dispositivos, y la comunicación entre ellos tiene un retardo indeterminado (matriz A) y un ancho de banda (matriz B). Basándonos en el conjunto de dispositivos D, primero generamos una segmentación de gráficos equilibrada. El número de dispositivos de cada división o grupo de dispositivos es aproximadamente igual y todos controlan las mismas fases de canalización. Esto garantiza que cuando los datos se ponen en paralelo, los grupos de dispositivos realizan una cantidad similar de trabajo. (El paralelismo de datos es cuando varios dispositivos realizan la misma tarea, mientras que las etapas de canalización son cuando los dispositivos realizan diferentes pasos de tarea en un orden específico). En función de la latencia y el ancho de banda de la comunicación, el "costo" de transferir datos entre grupos de dispositivos se puede calcular a través de fórmulas. Cada grupo equilibrado de dispositivos se combina para producir un gráfico aproximado totalmente conectado, donde cada nodo representa una etapa de la canalización y los bordes representan el costo de comunicación entre las dos etapas. Para minimizar los costos de comunicación, se utiliza un algoritmo de coincidencia para determinar qué grupos de dispositivos deben trabajar juntos.
Para una mayor optimización, el problema también se puede modelar como un problema de vendedor viajero de bucle abierto (bucle abierto significa que no hay necesidad de volver al origen de la ruta) para encontrar una ruta óptima para transferir datos entre todos los dispositivos. Por último, Together utiliza su innovador algoritmo de programación para encontrar la estrategia de asignación óptima para un modelo de costes determinado, con el fin de minimizar los costes de comunicación y maximizar el rendimiento de la formación. De acuerdo con las mediciones reales, incluso si la red es 100 veces más lenta bajo esta optimización de programación, el rendimiento de entrenamiento de extremo a extremo es solo entre 1,7 y 2,3 veces más lento.
Optimización de la compresión de la comunicación:
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-a29a418c60-dd1a6f-cd5cc0.webp)
Para la optimización de la compresión de la comunicación, Together presenta el algoritmo AQ-SGD (para el proceso de cálculo detallado, consulte el artículo Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees). El algoritmo AQ-SGD es una novedosa tecnología de compresión activa diseñada para resolver el problema de la eficiencia de la comunicación del entrenamiento paralelo de tuberías en redes de baja velocidad. A diferencia de los métodos anteriores de comprimir directamente el valor de la actividad, AQ-SGD se centra en comprimir los cambios en el valor de la actividad de la misma muestra de entrenamiento durante diferentes períodos, y este método único introduce una interesante dinámica "autoejecutable", y se espera que el rendimiento del algoritmo mejore gradualmente a medida que el entrenamiento se estabilice. Después de un riguroso análisis teórico, el algoritmo AQ-SGD demuestra que tiene una buena tasa de convergencia bajo ciertas condiciones técnicas y la función de cuantificación con error acotado. El algoritmo se puede implementar de manera eficiente sin agregar sobrecarga adicional de tiempo de ejecución de extremo a extremo, aunque requiere más memoria y SSD para almacenar el valor activo. A través de una amplia validación experimental en conjuntos de datos de clasificación de secuencias y modelado de lenguaje, AQ-SGD puede comprimir valores de actividad a 2-4 bits sin sacrificar el rendimiento de la convergencia. Además, AQ-SGD también se puede integrar con algoritmos de compresión de gradiente de última generación para lograr una "compresión de comunicación de extremo a extremo", es decir, el intercambio de datos entre todas las máquinas, incluidos los gradientes del modelo, los valores de actividad hacia adelante y los gradientes inversos, se comprime con baja precisión, lo que mejora en gran medida la eficiencia de la comunicación del entrenamiento distribuido. En comparación con el rendimiento de entrenamiento de extremo a extremo de una red informática centralizada (por ejemplo, 10 Gbps) sin compresión, actualmente es solo un 31% más lento. Combinado con los datos de optimización de la programación, aunque todavía hay una cierta brecha con la red de potencia informática centralizada, existe una esperanza relativamente grande de ponerse al día en el futuro.
Conclusión
En el período de dividendos traído por la ola de IA, el mercado de potencia de cómputo AGI es, sin duda, el mercado con mayor potencial y mayor demanda entre muchos mercados de potencia de cómputo. Sin embargo, la dificultad de desarrollo, los requisitos de hardware y los requisitos de capital también son los más altos. Combinado con los dos proyectos anteriores, todavía hay una cierta distancia de la implementación del mercado de potencia de cómputo AGI, y la red descentralizada real es mucho más compleja que la situación ideal, lo que obviamente no es suficiente para competir con los gigantes de la nube. Al momento de escribir este artículo, también se observó que algunos proyectos que están en su infancia (etapa PPT) han comenzado a explorar algunos nuevos puntos de entrada, como enfocarse en la etapa de inferencia menos difícil o el entrenamiento de modelos pequeños, que son intentos más prácticos.
Aunque se enfrenta a muchos desafíos, es importante a largo plazo que la descentralización y la importancia sin permisos de la potencia de cómputo de AGI no se concentren en unos pocos gigantes centralizados. Porque la humanidad no necesita una nueva "religión" o un nuevo "papa", y mucho menos pagar costosas "cuotas de membresía".
bibliografía
Gensyn Litepaper:
2.NeurIPS 2022: Superación de los cuellos de botella de la comunicación para la formación descentralizada:
Ajuste fino de los modelos de lenguaje en redes lentas mediante la compresión de activación con garantías:
4.El protocolo de cómputo de aprendizaje automático y nuestro futuro:
Microsoft: Publicación de ganancias FY23 Q2:
Compite por entradas de IA: BAT y Byte Meituan compiten por la GPU:
IDC: Informe de evaluación del Índice Global de Potencia Informática 2022-2023:
Estimación de entrenamiento de modelos grandes de Guosheng Securities:
Alas de la información: ¿Cuál es la relación entre la potencia informática y la IA? :
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Vista previa de la pista potencial: Mercado de potencia informática descentralizada (Parte I)
Por Zeke, YBB Capital
Introducción
Desde el nacimiento de GPT-3, la IA generativa ha marcado el comienzo de un punto de inflexión explosivo en el campo de la inteligencia artificial con su asombroso rendimiento y sus amplios escenarios de aplicación, y los gigantes tecnológicos han comenzado a saltar a la pista de la IA en grupos. Sin embargo, el funcionamiento del entrenamiento y la inferencia de modelos de lenguaje grandes (LLM) requiere mucha potencia de cálculo y, con la actualización iterativa del modelo, la demanda de potencia de cálculo y el costo aumentan exponencialmente. Tomando GPT-2 y GPT-3 como ejemplo, la diferencia en el número de parámetros entre GPT-2 y GPT-3 es de 1.166 veces (150 millones de parámetros para GPT-2 y 175 mil millones de parámetros para GPT-3), y el costo de GPT-3 puede alcanzar hasta 12 millones de dólares según el modelo de precios de la nube pública de GPU en ese momento, que es 200 veces mayor que el de GPT-2. En el proceso de uso real, cada pregunta del usuario debe inferirse y calcularse, de acuerdo con la situación de 13 millones de usuarios únicos a principios de este año, la demanda de chips correspondiente es de más de 30,000 piezas A100GPU. El costo inicial sería entonces de la asombrosa cifra de 800 millones de dólares, con un estimado de 700.000 dólares por día para la inferencia del modelo.
La potencia de cálculo insuficiente y los altos costos se han convertido en un problema para toda la industria de la IA, pero el mismo problema parece afectar también a la industria de la cadena de bloques. Por un lado, se avecina el cuarto halving de Bitcoin y el paso de los ETF, y a medida que el precio suba en el futuro, la demanda de hardware informático por parte de los mineros aumentará inevitablemente significativamente. Por otro lado, la tecnología "Zero-Knowledge Proof" (ZKP) está en auge, y Vitalik ha enfatizado repetidamente que el impacto de ZK en el espacio blockchain en la próxima década será tan importante como la propia blockchain. Aunque el futuro de esta tecnología es muy esperado por la industria blockchain, ZK también consume mucha potencia de cálculo y tiempo en el proceso de generación de pruebas como la IA debido al complejo proceso computacional.
En el futuro previsible, la escasez de potencia informática será inevitable, así que ¿será el mercado descentralizado de potencia informática un buen negocio?
Definición de mercado de computación descentralizada
El mercado de la potencia de cómputo descentralizado es en realidad básicamente equivalente a la pista de computación en la nube descentralizada, pero en comparación con la computación en la nube descentralizada, personalmente creo que este término será más apropiado para describir los nuevos proyectos que se mencionan más adelante. El mercado de potencia de cómputo descentralizado debe pertenecer a un subconjunto de DePIN (red de infraestructura física descentralizada), y su objetivo es crear un mercado abierto de potencia de cómputo, a través de incentivos simbólicos, para que cualquier persona con recursos de cómputo inactivos pueda proporcionar sus recursos en este mercado, sirviendo principalmente a la comunidad de usuarios y desarrolladores de extremo B. En cuanto a proyectos conocidos, como Render Network, una red de soluciones de renderizado basadas en GPUs descentralizadas, y Akash Network, un marketplace distribuido peer-to-peer para cloud computing, pertenecen a esta pista.
A continuación se comenzará con el concepto básico, y luego se discutirán los tres mercados emergentes bajo la pista: el mercado de potencia de cómputo AGI, el mercado de potencia de cómputo de Bitcoin y el mercado de potencia de cómputo AGI en el mercado de aceleración de hardware ZK, y los dos últimos se discutirán en "Vista previa de la pista potencial: Mercado de potencia de cómputo descentralizado (Parte II)".
Descripción general de la tasa de hash
El origen del concepto de potencia de cálculo se remonta a la invención de las computadoras, la computadora original era un dispositivo mecánico para completar tareas informáticas, y la potencia de cálculo se refiere a la potencia de cálculo de un dispositivo mecánico. Con el desarrollo de la tecnología informática, el concepto de potencia informática también ha evolucionado, y ahora la potencia informática suele referirse a la capacidad del hardware informático (CPU, GPU, FPGA, etc.) y del software (sistema operativo, compilador, aplicación, etc.) para trabajar juntos.
Definición
La potencia de cálculo se refiere a la cantidad de datos que una computadora u otro dispositivo informático puede procesar o la cantidad de tareas informáticas que se pueden completar en un cierto período de tiempo. La tasa de hash se usa a menudo para describir el rendimiento de una computadora u otro dispositivo informático, y es una medida importante de la potencia de procesamiento de un dispositivo informático.
Métricas
La potencia de cálculo se puede medir de varias maneras, como la velocidad de cálculo, el consumo de energía de cálculo, la precisión de cálculo y el paralelismo. En el campo de la informática, las métricas de potencia de cálculo más utilizadas incluyen FLOPS (operaciones de coma flotante por segundo), IPS (instrucciones por segundo), TPS (transacciones por segundo), etc.
FLOPS (Operaciones de coma flotante por segundo) se refiere a la capacidad de una computadora para manejar operaciones de coma flotante (operaciones matemáticas en números con puntos decimales, teniendo en cuenta problemas como errores de precisión y redondeo), y mide cuántas operaciones de coma flotante puede completar una computadora por segundo. FLOPS es una medida de la potencia de cálculo de alto rendimiento de una computadora y se usa comúnmente para medir la potencia de cálculo de supercomputadoras, servidores de computación de alto rendimiento y unidades de procesamiento de gráficos (GPU), entre otros. Por ejemplo, un sistema informático tiene un FLOPS de 1 TFLOPS (1 billón de operaciones de coma flotante por segundo), lo que significa que puede completar 1 billón de operaciones de coma flotante por segundo.
IPS (Instructions Per Second) se refiere a la velocidad a la que una computadora procesa las instrucciones y mide cuántas instrucciones es capaz de ejecutar una computadora por segundo. IPS es una medida del rendimiento de una sola instrucción de una computadora y, a menudo, se usa para medir el rendimiento de una unidad central de procesamiento (CPU), etc. Por ejemplo, una CPU con un IPS de 3 GHz (que puede ejecutar 300 millones de instrucciones por segundo) significa que puede ejecutar 300 millones de instrucciones por segundo.
TPS (Transacciones por segundo) se refiere a la capacidad de una computadora para procesar transacciones y mide cuántas transacciones puede completar una computadora por segundo. A menudo se utiliza para medir el rendimiento de un servidor de bases de datos. Por ejemplo, un servidor de base de datos con un TPS de 1000 significa que puede procesar 1000 transacciones de base de datos por segundo.
Además, hay algunos indicadores de potencia informática para escenarios de aplicación específicos, como la velocidad de inferencia, la velocidad de procesamiento de imágenes y la precisión del reconocimiento de voz.
Tipo de hashrate
La potencia de cálculo de la GPU se refiere a la potencia de cálculo de una unidad de procesamiento gráfico. A diferencia de la CPU (Unidad Central de Procesamiento), la GPU es una pieza de hardware diseñada específicamente para procesar datos gráficos como imágenes y videos, y tiene una gran cantidad de unidades de procesamiento y una potencia de cómputo paralelo eficiente, que puede realizar una gran cantidad de operaciones de punto flotante al mismo tiempo. Dado que las GPU se utilizaron originalmente para el procesamiento de gráficos de juegos, suelen tener frecuencias de reloj más altas y un mayor ancho de banda de memoria que las CPU para admitir operaciones gráficas complejas.
Diferencia entre CPU y GPU
Arquitectura: La arquitectura informática de las CPU y las GPU es diferente. Las CPU suelen tener uno o más núcleos, cada uno de los cuales es un procesador de propósito general capaz de realizar una variedad de operaciones diferentes. Las GPU, por otro lado, cuentan con una gran cantidad de Stream Processors y Shaders, que se dedican a realizar operaciones relacionadas con el procesamiento de imágenes.
Computación paralela: las GPU suelen tener mayores capacidades de computación paralela. Las CPU tienen un número limitado de núcleos y solo pueden ejecutar una instrucción por núcleo, pero las GPU pueden tener miles de procesadores de flujo que pueden ejecutar varias instrucciones y operaciones al mismo tiempo. Como resultado, las GPU suelen ser más adecuadas que las CPU para realizar tareas informáticas paralelas, como el aprendizaje automático y el aprendizaje profundo, que requieren una gran cantidad de computación paralela.
Programación: La programación de GPU es más compleja que la de las CPU, ya que requiere el uso de lenguajes de programación específicos (como CUDA u OpenCL) y el uso de técnicas de programación específicas para aprovechar la potencia de cálculo paralelo de las GPU. Por el contrario, las CPU son más sencillas de programar y pueden utilizar lenguajes de programación y herramientas de programación comunes.
La importancia de la potencia de cómputo
En la era de la Revolución Industrial, el petróleo era la sangre del mundo, impregnando todas las industrias. El poder de cómputo está en la cadena de bloques, y en la próxima era de la IA, el poder de cómputo será el "petróleo digital" del mundo. Desde la loca carrera de las grandes empresas por los chips de IA y el hecho de que las acciones de Nvidia superaron el billón, hasta el reciente bloqueo de chips de gama alta en China por parte de Estados Unidos, pasando por el tamaño de la potencia de cálculo, el área de los chips e incluso el plan para prohibir la nube de GPU, su importancia es evidente, y la potencia de cálculo será una mercancía en la próxima era.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-0827192de8-dd1a6f-cd5cc0.webp)
Visión general de la inteligencia artificial general
La Inteligencia Artificial (IA) es una nueva ciencia técnica que estudia y desarrolla teorías, métodos, tecnologías y sistemas de aplicación para simular, extender y expandir la inteligencia humana. Se originó en los años cincuenta y sesenta del siglo XX, y después de más de medio siglo de evolución, ha experimentado el desarrollo entrelazado de tres olas de simbolismo, conexionismo y actores. Una definición más específica de IA generativa es la Inteligencia General Artificial (AGI), un sistema de IA con una amplia comprensión que puede realizar una inteligencia similar o superior a la de los humanos en una variedad de tareas y dominios diferentes. Básicamente, la AGI debe estar compuesta por tres elementos: aprendizaje profundo (DL), big data y potencia informática a gran escala.
Aprendizaje profundo
El aprendizaje profundo es un subcampo del aprendizaje automático (ML), y los algoritmos de aprendizaje profundo son redes neuronales modeladas a partir del cerebro humano. Por ejemplo, el cerebro humano contiene millones de neuronas interconectadas que trabajan juntas para aprender y procesar información. Del mismo modo, las redes neuronales de aprendizaje profundo (o redes neuronales artificiales) están formadas por múltiples capas de neuronas artificiales que trabajan juntas dentro de un ordenador. Las neuronas artificiales son módulos de software llamados nodos que utilizan cálculos matemáticos para procesar datos. Las redes neuronales artificiales son algoritmos de aprendizaje profundo que utilizan estos nodos para resolver problemas complejos.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-23a44030b8-dd1a6f-cd5cc0.webp)
Las redes neuronales se pueden dividir en capas de entrada, capas ocultas y capas de salida, y los parámetros están conectados entre diferentes capas.
Capa de entrada: La capa de entrada es la primera capa de la red neuronal y es responsable de recibir datos de entrada externos. Cada neurona de la capa de entrada corresponde a una entidad de los datos de entrada. Por ejemplo, al procesar datos de imagen, cada neurona puede corresponder a un valor de píxel de la imagen;
Capas ocultas: la capa de entrada procesa los datos y los pasa a las capas más lejanas de la red neuronal. Estas capas ocultas procesan la información a diferentes niveles, ajustando su comportamiento a medida que se recibe nueva información. Las redes de aprendizaje profundo tienen cientos de capas ocultas que se pueden utilizar para analizar problemas desde muchos ángulos diferentes. Por ejemplo, si te dan una imagen de un animal desconocido que debe ser clasificado, puedes compararla con un animal que ya conoces. Por ejemplo, la forma de las orejas, el número de patas y el tamaño de las pupilas pueden determinar qué tipo de animal es. Las capas ocultas en las redes neuronales profundas funcionan de la misma manera. Si un algoritmo de aprendizaje profundo intenta clasificar una imagen de animal, cada una de sus capas ocultas procesa las diferentes características del animal e intenta clasificarlo con precisión;
Capa de salida: La capa de salida es la última capa de la red neuronal y se encarga de generar la salida de la red. Cada neurona de la capa de salida representa una posible clase o valor de salida. Por ejemplo, en un problema de clasificación, cada neurona de la capa de salida puede corresponder a una categoría, mientras que en un problema de regresión, la capa de salida puede tener solo una neurona cuyo valor representa el resultado predicho;
Parámetros: En una red neuronal, las conexiones entre las diferentes capas se representan mediante parámetros de ponderación y sesgo, que se optimizan durante el entrenamiento para permitir que la red identifique patrones con precisión y realice predicciones en los datos. El aumento de los parámetros puede aumentar la capacidad del modelo de una red neuronal, es decir, la capacidad del modelo para aprender y representar patrones complejos en los datos. Sin embargo, el aumento de los parámetros aumentará la demanda de potencia de cálculo.
Big Data
Para entrenar de manera efectiva, las redes neuronales a menudo requieren una gran cantidad de datos, diversos y de alta calidad y múltiples fuentes. Es la base para el entrenamiento y la validación de modelos de aprendizaje automático. Mediante el análisis de big data, los modelos de aprendizaje automático pueden aprender patrones y relaciones en los datos para hacer predicciones o clasificaciones.
Potencia de cómputo masiva
La estructura compleja multicapa de la red neuronal, la gran cantidad de parámetros, la necesidad de procesamiento de big data, el método de entrenamiento iterativo (en la etapa de entrenamiento, el modelo debe iterar repetidamente, y la propagación hacia adelante y hacia atrás de cada capa debe calcularse durante el proceso de entrenamiento, incluido el cálculo de la función de activación, el cálculo de la función de pérdida, el cálculo del gradiente y la actualización del peso), la necesidad de computación de alta precisión, la capacidad de computación paralela, la tecnología de optimización y regularización, y el proceso de evaluación y verificación del modelo, todo lo cual conduce a la demanda de alta potencia de cómputo. Los requisitos de AGI para la potencia informática a gran escala aumentan aproximadamente 10 veces cada año. Hasta ahora, el último modelo GPT-4 contiene 1,8 billones de parámetros, un coste de entrenamiento único de más de 60 millones de dólares estadounidenses y la potencia de cálculo necesaria es de 2,15e25 FLOPS (21.500 billones de cálculos de coma flotante). La demanda de potencia informática para el próximo entrenamiento de modelos sigue expandiéndose, y los nuevos modelos también están aumentando.
Economía de la computación con IA
Tamaño del mercado futuro
Según las estimaciones más autorizadas, el "Informe de evaluación del Índice de Potencia Informática Global 2022-2023" compilado conjuntamente por IDC (International Data Corporation) e Inspur Information y el Instituto de Investigación de la Industria Global de la Universidad de Tsinghua, El tamaño del mercado mundial de computación de IA crecerá de $ 19.50 mil millones en 2022 a $ 34.66 mil millones en 2026, y el tamaño del mercado de computación de IA generativa crecerá de $ 820 millones en 2022 a $ 10.99 mil millones en 2026. La computación generativa de IA crecerá del 4,2% al 31,7% del mercado total de computación de IA.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-f96a0c08e0-dd1a6f-cd5cc0.webp)
Monopolio económico de la potencia de cálculo
La producción de GPU de IA ha sido monopolizada por NVIDA, y son extremadamente caras (la última H100 se ha vendido por 40.000 dólares por chip), y las GPU han sido adquiridas por los gigantes de Silicon Valley tan pronto como se lanzan, y algunos de estos dispositivos se utilizan para entrenar sus propios modelos nuevos. La otra parte se alquila a los desarrolladores de IA a través de plataformas en la nube, como Google, Amazon y las plataformas de computación en la nube de Microsoft, que dominan una gran cantidad de recursos informáticos como servidores, GPU y TPU. La potencia informática se ha convertido en un nuevo recurso monopolizado por los gigantes, y un gran número de desarrolladores relacionados con la IA ni siquiera pueden comprar una GPU dedicada sin un margen de beneficio, y para utilizar los últimos equipos, los desarrolladores tienen que alquilar servidores en la nube de AWS o Microsoft. Según el informe financiero, este negocio tiene ganancias extremadamente altas, ya que los servicios en la nube de AWS tienen un margen bruto del 61%, mientras que Microsoft tiene un margen bruto más alto del 72%.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-a2d9d13bc5-dd1a6f-cd5cc0.webp)
Entonces, ¿tenemos que aceptar esta autoridad y control centralizados, y pagar el 72% de la tarifa de ganancia por los recursos informáticos? ¿Tendrán los gigantes que monopolizan la Web2 el monopolio de la próxima era?
El problema de la potencia de cómputo AGI descentralizada
Cuando se trata de antimonopolio, la descentralización suele ser la solución óptima y, a partir de los proyectos existentes, ¿podemos utilizar el protocolo para lograr la potencia informática a gran escala que requiere la IA a través de proyectos de almacenamiento en DePIN y GPU inactivas como RDNR? La respuesta es no, el camino para matar dragones no es tan sencillo, los primeros proyectos no están especialmente diseñados para la potencia de cálculo AGI, no es factible y la potencia de cálculo debe enfrentarse al menos a los siguientes cinco retos de la cadena:
Verificación del trabajo: Para construir una red informática verdaderamente confiable y proporcionar incentivos financieros a los participantes, la red debe tener una forma de verificar que el trabajo computacional de aprendizaje profundo se realiza realmente. En el centro de este problema se encuentra la dependencia del estado de los modelos de aprendizaje profundo; En un modelo de aprendizaje profundo, la entrada de cada capa depende de la salida de la capa anterior. Esto significa que no se puede validar una capa del modelo sin tener en cuenta todas las capas anteriores. Los cálculos de cada capa se basan en los resultados de todas las capas que la precedieron. Por lo tanto, para verificar el trabajo realizado en un punto en particular (por ejemplo, una capa en particular), todo el trabajo debe realizarse desde el inicio del modelo hasta ese punto en particular;
Mercado: Como mercado emergente, el mercado de potencia informática de IA está sujeto a dilemas de oferta y demanda, como problemas de arranque en frío, y la liquidez de la oferta y la demanda debe coincidir aproximadamente desde el principio para que el mercado pueda crecer con éxito. Con el fin de capturar el suministro potencial de poder de hash, se deben ofrecer a los participantes recompensas explícitas a cambio de sus recursos de hash. El marketplace necesita un mecanismo para llevar un control del trabajo computacional realizado y pagar las tarifas correspondientes a los proveedores de manera oportuna. En los mercados tradicionales, los intermediarios se encargan de tareas como la gestión y la incorporación, al tiempo que reducen los costes operativos mediante el establecimiento de pagos mínimos. Sin embargo, este enfoque es más costoso cuando se escala el mercado. Sólo una pequeña fracción de la oferta puede capturarse eficazmente desde el punto de vista económico, lo que conduce a un estado de umbral de equilibrio en el que el mercado sólo puede captar y mantener una oferta limitada y no puede crecer más;
Problema del tiempo de inactividad: El problema del tiempo de inactividad es un problema fundamental en la teoría computacional, que implica juzgar si una tarea computacional determinada se completará en un tiempo finito o nunca se detendrá. Este problema es irresoluble, lo que significa que no existe un algoritmo universal que pueda predecir si todas las tareas computacionales se detendrán en un tiempo finito. Por ejemplo, en Ethereum, la ejecución de contratos inteligentes se enfrenta a un tiempo de inactividad similar. es decir, es imposible determinar de antemano cuántos recursos informáticos se requerirán para la ejecución de un contrato inteligente, o si se completará en un tiempo razonable;
(En el contexto del aprendizaje profundo, este problema será más complejo a medida que los modelos y marcos cambien de la construcción de grafos estáticos a la construcción y ejecución dinámicas). )
Privacidad: El diseño y desarrollo de la conciencia de privacidad es una necesidad para el equipo del proyecto. Si bien se puede realizar una gran cantidad de investigación de aprendizaje automático en conjuntos de datos disponibles públicamente, a menudo se requiere un ajuste fino de los modelos en datos de usuario patentados para mejorar el rendimiento de los modelos y adaptarlos a aplicaciones específicas. Este proceso de ajuste puede implicar el tratamiento de datos personales y, por lo tanto, debe tener en cuenta los requisitos del Escudo de la privacidad;
Paralelización: Este es un factor clave en la viabilidad de los proyectos actuales, los modelos de aprendizaje profundo a menudo se entrenan en paralelo en grandes clústeres de hardware con arquitecturas propietarias y latencia extremadamente baja, mientras que las GPU en redes de computación distribuida requieren un intercambio frecuente de datos para introducir latencia y están limitadas por las GPU de menor rendimiento. En el caso de fuentes de energía informática poco confiables y poco confiables, la paralelización heterogénea es un problema que debe resolverse, y el método factible actual es lograr la paralelización a través de modelos de transformadores, como los transformadores de interruptor, que ahora tienen las características de alta paralelización.
Solución: Aunque el intento actual en el mercado de potencia de computación AGI descentralizada aún se encuentra en la etapa inicial, hay dos proyectos que han resuelto preliminarmente el diseño consensuado de la red descentralizada y el proceso de implementación de la red informática descentralizada en el entrenamiento e inferencia de modelos. A continuación se tomarán Gensyn y Together como ejemplos para analizar los métodos de diseño y los problemas del mercado de potencia de cómputo AGI descentralizado.
Reencuentro
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-1c80fe339c-dd1a6f-cd5cc0.webp)
Gensyn es un mercado para la potencia de cómputo AGI que aún se encuentra en la etapa de construcción y tiene como objetivo resolver los múltiples desafíos de la computación de aprendizaje profundo descentralizada y reducir el costo del aprendizaje profundo en la actualidad. Gensyn es esencialmente un protocolo proof-of-stake de capa 1 basado en la red Polkadot, que recompensa directamente a los solucionadores (Solvers) a través de contratos inteligentes a cambio de sus dispositivos GPU inactivos para la computación, y realiza tareas de aprendizaje automático.
Así que, volviendo a la pregunta anterior, el núcleo de la construcción de una red informática verdaderamente fiable es validar el trabajo de aprendizaje automático que se ha realizado. Este es un problema muy complejo que requiere encontrar un equilibrio en la intersección de la teoría de la complejidad, la teoría de juegos, la criptografía y la optimización.
Gensyn propone una solución sencilla en la que el solucionador envía los resultados de la tarea de aprendizaje automático que ha completado. Para verificar que estos resultados son precisos, otro validador independiente intenta hacer el mismo trabajo de nuevo. Este método se puede denominar replicación única porque solo se volverá a ejecutar un validador. Esto significa que solo hay un esfuerzo adicional para verificar la exactitud del trabajo original. Sin embargo, si la persona que verifica el trabajo no es el solicitante del trabajo original, entonces el problema de confianza persiste. Porque los propios validadores pueden no ser honestos y su trabajo debe ser verificado. Esto conduce a un problema potencial de que si la persona que verifica el trabajo no es el solicitante del trabajo original, entonces se necesita otro validador para verificar su trabajo. Pero este nuevo validador tampoco puede ser de fiar, por lo que se necesita otro validador para validar su trabajo, que puede continuar para siempre, formando una cadena infinita de replicación. Aquí necesitamos introducir tres conceptos clave y entrelazarlos para construir un sistema de participantes de cuatro roles para resolver el problema de la cadena infinita.
Prueba de aprendizaje probabilístico: Utilice los metadatos de un proceso de optimización basado en gradientes para construir un certificado de trabajo realizado. Al replicar ciertas etapas, puede validar rápidamente estos certificados para asegurarse de que el trabajo se ha completado según lo programado.
Protocolo de localización basado en gráficos: utiliza un protocolo de pináculo basado en gráficos de granularidad múltiple, así como una ejecución coherente de evaluadores cruzados. Esto permite que los esfuerzos de verificación se vuelvan a ejecutar y comparar para garantizar la coherencia y, en última instancia, se confirmen por la propia cadena de bloques.
Juegos de incentivos al estilo Truebit: Utiliza el staking y el slashing para crear juegos de incentivos que garanticen que todos los participantes financieramente sólidos actúen con honestidad y realicen las tareas previstas.
El sistema de colaboradores está formado por committers, solucionadores, validadores y denunciantes.
Remitentes:
El remitente es el usuario final del sistema, proporciona las tareas que se calcularán y paga por las unidades de trabajo completadas;
Solvers:
El solucionador es el trabajador principal del sistema, que realiza el entrenamiento del modelo y genera pruebas que son verificadas por los validadores;
Verificadores:
El verificador es la clave para vincular el proceso de entrenamiento no determinista con el cálculo lineal determinista, replicando una parte de la prueba del solucionador y comparando la distancia con el umbral esperado;
Denunciantes:
Los denunciantes son la última línea de defensa, ya que comprueban el trabajo de los validadores y presentan impugnaciones con la esperanza de obtener lucrativos pagos de bonificaciones.
El sistema funciona
El protocolo está diseñado para operar en un sistema de juego que constará de ocho fases, que cubrirán cuatro roles principales de los participantes, y se utilizará para completar el proceso completo desde el envío de la tarea hasta la validación final.
Para enviar la tarea, el remitente especifica los detalles de la tarea en un formato legible por máquina y lo envía a la cadena junto con el binario del modelo (o esquema legible por máquina) y una ubicación de acceso público de los datos de entrenamiento preprocesados. Los datos expuestos se pueden almacenar en un almacén de objetos simple, como AWS S3, o en un almacenamiento descentralizado, como IPFS, Arweave o Subspace.
Elaboración de perfiles: El proceso de análisis determina un umbral de distancia de referencia para el aprendizaje para validar la prueba. El validador raspará periódicamente la tarea de análisis y generará un umbral de variación para la comparación de la prueba de aprendizaje. Para generar umbrales, los validadores ejecutarán y volverán a ejecutar de forma determinista una parte del entrenamiento, utilizando diferentes semillas aleatorias, generando y comprobando sus propias pruebas. Durante este proceso, el validador establece un umbral de distancia esperado general que se puede utilizar como un esfuerzo no determinista para validar la solución.
Entrenamiento: Después del análisis, la tarea pasa a un grupo de tareas público (similar al Mempool de Ethereum). Seleccione un solucionador para ejecutar la tarea y elimínela del grupo de tareas. El solucionador realiza la tarea en función de los metadatos enviados por el remitente, así como del modelo y los datos de entrenamiento proporcionados. Al realizar la tarea de entrenamiento, el solucionador también genera una prueba de aprendizaje mediante la comprobación y el almacenamiento periódicos de metadatos (incluidos los parámetros) del proceso de entrenamiento para que el verificador pueda replicar los siguientes pasos de optimización con la mayor precisión posible.
Generación de pruebas: el solucionador almacena periódicamente las ponderaciones o actualizaciones del modelo y el índice correspondiente con el conjunto de datos de entrenamiento para identificar las muestras utilizadas para generar actualizaciones de ponderación. La frecuencia de los puntos de control se puede ajustar para proporcionar una mayor seguridad o para ahorrar espacio de almacenamiento. La prueba se puede "apilar", lo que significa que la prueba puede comenzar con una distribución aleatoria de pesos utilizados para inicializar los pesos, o comenzar con pesos previamente entrenados generados con sus propias pruebas. Esto permite que el protocolo cree un conjunto de modelos base probados y previamente entrenados (es decir, modelos base) que se pueden ajustar para tareas más específicas.
Verificación de la prueba: Una vez completada la tarea, el solucionador registra la tarea en la cadena y muestra su prueba de aprendizaje en una ubicación de acceso público para que el validador pueda acceder. El validador extrae la tarea de validación del grupo de tareas común y realiza un trabajo computacional para volver a ejecutar una parte de la prueba y realizar el cálculo de la distancia. A continuación, la cadena (junto con los umbrales calculados durante la fase de análisis) utiliza la distancia resultante para determinar si la verificación coincide con la prueba.
Desafío de localización basado en gráficos: Después de validar la prueba de aprendizaje, el denunciante puede copiar el trabajo del validador para comprobar que la validación en sí se realiza correctamente. Si un denunciante cree que la verificación se ha realizado por error (maliciosa o no maliciosa), puede impugnar el quórum del contrato para recibir una recompensa. Esta recompensa puede provenir de depósitos de solucionadores y validadores (en el caso de un positivo genuino), o del fondo de premios de la bóveda de lotería (en el caso de un falso positivo) y el arbitraje se realiza utilizando la propia cadena. Los denunciantes (en su caso, los validadores) solo verificarán y posteriormente impugnarán el trabajo si esperan recibir una compensación adecuada. En la práctica, esto significa que se espera que los denunciantes se unan y abandonen la red en función del número de denunciantes con otras actividades (es decir, con depósitos en vivo y desafíos). Por lo tanto, la estrategia predeterminada esperada para cualquier denunciante es unirse a la red cuando haya menos denunciantes, publicar un depósito, seleccionar al azar una tarea activa y comenzar su proceso de verificación. Una vez finalizada la primera tarea, tomarán otra tarea activa aleatoria y repetirán hasta que el número de denunciantes supere su umbral de pago determinado, y luego abandonarán la red (o, más probablemente, se trasladarán a otro rol en la red, validador o solucionador, dependiendo de sus capacidades de hardware) hasta que la situación se revierta nuevamente.
Arbitraje de contratos: Cuando un validador es cuestionado por un denunciante, entra en un proceso con la cadena para averiguar dónde está la acción o el insumo en disputa, y finalmente la cadena realiza la operación básica final y determina si la impugnación está justificada. Con el fin de mantener al denunciante honesto y creíble y superar el dilema de los validadores, aquí se introducen errores forzados regulares y pagos de botes.
Liquidación: Durante el proceso de liquidación, se paga a los participantes en función de la conclusión de las comprobaciones de probabilidad y certeza. Dependiendo de los resultados de las verificaciones y desafíos anteriores, habrá diferentes pagos para diferentes escenarios. Si se considera que el trabajo se ha realizado correctamente y se han superado todas las comprobaciones, el proveedor de la solución y el validador son recompensados en función de la acción realizada.
Breve reseña del proyecto
Gensyn ha diseñado un maravilloso sistema de juego en la capa de verificación y la capa de incentivos, que puede identificar rápidamente el error al encontrar los puntos de divergencia en la red, pero todavía faltan muchos detalles en el sistema actual. Por ejemplo, ¿cómo establecer parámetros para garantizar que las recompensas y los castigos sean razonables sin que el umbral sea demasiado alto? ¿Ha tenido en cuenta el juego la diferencia entre el caso extremo y la potencia de cálculo del solucionador? No hay una descripción detallada de la operación paralela heterogénea en la versión actual del libro blanco, y parece que la implementación de Gensyn sigue siendo difícil y larga.
Together.ai
Together es una empresa que se centra en el código abierto de grandes modelos y está comprometida con las soluciones informáticas de IA descentralizadas, con la esperanza de que cualquiera pueda acceder y utilizar la IA en cualquier lugar. Estrictamente hablando, Together no es un proyecto de cadena de bloques, pero el proyecto ha resuelto preliminarmente el problema de latencia en la red informática descentralizada AGI. Por lo tanto, en el siguiente artículo solo se analiza la solución de Together y no se evalúa el proyecto.
¿Cómo se pueden entrenar e inferir modelos grandes cuando una red descentralizada es 100 veces más lenta que un centro de datos?
Imaginemos cómo sería la distribución de los dispositivos GPU que participan en la red si se eliminara la descentralización. Estos dispositivos se distribuirán en diferentes continentes, en diferentes ciudades, y deberán estar conectados entre sí, y la latencia y el ancho de banda de la conexión variarán. Como se muestra en la figura siguiente, se simula un escenario distribuido con dispositivos distribuidos en América del Norte, Europa y Asia, con un ancho de banda y una latencia variables entre los dispositivos. Entonces, ¿qué hay que hacer para conectarlo en serie?
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-42ef6469f3-dd1a6f-cd5cc0.webp)
Modelado informático de entrenamiento distribuido: en la siguiente figura se muestra el entrenamiento básico del modelo en varios dispositivos y hay tres tipos de comunicación en términos de tipos de comunicación: activación hacia adelante, gradiente hacia atrás y comunicación lateral.
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-ea4665b014-dd1a6f-cd5cc0.webp)
En combinación con el ancho de banda y la latencia de comunicación, se deben considerar dos formas de paralelismo: el paralelismo de canalización y el paralelismo de datos, que corresponden a los tres tipos de comunicación en el caso de varios dispositivos:
En el paralelismo de tuberías, todas las capas del modelo se dividen en etapas, donde cada dispositivo procesa una fase, que es una secuencia continua de capas, como múltiples bloques de transformadores; En el paso hacia adelante, la activación se pasa a la siguiente etapa, mientras que en el paso hacia atrás, el gradiente de la activación se pasa a la etapa anterior.
En el paralelismo de datos, el dispositivo calcula de forma independiente los gradientes de diferentes microlotes, pero se comunica para sincronizar estos gradientes.
Optimización de la programación:
En un entorno descentralizado, el proceso de formación suele estar limitado por la comunicación. Los algoritmos de programación generalmente asignan tareas que requieren una gran cantidad de comunicación a dispositivos con velocidades de conexión más rápidas y, teniendo en cuenta las dependencias entre las tareas y la heterogeneidad de la red, primero se debe modelar el costo de una estrategia de programación específica. Con el fin de capturar el complejo costo de comunicación de entrenar el modelo base, Together propone una fórmula novedosa y descompone el modelo de costos en dos niveles a través de la teoría de grafos:
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-15383f3e42-dd1a6f-cd5cc0.webp)
La figura anterior es un diagrama esquemático del proceso, ya que el proceso de implementación real implica algunas fórmulas de cálculo complejas. Para que sea más fácil de entender, a continuación se explica el proceso en el diagrama en términos sencillos, y el proceso de implementación detallado puede ser consultado por usted mismo en la documentación en el sitio web oficial de Together.
Supongamos que hay un dispositivo configurado D con N dispositivos, y la comunicación entre ellos tiene un retardo indeterminado (matriz A) y un ancho de banda (matriz B). Basándonos en el conjunto de dispositivos D, primero generamos una segmentación de gráficos equilibrada. El número de dispositivos de cada división o grupo de dispositivos es aproximadamente igual y todos controlan las mismas fases de canalización. Esto garantiza que cuando los datos se ponen en paralelo, los grupos de dispositivos realizan una cantidad similar de trabajo. (El paralelismo de datos es cuando varios dispositivos realizan la misma tarea, mientras que las etapas de canalización son cuando los dispositivos realizan diferentes pasos de tarea en un orden específico). En función de la latencia y el ancho de banda de la comunicación, el "costo" de transferir datos entre grupos de dispositivos se puede calcular a través de fórmulas. Cada grupo equilibrado de dispositivos se combina para producir un gráfico aproximado totalmente conectado, donde cada nodo representa una etapa de la canalización y los bordes representan el costo de comunicación entre las dos etapas. Para minimizar los costos de comunicación, se utiliza un algoritmo de coincidencia para determinar qué grupos de dispositivos deben trabajar juntos.
Para una mayor optimización, el problema también se puede modelar como un problema de vendedor viajero de bucle abierto (bucle abierto significa que no hay necesidad de volver al origen de la ruta) para encontrar una ruta óptima para transferir datos entre todos los dispositivos. Por último, Together utiliza su innovador algoritmo de programación para encontrar la estrategia de asignación óptima para un modelo de costes determinado, con el fin de minimizar los costes de comunicación y maximizar el rendimiento de la formación. De acuerdo con las mediciones reales, incluso si la red es 100 veces más lenta bajo esta optimización de programación, el rendimiento de entrenamiento de extremo a extremo es solo entre 1,7 y 2,3 veces más lento.
Optimización de la compresión de la comunicación:
! [Vista previa de la pista potencial: Mercado de poder de cómputo descentralizado (Parte I)] (https://img-cdn.gateio.im/webp-social/moments-69a80767fe-a29a418c60-dd1a6f-cd5cc0.webp)
Para la optimización de la compresión de la comunicación, Together presenta el algoritmo AQ-SGD (para el proceso de cálculo detallado, consulte el artículo Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees). El algoritmo AQ-SGD es una novedosa tecnología de compresión activa diseñada para resolver el problema de la eficiencia de la comunicación del entrenamiento paralelo de tuberías en redes de baja velocidad. A diferencia de los métodos anteriores de comprimir directamente el valor de la actividad, AQ-SGD se centra en comprimir los cambios en el valor de la actividad de la misma muestra de entrenamiento durante diferentes períodos, y este método único introduce una interesante dinámica "autoejecutable", y se espera que el rendimiento del algoritmo mejore gradualmente a medida que el entrenamiento se estabilice. Después de un riguroso análisis teórico, el algoritmo AQ-SGD demuestra que tiene una buena tasa de convergencia bajo ciertas condiciones técnicas y la función de cuantificación con error acotado. El algoritmo se puede implementar de manera eficiente sin agregar sobrecarga adicional de tiempo de ejecución de extremo a extremo, aunque requiere más memoria y SSD para almacenar el valor activo. A través de una amplia validación experimental en conjuntos de datos de clasificación de secuencias y modelado de lenguaje, AQ-SGD puede comprimir valores de actividad a 2-4 bits sin sacrificar el rendimiento de la convergencia. Además, AQ-SGD también se puede integrar con algoritmos de compresión de gradiente de última generación para lograr una "compresión de comunicación de extremo a extremo", es decir, el intercambio de datos entre todas las máquinas, incluidos los gradientes del modelo, los valores de actividad hacia adelante y los gradientes inversos, se comprime con baja precisión, lo que mejora en gran medida la eficiencia de la comunicación del entrenamiento distribuido. En comparación con el rendimiento de entrenamiento de extremo a extremo de una red informática centralizada (por ejemplo, 10 Gbps) sin compresión, actualmente es solo un 31% más lento. Combinado con los datos de optimización de la programación, aunque todavía hay una cierta brecha con la red de potencia informática centralizada, existe una esperanza relativamente grande de ponerse al día en el futuro.
Conclusión
En el período de dividendos traído por la ola de IA, el mercado de potencia de cómputo AGI es, sin duda, el mercado con mayor potencial y mayor demanda entre muchos mercados de potencia de cómputo. Sin embargo, la dificultad de desarrollo, los requisitos de hardware y los requisitos de capital también son los más altos. Combinado con los dos proyectos anteriores, todavía hay una cierta distancia de la implementación del mercado de potencia de cómputo AGI, y la red descentralizada real es mucho más compleja que la situación ideal, lo que obviamente no es suficiente para competir con los gigantes de la nube. Al momento de escribir este artículo, también se observó que algunos proyectos que están en su infancia (etapa PPT) han comenzado a explorar algunos nuevos puntos de entrada, como enfocarse en la etapa de inferencia menos difícil o el entrenamiento de modelos pequeños, que son intentos más prácticos.
Aunque se enfrenta a muchos desafíos, es importante a largo plazo que la descentralización y la importancia sin permisos de la potencia de cómputo de AGI no se concentren en unos pocos gigantes centralizados. Porque la humanidad no necesita una nueva "religión" o un nuevo "papa", y mucho menos pagar costosas "cuotas de membresía".
bibliografía
2.NeurIPS 2022: Superación de los cuellos de botella de la comunicación para la formación descentralizada:
4.El protocolo de cómputo de aprendizaje automático y nuestro futuro:
Microsoft: Publicación de ganancias FY23 Q2:
Compite por entradas de IA: BAT y Byte Meituan compiten por la GPU:
IDC: Informe de evaluación del Índice Global de Potencia Informática 2022-2023:
Estimación de entrenamiento de modelos grandes de Guosheng Securities:
Alas de la información: ¿Cuál es la relación entre la potencia informática y la IA? :