Fuente original: La segunda mitad de la conducción autónoma.
Fuente de la imagen: Generada por Unbounded AI
Estamos en vísperas de la inteligencia artificial generalizada. Si bien ChatGPT ha inspirado entusiasmo en todo el mundo, también ha iniciado la competencia por grandes modelos de IA. Google lanzó Bard para hacer benchmark, Amazon también se sumó al campo de batalla, y Meta, que apostaba fuerte por el metaverso, no se quedó atrás y lanzó LLaMa y SAM. De este lado del océano, BAT, reconocida por tener la mayor cantidad de recursos, se reunió nuevamente en el modelo generativo. Siguiendo la tendencia de los modelos grandes, la inteligencia encarnada parece estar gestando un cambio enorme.
Todo parece haber vuelto a hace diez años, con el boom empresarial surgiendo. **Solo que esta vez, la singularidad de la inteligencia artificial general se abre con modelos grandes, y los datos se ubican oficialmente en el centro del escenario. **
01. ¿Cuáles son los elementos clave en el desarrollo de modelos grandes?
La potencia informática convierte los modelos grandes en un juego de riqueza
Un modelo grande, en términos sencillos, es un modelo con una gran cantidad de parámetros. En comparación con los modelos pequeños anteriores que podían ejecutarse en una sola GPU, solo podía completarse confiando en la enorme cantidad de potencia informática acumulada por las grandes empresas. Por ejemplo, OpenAI ChatGPT cuesta actualmente hasta un millón de dólares estadounidenses por formación. La posibilidad de que pequeños laboratorios participen en la ola de inteligencia artificial fue acabada directamente por los modelos grandes, y sólo las empresas con una fuerte acumulación pueden completarla.
Por lo tanto, los únicos héroes que surgieron en la ola empresarial general de grandes modelos fueron aquellos que tenían historias maravillosas en la ola empresarial de Internet, como Wang Huiwen de Meituan, Kai-fu Lee de Sinovation Ventures y Wang Xiaochuan de Sogou. Ha surgido la Ley de los modelos de Moore y los modelos más grandes han aportado una mejor comprensión del mundo y capacidades de razonamiento. Ante tal tendencia, no hay tiempo para detenerse y dudar.
1. El modelo de desarrollo centrado en el modelo algorítmico ha terminado
En la actualidad, el modelo de desarrollo de las empresas comunes de inteligencia artificial sigue siendo el modelo de desarrollo "tradicional" centrado en el modelo, es decir, arreglar el conjunto de datos y luego iterar el modelo. Los ingenieros de algoritmos suelen centrarse en varios conjuntos de datos de referencia y luego diseñan varios modelos para mejorar la precisión de la predicción.
Aunque los modelos grandes están surgiendo como hongos después de una lluvia, de hecho los algoritmos detrás de la mayoría de los modelos tienden a ser consistentes y no se han producido cambios importantes en los modelos. El apilamiento del volumen de datos hace que el modelo entrenado funcione mucho mejor que el modelo con pequeños cambios. Por ejemplo, hace unos meses, el pionero de la inteligencia artificial Yann LeCun publicó un artículo en el que afirmaba que ChatGPT técnicamente no es nada nuevo, pero ha logrado un rendimiento excelente. Es posible que los cambios cuidadosos del algoritmo no produzcan mejores resultados que agregar e iterar datos. En comparación con el rendimiento del modelo entrenado en un solo conjunto de datos, el rendimiento del modelo aportado por una gran cantidad de datos de alta calidad es un duro golpe para la reducción de dimensionalidad. **
1. Los datos se convierten en el elemento central del desarrollo de modelos a gran escala.
El éxito de los grandes modelos de OpenAI surge de la creencia de Ilya de que los cambios cuantitativos en los grandes datos y los grandes modelos provocarán cambios cualitativos. Por ejemplo, ChatGPT utiliza al menos 40 T de datos a gran escala para el entrenamiento y, si la cantidad de datos efectivos continúa aumentando, puede lograr un mejor rendimiento. Según la investigación de Google sobre habilidades emergentes de modelos de lenguaje grandes, en un cierto punto crítico de los parámetros del modelo, el modelo repentinamente adquirió capacidades inesperadas.
Para garantizar que se puedan entrenar razonablemente tantos parámetros, la clave se ha convertido en datos de alta calidad. Tomando como ejemplo el desarrollo de ChatGPT, GPT-1 solo usó 4629 MB de datos de texto, mientras que GPT-2 usó 40 GB de texto rastreado y filtrado desde Reddit, y GPT-3 usó al menos 45 TB de texto sin formato. El proceso de entrenamiento de -4 no se ha revelado, pero dado que la velocidad de inferencia de GPT-4 es mucho más lenta que la de GPT-3, se puede inferir que el número de parámetros del modelo también ha aumentado y el entrenamiento correspondiente. los datos obviamente requieren más. Estos datos de alta calidad son una razón importante por la que ChatGPT apareció por primera vez en el mundo inglés. Los textos de capacitación en inglés están más estandarizados y son más ricos que los textos de capacitación en chino.
Yang Dong, decano del Instituto de Ciencias Interdisciplinarias de la Universidad Renmin de China, también cree que la razón fundamental del éxito de ChatGPT no es sólo la tecnología en sí, sino también los graves problemas de falta de apertura y monopolio de los datos en China. En cuanto al modelo de segmentación semántica lanzado recientemente Segment Anything Model by Meta, el modelo supervisado general no tiene ninguna innovación obvia, pero el uso de datos masivos en el campo de la segmentación semántica hace que el rendimiento del modelo sea sorprendente. Decenas de millones de imágenes y miles de millones de máscaras de segmentación nunca se han visto en el campo de la segmentación semántica de imágenes.
**El modelo de desarrollo de la IA está cambiando de centrado en modelos a centrado en datos. **¿De dónde se obtienen los datos? ¿Son los datos en el mundo lo suficientemente grandes para los modelos?
02. Los datos reales se agotarán con los modelos grandes
En este mundo, las actividades humanas ocurren todo el tiempo, entonces, ¿no deberían seguir creciendo los rastros de datos que quedan? ¿Por qué está agotado?
Los datos de alta calidad son escasos
No todos los rastros generados por actividades humanas se pueden utilizar para el entrenamiento de modelos. Solo los datos de alta calidad que ingresan al entrenamiento de modelos pueden producir los mejores resultados.
En el campo del procesamiento del lenguaje natural, los datos de alta calidad son, naturalmente, libros y artículos científicos digitalizados. Tener una buena relación lógica también puede garantizar una precisión relativa. Los datos de baja calidad, como registros de chat, llamadas telefónicas, etc., tienen un efecto relativamente limitado en la capacitación debido a la mala continuidad de los datos. En la documentación de desarrollo de ChatGPT 3 se menciona que después de que el filtrado de datos realizó un filtrado de calidad en 45 TB de texto sin formato, se obtuvieron 570 GB de texto, utilizando solo el 1,27% de los datos efectivos.
En el campo de la conducción autónoma, se generan datos de alta calidad a partir de una gran cantidad de escenarios diferentes. Por ejemplo, una carretera con una curvatura relativamente pequeña puede aparecer con mucha frecuencia, pero de hecho, cuantas más veces ocurre, menos importante es. Por el contrario, para algunos escenarios no convencionales (es decir, el caso de esquina), la calidad de los datos es mayor y la adaptación del escenario debe realizarse por separado. Sin embargo, estas muestras relativamente pequeñas son casi una gota en el mar cuando se enfrentan a los requisitos de parámetros de los modelos grandes.
Limitaciones impuestas por la seguridad y privacidad de los datos
El desarrollo de la IA generativa ha estado acompañado de controversia sobre la seguridad de los datos. Después de que Stable Diffusion estuvo disponible, causó insatisfacción entre muchos artistas. Bajo presión, Stability AI anunció que permitiría a los artistas eliminar sus obras de manera específica y evitaría que ingresaran al conjunto de capacitación.
En algunos casos, los datos disponibles públicamente pueden contener información confidencial, como información de identificación personal, información financiera o registros médicos. En muchas industrias y regiones, es muy difícil obtener datos que contienen información confidencial, lo que aumenta la dificultad de la recopilación de datos y reduce la tasa de crecimiento de los conjuntos de datos correspondientes. Esto se ha convertido en una limitación para los modelos de grandes industrias. Por ejemplo, en el campo médico, debido a las particularidades y privacidad del campo, es imposible obtener la cantidad de datos que se pueden utilizar para la capacitación de modelos grandes bajo estricta protección de la privacidad y restricciones regulatorias.
Es posible que los datos reales de alta calidad no sean suficientes para respaldar el entrenamiento de modelos grandes
El artículo "¿Nos quedaremos sin datos? Un análisis de los límites del escalado de conjuntos de datos en Machine Learning" explora la posibilidad de escasez de datos (la cantidad de datos no es suficiente para satisfacer las necesidades del entrenamiento de modelos grandes). tasa de crecimiento del modelo,* Hacia 2026, los datos de PNL de alta calidad no serán suficientes para respaldar la capacitación*. Las reservas de datos para los modelos de lenguaje y visión están creciendo mucho más lentamente que el tamaño de los conjuntos de datos de entrenamiento, por lo que si las tendencias actuales continúan, los conjuntos de datos eventualmente dejarán de crecer debido al agotamiento de los datos.
Con la creciente cantidad de datos, la mayoría de los datos recopilados mediante métodos de recopilación de datos incontrolables no tienen sentido. Por ejemplo, en escenarios de conducción autónoma, los vehículos recopilan constantemente nuevos datos en la carretera, pero en realidad solo se pueden utilizar muy pocos. Por lo tanto, en una conversación reciente entre el CEO de Nvidia, Jensen Huang, e Ilya Sutskever, también discutieron la posibilidad de que se agoten los datos.
03. Los datos sintéticos pueden satisfacer los enormes requisitos de datos de los modelos grandes
El modelo de desarrollo centrado en datos hace que los datos sean la parte más importante. Los algoritmos de entrenamiento requieren datos, pero es difícil obtener datos de alta calidad. ¿Cómo se deben satisfacer los enormes requisitos de datos de los modelos grandes?
Así como hay carne sintética en los alimentos, ¿se pueden sintetizar datos artificialmente? Los datos sintéticos son datos creados en el mundo digital. La controlabilidad de los datos sintéticos es mejor que la de los datos reales: puede reflejar las propiedades de los datos reales en un sentido matemático y físico, y puede producir datos direccionalmente para garantizar el equilibrio de los datos al entrenar el modelo.
Los datos sintéticos tienen información delta
Conozca la distribución de datos en datos reales y produzca más datos basados en esta distribución para garantizar que haya suficientes datos para entrenar modelos grandes en diversos escenarios. La combinación de diferentes elementos genera diferentes escenarios, y los cambios de escenario también provocan un aumento de información, asegurando así la efectividad de los datos sintetizados.
Según una investigación de OpenAI y UC Berkeley en 2017, en base a la escena real, se generalizan la posición de la cámara, el color del objeto, la forma, la iluminación, etc., y se genera una gran cantidad de datos sintéticos para el entrenamiento del modelo de detección de objetos. Al no utilizar datos reales en absoluto, el error 3D del modelo de detección se mantiene dentro de 1,5 cm y tiene muy buena robustez.
Por ejemplo, en el campo de la conducción autónoma, se puede reproducir una típica escena real del coche que circula delante mediante la climatología y la iluminación generalizadas utilizando datos sintéticos. Una vez que los datos resultantes se utilicen para entrenar el modelo, el modelo tendrá un rendimiento más sólido en diferentes condiciones climáticas y de iluminación. Según la investigación de Nvidia de 2018, el rendimiento del modelo de detección ha mejorado significativamente mediante el uso de datos sintéticos producidos con posiciones y texturas aleatorias de los vehículos para entrenar el modelo. Esto se atribuye a una distribución más uniforme de las ubicaciones de los vehículos con datos sintéticos y a una distribución más amplia de los datos producidos.
La controlabilidad de los datos sintéticos es mejor que la de los datos reales: puede reflejar las propiedades de los datos reales en un sentido matemático y físico, y puede producir datos direccionalmente para garantizar el equilibrio de los datos al entrenar el modelo. Al generar datos de manera específica, existe la posibilidad de personalizar las características del modelo grande. Por ejemplo, se espera que el modelo de lenguaje grande esté sesgado al responder ciertas preguntas y tenga estilos y elementos especiales al generar ciertas imágenes. . Todo esto se puede lograr a través de datos sintéticos personalizados.
Basado en datos reales, pero diferente a los datos reales. Esta característica de los datos sintéticos hace que su uso sea cada vez más amplio: no solo se utiliza para pruebas, sino que también se puede utilizar como datos de entrenamiento para hacer que el modelo sea más potente.
La ventaja de costos de los datos sintéticos es enorme
El coste de los datos proviene de la recopilación y el etiquetado; en ambas partes, los datos sintéticos tienen importantes ventajas.
En comparación con la recopilación ineficiente de datos reales, los datos sintéticos pueden generar escenarios de manera específica, haciendo que cada byte de datos sea valioso. No es necesario un gran equipo de recopilación de datos, ni un sistema de devolución de datos a gran escala ni un sistema de filtrado de datos. Los datos sintéticos se basan en las necesidades del entrenamiento del modelo desde el comienzo de la producción, y la mayor parte de la salida se puede utilizar directamente. lo que reduce el costo de datos.Costos de recolección.
Al mismo tiempo, el costo de etiquetar datos sintéticos tiene una gran ventaja en comparación con los datos reales: según estimaciones de la plataforma de servicios de datos Diffgram, en el etiquetado de imágenes de conducción autónoma, el precio promedio de una caja de etiquetado es de aproximadamente 0,03 dólares estadounidenses. y el costo total de etiquetar completamente una imagen es de aproximadamente $ 0,03.5,79 dólares estadounidenses, y para los datos sintéticos, el precio de la anotación es básicamente cercano a cero, y algunos son solo costos de cálculo de datos, que solo cuestan alrededor de 6 centavos. En resumen, los datos sintéticos se pueden utilizar para entrenar modelos grandes de una manera más controlable, eficiente y de bajo costo.
**Si la recopilación de datos reales todavía se encuentra en la era de la agricultura y la ganadería de tala y quema, entonces la producción de datos sintéticos ha entrado en la era de la industria eficiente y automatizada, que proporciona productos a gran escala y de alta calidad a precios razonables. bajo costo. **Según "MIT Technology Review", los datos sintéticos figuran como una de las diez tecnologías más innovadoras del mundo en 2022. Se cree que los datos sintéticos pueden resolver el lento desarrollo de la inteligencia artificial en campos con recursos de datos insuficientes.
04. Qué industrias necesitarán datos sintéticos
** De hecho, los datos sintéticos se han utilizado ampliamente en el extranjero: en el campo de la robótica, la conducción autónoma, el procesamiento del lenguaje natural, las finanzas, la atención médica, etc., todos podemos ver datos sintéticos. **
Ya en 2018, OpenAI utilizó un entorno de simulación para entrenar controladores de robots. El proceso de capacitación aleatorizará la dinámica ambiental y luego aplicará el controlador directamente al robot físico. De esta manera, el robot puede manejar tareas simples cuando realiza tareas simples. cambios en el entorno externo.
Según un informe de JPMorgan Chase de 2019, utilizó datos sintéticos para entrenar modelos de detección de fraude financiero para superar el problema de muy pocos datos sobre fraude financiero.
La Universidad de Stanford también lanzó recientemente su propio modelo de conversación a gran escala Alpaca con 7 mil millones de parámetros. Lo que es particularmente interesante es que el conjunto de datos involucrado en la investigación fue generado por el equipo utilizando la API de OpenAI. En otras palabras, todo el conjunto de datos de entrenamiento fue generado por el equipo utilizando la API de OpenAI. completamente sintetizado La composición de los datos y el efecto final son comparables a GPT-3.5.
Tomando nuevamente como ejemplo la conducción autónoma, como una aplicación importante de la visión por computadora, la industria de la conducción autónoma ha avanzado mucho en el uso de datos sintéticos. Para reducir los costos de prueba y mejorar la eficiencia de la iteración, los motores de simulación se utilizan ampliamente en la industria para probar y verificar algoritmos de conducción autónoma.
Las funciones de conducción autónoma basadas en la visión necesitan recopilar cantidades masivas de datos de escenas reales para entrenar modelos de aprendizaje profundo para completar la percepción del mundo. Sin embargo, los datos de cola larga producidos en masa suelen ser difíciles o imposibles de recopilar en el mundo real. Al mismo tiempo, incluso la apariencia de un mismo objeto puede variar mucho en diferentes momentos y condiciones climáticas, lo que plantea grandes desafíos a la percepción visual.
En comparación con la recopilación de datos reales, el costo de los datos sintéticos es controlable y no requiere anotaciones manuales, lo que reduce en gran medida los errores humanos causados por procesos de flujo y recopilación de datos y estándares humanos inconsistentes. Por lo tanto, la industria considera que los datos sintéticos son una de las formas efectivas de resolver el problema de la cola larga.
Sin embargo, para entrenar mejor los sistemas de conducción autónoma, la calidad de la mayoría de los datos de simulación está lejos de ser suficiente: no pueden reflejar el mundo real y son sólo un alto grado de abstracción del mundo real. Por lo tanto, muchas empresas de la industria han invertido mucho en mejorar el realismo de los datos. Por ejemplo, el software de simulación de conducción autónoma de Nvidia, DriveSim, utiliza tecnología avanzada de representación física para mejorar el realismo de los datos sintéticos.
Cruise y Waymo utilizan tecnologías relacionadas con NeRF para generar mundos gemelos digitales y luego producir datos sintéticos. Nvidia también propuso Instant NGP en 2022, que mejoró enormemente la eficiencia del entrenamiento de NeRF.
Ya en AIDay 2021, Telsa entrenó el sistema de percepción utilizando escenas de una familia corriendo por la carretera y multitudes difíciles de etiquetar, lo cual fue muy impresionante.
Al mismo tiempo, muchas empresas de datos sintéticos han comenzado a surgir en Silicon Valley a la vanguardia de la industria: Parallel Domain and Applied Intuition, que presta servicios a la conducción autónoma, Datagen, que presta servicios a la industria general de visión artificial, y Gretel AI, que es Sus raíces están en el procesamiento del lenguaje natural y detrás de estas empresas se encuentran los gigantes líderes de la industria.
Gartner predice que en 2024, el 60% de los datos de entrenamiento serán reemplazados por datos de adultos, y en 2030, los datos sintéticos reemplazarán por completo a los datos reales y se convertirán en la principal fuente de datos para el entrenamiento de IA.
Sin embargo, en China existen relativamente pocas aplicaciones de datos sintéticos y, en la actualidad, la mayoría de las empresas todavía utilizan datos reales para completar la capacitación del modelo.
05. Limitaciones de los datos sintéticos
¿Qué problemas aún deben resolverse con los datos sintéticos antes de que puedan reemplazar completamente a los datos reales? Aquí tomamos la conducción autónoma como ejemplo para discutir un poco.
Veracidad
Desde una perspectiva perceptiva, la autenticidad es de hecho el primer índice de evaluación. Antes de que este lote de datos ingrese al sistema de capacitación, ¿puede pasar la inspección visual humana para garantizar que parezca real?
En cuanto a las desventajas del realismo, la realidad visible a simple vista no representa la efectividad real de los datos y la búsqueda ciega del realismo visual de las imágenes puede no tener un significado práctico cuantificable. El estándar cuantitativo para evaluar la autenticidad de los datos sintéticos debe basarse en la mejora de los conjuntos de datos sintéticos con respecto a los conjuntos de datos reales para algoritmos entrenados en conjuntos de datos sintéticos. Actualmente, en la industria de la conducción autónoma, que exige los más altos requisitos en cuanto a la autenticidad de los datos sintéticos, ya existen ejemplos de Cruise, Nvidia, Waymo, Tesla, etc. que han mejorado de forma eficaz y significativa el rendimiento de los algoritmos en carreteras reales basados en datos sintéticos. Por supuesto, a medida que mejoren los algoritmos, también aumentarán los requisitos de autenticidad de los datos sintéticos. Los recientes avances continuos en la IA generativa nos han dado una buena dirección práctica para mejorar el realismo de los datos sintéticos.
Diversidad de escenas
Construcción de modelos mundiales de datos sintéticos, como la construcción de escenarios de conducción autónoma. Necesitamos crear un mundo virtual y simular el funcionamiento del mundo real, para que los datos sintéticos fluyan como agua de manantial. El método tradicional se basa en el modelado de algoritmos artificiales. Por ejemplo, el método de construcción de los productores de datos sintéticos tradicionales se basa exclusivamente en motores de física, que determinan la velocidad de construcción de la escena. Todo el mundo físico requiere que los ingenieros de activos 3D lo construyan manualmente. La ubicación del edificio y de la calle debe construirse manualmente, lo que restringe la velocidad de construcción de la escena y limita en gran medida la diversidad de escenas. La IA generativa como Diffusion Model y Nerf brindan la posibilidad de modelado automatizado centrado en datos para la línea de producción de datos sintéticos.
Las escenas construidas artificialmente limitan en gran medida la generalización de datos sintéticos. Después de todo, esperamos que el algoritmo entrenado sea lo suficientemente robusto como para funcionar lo suficientemente bien en el mundo real.
Obviamente, la construcción artificial no puede cubrir todas las escenas del mundo real. Para crear suficientes datos para cubrir todo el mundo real, necesitamos aprender la expresión implícita del mundo real y luego producir escenas suficientemente diversas. Esto debe depender de la IA generativa.
Productividad
Para proporcionar rápidamente grandes lotes de datos altamente generalizables, la primera prioridad es la producción paralela a gran escala en la nube. Apoyar la producción rápida de datos con alta potencia informática permite que los datos se sinteticen a una velocidad incomparable en el mundo real.
06. La IA generativa hace posible que los datos sintéticos reemplacen los datos reales a gran escala
NVidia Huang Renxun cree que los reflejos y los sueños humanos son parte de datos sintéticos, lo que equivale a que la IA genere datos para entrenar la IA. Para cumplir con los enormes requisitos de datos de los modelos grandes, necesitamos automatizar completamente el enlace de producción de datos sintéticos para que la IA pueda entrenar a la IA.
Gracias al reciente y rápido desarrollo del modelo de difusión y NeRF, los datos sintéticos de IA de alta calidad ya no son una fantasía. El sofisticado proceso matemático del modelo de difusión basado en cadenas de Markov hace posible crear modelos de generación de imágenes más grandes y estables, y también supera el problema del entrenamiento demasiado difícil para redes de generación adversarias. El modelo de difusión estable utiliza una enorme colección de imágenes para permitir que las personas vean las infinitas posibilidades del modelo de difusión, y la introducción de redes relacionadas con ControlNet también hace que la adaptación en campos específicos sea más conveniente.
NeRF (Neural Radiance Fields) convierte la construcción del mundo 3D en un proceso de aprendizaje de redes neuronales. Combina eficazmente campos neuronales (Neural Field) y representación de vóxeles para reconstruir el mundo 3D de manera muy realista, y es muy prometedor para reemplazar el engorroso proceso. El proceso de construcción del motor de física. Waymo desarrolló BlockNeRF basándose en esta tecnología para reconstruir eficientemente San Francisco y producir datos sintéticos allí. El reciente artículo destacado de CVPR, UniSim, ha impulsado la aplicación de NeRF un gran paso adelante.
A partir de estas tecnologías, comenzaron a surgir los unicornios AIGC. Después de entrenar StabilityAI (modelo de difusión), Midjourney (modelo de difusión) y LumaLab AI (NeRF) con grandes lotes de datos, ya no se puede cuestionar la autenticidad de las imágenes y los efectos artísticos resultantes y las nuevas expresiones de datos nos permiten ver Aquí viene el brillante futuro de la generalización de datos sintéticos.
07, escrito al final
ChatGPT es solo el punto de partida, y los grandes modelos en el campo del lenguaje natural son solo chispas. Aunque ChatGPT ya tiene capacidades básicas de inteligencia artificial, que se obtienen aprendiendo datos del lenguaje natural humano, de hecho, el pensamiento cognitivo humano sobre el mundo definitivamente no se limita al lenguaje y el texto, sino que es multimodal (imágenes, texto, sonido, luz, electricidad, cine...). No es difícil inferir que una AGI real debe poder procesar toda la información modal del mundo de manera tan instantánea, eficiente, precisa y lógica como los humanos, y completar diversas tareas intermodales o multimodales. La reciente locura por la inteligencia incorporada también espera con ansias la aparición de nuevos métodos de interacción multimodal.
Esto también requiere datos multimodales, lo que aumenta aún más la dificultad de obtener datos reales, y los datos reales multimodales son aún más escasos.
Por ejemplo, en comparación con los datos de texto y de imágenes que se pueden encontrar en todas partes, sólo hay un puñado de conjuntos de datos 3D de alta calidad correspondientes. Los conjuntos de datos de imágenes de investigación científica de uso común suelen contener cientos de millones o más de imágenes, mientras que muchos conjuntos de datos 3D de mayor calidad que se pueden utilizar para la investigación científica solo tienen miles o decenas de miles de modelos 3D. Si queremos que la inteligencia artificial comprenda el mundo 3D, necesitaremos una gran cantidad de datos multimodales que contengan modelos 3D. Esto también puede requerir datos sintéticos para resolverlo.
Automatizar la construcción de modelos mundiales, permitir que la IA genere datos multimodales de forma controlable y entrenar modelos grandes más inteligentes son el verdadero camino hacia la inteligencia artificial general.
Algunas referencias:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Si los modelos grandes agotan los datos, ¿seguiremos viendo inteligencia artificial general?
Fuente original: La segunda mitad de la conducción autónoma.
Estamos en vísperas de la inteligencia artificial generalizada. Si bien ChatGPT ha inspirado entusiasmo en todo el mundo, también ha iniciado la competencia por grandes modelos de IA. Google lanzó Bard para hacer benchmark, Amazon también se sumó al campo de batalla, y Meta, que apostaba fuerte por el metaverso, no se quedó atrás y lanzó LLaMa y SAM. De este lado del océano, BAT, reconocida por tener la mayor cantidad de recursos, se reunió nuevamente en el modelo generativo. Siguiendo la tendencia de los modelos grandes, la inteligencia encarnada parece estar gestando un cambio enorme.
Todo parece haber vuelto a hace diez años, con el boom empresarial surgiendo. **Solo que esta vez, la singularidad de la inteligencia artificial general se abre con modelos grandes, y los datos se ubican oficialmente en el centro del escenario. **
01. ¿Cuáles son los elementos clave en el desarrollo de modelos grandes?
Un modelo grande, en términos sencillos, es un modelo con una gran cantidad de parámetros. En comparación con los modelos pequeños anteriores que podían ejecutarse en una sola GPU, solo podía completarse confiando en la enorme cantidad de potencia informática acumulada por las grandes empresas. Por ejemplo, OpenAI ChatGPT cuesta actualmente hasta un millón de dólares estadounidenses por formación. La posibilidad de que pequeños laboratorios participen en la ola de inteligencia artificial fue acabada directamente por los modelos grandes, y sólo las empresas con una fuerte acumulación pueden completarla.
Por lo tanto, los únicos héroes que surgieron en la ola empresarial general de grandes modelos fueron aquellos que tenían historias maravillosas en la ola empresarial de Internet, como Wang Huiwen de Meituan, Kai-fu Lee de Sinovation Ventures y Wang Xiaochuan de Sogou. Ha surgido la Ley de los modelos de Moore y los modelos más grandes han aportado una mejor comprensión del mundo y capacidades de razonamiento. Ante tal tendencia, no hay tiempo para detenerse y dudar.
En la actualidad, el modelo de desarrollo de las empresas comunes de inteligencia artificial sigue siendo el modelo de desarrollo "tradicional" centrado en el modelo, es decir, arreglar el conjunto de datos y luego iterar el modelo. Los ingenieros de algoritmos suelen centrarse en varios conjuntos de datos de referencia y luego diseñan varios modelos para mejorar la precisión de la predicción.
Aunque los modelos grandes están surgiendo como hongos después de una lluvia, de hecho los algoritmos detrás de la mayoría de los modelos tienden a ser consistentes y no se han producido cambios importantes en los modelos. El apilamiento del volumen de datos hace que el modelo entrenado funcione mucho mejor que el modelo con pequeños cambios. Por ejemplo, hace unos meses, el pionero de la inteligencia artificial Yann LeCun publicó un artículo en el que afirmaba que ChatGPT técnicamente no es nada nuevo, pero ha logrado un rendimiento excelente. Es posible que los cambios cuidadosos del algoritmo no produzcan mejores resultados que agregar e iterar datos. En comparación con el rendimiento del modelo entrenado en un solo conjunto de datos, el rendimiento del modelo aportado por una gran cantidad de datos de alta calidad es un duro golpe para la reducción de dimensionalidad. **
El éxito de los grandes modelos de OpenAI surge de la creencia de Ilya de que los cambios cuantitativos en los grandes datos y los grandes modelos provocarán cambios cualitativos. Por ejemplo, ChatGPT utiliza al menos 40 T de datos a gran escala para el entrenamiento y, si la cantidad de datos efectivos continúa aumentando, puede lograr un mejor rendimiento. Según la investigación de Google sobre habilidades emergentes de modelos de lenguaje grandes, en un cierto punto crítico de los parámetros del modelo, el modelo repentinamente adquirió capacidades inesperadas.
Yang Dong, decano del Instituto de Ciencias Interdisciplinarias de la Universidad Renmin de China, también cree que la razón fundamental del éxito de ChatGPT no es sólo la tecnología en sí, sino también los graves problemas de falta de apertura y monopolio de los datos en China. En cuanto al modelo de segmentación semántica lanzado recientemente Segment Anything Model by Meta, el modelo supervisado general no tiene ninguna innovación obvia, pero el uso de datos masivos en el campo de la segmentación semántica hace que el rendimiento del modelo sea sorprendente. Decenas de millones de imágenes y miles de millones de máscaras de segmentación nunca se han visto en el campo de la segmentación semántica de imágenes.
02. Los datos reales se agotarán con los modelos grandes
En este mundo, las actividades humanas ocurren todo el tiempo, entonces, ¿no deberían seguir creciendo los rastros de datos que quedan? ¿Por qué está agotado?
Los datos de alta calidad son escasos
No todos los rastros generados por actividades humanas se pueden utilizar para el entrenamiento de modelos. Solo los datos de alta calidad que ingresan al entrenamiento de modelos pueden producir los mejores resultados.
En el campo del procesamiento del lenguaje natural, los datos de alta calidad son, naturalmente, libros y artículos científicos digitalizados. Tener una buena relación lógica también puede garantizar una precisión relativa. Los datos de baja calidad, como registros de chat, llamadas telefónicas, etc., tienen un efecto relativamente limitado en la capacitación debido a la mala continuidad de los datos. En la documentación de desarrollo de ChatGPT 3 se menciona que después de que el filtrado de datos realizó un filtrado de calidad en 45 TB de texto sin formato, se obtuvieron 570 GB de texto, utilizando solo el 1,27% de los datos efectivos.
En el campo de la conducción autónoma, se generan datos de alta calidad a partir de una gran cantidad de escenarios diferentes. Por ejemplo, una carretera con una curvatura relativamente pequeña puede aparecer con mucha frecuencia, pero de hecho, cuantas más veces ocurre, menos importante es. Por el contrario, para algunos escenarios no convencionales (es decir, el caso de esquina), la calidad de los datos es mayor y la adaptación del escenario debe realizarse por separado. Sin embargo, estas muestras relativamente pequeñas son casi una gota en el mar cuando se enfrentan a los requisitos de parámetros de los modelos grandes.
Limitaciones impuestas por la seguridad y privacidad de los datos
El desarrollo de la IA generativa ha estado acompañado de controversia sobre la seguridad de los datos. Después de que Stable Diffusion estuvo disponible, causó insatisfacción entre muchos artistas. Bajo presión, Stability AI anunció que permitiría a los artistas eliminar sus obras de manera específica y evitaría que ingresaran al conjunto de capacitación.
En algunos casos, los datos disponibles públicamente pueden contener información confidencial, como información de identificación personal, información financiera o registros médicos. En muchas industrias y regiones, es muy difícil obtener datos que contienen información confidencial, lo que aumenta la dificultad de la recopilación de datos y reduce la tasa de crecimiento de los conjuntos de datos correspondientes. Esto se ha convertido en una limitación para los modelos de grandes industrias. Por ejemplo, en el campo médico, debido a las particularidades y privacidad del campo, es imposible obtener la cantidad de datos que se pueden utilizar para la capacitación de modelos grandes bajo estricta protección de la privacidad y restricciones regulatorias.
Es posible que los datos reales de alta calidad no sean suficientes para respaldar el entrenamiento de modelos grandes
El artículo "¿Nos quedaremos sin datos? Un análisis de los límites del escalado de conjuntos de datos en Machine Learning" explora la posibilidad de escasez de datos (la cantidad de datos no es suficiente para satisfacer las necesidades del entrenamiento de modelos grandes). tasa de crecimiento del modelo,* Hacia 2026, los datos de PNL de alta calidad no serán suficientes para respaldar la capacitación*. Las reservas de datos para los modelos de lenguaje y visión están creciendo mucho más lentamente que el tamaño de los conjuntos de datos de entrenamiento, por lo que si las tendencias actuales continúan, los conjuntos de datos eventualmente dejarán de crecer debido al agotamiento de los datos.
Con la creciente cantidad de datos, la mayoría de los datos recopilados mediante métodos de recopilación de datos incontrolables no tienen sentido. Por ejemplo, en escenarios de conducción autónoma, los vehículos recopilan constantemente nuevos datos en la carretera, pero en realidad solo se pueden utilizar muy pocos. Por lo tanto, en una conversación reciente entre el CEO de Nvidia, Jensen Huang, e Ilya Sutskever, también discutieron la posibilidad de que se agoten los datos.
03. Los datos sintéticos pueden satisfacer los enormes requisitos de datos de los modelos grandes
El modelo de desarrollo centrado en datos hace que los datos sean la parte más importante. Los algoritmos de entrenamiento requieren datos, pero es difícil obtener datos de alta calidad. ¿Cómo se deben satisfacer los enormes requisitos de datos de los modelos grandes?
Así como hay carne sintética en los alimentos, ¿se pueden sintetizar datos artificialmente? Los datos sintéticos son datos creados en el mundo digital. La controlabilidad de los datos sintéticos es mejor que la de los datos reales: puede reflejar las propiedades de los datos reales en un sentido matemático y físico, y puede producir datos direccionalmente para garantizar el equilibrio de los datos al entrenar el modelo.
Los datos sintéticos tienen información delta
Conozca la distribución de datos en datos reales y produzca más datos basados en esta distribución para garantizar que haya suficientes datos para entrenar modelos grandes en diversos escenarios. La combinación de diferentes elementos genera diferentes escenarios, y los cambios de escenario también provocan un aumento de información, asegurando así la efectividad de los datos sintetizados.
Según una investigación de OpenAI y UC Berkeley en 2017, en base a la escena real, se generalizan la posición de la cámara, el color del objeto, la forma, la iluminación, etc., y se genera una gran cantidad de datos sintéticos para el entrenamiento del modelo de detección de objetos. Al no utilizar datos reales en absoluto, el error 3D del modelo de detección se mantiene dentro de 1,5 cm y tiene muy buena robustez.
Basado en datos reales, pero diferente a los datos reales. Esta característica de los datos sintéticos hace que su uso sea cada vez más amplio: no solo se utiliza para pruebas, sino que también se puede utilizar como datos de entrenamiento para hacer que el modelo sea más potente.
La ventaja de costos de los datos sintéticos es enorme
El coste de los datos proviene de la recopilación y el etiquetado; en ambas partes, los datos sintéticos tienen importantes ventajas.
En comparación con la recopilación ineficiente de datos reales, los datos sintéticos pueden generar escenarios de manera específica, haciendo que cada byte de datos sea valioso. No es necesario un gran equipo de recopilación de datos, ni un sistema de devolución de datos a gran escala ni un sistema de filtrado de datos. Los datos sintéticos se basan en las necesidades del entrenamiento del modelo desde el comienzo de la producción, y la mayor parte de la salida se puede utilizar directamente. lo que reduce el costo de datos.Costos de recolección.
Al mismo tiempo, el costo de etiquetar datos sintéticos tiene una gran ventaja en comparación con los datos reales: según estimaciones de la plataforma de servicios de datos Diffgram, en el etiquetado de imágenes de conducción autónoma, el precio promedio de una caja de etiquetado es de aproximadamente 0,03 dólares estadounidenses. y el costo total de etiquetar completamente una imagen es de aproximadamente $ 0,03.5,79 dólares estadounidenses, y para los datos sintéticos, el precio de la anotación es básicamente cercano a cero, y algunos son solo costos de cálculo de datos, que solo cuestan alrededor de 6 centavos. En resumen, los datos sintéticos se pueden utilizar para entrenar modelos grandes de una manera más controlable, eficiente y de bajo costo.
**Si la recopilación de datos reales todavía se encuentra en la era de la agricultura y la ganadería de tala y quema, entonces la producción de datos sintéticos ha entrado en la era de la industria eficiente y automatizada, que proporciona productos a gran escala y de alta calidad a precios razonables. bajo costo. **Según "MIT Technology Review", los datos sintéticos figuran como una de las diez tecnologías más innovadoras del mundo en 2022. Se cree que los datos sintéticos pueden resolver el lento desarrollo de la inteligencia artificial en campos con recursos de datos insuficientes.
04. Qué industrias necesitarán datos sintéticos
** De hecho, los datos sintéticos se han utilizado ampliamente en el extranjero: en el campo de la robótica, la conducción autónoma, el procesamiento del lenguaje natural, las finanzas, la atención médica, etc., todos podemos ver datos sintéticos. **
Ya en 2018, OpenAI utilizó un entorno de simulación para entrenar controladores de robots. El proceso de capacitación aleatorizará la dinámica ambiental y luego aplicará el controlador directamente al robot físico. De esta manera, el robot puede manejar tareas simples cuando realiza tareas simples. cambios en el entorno externo.
La Universidad de Stanford también lanzó recientemente su propio modelo de conversación a gran escala Alpaca con 7 mil millones de parámetros. Lo que es particularmente interesante es que el conjunto de datos involucrado en la investigación fue generado por el equipo utilizando la API de OpenAI. En otras palabras, todo el conjunto de datos de entrenamiento fue generado por el equipo utilizando la API de OpenAI. completamente sintetizado La composición de los datos y el efecto final son comparables a GPT-3.5.
Tomando nuevamente como ejemplo la conducción autónoma, como una aplicación importante de la visión por computadora, la industria de la conducción autónoma ha avanzado mucho en el uso de datos sintéticos. Para reducir los costos de prueba y mejorar la eficiencia de la iteración, los motores de simulación se utilizan ampliamente en la industria para probar y verificar algoritmos de conducción autónoma.
Las funciones de conducción autónoma basadas en la visión necesitan recopilar cantidades masivas de datos de escenas reales para entrenar modelos de aprendizaje profundo para completar la percepción del mundo. Sin embargo, los datos de cola larga producidos en masa suelen ser difíciles o imposibles de recopilar en el mundo real. Al mismo tiempo, incluso la apariencia de un mismo objeto puede variar mucho en diferentes momentos y condiciones climáticas, lo que plantea grandes desafíos a la percepción visual.
En comparación con la recopilación de datos reales, el costo de los datos sintéticos es controlable y no requiere anotaciones manuales, lo que reduce en gran medida los errores humanos causados por procesos de flujo y recopilación de datos y estándares humanos inconsistentes. Por lo tanto, la industria considera que los datos sintéticos son una de las formas efectivas de resolver el problema de la cola larga.
Sin embargo, para entrenar mejor los sistemas de conducción autónoma, la calidad de la mayoría de los datos de simulación está lejos de ser suficiente: no pueden reflejar el mundo real y son sólo un alto grado de abstracción del mundo real. Por lo tanto, muchas empresas de la industria han invertido mucho en mejorar el realismo de los datos. Por ejemplo, el software de simulación de conducción autónoma de Nvidia, DriveSim, utiliza tecnología avanzada de representación física para mejorar el realismo de los datos sintéticos.
Gartner predice que en 2024, el 60% de los datos de entrenamiento serán reemplazados por datos de adultos, y en 2030, los datos sintéticos reemplazarán por completo a los datos reales y se convertirán en la principal fuente de datos para el entrenamiento de IA.
Sin embargo, en China existen relativamente pocas aplicaciones de datos sintéticos y, en la actualidad, la mayoría de las empresas todavía utilizan datos reales para completar la capacitación del modelo.
05. Limitaciones de los datos sintéticos
¿Qué problemas aún deben resolverse con los datos sintéticos antes de que puedan reemplazar completamente a los datos reales? Aquí tomamos la conducción autónoma como ejemplo para discutir un poco.
Veracidad
Desde una perspectiva perceptiva, la autenticidad es de hecho el primer índice de evaluación. Antes de que este lote de datos ingrese al sistema de capacitación, ¿puede pasar la inspección visual humana para garantizar que parezca real?
En cuanto a las desventajas del realismo, la realidad visible a simple vista no representa la efectividad real de los datos y la búsqueda ciega del realismo visual de las imágenes puede no tener un significado práctico cuantificable. El estándar cuantitativo para evaluar la autenticidad de los datos sintéticos debe basarse en la mejora de los conjuntos de datos sintéticos con respecto a los conjuntos de datos reales para algoritmos entrenados en conjuntos de datos sintéticos. Actualmente, en la industria de la conducción autónoma, que exige los más altos requisitos en cuanto a la autenticidad de los datos sintéticos, ya existen ejemplos de Cruise, Nvidia, Waymo, Tesla, etc. que han mejorado de forma eficaz y significativa el rendimiento de los algoritmos en carreteras reales basados en datos sintéticos. Por supuesto, a medida que mejoren los algoritmos, también aumentarán los requisitos de autenticidad de los datos sintéticos. Los recientes avances continuos en la IA generativa nos han dado una buena dirección práctica para mejorar el realismo de los datos sintéticos.
Diversidad de escenas
Construcción de modelos mundiales de datos sintéticos, como la construcción de escenarios de conducción autónoma. Necesitamos crear un mundo virtual y simular el funcionamiento del mundo real, para que los datos sintéticos fluyan como agua de manantial. El método tradicional se basa en el modelado de algoritmos artificiales. Por ejemplo, el método de construcción de los productores de datos sintéticos tradicionales se basa exclusivamente en motores de física, que determinan la velocidad de construcción de la escena. Todo el mundo físico requiere que los ingenieros de activos 3D lo construyan manualmente. La ubicación del edificio y de la calle debe construirse manualmente, lo que restringe la velocidad de construcción de la escena y limita en gran medida la diversidad de escenas. La IA generativa como Diffusion Model y Nerf brindan la posibilidad de modelado automatizado centrado en datos para la línea de producción de datos sintéticos.
Las escenas construidas artificialmente limitan en gran medida la generalización de datos sintéticos. Después de todo, esperamos que el algoritmo entrenado sea lo suficientemente robusto como para funcionar lo suficientemente bien en el mundo real.
Obviamente, la construcción artificial no puede cubrir todas las escenas del mundo real. Para crear suficientes datos para cubrir todo el mundo real, necesitamos aprender la expresión implícita del mundo real y luego producir escenas suficientemente diversas. Esto debe depender de la IA generativa.
Productividad
Para proporcionar rápidamente grandes lotes de datos altamente generalizables, la primera prioridad es la producción paralela a gran escala en la nube. Apoyar la producción rápida de datos con alta potencia informática permite que los datos se sinteticen a una velocidad incomparable en el mundo real.
06. La IA generativa hace posible que los datos sintéticos reemplacen los datos reales a gran escala
NVidia Huang Renxun cree que los reflejos y los sueños humanos son parte de datos sintéticos, lo que equivale a que la IA genere datos para entrenar la IA. Para cumplir con los enormes requisitos de datos de los modelos grandes, necesitamos automatizar completamente el enlace de producción de datos sintéticos para que la IA pueda entrenar a la IA.
Gracias al reciente y rápido desarrollo del modelo de difusión y NeRF, los datos sintéticos de IA de alta calidad ya no son una fantasía. El sofisticado proceso matemático del modelo de difusión basado en cadenas de Markov hace posible crear modelos de generación de imágenes más grandes y estables, y también supera el problema del entrenamiento demasiado difícil para redes de generación adversarias. El modelo de difusión estable utiliza una enorme colección de imágenes para permitir que las personas vean las infinitas posibilidades del modelo de difusión, y la introducción de redes relacionadas con ControlNet también hace que la adaptación en campos específicos sea más conveniente.
A partir de estas tecnologías, comenzaron a surgir los unicornios AIGC. Después de entrenar StabilityAI (modelo de difusión), Midjourney (modelo de difusión) y LumaLab AI (NeRF) con grandes lotes de datos, ya no se puede cuestionar la autenticidad de las imágenes y los efectos artísticos resultantes y las nuevas expresiones de datos nos permiten ver Aquí viene el brillante futuro de la generalización de datos sintéticos.
07, escrito al final
ChatGPT es solo el punto de partida, y los grandes modelos en el campo del lenguaje natural son solo chispas. Aunque ChatGPT ya tiene capacidades básicas de inteligencia artificial, que se obtienen aprendiendo datos del lenguaje natural humano, de hecho, el pensamiento cognitivo humano sobre el mundo definitivamente no se limita al lenguaje y el texto, sino que es multimodal (imágenes, texto, sonido, luz, electricidad, cine...). No es difícil inferir que una AGI real debe poder procesar toda la información modal del mundo de manera tan instantánea, eficiente, precisa y lógica como los humanos, y completar diversas tareas intermodales o multimodales. La reciente locura por la inteligencia incorporada también espera con ansias la aparición de nuevos métodos de interacción multimodal.
Esto también requiere datos multimodales, lo que aumenta aún más la dificultad de obtener datos reales, y los datos reales multimodales son aún más escasos.
Por ejemplo, en comparación con los datos de texto y de imágenes que se pueden encontrar en todas partes, sólo hay un puñado de conjuntos de datos 3D de alta calidad correspondientes. Los conjuntos de datos de imágenes de investigación científica de uso común suelen contener cientos de millones o más de imágenes, mientras que muchos conjuntos de datos 3D de mayor calidad que se pueden utilizar para la investigación científica solo tienen miles o decenas de miles de modelos 3D. Si queremos que la inteligencia artificial comprenda el mundo 3D, necesitaremos una gran cantidad de datos multimodales que contengan modelos 3D. Esto también puede requerir datos sintéticos para resolverlo.
Automatizar la construcción de modelos mundiales, permitir que la IA genere datos multimodales de forma controlable y entrenar modelos grandes más inteligentes son el verdadero camino hacia la inteligencia artificial general.
Algunas referencias: