AIGC lanza "magia física", la visión 3D rompe el "límite de precisión"

Fuente original: Light Cone Intelligence

Autor: Yao Yue

Fuente de la imagen: Generada por Unbounded AI‌

"¡Nada de arte, todo física! La física te hace feliz, ¿no?"

Recientemente, en la conferencia mundial de gráficos por computadora SIGGRAPH 2023, el fundador y director ejecutivo de Nvidia, Huang Renxun, anunció que cuando combinó la IA generativa con la plataforma de simulación Omniverse, estaba tan emocionado como cuando anunció que "AIGC es el momento del iPhone".

**A diferencia de los grandes modelos de lenguaje que solo se pueden aplicar a gráficos y texto, con una plataforma de simulación basada en leyes físicas, la IA generativa se puede usar directamente en el mundo real. **

Además de Huang Renxun, el equipo de Li Feifei en la Universidad de Stanford en los Estados Unidos también integró recientemente modelos grandes en robots, lo que no solo permite que los robots interactúen de manera efectiva con el entorno, sino que también completen varias tareas sin datos ni capacitación adicionales.

** "La IA generativa basada en la simulación del mundo físico es IA generativa 2.0", dijo Jia Kui, fundador de Kuawei Intelligence y profesor de la Universidad Tecnológica del Sur de China, a Light Cone Intelligence que la combinación de IA generativa y La inteligencia incorporada jugará un papel importante. Efecto más determinista. **

Con la mejora de las capacidades generales, también se espera que la IA rompa la "maldición" de la comercialización.

Cuando la IA generativa aprende física

Combinar la IA generativa con el mundo físico no es fácil y la cadena técnica involucrada es muy larga.

**En primer lugar, es necesario dominar las leyes básicas del mundo físico para modelar el mundo real en la plataforma de simulación. **

La plataforma de simulación no solo puede simular escenas físicas, sino también simular la interacción, el movimiento y la deformación de objetos en el mundo real.

La adición de IA generativa permitirá que la plataforma de simulación tenga la capacidad de "vista previa".

"Los humanos han conocido el conocimiento físico desde la infancia, pero la IA no lo sabe", dijo Huang Renxun, "La combinación de la IA generativa y la plataforma de simulación es hacer que el futuro de la IA eche raíces en la física".

Huang Renxun explicó además que permita que la IA aprenda a percibir el entorno en el mundo virtual y comprenda el impacto y las consecuencias del comportamiento físico a través del aprendizaje reforzado, para que la IA pueda lograr objetivos específicos.

**Esto requiere el uso de IA generativa para predecir decenas de millones o incluso cientos de millones de posibilidades en el mundo físico para formar datos sintéticos valiosos. **

Por ejemplo, el brazo robótico necesita usar los "ojos" de la visión 3D para agarrar con precisión, pero ¿cómo eliminar la interferencia de los cambios ambientales y reconocer los objetos que se agarrarán (como las piezas en la fábrica)?

A través de la plataforma de simulación, hemos dominado las leyes físicas como "el reflejo y la refracción de la luz en el objeto de la escena", y la IA generativa puede predecir y simular una botella con diferentes grados de reflexión bajo diferentes luces de escena; bajo la misma iluminación , metal, El estado de la superficie de objetos hechos de diferentes materiales como plásticos y productos de madera; un montón de clavos, todos los posibles estados dispersos...

** Nuevamente, todos los datos deben ejecutarse en la plataforma de simulación con IA. **

Este paso es para entrenar el modelo visual grande en 3D. A diferencia de los grandes modelos de lenguaje, los grandes modelos visuales en 3D son cruciales para comprender y razonar sobre las características compositivas de las escenas visuales, y necesitan lidiar con relaciones complejas entre objetos, posiciones y cambios en el entorno real.

**Finalmente, necesita estar conectado con hardware inteligente, como un brazo robótico, para que pueda aprender la operación inteligente. **

Se puede ver que toda la cadena técnica de la combinación de la IA generativa y el mundo físico involucra no solo la física, los gráficos, la visión por computadora y la robótica multidisciplinaria, sino también los gemelos digitales, el aprendizaje profundo geométrico, los cálculos cinemáticos, la inteligencia híbrida y la inteligencia artificial. Hardware y otras tecnologías multidimensionales de vanguardia.

En consecuencia, la cadena de toda la industria también es relativamente compleja, desde los datos hasta los modelos y luego desde los modelos hasta la implementación.

En estos enlaces hay un nodo muy diferente al anterior camino de la IA, y es el de “generación de datos sintéticos”.

El uso de datos sintetizados por IA generativa basada en leyes físicas para entrenar modelos grandes traerá una gran revolución a la industria física.

Sin imagen real,

Entrenamiento de modelo grande visual en 3D

¿Por qué no entrenar modelos grandes directamente con datos reales?

En la actualidad, la mayoría de brazos robóticos basados en visión 3D de la industria utilizan datos reales para el entrenamiento de algoritmos de sus sistemas de control. Por cuestiones como la privacidad comercial, estos datos reales son difíciles de obtener en general, y básicamente son recopilados por las propias empresas.

** Sin embargo, los datos reales recopilados por uno mismo, en primer lugar, el rendimiento de los costos es muy bajo en términos de "eficiencia y costo", los dos indicadores clave de la operación. **

Esto se debe a que los escenarios de aplicaciones de terminales están fragmentados y los datos no se pueden usar universalmente en absoluto. Para recopilar datos reales, las empresas necesitan una recopilación de "alfombra" de cada industria, cada fábrica y cada escena. Además, los datos recopilados no se pueden utilizar directamente y se requiere una serie de procesamientos.

En este proceso, hay incluso una "paradoja de la inteligencia artificial".

"Al recopilar datos reales, más de la mitad del costo de la tecnología de IA es el costo de los datos, y el procesamiento de la recopilación, la limpieza, el etiquetado y la mejora de los datos suele ser el resultado de una gran cantidad de mano de obra acumulada". Algunos analistas han señalado: La esencia de la inteligencia artificial es reemplazar la inteligencia artificial. "La ironía es que tal IA tiene características industriales de trabajo intensivo obvias".

¿Qué pasa con los datos sintéticos?

** "Usando los datos reales acumulados en cinco o seis años y miles de casos, se puede completar en unos pocos días y unas pocas semanas a través de datos sintéticos". Jia Kui le dijo a Light Cone Intelligence que, en comparación con la recopilación y el etiquetado manual de datos , el costo de los datos sintéticos Se puede lograr una reducción de varios órdenes de magnitud. **

**Lo más importante es que, en términos de efecto de entrenamiento, los datos sintéticos pueden ser mejores que los datos reales. **

Dado que se sintetiza en base a leyes físicas, los datos sintéticos nacen con anotaciones absolutamente precisas, lo que significa que el aprendizaje de la IA es muy eficiente.

Además, la "completitud" de los datos sintéticos no tiene comparación con los datos reales. "La IA generativa 2.0 puede crear innumerables mundos y puede hacer que este mundo evolucione rápidamente", dijo Jia Kui.

**Cuando se trata de la industria de la visión 3D, el brazo robótico es como la "mano de Dios", que puede controlar todo en el pasado y el futuro. **

"Por supuesto, esto no puede estar fuera de las leyes del mundo físico", enfatizó Jia Kui.

"En la actualidad, podemos completar el entrenamiento del modelo visual 3D del brazo robótico para operaciones de escena complejas sin usar una imagen real". Jia Kui dijo a Lightcone Intelligence que la operación flexible del brazo robótico puede guiarse por el modelo entrenado completamente con sintético datos, que pueden realizar en el sitio Más del 99,9% de agarre estable.

Es precisamente por esto que **los datos sintéticos se denominan la "máquina de movimiento perpetuo de datos" de los modelos grandes. **

En la actualidad, además del campo de la visión 3D, muchos campos también están intentando utilizar datos sintéticos debido a problemas como la falta de datos generales y el alto nivel de ruido. Sin embargo, también existen fuertes dudas sobre los datos sintéticos, y se dice que si no se depuran cuidadosamente y no se usan ampliamente durante el entrenamiento, el modelo colapsará y causará defectos irreversibles.

Desde la perspectiva de la evolución tecnológica, los datos sintéticos no serán la única solución a los grandes modelos.

Sin embargo, Jia Kui señaló: "Antes de encontrar una mejor manera, los datos sintéticos son la mejor manera de resolver problemas prácticos en la actualidad. Si todavía se utilizan datos reales acumulados por humanos, en muchos campos, incluida la visión 3D, AGI (Inteligencia Artificial General ) inteligencia) nunca será posible.”

Romper la "maldición" de la comercialización de la IA

En el campo de la visión artificial, la demanda de datos sintéticos es más fuerte y el valor que la IA generativa 2.0 puede desbloquear será aún mayor.

Como método de percepción muy importante de la visión artificial, la visión 3D tiene una necesidad urgente de datos sintéticos.

"Encuentra la diferencia" entre un montón de partes similares, y cambia el material y el color del objeto, y necesitas ajustar los parámetros". Un profesional de la visión 3D dijo que las diferentes necesidades de los diferentes campos hacen que la escena del aterrizaje esté demasiado fragmentada. Termina un proyecto y luego vuelve a personalizar otro proyecto.

Esto significa que es difícil para las empresas formar productos estandarizados centrándose en resolver uno o varios requisitos del proyecto. También es imposible ingresar y expandir el mercado y buscar una escala de ganancias a través de una replicación rápida.

**El costo marginal es difícil de reducir, lo que convertirá a una empresa de tecnología en una empresa de proyectos y eventualmente la arrastrará hacia abajo. **

El diablo está en los detalles.

¿Qué tan frágil es la percepción visual 3D tradicional? Jia Kui describió a Light Cone Intelligence: "Durante el proceso de agarre del brazo robótico, si alguien pasa y cambia la luz, la tarea puede fallar".

Esto se debe al principio de imagen del hardware de la cámara 3D. La imagen de la cámara 3D se ve fácilmente afectada por el entorno, la forma del objeto, el material, el color, el medio de dispersión, etc., y este problema es difícil de resolver en poco tiempo.

"Puede que se necesiten cien pasos para resolver un problema, pero el esfuerzo en el último paso puede ser el mismo que la suma de los 99 pasos anteriores". Yang Fan, cofundador de SenseTime, dijo una vez que la mayor parte de la energía de la empresa debe utilizarse para tratar con piezas pequeñas Problema de cola larga.

Pero ahora, **“La IA 2.0 generativa con gran versatilidad puede resolver el problema de cola larga, que es muy importante para la estandarización del producto”, dijo Jia Kui. **

En comparación con el modelo de desarrollo personalizado tradicional de la industria, basado en la IA generativa 2.0, las empresas pueden usar el modelo general a gran escala para realizar el desarrollo modular del producto, lograr una implementación inmediata y luego lograr una expansión directa en la misma industria. , y diferentes industrias también pueden Reutilización efectiva. El problema de comercialización de la industria de la visión 3D se resolverá fácilmente.

Al mismo tiempo, el costo de los datos, el desarrollo, la implementación, el hardware y la expansión de la industria también se redujo drásticamente en todos los eslabones.

Bajo la catálisis de la IA generativa 2.0, una vez que explote la visión 3D, significa que las escenas verticales que dependen en gran medida de la tecnología de visión 3D, como brazos robóticos, robots, vehículos no tripulados y metaversos, se acelerarán para comerse el dividendo de la IA.

Muchos datos han confirmado este punto. En campos como el etiquetado de datos, datos sintéticos, robots industriales y visión artificial, el tamaño del mercado global está creciendo a gran velocidad, especialmente la tasa de crecimiento anual compuesto de datos sintéticos incluso supera el 30%. .

Detrás de esto está realmente el valor estratégico de la IA 2.0 generativa, que ha sido muy valorada por la tecnología y muchos gigantes de la fabricación.

Desde empresas de fabricación establecidas como Siemens y Ford, hasta gigantes tecnológicos como Nvidia, Tesla, Google y empresas emergentes estrella como Waabi, todos han comenzado a trabajar en muchos campos, como la industria, la robótica, la conducción no tripulada, la atención médica. y comercio minorista Explore las mayores posibilidades de la IA generativa 2.0.

Al mismo tiempo, el entusiasmo del capital también se ha movilizado en gran medida. Según estadísticas incompletas, en los últimos años, el financiamiento extranjero relacionado con datos sintéticos ha acumulado cerca de 800 millones de dólares estadounidenses.

En China, las empresas relacionadas con los datos sintéticos también han llamado la atención del capital. En junio de 2022, Kuowei Smart anunció la finalización de la ronda de financiamiento Pre-A, con un monto de financiamiento de decenas de millones de yuanes y un financiamiento acumulado de casi 100 millones de yuanes en menos de un año desde su establecimiento; en julio de este año, Guanglun Smart también anunció la finalización de la ronda de financiación ángel +. La cantidad acumulada de financiación es de decenas de millones de yuanes.

**Se puede decir que desde poder componer poesía hasta aprender física, la IA generativa 2.0 está abriendo un gran futuro de digitalización industrial. **

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)