El Laboratorio de Inteligencia Artificial de Shanghái lanza el modelo de escena real en 3D de Shusheng·Tianji LandMark

Fuente: El Papel

Reportero Wu Tianyi Pasante Chen Xiaorui

Fuente de la imagen: generada por la herramienta de IA ilimitada

·El primer modelo NeRF 3D de la vida real a gran escala del mundo con 100 mil millones de parámetros ·Sky LandMark puede admitir múltiples funciones de edición de ciudades. En la demostración, el edificio Wukang puede usar la tecnología NeRF para cambiar su estilo y los efectos de luces y sombras de acuerdo con diferentes períodos de tiempo; el Palacio de la Cultura China puede realizar una rotación general o una rotación de diferentes capas.

·El Laboratorio de Inteligencia Artificial de Shanghái lanzó el sistema general de modelos a gran escala para académicos, incluidos tres modelos básicos de multimodalidad, Puyu y Tianji. Al mismo tiempo, lanzó el primer sistema de código abierto de cadena completa para modelos a gran escala. desarrollo y aplicación.

El 6 de julio, en la reunión plenaria Fronteras de la ciencia de la Conferencia Mundial de Inteligencia Artificial (WAIC) de 2023, Lin Dahua, experto en aprendizaje profundo y ciencias de la computación, profesor del Laboratorio de Inteligencia Artificial de Shanghái y profesor de la Universidad China de Hong Kong, lanzó un gran modelo 3D de escena real de Shusheng Tianji LandMark, y se presentan su principio técnico y su aplicación funcional.

Lin Dahua dijo que Shusheng·Tianji LandMark es el primer modelo grande NeRF 3D de la vida real de 100 mil millones de parámetros del mundo, que fue desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghái, la Universidad China de Hong Kong y el Instituto de Cartografía y Topografía de Shanghái). La capacidad de modelado de campo de luz se extiende desde el nivel del objeto hasta el nivel de la ciudad. Lin Dahua dijo que el lanzamiento de Shusheng·Tianji LandMark es una aplicación innovadora de modelos grandes, que "brinda la posibilidad técnica para que podamos realizar AIGC (Contenido generado por inteligencia artificial) a nivel de ciudad en el futuro".

El "Sistema de modelo general de Shusheng" (en lo sucesivo, "Modelo grande de Shusheng") también se presentó por primera vez en la conferencia, incluidos tres modelos básicos de Shusheng·Multimodal, Shusheng·Puyu y Shusheng·Tianji, así como el primer modelo a gran escala orientado a un sistema de código abierto de cadena completa para I+D y aplicación.

De una manzana a toda una ciudad

“Además de generar texto, el modelo grande también puede brindarnos un mundo más imaginativo.” Lin Dahua dijo que el erudito Tianji LandMark usa la tecnología NeRF para brindar más posibilidades para la aplicación de la tecnología de modelos grandes.

NeRF es un nuevo tipo de tecnología de modelado de campo de luz 3D, propuesta por primera vez por el equipo de investigación de Google en marzo de 2020. Inicialmente se aplicó al modelado 3D y se limitó al nivel de objetos pequeños (del tamaño de una manzana) . "Pero creemos que la tecnología NeRF es más que eso", dijo Lin Dahua, "El 10 de diciembre de 2021, nuestro equipo propuso por primera vez expandir la capacidad del modelado de campo de luz NeRF desde el nivel de objeto de una pequeña manzana hasta el nivel de la ciudad. Este es el global Es la primera vez que se extienden las capacidades de la tecnología NeRF de objetos a ciudades Dijo que después de que su equipo de investigación propusiera NeRF a nivel de ciudad por un tiempo, la Universidad Carnegie Mellon y Google lanzaron sus respectivas tecnologías NeRF a nivel de ciudad. .

El 10 de diciembre de 2021, el equipo de Lin Dahua propuso por primera vez extender la capacidad de modelado del campo de luz NeRF desde el nivel de objeto de una pequeña manzana al nivel de la ciudad.

"Basándonos en la tecnología central de NeRF a nivel de ciudad, estamos mejorando constantemente su escalabilidad y capacidades". Lin Dahua presentó que el gran modelo 3D de la vida real de Shusheng·Tianji LandMark se basa en la tecnología y el algoritmo CT NeRF de segunda generación. del equipo de investigación, y admite una gama completa de renderizado en tiempo real de alta precisión, incluidos 200 mil millones de parámetros, que cubren 100 kilómetros cuadrados, cada detalle en la escena real admite resolución de alta definición 4K.

Real 3D es un espacio digital que refleja y expresa la producción humana, la vida y los espacios ecológicos reales, tridimensionales y secuenciados en el tiempo dentro de un cierto rango. Según los informes, Shusheng·Tianji LandMark integra algoritmos, operadores y sistemas informáticos, y propone un nuevo paradigma de entrenamiento y representación de modelos 3D del mundo real a nivel de modelo. Mientras entrena de manera eficiente, puede representar con precisión escenas urbanas en 3D a gran escala, y Lograr efectos de representación neuronal de alta calidad. Toma la delantera en cuatro aspectos: modelado de alta precisión, representación de alta precisión, escalabilidad funcional e integración de capacitación e interacción.

Shusheng·Tianji LandMark también admite funciones como edición a nivel de ciudad y conversión de estilo. En la demostración, el edificio Wukang puede usar la tecnología NeRF para cambiar su estilo y los efectos de luces y sombras de acuerdo con diferentes períodos de tiempo; el Palacio de la Cultura China puede realizar una rotación general o una rotación de diferentes capas. "Esto brinda una posibilidad técnica para nuestro AIGC a nivel de ciudad en el futuro", dijo Lin Dahua.

Varias partes del Palacio de la Cultura China se pueden "girar".

Lin Dahua dijo: "Espero que a través de la nueva tecnología de generación de escenas reales en 3D, podamos inyectar nueva imaginación e innovación en nuestro futuro espacio urbano. En el futuro, Shanghai AI Lab ampliará el alcance y las funciones de modelado de Shusheng Tianji, y Los algoritmos, operadores y sistemas de Shusheng Tianji son todos de código abierto”.

El primer sistema modelo general a gran escala para académicos

En la reunión, Lin Dahua también presentó el sistema general de modelos a gran escala para académicos, incluidos tres modelos básicos de multimodal, Puyu y Tianji. Al mismo tiempo, lanzó el primer sistema de código abierto de cadena completa para grandes desarrollo y aplicación de modelos a escala. Entre ellos, el modelo grande multimodal tiene 20 mil millones de parámetros, admite 3,5 millones de etiquetas semánticas y es líder mundial en más de 80 tareas; el modelo grande en lenguaje Pu es el primer modelo grande lanzado oficialmente en China con 100 mil millones de parámetros que admite múltiples idiomas

"Scholar Puyu ha superado a LLaMA-7B (un modelo de lenguaje de inteligencia artificial desarrollado por el equipo FAIR de Meta AI) en todas las dimensiones". Lin Dahua dijo que Shusheng Puyu, como un modelo grande con cientos de miles de millones de parámetros, ha logrado que ambos superen a los mejores. modelos de código abierto existentes en China.

El 7 de junio de este año, Shanghai AI Lab y SenseTime lanzaron conjuntamente el modelo de lenguaje a gran escala de "Scholar·Puyu" junto con la Universidad China de Hong Kong, la Universidad de Fudan y la Universidad Jiaotong de Shanghai. El modelo tiene 104 000 millones de parámetros y es uno de los modelos de lenguaje grande actuales con cientos de miles de millones de parámetros. Se entrena en función de un conjunto de datos multilingües de alta calidad que contiene 1,6 billones de tokens.

Según los informes, desde su debut oficial en junio, Scholar·Puyu ha experimentado una actualización integral en un mes, que incluye cinco aspectos. En primer lugar, la longitud de la ventana de contexto se ha aumentado de 2K a 8K, lo que le permite comprender entradas largas, desarrollar un razonamiento complejo y llevar a cabo múltiples rondas de diálogo a largo plazo; en segundo lugar, las capacidades de expresión estructurada y multilingüe se han ampliado aún más. fortalecido, la nueva versión del modelo admite más de 20 idiomas y también puede resumir y presentar información compleja a través de tablas y gráficos; tercero, las capacidades multidimensionales se han mejorado de manera integral y el rendimiento en 42 conjuntos de evaluación principales se ha mejorado significativamente mejorado, y el rendimiento en 35 de ellos superó a ChatGPT; cuarto, la capacidad de lógica matemática ha mejorado significativamente, y la capacidad matemática, como el cálculo numérico, la operación de funciones y la resolución de ecuaciones, ha mejorado considerablemente. El rendimiento en el conjunto de evaluación matemática GSM8K ha aumentado de 62,9 a 73,2. En las preguntas de opción múltiple del examen de ingreso a la universidad de 2023, la tasa de precisión ha aumentado en más del 70%; En quinto lugar, las capacidades de seguridad y alineación se han mejorado significativamente. A través de un ajuste más efectivo de la instrucción, Incluyendo el aprendizaje de refuerzo basado en la retroalimentación humana (RLHF), la nueva versión del modelo puede seguir las instrucciones humanas de manera más confiable, y la seguridad también es evidente.

"El valor final de todos los modelos grandes sigue siendo crear valor para la vida y la producción. El Laboratorio de Inteligencia Artificial de Shanghái no solo logra avances tecnológicos a través de la innovación, sino que también se compromete a promover la implementación de estas tecnologías en industrias específicas", dijo Lin Dahua. en la reunión.

Lin Dahua dijo que además del modelo grande en sí, el equipo también abrió toda la cadena de sistemas de herramientas, cubriendo los cinco enlaces principales de datos, entrenamiento previo, ajuste, implementación y evaluación durante el desarrollo del gran modelo "A través del sistema de herramientas de código abierto, el modelo puede ser El valor se ha utilizado por completo. Creo que el código abierto realmente puede ayudar a los desarrolladores a desarrollar e innovar sobre la base de modelos grandes".

Según los informes, la versión oficial de código abierto es un InternLM-7B liviano con 7 mil millones de parámetros, que muestra un rendimiento excelente y equilibrado en la evaluación de dimensión completa que incluye 40 conjuntos de evaluación, que está por delante de los modelos de código abierto existentes.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)