Diseño de modelo multimodal a gran escala: el equipo de la Universidad de Tsinghua completó casi 100 millones de yuanes en financiamiento de ronda ángel, dirigido por Ant

Autor: El Papel

Reportero Shao Wen

Shengshu Technology se estableció en marzo de 2023. Los miembros principales provienen principalmente de la Escuela de Inteligencia Artificial de la Universidad de Tsinghua y es uno de los primeros equipos en China en implementar modelos generales multimodales a gran escala. Esta ronda de financiación estuvo liderada por Ant Group, seguida de Baidu Ventures y Zhuoyuan Capital, y la valoración actual es de 100 millones de dólares.

Hay nuevas tendencias en el desarrollo de modelos domésticos multimodales a gran escala. El 19 de junio, un nuevo equipo dirigido por Zhu Jun, profesor de ciencias de la computación en la Universidad de Tsinghua y vicepresidente del Instituto de Inteligencia Artificial, completó una ronda de financiamiento ángel de casi 100 millones de yuanes.

Pengpai Technology (me enteré de que esta empresa emergente modelo multimodal a gran escala llamada Beijing Shengshu Technology Co., Ltd. (en lo sucesivo, "Shengshu Technology") anunció la finalización de una ronda de financiación ángel de casi 100 millones de yuanes. La inversión fue dirigida por Ant Group. Seguido por Baidu Ventures y Zhuoyuan Capital, la valoración actual es de 100 millones de dólares EE. UU. Esta ronda de financiación se utilizará principalmente para la construcción del equipo central de I + D y acelerar el desarrollo de grandes multimodales -Modelos a escala y productos de aplicación.

Un modelo grande multimodal se refiere a un modelo que combina información multimodal como texto, imagen, video y audio para el entrenamiento. Anteriormente, el cofundador de OpenAI, Ilya Sutskever (Ilya Sutskever), dijo: "El objetivo a largo plazo de la inteligencia artificial es construir una red neuronal multimodal, es decir, la IA puede aprender conceptos entre diferentes modalidades, para comprender mejor el mundo". .​​​​

Generación de imágenes compatible con el modelo Shengshu.

Shengshu Technology se estableció en marzo de 2023. Fue incubada conjuntamente por Beijing Ruilai Smart Technology Co., Ltd., Ant Group y Baidu Venture Capital Tang Jiayu, ex vicepresidente de Ruilai Smart y graduado del Departamento de Computación de la Universidad de Tsinghua, sirvió como CEO Se utiliza para crear un modelo grande de propósito general multimodal controlable. Se informa que esta es la primera vez que Ant Group invierte en una empresa de modelos a gran escala después de la popularidad de ChatGPT, y también es la segunda empresa de Zhu Jun después de Ruilai Wisdom. Ruilai Wisdom es un proveedor de infraestructura y soluciones de inteligencia artificial.

Los miembros principales del equipo de tecnología de Shengshu provienen del Instituto de Inteligencia Artificial de la Universidad de Tsinghua, principalmente el grupo de investigación dirigido por Zhu Jun. El grupo de investigación está comprometido con la teoría básica y la investigación de algoritmos eficientes del aprendizaje automático bayesiano, y es uno de los primeros equipos del mundo en estudiar modelos generativos probabilísticos profundos. En enero de 2022, OpenAI aplicó el marco de razonamiento no formativo Analytic-DPM propuesto por el equipo a la estrategia de procesamiento del modelo DALL E 2. Después de eso, se propuso el algoritmo de muestreo DPM-Solver, que ahora es la generación de imágenes más rápida del mundo. algoritmo de Stable Diffusion y otros grandes números de Adoptado por proyectos de código abierto.

Modifique los elementos de la pantalla en el video (mensaje: un cisne de cristal Swarovski está nadando en un río), el video original en el extremo izquierdo, el efecto de tecnología digital en el medio y el efecto Runway en el extremo derecho.

Según los informes, Shengshu Technology es uno de los primeros equipos en China en diseñar modelos multimodales de propósito general a gran escala. A principios de 2023, abrió el código abierto del primer modelo UniDiffuser de difusión multimodal basado en transformadores del mundo. Complete varias tareas de generación, como la generación de texto basado en imágenes, la generación conjunta de texto e imagen y la reescritura de texto e imagen.

El modelo Transformer fue lanzado por un equipo de Google en 2017. Es un modelo de aprendizaje profundo que puede asignar diferentes pesos según la importancia de cada parte de los datos de entrada. Este modelo se utiliza principalmente en los campos del procesamiento del lenguaje natural (NLP) y la visión artificial (CV). Actualmente, los principales modelos grandes como GPT se desarrollan en base a Transformer.

"En general, la idea actual de hacer modelos de generación de imágenes a gran escala en la industria es la misma, y todos se basan en el modelo de difusión. Nuestra innovación radica en modificar la red principal subyacente. Es el primero en usar la tecnología Transformer in the Diffusion Model para lograr una actitud multimodo", dijo Tang Jiayu en una entrevista con los medios recientemente.

Tang Jiayu cree que los modelos y productos en el mercado en esta etapa solo resuelven el problema de la generabilidad en la etapa inicial, pero los resultados generados aún tienen una gran incertidumbre e incontrolabilidad. Todavía hay grandes deficiencias, por ejemplo, es difícil determinar con precisión controlar la posición y los detalles de los elementos en la imagen generada, y el modelo 3D generado todavía se encuentra en un nivel relativamente bajo en términos de finura superficial y precisión de color, luz y sombra.

Generación de contenido 3D (pista: una foto DSLR de un arrendajo azul parado sobre una gran canasta de macarons de arcoíris).

Shengshu Technology presentó a Pengpai Technology que, en términos de generación de contenido 3D, ha desarrollado la primera tecnología de la industria para generar automáticamente contenido 3D basado en tres vistas, y la tecnología de contenido 3D Wensheng que no requiere ningún dato de entrenamiento 3D, y el efecto puede ser finamente detallado, puede estar cerca de las aplicaciones de nivel industrial, "El modelo grande entrenado ha superado la última versión del modelo básico de Stable Diffusion en términos de generación de imágenes, y se espera que se ponga al día con la última versión de Midjourney dentro de este año ."

Stable Diffusion es un modelo de generación de texto a imagen desarrollado por las startups StabilityAI, CompVis y Runway. Fue lanzado en 2022 y ahora es de código abierto. Midjourney es una herramienta de generación de texto a imagen lanzada en marzo de 2022. Ha pasado por múltiples iteraciones y entró en la etapa beta pública. Sus efectos realistas han provocado acaloradas discusiones en Internet chino. Tanto Stable Diffusion como Midjourney son herramientas de IA líderes en la industria y altamente calificadas en todo el mundo.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)