¿Ha cambiado la tendencia de la "Guerra de los Cien Modelos" de la IA? 360, Meitu lanzó movimientos sucesivamente, y el modelo visual a gran escala organizó una "pelea de hadas"

Question

Fuente original: China Times![](https://img.gateio.im/social/moments-bab2147faf-e3e634b33e-dd1a6f-62a40f) Fuente de la imagen: Generada por Unbounded AI‌A medida que aumenta el desarrollo y la aplicación de modelos grandes de IA, el reportero notó que los jugadores en la pista comenzaron a cambiar su enfoque de modelos de lenguaje grande a modelos visuales grandes. Recientemente, Adobe, Meta, 360, Meitu y muchas otras empresas de Internet importantes en el país y en el extranjero han publicado resultados de modelos a gran escala, lo que ha agregado fuego al mercado de IA que ya es extremadamente activo."La aplicación de la inteligencia artificial en el campo del video está recibiendo cada vez más atención". Wu Gaobin, vicepresidente del Comité de Integración e Industrialización de la Asociación de la Industria de las Comunicaciones de China, dijo al reportero del "China Times" que el lanzamiento de estos grandes Los modelos de IA a escala han traído nueva competencia a las empresas. La competencia entre empresas promoverá la innovación y el progreso tecnológico, y también traerá mejores productos y servicios. La competencia también promoverá la cooperación y el intercambio de recursos entre empresas, a fin de satisfacer mejor la demanda del mercado.## **Modelo visual a gran escala en casa y en el extranjero "Fairy Fighting"**Después de que surgieran fila tras fila de modelos de lenguaje a gran escala y modelos multimodales a gran escala, los "modelos visuales a gran escala" se han convertido en otro campo de batalla para los estrategas militares. Hace unos días, Meitu lanzó MiracleVision, un modelo de visión de IA a gran escala, junto con siete productos que incluyen la herramienta de creación de visión de IA WHEE, la herramienta de creación humana digital de IA DreamAvatar y el asistente de IA de Meitu RoboNeo.Según los informes, MiracleVision tiene una fuerte expresión visual y creatividad, y puede revertir la evolución tecnológica de las escenas de creación visual como la pintura, el diseño, el cine y la televisión, la fotografía, los juegos, el 3D y la animación. A diferencia de otros modelos grandes en el mercado, es especialmente bueno para generar direcciones como la fotografía de retratos asiáticos, el estilo y la moda nacional y el diseño comercial.Wu Xinhong, fundador, presidente y director ejecutivo de Meitu, dijo en una entrevista con un reportero del China Times: "La principal ventaja del modelo grande de Meitu es comprender la estética. La base de usuarios finales C es lo suficientemente grande. El costo de la adquisición de clientes es baja. Meitu actualmente tiene 243 millones de usuarios activos mensuales y 7.19 millones de miembros VIP globales, que pueden verificar el éxito del producto en poco tiempo. A diferencia de otros fabricantes, el modelo grande de Meitu se enfoca en la estética (dibujo de pantalla, diseño de calidad, etc. .), en el futuro, si tenemos que competir, "rodaremos" en la estética".Coincidentemente, 360 también lanzó oficialmente "360 Smart Brain-Vision Large Model" hace unos días. Zhou Hongyi, el fundador de 360, dijo que el modelo de lenguaje grande es la base para construir un modelo visual grande, y el núcleo de la mejora de la capacidad multimodal es la cognición, el razonamiento y las capacidades de toma de decisiones del modelo de lenguaje grande. Al mismo tiempo, el gran modelo visual también es un componente de capacidad importante del "360 Smart Brain", que puede comprender imágenes, videos y sonidos en el futuro.Las empresas extranjeras también han comenzado a diseñar modelos visuales. Hace unos días, el gigante de las redes sociales Meta anunció que abrirá a los investigadores algunos componentes de un modelo de inteligencia artificial "humanoide" llamado I-JEPA, que puede analizar y completar imágenes sin terminar con mayor precisión que los modelos existentes, mientras que en lugar de simplemente hacer inferencias basadas en píxeles cercanos como lo hacen otros modelos generativos de IA.Yang Likun, el científico jefe de inteligencia artificial de Meta, una vez señaló públicamente que el modelo autorregresivo GPT actual carece de la capacidad de planificación y razonamiento, y que el futuro sistema GPT puede abandonarse, y dio lo que él cree que es la respuesta correcta: el mundo. modelo. Se dice que I-JEPA es el primer modelo de IA basado en componentes clave de su visión para analizar y completar imágenes inacabadas con mayor precisión que los modelos existentes.Además, Meta también ha lanzado el modelo de IA de generación de voz "Voicebox", que admite la generación de voz a partir de texto, puede hacer coincidir estilos de audio basados en muestras de solo dos segundos de duración y convierte muestras de texto a otro idioma. muestras de voz y la capacidad de leer el contenido del texto traducido en la voz original del hablante, actualmente se admiten seis idiomas: inglés, francés, alemán, español, polaco y portugués.Ya en abril de este año, Adobe integró su función Adobe Firefly (productos similares a ChatGPT) en la matriz de productos de audio y video como Premiere Pro, After Effects, Audition, Remix, etc., brindando a los usuarios generación de contenido con un solo clic. , edición, combinación de colores, cambio de música y otras funciones.## **De "Modelo de lenguaje" a "Modelo de visión"**El "Informe de investigación de mapas de modelos a gran escala de inteligencia artificial de China" muestra que, en términos de la cantidad y distribución de modelos a gran escala lanzados a nivel mundial, China y los Estados Unidos lideran por un amplio margen, representando más del 80% del global. total. Al mismo tiempo, cada vez más equipos de I+D en Europa, Rusia, Israel, etc. también están invirtiendo en el desarrollo de modelos grandes. Pero vale la pena señalar que todavía hay pocos modelos grandes en los campos de la visión por computadora y otros campos en mi país.Al investigar la razón, Yan Shuicheng, el científico jefe visitante del Instituto de Investigación Zhiyuan de Beijing, le dijo al reportero de "China Times": "La razón principal por la que el desarrollo de modelos visuales se está quedando un poco atrás es que los modelos visuales grandes consumen mucho más poder de cómputo. que el texto, por lo que también esperamos un desarrollo más rápido de chips, e incluso es posible integrar otros chips que no sean GPU juntos. Los modelos que ve ahora son generalmente del nivel kilocal, pero algunas personas pueden usar el nivel de tarjeta 10,000 para hacerlos el próximo año".Según Huang Tiejun, presidente del Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing, el campo visual es el foco de la próxima ola en el campo de los modelos grandes. Señaló que los métodos de pensamiento y las rutas básicas detrás del modelo visual grande y el modelo de lenguaje grande son los mismos, pero los datos de entrada se han convertido en imágenes y videos, y el modelo entrenado tiene cierta habilidad general de lenguaje visual. El AIGC (Contenido Generado Automáticamente por Inteligencia Artificial) puede generar imágenes y obras de arte."También hay una habilidad más básica, es decir, después de ver el mundo, primero debes ser capaz de distinguir el mundo (todo)".Para el desarrollo de modelos visuales a gran escala, muchas organizaciones también han expresado actitudes optimistas. Según el informe de investigación publicado por CICC Research, se espera que la visión por computadora logre un mayor grado de automatización, alta precisión y bajo consumo de energía en el futuro, enriqueciendo aún más la ecología de contenido del Metaverso y reduciendo las barreras de entrada. El avance de la visión por computadora ha llevado a la rápida madurez de la reconstrucción 3D y la tecnología de captura de movimiento, y ha acumulado gradualmente el progreso tecnológico en sus respectivos campos. En el futuro, se espera que la visión por computadora marque el comienzo de un mayor grado de automatización, mayor precisión y menor consumo de energía. Gradualmente logrará mejores efectos visuales en el terminal móvil, se aplicará en una gran cantidad de industrias posteriores y se moverá gradualmente Hacia la conexión del mundo físico y el mundo digital Una visión del mundo a largo plazo.CITIC Securities Research también afirmó que en el campo del diseño, los modelos grandes conducen el diseño digital al diseño inteligente, y el software de diseño industrial relacionado combinado con GPT y otras tecnologías se puede aplicar a escenarios como la planificación del diseño, la optimización del diseño, los asistentes de complemento, y dibujo Bajo la tendencia general de la actualización de la IA, se está anunciando una nueva ronda de revolución de la productividad.