Después del gran modelo de lenguaje, ¿es la visión artificial la próxima salida?

Question

*Fuente del artículo: Big Model House**Autor:Zhao Xiaoman*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b333c2d0d-dd1a6f-69ad2a) *Fuente de la imagen: Generada por Unbounded AI*El mes pasado, Open AI lanzó la última versión de GPT-4V, que permite a los usuarios instruir a GPT-4 para que analice las últimas capacidades de las entradas de imágenes proporcionadas por el usuario, y la noticia ha llamado la atención de la industria de que la incorporación de otras modalidades, como las entradas de imágenes, en grandes modelos de lenguaje (LLM) se considera una frontera clave en la investigación y el desarrollo de IA, y los LLM multimodales ofrecen la posibilidad de ampliar el impacto de los sistemas de lenguaje puro.Desde el chatbot de IA ChatGPT lanzado a finales del año pasado hasta el actual GPT-4V, Open AI amplía los modelos de lenguaje grandes (LLM) con habilidades multisensoriales (como la comprensión visual) en los grandes modelos multimodales (LMM) para lograr una inteligencia general más sólida.Poco después del lanzamiento de GPT-4V, Microsoft dio una guía de usuario ultra detallada de 166 páginas para GPT-4V, desde modos de entrada simples hasta capacidad de lenguaje visual, indicaciones interactivas con humanos, comprensión de video de tiempo, razonamiento visual abstracto y prueba de cociente emocional de coeficiente intelectual, GPT-4V no solo puede cubrir la experiencia interactiva en la vida diaria, sino incluso realizar una evaluación de diagnóstico profesional en la industria, la medicina y otros campos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abca433d25-dd1a6f-69ad2a) **Fuente: Microsoft (traducción web solo como referencia)**Actualmente, la capacidad sin precedentes del GPT-4V para manejar entradas multimodales intercaladas arbitrarias y la versatilidad de sus funciones se combinan para hacer del GPT-4V un potente sistema generalista multimodal. Además, la capacidad única de GPT-4V para comprender los marcadores visuales dibujados en las imágenes de entrada puede conducir a nuevos métodos de interacción humano-computadora, como las señales de referencia visuales.Vale la pena afirmar que la exploración preliminar de GPT-4V puede estimular la investigación futura sobre la próxima generación de fórmulas de tareas multimodales**, usar y mejorar nuevos métodos de LMM para resolver problemas del mundo real y comprender mejor los modelos básicos multimodales, y también convertirse en una nueva exploración de la dirección de desarrollo de la visión por computadora.  ## **El gran modelo potencia el nuevo desarrollo de la visión artificial**  Quizás cuando se trata de capacidades multimodales, muchas personas no son extrañas, y hay muchos modelos grandes en China que ya tienen capacidades multimodales cuando se lanzan, y pueden llevar a cabo el reconocimiento y la generación de imágenes, pero hay que admitir que en comparación con LLM (modelo de lenguaje grande), el desarrollo de LMM (modelo multimodal grande) todavía tiene muchas lagunas por resolver. **Anteriormente, Big Model Home ha experimentado una serie de modelos grandes con capacidades multimodales, tomando como ejemplos la plataforma de modelos grandes del marco de IA MindSpore "Zidong Taichu" versión 2.0 e iFLYTEK Spark, que deben mejorarse en capacidades de análisis, razonamiento y expresión.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-158366da31-dd1a6f-69ad2a) **En la foto: Zidong Taichu**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cd3185c149-dd1a6f-69ad2a) **En la imagen: iFLYTEK Spark****Vale la pena señalar que en abril de este año, Meta propuso el modelo SAM (Segment Anything Model) ** para dividir todo, SAM es un modelo rápido, que ha entrenado más de mil millones de máscaras en 11 millones de imágenes, logrando una poderosa generalización de muestra cero, algunos conocedores de la industria dijeron que SAM rompió los límites de la segmentación y promovió en gran medida el desarrollo de modelos básicos de visión por computadora.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3364ba847d-dd1a6f-69ad2a) Fuente: Meta**SAM en sí mismo es una segmentación semántica de imágenes, y el modelo capta el concepto de "objetos" que pueden generar máscaras para cualquier objeto en cualquier imagen o video, incluso si no lo ha visto en el entrenamiento.La aparición de los modelos SAM y GPT-4V puede instalar grandes modelos de lenguaje en los "ojos", al igual que Open AI se preparó para el despliegue de la generación GPT-4V**, incluida Be My Eyes, una organización que construye herramientas para usuarios con discapacidad visual, en vísperas de la generación de modelos, se puede imaginar que el modelo grande es un "ciego" parlante, pero después de agregar visión, los modelos grandes con capacidades multimodales pueden entender figuras, videos, etc. El poder de esta función también impulsa el desarrollo de la inteligencia artificial en una nueva dirección.  ## **Bajo la ola de los grandes modelos, el camino de la visión por ordenador doméstica**  Después de utilizar las funciones de entrada de imágenes, reconocimiento y análisis de inferencia, el modelo grande puede lograr el florecimiento de múltiples campos y avanzar hacia la "visión por computadora GPT".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-681f3dc975-dd1a6f-69ad2a) **Fuente: Huawei**En el aspecto industrial, mediante la aplicación de modelos visuales de gran tamaño a la detección de defectos y otros pasos importantes para garantizar la calidad del producto en el proceso de fabricación, es esencial poder detectar fallas o defectos de manera oportuna y tomar las medidas adecuadas para minimizar los costos operativos y relacionados con la calidad. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d46ec6fa14-dd1a6f-69ad2a) **Fuente: SenseTime**En términos de diagnóstico de imágenes médicas, combinado con el conocimiento del dominio profesional de los grandes modelos cognitivos, después de agregar capacidades visuales, no solo puede analizar varias imágenes médicas, sino también generar rápidamente informes de radiología completos, con el potencial de ser un asistente de IA para la generación de informes de radiología, actualmente SenseTime ha desarrollado un modelo de lenguaje médico chino "Big Doctor" basado en el conocimiento médico y los datos clínicos, con la capacidad de proporcionar conversaciones de múltiples escenarios y rondas, como orientación, consulta, consulta de salud y toma de decisiones.En términos de conducción automática, la información de la imagen obtenida por el modelo cognitivo grande durante la conducción, los objetivos de conducción dinámicos, etc., se puede combinar para dar las decisiones de conducción correspondientes y las explicaciones de conducción, y luego el modelo grande puede convertirlo en el lenguaje de la conducción automática e interactuar con el sistema de conducción automática a través de Drive para lograr una conducción inteligente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-df9ed5ee74-dd1a6f-69ad2a) **Fuente: Baidu**** Tomando Baidu como ejemplo, en la recién celebrada Conferencia Mundial de Baidu 2023, en términos de conducción inteligente, la pila de tecnología de conducción autónoma se reconstruyó por completo a través de nuevas tecnologías como Transformer y BEV, y la capacidad de percepción se mejoró a lo largo de generaciones, acelerando la madurez y popularización de las soluciones de visión pura. ** En la actualidad, la solución de conducción inteligente de alta gama de visión pura de Baidu Apollo se puede aplicar a escenarios de alta velocidad, ciudad, estacionamiento y otros escenarios globales, y alcanzará la producción en masa en el cuarto trimestre de este año, que también es la primera solución de visión pura en China que aterriza en escenas urbanas. Vale la pena mencionar que la eliminación de lidar hace que el costo de todo el vehículo sea menor y mejora la competitividad del mercado.** Big Model House cree que con la bendición del conocimiento general de los modelos de lenguaje grandes, la visión por computadora ha marcado el comienzo de una dirección de desarrollo más clara **, desde la visión por computadora temprana que se basa en la memoria repetitiva para aplicaciones prácticas (como el reconocimiento facial, el reconocimiento de objetos), la exploración de la integración de la visión y el lenguaje se ha convertido en una nueva dirección de los modelos grandes y la visión por computadora, desde el desarrollo independiente hasta la integración mutua, la inteligencia artificial también explora constantemente las habilidades sensoriales más cercanas a los humanos, puede capturar mejor detalles y características en imágenes y se ha mejorado la precisión de los modelos grandes. Puede adaptarse a más escenas y distribución de datos, confiar en la capacidad de escribir y comprender el modelo grande, integrar capacidades visuales y convertirse en un avatar más inteligente.Por supuesto, el desarrollo de la ciencia y la tecnología debe estar limitado por muchos factores. Los modelos grandes requieren más recursos informáticos y tiempo para el entrenamiento, lo que puede limitar su escalabilidad y tiempo real, los enormes datos de entrenamiento deben estar limitados por la potencia informática, especialmente las GPU de alto rendimiento, la memoria y el almacenamiento de alta velocidad y la tecnología de entrenamiento distribuida, ** y el mercado mundial actual de GPU de alto rendimiento NVIDIA ocupa casi el 90% de la cuota, China quiere ocupar un terreno elevado en esta competencia de IA, promover el desarrollo de alta calidad de la potencia informática inteligente china se ha convertido en una prioridad. **** En general, los modelos grandes tienen muchas ventajas después de integrar las capacidades visuales, pero también existen algunas limitaciones de desarrollo en esta etapa. ** Con el desarrollo continuo de recursos informáticos y de aprendizaje profundo, podemos esperar que la aparición de modelos grandes más avanzados y tecnologías relacionadas promuevan aún más la aplicación y el avance de la visión por computadora en tareas de imágenes de alta resolución.