Si añadimos "marcadores" a las señales visuales, Microsoft y otros hacen que GPT-4V sea más preciso y detallado

un nuevo método de señal visual SoM (Set-of-Mark), que ha mejorado la comprensión del contenido visual del gran modelo multimodal GPT-4V de OpenAI.

Fuente original: Heart of the Machine

Fuente de la imagen: Generado por Unbounded AI

En los últimos tiempos, hemos sido testigos de avances significativos en los grandes modelos de lenguaje (LLM). En particular, el lanzamiento de Transformers generativos preentrenados, o GPT, ha dado lugar a varios avances en la industria y el mundo académico. Desde el lanzamiento de GPT-4, los grandes modelos multimodales (LMM) han atraído un interés cada vez mayor en la comunidad investigadora, con mucho trabajo dedicado a la construcción de GPT-4 multimodal.

Recientemente, GPT-4V (ision) ha recibido especial atención debido a sus excelentes capacidades de percepción y razonamiento multimodal. Sin embargo, a pesar de las capacidades sin precedentes de comprensión del lenguaje visual del GPT-4V, su base visual de grano fino (la entrada es una imagen y la descripción del objeto correspondiente, la salida es un cuadro que describe un objeto) es relativamente débil o aún no se ha desarrollado.

Por ejemplo, cuando un usuario pregunta "¿Qué objeto se coloca en el lado izquierdo de la computadora portátil a la derecha?" en la siguiente figura. GPT-4V da la respuesta incorrecta a la taza. A continuación, el usuario pregunta: "Quiero encontrar un asiento junto a la ventana, ¿dónde puedo sentarme?" GPT-4V también respondió incorrectamente.

Después de darse cuenta de los problemas anteriores, los investigadores de Microsoft, la Universidad de Ciencia y Tecnología de Hong Kong y otras instituciones propusieron un nuevo método de visión Set-of-Mark (SoM) para resolver el problema de GPT-4V en tareas de visión de grano fino.

* Dirección del papel:

  • Página de inicio en papel:

Como se muestra en la Figura 1 (derecha), el SoM utiliza un modelo de segmentación interactivo como SAM para dividir la imagen en regiones con diferentes niveles de granularidad y agregar un conjunto de marcadores a estas regiones, como alfanumérico, máscara, cuadro. Utilice una imagen con una etiqueta como entrada para resolver el problema anterior.

Echemos un vistazo al efecto primero, GPT-4V a la izquierda, GPT-4V + SoM a la derecha, está claro que esta última clasificación es más detallada y precisa.

El siguiente ejemplo sigue siendo el mismo, y el efecto GPT-4V+SoM es más obvio.

Además, para este estudio, alguien preguntó: "¿El SoM es manual (entrada manual) o automático?"

Según Jianwei Yang, SoM es automático o semiautomático. Compilaron muchas de sus propias herramientas de segmentación, como SEEM, Semantic-SAM y SAM, para ayudar a los usuarios a segmentar automáticamente las imágenes por sí mismos. Al mismo tiempo, los usuarios también pueden elegir su propia región.

SoM para la visión

La ventaja única de usar el SoM GPT-4V es que puede producir resultados más allá del texto. Debido a que cada marcador está asociado específicamente con una región de imagen representada por una máscara, se puede trazar la máscara de cualquier marcador mencionado en la salida de texto.

La capacidad de generar texto y máscaras emparejados permite a SoM GPT-4V generar texto visualmente asociativo y, lo que es más importante, admitir una variedad de tareas de visión detallada, lo que supone un reto para los modelos GPT-4V habituales.

A través de una ingeniería simple, SoM permite que GPT-4V se use ampliamente para una variedad de tareas de visión, tales como:

  • Segmentación de imágenes de vocabulario abierto: El estudio requirió que GPT-4V proporcionara una representación exhaustiva de las categorías de todas las regiones etiquetadas, así como de las categorías seleccionadas de un grupo predeterminado.
  • Segmentación de referencia: Dada una expresión de referencia, la tarea de GPT-4V es seleccionar la región que mejor coincida con las regiones candidatas generadas por Image Partitioning Toolbox.
  • Conexión a tierra de frases: Ligeramente diferente de la segmentación de referencias, la asociación de frases utiliza oraciones completas que constan de múltiples frases nominales. El estudio requirió que GPT-4V asignara regiones apropiadas a todas las frases etiquetadas.
  • Segmentación de objetos de video: Tome dos imágenes como entrada. La primera imagen es una imagen de consulta que contiene algunos de los objetos de la segunda imagen que deben reconocerse. Dado que GPT-4V admite varias imágenes como entrada, los SoM también se pueden aplicar a imágenes correlacionadas en todos los fotogramas del vídeo.

Experimentos y resultados

Los investigadores utilizan una estrategia de "divide y vencerás" para realizar experimentos y evaluaciones. Para cada instancia, utilizan una nueva ventana de chat para que no haya fugas de contexto durante la evaluación.

Específicamente, los investigadores seleccionaron un pequeño subconjunto de datos de validación de cada conjunto de datos. Para cada imagen del dataset, se superpusieron un conjunto de marcadores en el área extraída con la caja de herramientas Segmentación de imágenes. Al mismo tiempo, a partir de tareas específicas, los investigadores utilizan diferentes herramientas de segmentación para proponer regiones.

En la tabla 1 a continuación se enumeran los detalles de configuración de cada tarea.

Los investigadores compararon su método con los siguientes modelos:

  • Modelo de línea base GPT-4V para coordenadas predichas
  • Modelo específico de SOTA
  • LMM de código abierto

Resultados cuantitativos

Los resultados experimentales detallados se muestran en la Tabla 2 a continuación.

La primera es la tarea de segmentación de imágenes. Los investigadores compararon GPT-4V+SoM con el potente modelo de segmentación MaskDINO en el conjunto de datos de segmentación panóptica COCO y OpenSeeD en el conjunto de datos de segmentación panóptica ADE20K.

Los resultados muestran que el rendimiento de muestra cero de GPT-4V + SoM es similar al de MaskDINO y significativamente mejor que el de OpenSeeD. El rendimiento similar de GPT-4V en COCO y ADE20K demuestra sus poderosas capacidades de generalización para una amplia gama de tareas de dominio visual y semántico.

Luego vino la tarea de referencia, donde los investigadores evaluaron el modelo RES y REC en el conjunto de datos RefCOCOg. Utilizaron MaskDINO para crear una máscara y superponer la máscara y los números en la imagen. Ambos mIoU se utilizaron como métrica de evaluación y se compararon con los modelos específicos de SOTA, PolyFormer y SEESURE.

Los resultados muestran que GPT-4V+SoM supera a modelos especializados como Grounding DINO, Polyformer y LMM recientes de código abierto como Shikra, LLaVA-1.5, MiniGPT-v2 y Ferret.

A esto le siguió la tarea de asociación de frases en Flickr30K, donde los investigadores utilizaron Grounding DINO para generar sugerencias de cajas para cada imagen. El GPT-4V+SoM logra un rendimiento de muestra cero más fuerte que GLIPv2 y Grounding INO.

Finalmente, los investigadores evaluaron la tarea de segmentación de video en el conjunto de datos DAVIS2017. El GPT-4V+SoM logra el mejor rendimiento de seguimiento (78,8 J&F) en comparación con otros modelos de visión especializados.

Estudios de ablación

Los investigadores exploran cómo los tipos de etiquetas afectan el rendimiento final de las tareas de asociación de frases en el conjunto de datos Flickr30k y comparan los dos tipos de etiquetas. El primero son los números y las máscaras, y el segundo son los números, las máscaras y las cajas.

Los resultados se muestran en la Tabla 3 a continuación, y agregar cuadros adicionales puede mejorar significativamente el rendimiento.

Además, los investigadores exploraron cómo se comporta GPT-4V al generar tokens con anotaciones de verdad. Optaron por reemplazar la máscara de segmentación predicha por una máscara de verdad en el conjunto de validación RefCOCOg. Esto significa que el GPT-4V sólo tiene que seleccionar uno del área de la frase de anotación. Como era de esperar, el rendimiento de la segmentación de referencia se puede mejorar aún más, especialmente si el modelo de segmentación tiene algunas regiones faltantes.

Como se muestra en la Tabla 4 a continuación, el uso de máscaras de verdad en SoM puede mejorar el rendimiento en RefCOCOg en un 14,5% (mIoU).

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)