¡GPT-4V frontalmente resistente! El modelo grande multimodal LLaVA-1.5 de código abierto de ex alumnos de la Universidad de Zhejiang, 13 mil millones de parámetros y 8 A100 se pueden entrenar en un día
A finales de septiembre, OpenAI anunció el levantamiento de la prohibición de las capacidades multimodales de ChatGPT. Las capacidades mágicas del GPT-4V multimodal hicieron que todos exclamaran: ¿Es este GPT-4.5?
¡No mucho después, el competidor de código abierto de GPT-4V, LLaVA-1.5, ya estaba aquí!
En abril, investigadores de la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia abrieron un nuevo modelo grande multimodal LLaVA de extremo a extremo.
Ahora, el LLaVA-1.5 actualizado no sólo logra SOTA en 11 pruebas de referencia, sino que incluso puede competir directamente con GPT-4V.
Los investigadores mejoraron significativamente el rendimiento de LLaVA-1.5 utilizando CLIP-ViT-L-336px con mapeo MLP y agregando datos VQA orientados a tareas académicas con indicaciones de formato de respuesta simples.
Los resultados muestran que LLaVA-1.5, que tiene una arquitectura más simple, solo requiere 1,2 millones de datos públicos, lo que puede superar a Qwen-VL, que utiliza 1,450 millones de datos de entrenamiento, y a HuggingFace IDEFICS (un modelo 80B similar a Flamingo) que utiliza 130 millones de datos.
Entre ellos, el entrenamiento del modelo 13B se puede completar en 1 día con solo 8 A100.
LLaVA-1.5 barra dura GPT-4V
Se dice que puede competir con GPT-4V, pero ¿cuál es la fuerza de LLaVA-1.5?
Dejemos que GPT-4V, LLaVA y LLaVA-1.5 pk.
dirección del proyecto:
Pregunta: "Si hay errores en los hechos, por favor indíquelos. Si no, por favor dígame, ¿qué está pasando en el desierto?"
La respuesta de GPT-4V fue un poco estúpida: "Lo siento, no puedo responder esta pregunta porque no hay contexto para mostrar el desierto que mencionaste".
LLaVA respondió con razón: "En la imagen, la ciudad y la playa forman el horizonte de la ciudad y la gente disfruta de la puesta de sol. Esta escena de playa en realidad está en el desierto, lo cual es bastante inusual".
El único puntuador perfecto, LLaVA-1.5, dio la respuesta perfecta: "En la imagen no hay ningún desierto, pero sí palmeras, playas, horizontes urbanos y una gran masa de agua".
Además, LLaVA-1.5 también puede extraer información del gráfico y responder en el formato requerido, como generarlo en formato JSON.
Se puede ver que LLaVA-1.5 básicamente ha completado la tarea y todavía hay algunas fallas en comparación con GPT-4V.
De manera similar, proporcione a LLaVA-1.5 una imagen llena de frutas y verduras, y podrá convertir la imagen a JSON como GPT-4V.
Análisis visual y transformación inteligente de datos, ¡así de simple!
La siguiente pregunta no es tan fácil: ¿qué significa esta imagen?
Resultó que se trataba de un boceto simplificado basado en "Inception" de Nolan. Para aumentar la dificultad, se cambió el nombre del personaje a un seudónimo.
LLaVA-1.5 no se quedó perplejo y respondió con confianza: "Esta es una imagen de la película "Inception". Muestra los diferentes niveles en el mundo de los sueños, y cada nivel está representado por una línea. Imagen Escríbala en una hoja de papel y Pon el papel sobre una mesa."
¡Los amantes de la comida se regocijan! ¿Qué debes hacer si ves una foto deliciosa que te da ganas de comértela?
Envíelo directamente a LLaVA-1.5 y rápidamente generará una receta para usted.
Además, LLaVA-1.5 puede reconocer códigos de verificación sin "jailbreaking".
También puede detectar qué moneda está en la imagen.
Lo que es particularmente impresionante es que LLaVA-1.5 también puede indicarle de qué raza es el perro de la imagen.
Algunos internautas utilizaron Bing para generar una imagen de un hombre con un abrigo de invierno en una soleada playa de verano y le pidieron a LLaVA 1.5 que señalara qué problemas había en la imagen.
Su ojo perspicaz es muy agudo——
Esta es una foto manipulada o retocada con Photoshop de un hombre con una chaqueta parado en la playa. El hombre se abrió el abrigo y el sol brilló sobre él.
El problema con esta imagen es que no es una escena de playa real. En realidad, el hombre no estaba parado en la playa y el sol no brillaba sobre él.
Esta imagen fue retocada con Photoshop para crear la ilusión de una escena de playa, pero en realidad no representa la escena.
Sin embargo, la capacidad de LLaVA-1.5 para escribir código de interfaz de usuario de acuerdo con el diseño es más débil.
A juzgar por los resultados, su producción es relativamente tosca...
8 A100, formación completada en un día
La arquitectura del modelo LLaVA conecta un codificador visual previamente entrenado (CLIP ViT-L/14) con un modelo de lenguaje a gran escala (Vicuña).
Los dos modelos están conectados por una matriz de mapeo simple, que se encarga de alinear o transformar características visuales y lingüísticas para que puedan manipularse en un espacio unificado.
En el conjunto de datos de seguimiento de instrucciones multimodal, LLaVA tuvo un buen desempeño, con una puntuación del 85,1 % en comparación con GPT-4. En Science QA, la precisión de LLaVA estableció un nuevo récord, alcanzando el 92,53%.
Esta vez, los investigadores establecieron una base más poderosa y práctica basada en el marco LLaVA.
Dirección del papel:
Los conectores intermodales de MLP y la combinación de datos relacionados con tareas académicas (como VQA) aportan capacidades de comprensión multimodal más sólidas a LLaVA.
En comparación con InstructBLIP o Qwen-VL, que son remuestreadores visuales especialmente diseñados y entrenados en cientos de millones o incluso miles de millones de datos emparejados de imagen y texto, LLaVA utiliza el diseño de arquitectura LMM más simple, que solo requiere imágenes de 600 000. -En pares de texto, entrene un capa de mapeo simple y completamente conectada.
El modelo final se puede entrenar en 8 A100 en un día y ha logrado SOTA en varias pruebas comparativas.
Además, Qwen-VL incluye datos internos durante el entrenamiento, pero LLaVA solo necesita datos públicos.
No hay duda de que estos rendimientos básicos mejorados y fácilmente reproducibles proporcionarán una referencia valiosa para el futuro del LMM de código abierto.
El rendimiento ha mejorado enormemente y se han actualizado 11 elementos SOTA
Como modelo de ajuste fino de instrucción visual de código abierto, LLaVA funciona muy bien en capacidades de razonamiento visual: en pruebas comparativas basadas en instrucciones visuales de la vida real que siguen tareas, LLaVA incluso supera a los últimos modelos.
Sin embargo, LLaVA no obtuvo tan buenos resultados en los puntos de referencia académicos que a menudo requieren respuestas breves, como las palabras. La razón es que LLaVA no está previamente entrenado con datos a gran escala.
Escala del modelo
Primero, los investigadores aumentaron la resolución de la imagen de entrada para que LLM pudiera "ver" claramente los detalles de la imagen y agregaron el conjunto de datos GQA como fuente adicional de conocimiento visual. Además, también se agregan datos de ShareGPT para ampliar el LLM a 13B.
Los resultados de MM-Vet muestran que la mejora es más significativa cuando el LLM se extiende a 13B, lo que también muestra que la capacidad del LLM básico en el diálogo visual es muy importante.
El modelo final, después de todas las mejoras, conocido como LLaVA-1.5, tuvo un rendimiento impresionante, superando al LLaVA original por un amplio margen.
Escalar resultados para datos, modelo y resolución
Comparación con SOTA
Luego, los investigadores probaron LLaVA-1.5 en una variedad de puntos de referencia académicos VQA y puntos de referencia propuestos específicamente para LMM que siguen instrucciones.
Los resultados muestran que LLaVA-1.5 no solo utiliza menos datos de preentrenamiento y ajuste de instrucciones, sino que también aprovecha la arquitectura más simple, la computación académica y los conjuntos de datos públicos para lograr el mejor rendimiento, en 11 de los 12 puntos de referencia obtenidos por SOTA.
Además, el estudio también encontró que el ajuste de la instrucción visual juega un papel más importante que el entrenamiento previo para mejorar las capacidades de LMM.
Esto también nos hace repensar las ventajas de los muestreadores visuales y la necesidad de un entrenamiento previo adicional a gran escala en términos de capacidades de seguimiento de instrucciones multimodales.
Comparación con métodos SOTA en 12 puntos de referencia
Consejos sobre el formato de respuesta
Los investigadores descubrieron que métodos anteriores como InstructBLIP no podían lograr un equilibrio entre el VQA de formato corto y largo, la razón principal es que——
En primer lugar, las indicaciones sobre el formato de respuesta eran vagas.
Por ejemplo, "P: {Pregunta} A: {Respuesta}" no indica claramente el formato de salida ideal, ni siquiera el diálogo visual natural, lo que puede hacer que LLM se ajuste demasiado a respuestas de formato corto.
En segundo lugar, el LLM no se perfeccionó.
Por ejemplo, InstructBLIP solo afina las instrucciones de Qformer. Aunque es posible utilizar el token de salida visual de Qformer para controlar la longitud de la salida de LLM, Qformer tiene una capacidad relativamente limitada en comparación con LLM como LLaMA, por lo que es posible que no pueda hacerlo correctamente.
Para resolver este problema, los investigadores sugirieron agregar una pista al final de la pregunta VQA que aclararía el formato de salida, permitiendo que el modelo genere respuestas cortas. Por ejemplo: "Responda la pregunta con una palabra o frase".
Cuando LLM usa esta sugerencia para realizar ajustes, LLaVA puede ajustar el formato de salida correctamente de acuerdo con las instrucciones del usuario y no requiere procesamiento adicional de datos VQA usando ChatGPT.
Los resultados muestran que simplemente añadiendo VQAv2 en el entrenamiento, el rendimiento de LLaVA en MME mejora significativamente (1323,8 frente a 502,8), ¡111 puntos más que InstructBLIP!
### Datos para Tareas Académicas
Los investigadores agregaron además conjuntos de datos VQA para tareas académicas para VQA, OCR y percepción a nivel regional para mejorar las capacidades del modelo desde diferentes aspectos.
Primero incluyeron cuatro conjuntos de datos adicionales utilizados por InstructBLIP: Open Knowledge VQA.
Entre ellos, A-OKVQA se convierte a un formato de pregunta de opción múltiple y utiliza un formato de respuesta específico: responda directamente con las letras de las opciones dadas.
Utilizando solo un subconjunto del conjunto de datos utilizado por InstructBLIP, LLaVA ha superado a InstructBLIP en las tres tareas de la Tabla 1, lo que muestra que el diseño de LLaVA es muy eficaz.
Además, los investigadores descubrieron que la capacidad del modelo para localizar detalles visuales detallados podría mejorarse agregando más conjuntos de datos VQA a nivel regional.
Generalización de instrucciones en formato de disparo cero
Aunque LLaVA-1.5 solo utiliza instrucciones de formato limitado para la capacitación, puede generalizarse a instrucciones de otros formatos.
Por ejemplo, VizWiz requiere que el modelo genere "sin respuesta" cuando el contenido proporcionado no es suficiente para responder la pregunta, y las indicaciones del formato de respuesta de LLaVA pueden indicarle efectivamente al modelo que lo haga (las preguntas sin respuesta representan 11,1% → 67,8%).
### Capacidad multilingüe Zero-shot
Al mismo tiempo, LLaVA-1.5 no está optimizado para instrucciones en varios idiomas. Sin embargo, debido a que ShareGPT contiene una gran cantidad de datos relevantes, aún puede implementar el seguimiento de comandos multimodal en varios idiomas.
Los investigadores evaluaron cuantitativamente la capacidad de generalización del modelo al chino en MMBenchCN, donde las preguntas de MMBench se convirtieron al chino.
Vale la pena señalar que LLaVA-1.5 es un 7,3% más preciso que Qwen-VL-Chat (63,6% frente a 56,7%). Entre ellos, Qwen ha realizado ajustes en instrucciones multimodales chinas, mientras que LLaVA-1.5 no.
Costos informáticos
Para LLaVA-1.5, los investigadores utilizaron el mismo conjunto de datos de preentrenamiento que LCS-558K y mantuvieron aproximadamente la misma cantidad de iteraciones de entrenamiento de ajuste fino de instrucciones y tamaños de lotes que LLaVA.
Dado que la resolución de entrada de la imagen aumenta a 336 px, el tiempo de entrenamiento de LLaVA-1.5 es 2 veces mayor que el de LLaVA: 6 horas de entrenamiento previo y 20 horas de ajuste de instrucción visual utilizando 8 A100.
Limitaciones
Aunque LLaVA-1.5 ha conseguido muy buenos resultados, hay que admitir que todavía tiene algunas limitaciones.
Primero, LLaVA utiliza parches de imágenes completos, lo que puede extender el tiempo de cada iteración de entrenamiento.
En segundo lugar, LLaVA-1.5 aún no es capaz de manejar múltiples imágenes debido a la falta de instrucciones para seguir los datos y la limitación de la longitud del contexto.
En tercer lugar, aunque LLaVA-1.5 puede seguir instrucciones complejas con soltura, sus capacidades de resolución de problemas seguirán siendo limitadas en algunas áreas, lo que se puede lograr ajustando los datos con modelos de lenguaje más potentes e instrucciones visuales específicas de alta calidad.
Finalmente, LLaVA-1.5 es inevitablemente propenso a alucinaciones y desinformación y, por lo tanto, debe usarse con precaución en aplicaciones críticas como la médica.
Sobre el Autor
Haotian Liu
Haotian Liu es estudiante de doctorado en informática en la Universidad de Wisconsin-Madison con el profesor Yong Jae Lee. Anteriormente, obtuvo una licenciatura de la Universidad de Zhejiang.
Sus intereses de investigación se centran en la visión por computadora y el aprendizaje automático, especialmente en algoritmos eficientes para la percepción y comprensión visual. Investigaciones recientes se han centrado en la construcción de grandes modelos personalizables basados en las intenciones humanas.
Chunyuan Li
Chunyuan Li es investigador principal de Microsoft Research Redmond.
Anteriormente, recibió un doctorado en aprendizaje automático de la Universidad de Duke, donde su supervisor era el profesor Lawrence Carin. Se ha desempeñado como presidente de campo de NeurIPS, ICML, ICLR, EMNLP y AAAI, así como editor invitado de IJCV.
Su investigación reciente se centra en la formación previa a gran escala en visión por computadora y procesamiento del lenguaje natural. Por ejemplo, construir modelos multimodales a gran escala que sigan las intenciones humanas, preentrenamiento visual y lingüístico y modelos generativos profundos a gran escala.
Yuheng Li
Yuheng Li es estudiante de doctorado en informática en la Universidad de Wisconsin-Madison, supervisado por el profesor Yong Jae Lee. Anteriormente, recibió su licenciatura en la Universidad de Ciencia y Tecnología de Huazhong.
Sus intereses de investigación se centran en la generación y el procesamiento de imágenes multimodales controlables y otros problemas relacionados con la visión creativa.
Referencias:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡GPT-4V frontalmente resistente! El modelo grande multimodal LLaVA-1.5 de código abierto de ex alumnos de la Universidad de Zhejiang, 13 mil millones de parámetros y 8 A100 se pueden entrenar en un día
Fuente original: Xinzhiyuan
A finales de septiembre, OpenAI anunció el levantamiento de la prohibición de las capacidades multimodales de ChatGPT. Las capacidades mágicas del GPT-4V multimodal hicieron que todos exclamaran: ¿Es este GPT-4.5?
¡No mucho después, el competidor de código abierto de GPT-4V, LLaVA-1.5, ya estaba aquí!
En abril, investigadores de la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia abrieron un nuevo modelo grande multimodal LLaVA de extremo a extremo.
Ahora, el LLaVA-1.5 actualizado no sólo logra SOTA en 11 pruebas de referencia, sino que incluso puede competir directamente con GPT-4V.
Los resultados muestran que LLaVA-1.5, que tiene una arquitectura más simple, solo requiere 1,2 millones de datos públicos, lo que puede superar a Qwen-VL, que utiliza 1,450 millones de datos de entrenamiento, y a HuggingFace IDEFICS (un modelo 80B similar a Flamingo) que utiliza 130 millones de datos.
Entre ellos, el entrenamiento del modelo 13B se puede completar en 1 día con solo 8 A100.
Se dice que puede competir con GPT-4V, pero ¿cuál es la fuerza de LLaVA-1.5?
Dejemos que GPT-4V, LLaVA y LLaVA-1.5 pk.
Pregunta: "Si hay errores en los hechos, por favor indíquelos. Si no, por favor dígame, ¿qué está pasando en el desierto?"
LLaVA respondió con razón: "En la imagen, la ciudad y la playa forman el horizonte de la ciudad y la gente disfruta de la puesta de sol. Esta escena de playa en realidad está en el desierto, lo cual es bastante inusual".
El único puntuador perfecto, LLaVA-1.5, dio la respuesta perfecta: "En la imagen no hay ningún desierto, pero sí palmeras, playas, horizontes urbanos y una gran masa de agua".
Además, LLaVA-1.5 también puede extraer información del gráfico y responder en el formato requerido, como generarlo en formato JSON.
De manera similar, proporcione a LLaVA-1.5 una imagen llena de frutas y verduras, y podrá convertir la imagen a JSON como GPT-4V.
La siguiente pregunta no es tan fácil: ¿qué significa esta imagen?
LLaVA-1.5 no se quedó perplejo y respondió con confianza: "Esta es una imagen de la película "Inception". Muestra los diferentes niveles en el mundo de los sueños, y cada nivel está representado por una línea. Imagen Escríbala en una hoja de papel y Pon el papel sobre una mesa."
Envíelo directamente a LLaVA-1.5 y rápidamente generará una receta para usted.
Su ojo perspicaz es muy agudo——
La arquitectura del modelo LLaVA conecta un codificador visual previamente entrenado (CLIP ViT-L/14) con un modelo de lenguaje a gran escala (Vicuña).
En el conjunto de datos de seguimiento de instrucciones multimodal, LLaVA tuvo un buen desempeño, con una puntuación del 85,1 % en comparación con GPT-4. En Science QA, la precisión de LLaVA estableció un nuevo récord, alcanzando el 92,53%.
Esta vez, los investigadores establecieron una base más poderosa y práctica basada en el marco LLaVA.
Los conectores intermodales de MLP y la combinación de datos relacionados con tareas académicas (como VQA) aportan capacidades de comprensión multimodal más sólidas a LLaVA.
En comparación con InstructBLIP o Qwen-VL, que son remuestreadores visuales especialmente diseñados y entrenados en cientos de millones o incluso miles de millones de datos emparejados de imagen y texto, LLaVA utiliza el diseño de arquitectura LMM más simple, que solo requiere imágenes de 600 000. -En pares de texto, entrene un capa de mapeo simple y completamente conectada.
El modelo final se puede entrenar en 8 A100 en un día y ha logrado SOTA en varias pruebas comparativas.
No hay duda de que estos rendimientos básicos mejorados y fácilmente reproducibles proporcionarán una referencia valiosa para el futuro del LMM de código abierto.
El rendimiento ha mejorado enormemente y se han actualizado 11 elementos SOTA
Como modelo de ajuste fino de instrucción visual de código abierto, LLaVA funciona muy bien en capacidades de razonamiento visual: en pruebas comparativas basadas en instrucciones visuales de la vida real que siguen tareas, LLaVA incluso supera a los últimos modelos.
Sin embargo, LLaVA no obtuvo tan buenos resultados en los puntos de referencia académicos que a menudo requieren respuestas breves, como las palabras. La razón es que LLaVA no está previamente entrenado con datos a gran escala.
Escala del modelo
Primero, los investigadores aumentaron la resolución de la imagen de entrada para que LLM pudiera "ver" claramente los detalles de la imagen y agregaron el conjunto de datos GQA como fuente adicional de conocimiento visual. Además, también se agregan datos de ShareGPT para ampliar el LLM a 13B.
Los resultados de MM-Vet muestran que la mejora es más significativa cuando el LLM se extiende a 13B, lo que también muestra que la capacidad del LLM básico en el diálogo visual es muy importante.
El modelo final, después de todas las mejoras, conocido como LLaVA-1.5, tuvo un rendimiento impresionante, superando al LLaVA original por un amplio margen.
Comparación con SOTA
Luego, los investigadores probaron LLaVA-1.5 en una variedad de puntos de referencia académicos VQA y puntos de referencia propuestos específicamente para LMM que siguen instrucciones.
Los resultados muestran que LLaVA-1.5 no solo utiliza menos datos de preentrenamiento y ajuste de instrucciones, sino que también aprovecha la arquitectura más simple, la computación académica y los conjuntos de datos públicos para lograr el mejor rendimiento, en 11 de los 12 puntos de referencia obtenidos por SOTA.
Además, el estudio también encontró que el ajuste de la instrucción visual juega un papel más importante que el entrenamiento previo para mejorar las capacidades de LMM.
Esto también nos hace repensar las ventajas de los muestreadores visuales y la necesidad de un entrenamiento previo adicional a gran escala en términos de capacidades de seguimiento de instrucciones multimodales.
Consejos sobre el formato de respuesta
Los investigadores descubrieron que métodos anteriores como InstructBLIP no podían lograr un equilibrio entre el VQA de formato corto y largo, la razón principal es que——
En primer lugar, las indicaciones sobre el formato de respuesta eran vagas.
Por ejemplo, "P: {Pregunta} A: {Respuesta}" no indica claramente el formato de salida ideal, ni siquiera el diálogo visual natural, lo que puede hacer que LLM se ajuste demasiado a respuestas de formato corto.
En segundo lugar, el LLM no se perfeccionó.
Por ejemplo, InstructBLIP solo afina las instrucciones de Qformer. Aunque es posible utilizar el token de salida visual de Qformer para controlar la longitud de la salida de LLM, Qformer tiene una capacidad relativamente limitada en comparación con LLM como LLaMA, por lo que es posible que no pueda hacerlo correctamente.
Para resolver este problema, los investigadores sugirieron agregar una pista al final de la pregunta VQA que aclararía el formato de salida, permitiendo que el modelo genere respuestas cortas. Por ejemplo: "Responda la pregunta con una palabra o frase".
Cuando LLM usa esta sugerencia para realizar ajustes, LLaVA puede ajustar el formato de salida correctamente de acuerdo con las instrucciones del usuario y no requiere procesamiento adicional de datos VQA usando ChatGPT.
Los resultados muestran que simplemente añadiendo VQAv2 en el entrenamiento, el rendimiento de LLaVA en MME mejora significativamente (1323,8 frente a 502,8), ¡111 puntos más que InstructBLIP!
Los investigadores agregaron además conjuntos de datos VQA para tareas académicas para VQA, OCR y percepción a nivel regional para mejorar las capacidades del modelo desde diferentes aspectos.
Primero incluyeron cuatro conjuntos de datos adicionales utilizados por InstructBLIP: Open Knowledge VQA.
Entre ellos, A-OKVQA se convierte a un formato de pregunta de opción múltiple y utiliza un formato de respuesta específico: responda directamente con las letras de las opciones dadas.
Utilizando solo un subconjunto del conjunto de datos utilizado por InstructBLIP, LLaVA ha superado a InstructBLIP en las tres tareas de la Tabla 1, lo que muestra que el diseño de LLaVA es muy eficaz.
Además, los investigadores descubrieron que la capacidad del modelo para localizar detalles visuales detallados podría mejorarse agregando más conjuntos de datos VQA a nivel regional.
Generalización de instrucciones en formato de disparo cero
Aunque LLaVA-1.5 solo utiliza instrucciones de formato limitado para la capacitación, puede generalizarse a instrucciones de otros formatos.
Por ejemplo, VizWiz requiere que el modelo genere "sin respuesta" cuando el contenido proporcionado no es suficiente para responder la pregunta, y las indicaciones del formato de respuesta de LLaVA pueden indicarle efectivamente al modelo que lo haga (las preguntas sin respuesta representan 11,1% → 67,8%).
Al mismo tiempo, LLaVA-1.5 no está optimizado para instrucciones en varios idiomas. Sin embargo, debido a que ShareGPT contiene una gran cantidad de datos relevantes, aún puede implementar el seguimiento de comandos multimodal en varios idiomas.
Los investigadores evaluaron cuantitativamente la capacidad de generalización del modelo al chino en MMBenchCN, donde las preguntas de MMBench se convirtieron al chino.
Vale la pena señalar que LLaVA-1.5 es un 7,3% más preciso que Qwen-VL-Chat (63,6% frente a 56,7%). Entre ellos, Qwen ha realizado ajustes en instrucciones multimodales chinas, mientras que LLaVA-1.5 no.
Costos informáticos
Para LLaVA-1.5, los investigadores utilizaron el mismo conjunto de datos de preentrenamiento que LCS-558K y mantuvieron aproximadamente la misma cantidad de iteraciones de entrenamiento de ajuste fino de instrucciones y tamaños de lotes que LLaVA.
Dado que la resolución de entrada de la imagen aumenta a 336 px, el tiempo de entrenamiento de LLaVA-1.5 es 2 veces mayor que el de LLaVA: 6 horas de entrenamiento previo y 20 horas de ajuste de instrucción visual utilizando 8 A100.
Limitaciones
Aunque LLaVA-1.5 ha conseguido muy buenos resultados, hay que admitir que todavía tiene algunas limitaciones.
Primero, LLaVA utiliza parches de imágenes completos, lo que puede extender el tiempo de cada iteración de entrenamiento.
En segundo lugar, LLaVA-1.5 aún no es capaz de manejar múltiples imágenes debido a la falta de instrucciones para seguir los datos y la limitación de la longitud del contexto.
En tercer lugar, aunque LLaVA-1.5 puede seguir instrucciones complejas con soltura, sus capacidades de resolución de problemas seguirán siendo limitadas en algunas áreas, lo que se puede lograr ajustando los datos con modelos de lenguaje más potentes e instrucciones visuales específicas de alta calidad.
Finalmente, LLaVA-1.5 es inevitablemente propenso a alucinaciones y desinformación y, por lo tanto, debe usarse con precaución en aplicaciones críticas como la médica.
Sobre el Autor
Haotian Liu
Sus intereses de investigación se centran en la visión por computadora y el aprendizaje automático, especialmente en algoritmos eficientes para la percepción y comprensión visual. Investigaciones recientes se han centrado en la construcción de grandes modelos personalizables basados en las intenciones humanas.
Chunyuan Li
Anteriormente, recibió un doctorado en aprendizaje automático de la Universidad de Duke, donde su supervisor era el profesor Lawrence Carin. Se ha desempeñado como presidente de campo de NeurIPS, ICML, ICLR, EMNLP y AAAI, así como editor invitado de IJCV.
Su investigación reciente se centra en la formación previa a gran escala en visión por computadora y procesamiento del lenguaje natural. Por ejemplo, construir modelos multimodales a gran escala que sigan las intenciones humanas, preentrenamiento visual y lingüístico y modelos generativos profundos a gran escala.
Yuheng Li
Yuheng Li es estudiante de doctorado en informática en la Universidad de Wisconsin-Madison, supervisado por el profesor Yong Jae Lee. Anteriormente, recibió su licenciatura en la Universidad de Ciencia y Tecnología de Huazhong.
Sus intereses de investigación se centran en la generación y el procesamiento de imágenes multimodales controlables y otros problemas relacionados con la visión creativa.
Referencias: