El mes pasado, ChatGPT lanzó oficialmente capacidades de reconocimiento de imágenes y voz.
A principios de este mes, Microsoft publicó una versión multimodal de 166 páginas de documentos relacionados con GPT-4V, que detallan las funciones y el uso de GPT-4V, que atrajo una amplia atención en la industria.
Sin embargo, Google no se queda atrás en la carrera por los modelos de lenguaje visual. **
Recientemente, Google Research, Google DeepMind y Google Cloud lanzaron conjuntamente un modelo de lenguaje visual (VLM) más pequeño, más rápido y más potente, PaLI-3, que es significativamente competitivo con modelos similares que son 10 veces más grandes.
Los investigadores compararon el modelo de transformador visual (ViT) preentrenado utilizando objetivos categóricos con el modelo preentrenado contrastivo (SigLIP) y descubrieron que, mientras que PaLI-3 tuvo un rendimiento ligeramente inferior en los puntos de referencia de clasificación de imágenes estándar, PaLI basado en SigLIP mostró un rendimiento excelente en varios puntos de referencia multimodales, especialmente en la localización y la comprensión de textos.
El artículo de investigación, titulado "PaLI-3 Vision Language Models: Smaller, Faster, Stronger", ha sido publicado en el sitio web de preimpresión arXiv.
El equipo de investigación cree que PaLI-3, con solo 5.000 millones de parámetros, ha reavivado la investigación sobre los componentes centrales de VLM complejos, lo que podría impulsar el desarrollo de una nueva generación de modelos más grandes.
Aprendizaje multimodal de mayor resolución
Más recientemente, los grandes modelos de lenguaje visual han utilizado codificadores de imagen previamente entrenados en sus modelos más grandes, algunos de los cuales están preentrenados mediante clasificación supervisada (por ejemplo, PaLI, PaLI-X, Flamingo, PaLM-E), algunos utilizan codificadores CLIP preentrenados (por ejemplo, BLIPv2, CrossTVR, ChatBridge) y algunos utilizan preentrenamiento multimodal personalizado (por ejemplo, BEiT3, CoCa, SimVLM).
** El método de entrenamiento para este estudio consta de tres componentes principales: preentrenamiento contrastivo de codificadores de imágenes en datos de texto de imágenes a escala de red, combinación mejorada de datos de entrenamiento multimodal PaLI y entrenamiento a resoluciones más altas. **
En la etapa de pre-entrenamiento monomodal, el codificador de imágenes utiliza el protocolo de entrenamiento SigLIP para el pre-entrenamiento comparativo en el emparejamiento de texto de imagen en la web. Los investigadores emplearon un método de filtrado basado en modelos que preservó alrededor del 40 por ciento de los emparejamientos. El codificador de imagen se entrena con una resolución de 224×224. El codificador-decodificador de texto es un modelo 3B UL2 entrenado en un programa híbrido de eliminación de ruido.
En la fase de entrenamiento multimodal, los investigadores combinaron un codificador de imágenes con un codificador-decodificador de texto para formar un modelo PaLI. Este modelo se entrena para tareas multimodales, manteniendo el codificador de imagen congelado, utilizando la resolución nativa (224×224).
La combinación principal de datos proviene de conjuntos de datos WebLI, filtrados y utilizados con objetivos de entrenamiento específicos. Otros elementos incluyen subtítulos multilingües, procesamiento de OCR, VQA y VQG multilingües, VQA con reconocimiento de objetos y detección de objetos. Aunque no incluye tareas ni datos de vídeo, el PaLI-3 sigue siendo competitivo en estos puntos de referencia gracias a su potente codificador de imágenes. Además, se mejoró aún más la comprensión de documentos e imágenes al agregar documentos PDF que contienen texto denso e imágenes web, como carteles o documentos, así como texto en más de 100 idiomas, a WebLI.
Durante la fase de aumento de resolución, se estudia la resolución de PaLI-3 afinando todo el modelo (descongelando el codificador de imagen) y utilizando lecciones cortas que aumentan gradualmente la resolución, manteniendo los puntos de control en resoluciones 812×812 y 1064×1064. La combinación de datos se centra principalmente en las partes que implican el posicionamiento visual del texto y la detección de objetos.
Mejorar la comprensión de imágenes y la tarea de posicionamiento de textos
En primer lugar, los investigadores llevaron a cabo una comparación controlada de diferentes modelos de ViT en el marco de PaLI. Se encontró que, aunque el modelo SigLIP tuvo un rendimiento deficiente en la clasificación lineal de muestras pequeñas, cuando se usó en PaLI-3, el modelo SigLIP proporcionó ganancias modestas de rendimiento en tareas "simples" como subtítulos y respuestas a preguntas, y grandes mejoras en tareas de comprensión espacial y texto de escena más "complejas" como las variantes TextVQA y RefCOCO. **
A continuación, PaLI-3 se evaluó en una tarea de comprensión de texto visualmente posicionada, con imágenes en conjuntos de datos que iban desde imágenes naturales, ilustraciones, documentos e interfaces de usuario. **PaLI-3 logra un rendimiento de última generación en la mayoría de los puntos de referencia de subtítulos y VQA, con o sin entrada de OCR externa. Las únicas excepciones son AI2D y ChartQA, que requieren no solo comprensión, sino también un razonamiento poderoso sobre los gráficos. Para ambos puntos de referencia, PaLI-3 está ligeramente por detrás de PaLI-X.
Además, los investigadores ampliaron las capacidades de PaLI-3 para predecir máscaras de segmentación con resultados similares a los del lenguaje. Los resultados experimentales muestran que para este tipo de tarea de localización, el pre-entrenamiento comparativo es más efectivo que el pre-entrenamiento de clasificación. ** El modelo completo de PaLI-3 es ligeramente superior a los métodos de última generación en términos de representación de los dedos. **
En la sección de Comprensión de Imágenes Naturales, PaLI-3 fue evaluado en tareas generales de comprensión del lenguaje visual, incluyendo subtítulos COCO y VQAv2,** aunque mucho más pequeño en escala en comparación con los modelos SOTA recientes, PaLI-3 se desempeñó muy bien en estos puntos de referencia. **
En las secciones de subtitulado de video y preguntas y respuestas, los investigadores ajustaron y evaluaron el modelo PaLI-3 en 4 puntos de referencia de subtitulado de video: MSR-VTT, VATEX, ActivityNet Captions y Spoken Moments in Time. A continuación, se realizó la misma prueba en 3 puntos de referencia de respuesta a preguntas de vídeo: NExT-QA, MSR-VTT-QA y ActivityNet-QA. ** A pesar de no haber realizado un entrenamiento previo con datos de vídeo, PaLI-3 logró excelentes resultados de control de calidad de vídeo en un tamaño de modelo más pequeño. **
Con todo, en este estudio, los investigadores profundizaron en el preentrenamiento de codificadores de imagen en VLM, específicamente en modelos de tipo PaLI. Por primera vez, se comparan claramente los dos métodos de preentrenamiento de clasificación y preentrenamiento de texto de imagen (contraste) y se descubre que este último conduce a un VLM mejor y más eficiente, especialmente en tareas de localización y comprensión de texto.
Además, los investigadores señalan en el artículo: "Este es solo un pequeño aspecto de VLM, y esperamos que este estudio y sus resultados inspiren una exploración más profunda de muchos otros aspectos del entrenamiento de VLM". "
Enlace de papel:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡Enfréntate a GPT-4V! Salió el modelo de lenguaje visual PaLI-3 de Google, más pequeño, más rápido y más fuerte
Fuente: Academic Headlines
El mes pasado, ChatGPT lanzó oficialmente capacidades de reconocimiento de imágenes y voz.
A principios de este mes, Microsoft publicó una versión multimodal de 166 páginas de documentos relacionados con GPT-4V, que detallan las funciones y el uso de GPT-4V, que atrajo una amplia atención en la industria.
Recientemente, Google Research, Google DeepMind y Google Cloud lanzaron conjuntamente un modelo de lenguaje visual (VLM) más pequeño, más rápido y más potente, PaLI-3, que es significativamente competitivo con modelos similares que son 10 veces más grandes.
Los investigadores compararon el modelo de transformador visual (ViT) preentrenado utilizando objetivos categóricos con el modelo preentrenado contrastivo (SigLIP) y descubrieron que, mientras que PaLI-3 tuvo un rendimiento ligeramente inferior en los puntos de referencia de clasificación de imágenes estándar, PaLI basado en SigLIP mostró un rendimiento excelente en varios puntos de referencia multimodales, especialmente en la localización y la comprensión de textos.
El artículo de investigación, titulado "PaLI-3 Vision Language Models: Smaller, Faster, Stronger", ha sido publicado en el sitio web de preimpresión arXiv.
Aprendizaje multimodal de mayor resolución
Más recientemente, los grandes modelos de lenguaje visual han utilizado codificadores de imagen previamente entrenados en sus modelos más grandes, algunos de los cuales están preentrenados mediante clasificación supervisada (por ejemplo, PaLI, PaLI-X, Flamingo, PaLM-E), algunos utilizan codificadores CLIP preentrenados (por ejemplo, BLIPv2, CrossTVR, ChatBridge) y algunos utilizan preentrenamiento multimodal personalizado (por ejemplo, BEiT3, CoCa, SimVLM).
** El método de entrenamiento para este estudio consta de tres componentes principales: preentrenamiento contrastivo de codificadores de imágenes en datos de texto de imágenes a escala de red, combinación mejorada de datos de entrenamiento multimodal PaLI y entrenamiento a resoluciones más altas. **
En la etapa de pre-entrenamiento monomodal, el codificador de imágenes utiliza el protocolo de entrenamiento SigLIP para el pre-entrenamiento comparativo en el emparejamiento de texto de imagen en la web. Los investigadores emplearon un método de filtrado basado en modelos que preservó alrededor del 40 por ciento de los emparejamientos. El codificador de imagen se entrena con una resolución de 224×224. El codificador-decodificador de texto es un modelo 3B UL2 entrenado en un programa híbrido de eliminación de ruido.
En la fase de entrenamiento multimodal, los investigadores combinaron un codificador de imágenes con un codificador-decodificador de texto para formar un modelo PaLI. Este modelo se entrena para tareas multimodales, manteniendo el codificador de imagen congelado, utilizando la resolución nativa (224×224).
Durante la fase de aumento de resolución, se estudia la resolución de PaLI-3 afinando todo el modelo (descongelando el codificador de imagen) y utilizando lecciones cortas que aumentan gradualmente la resolución, manteniendo los puntos de control en resoluciones 812×812 y 1064×1064. La combinación de datos se centra principalmente en las partes que implican el posicionamiento visual del texto y la detección de objetos.
Mejorar la comprensión de imágenes y la tarea de posicionamiento de textos
En primer lugar, los investigadores llevaron a cabo una comparación controlada de diferentes modelos de ViT en el marco de PaLI. Se encontró que, aunque el modelo SigLIP tuvo un rendimiento deficiente en la clasificación lineal de muestras pequeñas, cuando se usó en PaLI-3, el modelo SigLIP proporcionó ganancias modestas de rendimiento en tareas "simples" como subtítulos y respuestas a preguntas, y grandes mejoras en tareas de comprensión espacial y texto de escena más "complejas" como las variantes TextVQA y RefCOCO. **
Además, los investigadores ampliaron las capacidades de PaLI-3 para predecir máscaras de segmentación con resultados similares a los del lenguaje. Los resultados experimentales muestran que para este tipo de tarea de localización, el pre-entrenamiento comparativo es más efectivo que el pre-entrenamiento de clasificación. ** El modelo completo de PaLI-3 es ligeramente superior a los métodos de última generación en términos de representación de los dedos. **
En la sección de Comprensión de Imágenes Naturales, PaLI-3 fue evaluado en tareas generales de comprensión del lenguaje visual, incluyendo subtítulos COCO y VQAv2,** aunque mucho más pequeño en escala en comparación con los modelos SOTA recientes, PaLI-3 se desempeñó muy bien en estos puntos de referencia. **
Con todo, en este estudio, los investigadores profundizaron en el preentrenamiento de codificadores de imagen en VLM, específicamente en modelos de tipo PaLI. Por primera vez, se comparan claramente los dos métodos de preentrenamiento de clasificación y preentrenamiento de texto de imagen (contraste) y se descubre que este último conduce a un VLM mejor y más eficiente, especialmente en tareas de localización y comprensión de texto.
Además, los investigadores señalan en el artículo: "Este es solo un pequeño aspecto de VLM, y esperamos que este estudio y sus resultados inspiren una exploración más profunda de muchos otros aspectos del entrenamiento de VLM". "
Enlace de papel: