En el campo de los modelos multimodales (lenguaje visual) grandes, mientras compiten parámetros para ganar rendimiento, la búsqueda de parámetros más pequeños, una velocidad más rápida y un rendimiento más fuerte es otra vía de investigación.
Fuente de la imagen: Generado por Unbounded AI
En la era de los grandes modelos, los parámetros de los modelos de lenguaje visual (VLM) se han expandido a decenas o incluso cientos de miles de millones, lo que hace que el rendimiento siga aumentando. Al mismo tiempo, los modelos más pequeños siguen siendo importantes, son más fáciles de entrenar y mantener, más respetuosos con el medio ambiente y proporcionan ciclos de investigación más rápidos para el diseño de modelos.
En esta área, Google Research lanzó un modelo llamado PaLI (Pathways Language and Image) el año pasado. Al tratarse de un gran modelo multimodal, una de las estructuras clave de PaLI es la reutilización de grandes redes troncales monomodales para el modelado lingüístico y visual, la reutilización de mT5-XXL con parámetros 13B en términos de lenguaje, y ViT-G con parámetros 2B y ViT-e con parámetros 4B en términos de visión. En ese momento, PaLI logró un mejor rendimiento que la mayoría de los modelos antiguos y nuevos.
Desde entonces, Google ha seguido centrándose en el modelado a menor escala, y recientemente propuso PaLI-3, el modelo de tercera generación de la serie PaLI. Con un modelo de referencia preentrenado con solo parámetros 5B, optimizaron el método de entrenamiento y lograron resultados competitivos y nuevos de SOTA en múltiples puntos de referencia de VLM.
El método consta de tres partes principales, a saber, el preentrenamiento comparativo de codificadores de imágenes en datos de texto de imágenes a escala web, un conjunto de datos híbridos mejorado para el entrenamiento multimodal de PaLI y un entrenamiento de mayor resolución.
*Los autores son de Google Research, Google DeepMind y Google Cloud. *
Dirección del papel:
La siguiente figura muestra una descripción general del modelo 5B PaLI-3, donde las imágenes se codifican individualmente en un token visual comparando el modelo de visión 2B SigLIP previamente entrenado. Luego, junto con la consulta, estos tokens visuales se pasan al Transformador UL2 de la estructura codificador-decodificador 3B, que genera la respuesta esperada. En esta configuración, en comparación con el modelo PaLI anterior de un modelo previamente entrenado de clasificación única, el modelo preentrenado proporciona un token significativamente más útil.
¿Qué tan efectivo es? PaLI-3 implementa el nuevo SOTA en tareas que requieren comprensión de texto posicionado visualmente y posicionamiento objetivo, incluidas 8 tareas de comprensión de texto posicionado visualmente y tareas de segmentación de expresiones de referencia en el conjunto de datos RefCOCO. PaLI-3 también sobresale en una variedad de tareas de visión clasificadas.
Además, los investigadores también realizaron experimentos de ablación para compararlos con el modelo de referencia ViT preentrenado de clasificación, y confirmaron además la viabilidad de los codificadores visuales preentrenados en datos de texto de imagen ruidosos a escala web, convirtiéndose así en una alternativa preferida para el entrenamiento con datos clasificados.
Además del modelo 5B PaLI-3, los investigadores también utilizaron el método SigLIP recientemente propuesto para construir un modelo de visión contrastiva multilingüe SOTA con parámetros ampliados a 2B.
Introducción al modelo
Arquitectura
A un nivel superior, la arquitectura de PaLI-3 sigue la de Chen et al. (2023b; a): El modelo ViT codifica la imagen como un token y se pasa al transformador de la estructura codificador-decodificador junto con entradas de texto como preguntas, mensajes e instrucciones, lo que da como resultado una salida de texto.
Empecemos por el componente visual. Los investigadores utilizaron el método de entrenamiento SigLIP para inicializar la columna vertebral visual de PaLI-3 a partir de un modelo ViT-G/14 preentrenado de comparación (el parámetro es de aproximadamente 2B). En resumen, entrenaron el modelo ViT-G/14 para la incrustación de imágenes y el modelo de transformador de incrustación de texto para incrustar imágenes y texto, respectivamente, de modo que los clasificadores binarios con entropía cruzada sigmoide que utilizan el producto de puntos de incrustación de imagen y texto puedan clasificar con precisión si sus respectivas imágenes y texto se corresponden entre sí.
ESTO ES SIMILAR A RECORTAR Y ALINEAR, PERO MÁS EFICIENTE, ESCALABLE Y ROBUSTO. Al mismo tiempo, este método consiste en entrenar previamente el componente de incrustación de imágenes ViT, de modo que cuando ViT se inserta en PaLI, se descarta el transformador de incrustación de texto.
Echemos un vistazo al modelo completo de PaLI. La salida del codificador de imágenes ViT forma un token visual antes de la agrupación y se asigna linealmente y se agrega al token de texto de entrada incrustado. A continuación, estos tokens se pasan a un modelo de codificador-descodificador 3B UL2 previamente entrenado para generar una salida de texto. La entrada de texto del modelo suele contener peticiones de datos que describen el tipo de tarea y codifican la entrada de texto necesaria para la tarea.
Adiestramiento
El proceso de formación consta de varias etapas.
Fase 0: Preentrenamiento unimodal. De acuerdo con el protocolo de entrenamiento SigLIP, el codificador de imágenes tiene una resolución de entrenamiento de 224×224; El codificador-decodificador de texto es un modelo 3B UL2 entrenado siguiendo el procedimiento híbrido de reducción de ruido descrito por Tay et al.
Fase 1: Entrenamiento multimodal. El modelo PaLI combinado se entrena en tareas y datos multimodales mediante la combinación de un codificador de imagen con un codificador-decodificador de texto, momento en el que el codificador de imagen permanece congelado a una resolución de 224×224. Mediante el filtrado heurístico de la calidad del texto y el uso del objetivo de entrenamiento SplitCap, los principales componentes de mezcla se derivan de nuevo del conjunto de datos WebLI.
Fase 2: Mejora. La entrada de alta resolución es una forma ampliamente aceptada de mejorar el rendimiento, tanto porque se pueden percibir más detalles en la imagen como porque el modelo se mejora al aumentar la longitud de la secuencia. Este artículo aumenta la resolución de PaLI-3 descongelando el codificador de imagen, manteniendo los puntos de control en resoluciones 812×812 y 1064×1064.
Migración de tareas. Finalmente, para cada tarea individual (punto de referencia), este documento ajusta el modelo PaLI-3 en los datos de entrenamiento de la tarea utilizando un codificador de imagen ViT congelado; Para la mayoría de las tareas, este artículo ajusta el punto de control de resolución 812×812, pero para ambas tareas de comprensión de documentos, este artículo aumenta la resolución a 1064×1064.
Experimentos y resultados
En primer lugar, el experimento comparó los resultados de diferentes modelos de ViT bajo el marco de PaLI, y los investigadores consideraron dos modelos de ViT: Classif y SigLIP.
Los resultados, que se muestran en la Tabla 1, muestran que, si bien el modelo SigLIP se queda atrás en la clasificación lineal de muestras pequeñas, mediante el uso de PaLI-3, el modelo SigLIP proporciona ganancias modestas en tareas más simples, como subtítulos y respuestas a preguntas, y enormes ganancias en escenarios más complejos, a saber, tareas de comprensión espacial y de texto.
Además, los investigadores evaluaron PaLI-3 en los conjuntos de datos TextCaps, TextVQA, STVQA, OCRVQA, InfographicVQA, DocVQA, ChartQA, Scree2Words, WidgetCap. Los resultados se muestran en la Tabla 2, donde PaLI-3 es solo 0,7 puntos más bajo que el método SOTA cuando se utiliza un sistema OCR externo. Sin embargo, en ausencia de un sistema externo de este tipo, PaLI-3 es 4,4 puntos más alto que la combinación de todos los métodos SOTA. Para TextCaps, TextVQA, InfographicVQA y DocVQA, PaLI-3 tiene una ventaja de 8 puntos o más.
Segmentación de expresiones de referencia
Los investigadores ampliaron PaLI-3 para predecir máscaras de segmentación con resultados similares a los del lenguaje. Para ello, utilizaron el Autocodificador Variacional Vectorizado (VQ-VAE) de Ning et al. (2023). VQ-VAE está entrenado para aprender 128 tokens de máscara, y su codificador puede marcar una máscara de segmentación de 64 × 64 píxeles como 16 tokens de máscara, que el decodificador puede volver a convertir.
Los investigadores entrenaron a PaLI-3 para predecir una sola máscara de segmentación, primero generando 4 coordenadas como texto y representándolas como cuadros delimitadores. A esto le siguen 16 fichas de máscara, que representan las máscaras dentro del cuadro delimitador.
En la Tabla 1 se muestra que el preentrenamiento de contraste es más eficaz que el preentrenamiento de clasificación para este tipo de tareas de focalización. El Cuadro 3 muestra que el modelo PaLI-3 completo es ligeramente superior al estado de la técnica en términos de segmentación de expresiones de referencia.
Comprensión de la imagen
A continuación, los investigadores evaluaron a PaLI-3 en una tarea general de comprensión del lenguaje visual. Al igual que con su trabajo anterior, no utilizaron un módulo de OCR externo porque estos puntos de referencia rara vez involucraban texto en imágenes.
Los resultados muestran que el PaLI-3 es mucho más pequeño en tamaño en comparación con los modelos SOTA recientes, pero muestra un rendimiento muy fuerte en estos puntos de referencia. Para COCO, PaLI-3 es superior a todos los modelos excepto BEiT-3 y 17B y 55B PaLI. En VQAv2 y TallyQA, PaLI-3 supera a todos los modelos anteriores excepto PaLI-X. Para las misiones OKVQA, el PaLI-3 solo está por detrás del PaLM-E (562B) y el PaLI-X (55B), pero aún supera al modelo Flamingo (80B) de 32 disparos.
Subtítulos de vídeo y preguntas y respuestas
El estudio afinó y evaluó el modelo PaLI-3 en 4 puntos de referencia de subtitulado de video: MSR-VTT, VATEX, ActivityNet Captions y Spoken Moments in Time. Además, el estudio hizo lo mismo en 3 puntos de referencia de respuesta a preguntas en video: NExT-QA, MSR-VTT-QA y ActivityNet-QA.
A pesar de no utilizar datos de vídeo para el entrenamiento previo, PaLI-3 logró excelentes resultados de control de calidad de vídeo con un tamaño de modelo pequeño: rendimiento de última generación en MSR-VTT-QA y ActivityNet-QA, y resultados competitivos en NextQA. Las mejoras continuas en el control de calidad de imágenes y videos resaltan los beneficios de adoptar un ViT comparativo.
Además, PaLI-3 logra muy buenos resultados de subtítulos de video, con un promedio de solo 3 puntos CIDEr por debajo de los resultados de SOTA. Teniendo en cuenta el tamaño del modelo, el PaLI-3 parece ser una excelente opción tanto en términos de rendimiento como de practicidad.
Evaluación directa del codificador de imagen
Los investigadores también evaluaron el modelo ViT-G, que puede entenderse como un PaLI-3 no completo, como se muestra en la Tabla 6.
En primer lugar, el estudio probó las capacidades de clasificación de imágenes utilizando el punto de referencia estándar ImageNet y sus dos variantes más populares. Los resultados muestran que SigLIP se queda ligeramente rezagado en la precisión de top-1 y v2, pero los resultados son comparables en ReaL.
En segundo lugar, el estudio informa de los resultados de diferentes modelos en el punto de referencia Crossmodal-3600. Los resultados muestran que el modelo SigLIP ViT-G es significativamente mejor que el modelo ViT-e más grande.
Finalmente, el estudio también reportó resultados de sondeo lineal, que mostraron que SigLIP era inferior a otros modelos.
En las tablas 7 y 8 se evalúan la equidad, el sesgo y otros problemas potenciales del modelo.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Salió el modelo de lenguaje visual PaLI-3 de Google, con parámetros de solo 5B, más pequeño, más rápido y más fuerte
En la era de los grandes modelos, los parámetros de los modelos de lenguaje visual (VLM) se han expandido a decenas o incluso cientos de miles de millones, lo que hace que el rendimiento siga aumentando. Al mismo tiempo, los modelos más pequeños siguen siendo importantes, son más fáciles de entrenar y mantener, más respetuosos con el medio ambiente y proporcionan ciclos de investigación más rápidos para el diseño de modelos.
En esta área, Google Research lanzó un modelo llamado PaLI (Pathways Language and Image) el año pasado. Al tratarse de un gran modelo multimodal, una de las estructuras clave de PaLI es la reutilización de grandes redes troncales monomodales para el modelado lingüístico y visual, la reutilización de mT5-XXL con parámetros 13B en términos de lenguaje, y ViT-G con parámetros 2B y ViT-e con parámetros 4B en términos de visión. En ese momento, PaLI logró un mejor rendimiento que la mayoría de los modelos antiguos y nuevos.
Desde entonces, Google ha seguido centrándose en el modelado a menor escala, y recientemente propuso PaLI-3, el modelo de tercera generación de la serie PaLI. Con un modelo de referencia preentrenado con solo parámetros 5B, optimizaron el método de entrenamiento y lograron resultados competitivos y nuevos de SOTA en múltiples puntos de referencia de VLM.
El método consta de tres partes principales, a saber, el preentrenamiento comparativo de codificadores de imágenes en datos de texto de imágenes a escala web, un conjunto de datos híbridos mejorado para el entrenamiento multimodal de PaLI y un entrenamiento de mayor resolución.
Dirección del papel:
La siguiente figura muestra una descripción general del modelo 5B PaLI-3, donde las imágenes se codifican individualmente en un token visual comparando el modelo de visión 2B SigLIP previamente entrenado. Luego, junto con la consulta, estos tokens visuales se pasan al Transformador UL2 de la estructura codificador-decodificador 3B, que genera la respuesta esperada. En esta configuración, en comparación con el modelo PaLI anterior de un modelo previamente entrenado de clasificación única, el modelo preentrenado proporciona un token significativamente más útil.
Además, los investigadores también realizaron experimentos de ablación para compararlos con el modelo de referencia ViT preentrenado de clasificación, y confirmaron además la viabilidad de los codificadores visuales preentrenados en datos de texto de imagen ruidosos a escala web, convirtiéndose así en una alternativa preferida para el entrenamiento con datos clasificados.
Además del modelo 5B PaLI-3, los investigadores también utilizaron el método SigLIP recientemente propuesto para construir un modelo de visión contrastiva multilingüe SOTA con parámetros ampliados a 2B.
Introducción al modelo
Arquitectura
A un nivel superior, la arquitectura de PaLI-3 sigue la de Chen et al. (2023b; a): El modelo ViT codifica la imagen como un token y se pasa al transformador de la estructura codificador-decodificador junto con entradas de texto como preguntas, mensajes e instrucciones, lo que da como resultado una salida de texto.
Empecemos por el componente visual. Los investigadores utilizaron el método de entrenamiento SigLIP para inicializar la columna vertebral visual de PaLI-3 a partir de un modelo ViT-G/14 preentrenado de comparación (el parámetro es de aproximadamente 2B). En resumen, entrenaron el modelo ViT-G/14 para la incrustación de imágenes y el modelo de transformador de incrustación de texto para incrustar imágenes y texto, respectivamente, de modo que los clasificadores binarios con entropía cruzada sigmoide que utilizan el producto de puntos de incrustación de imagen y texto puedan clasificar con precisión si sus respectivas imágenes y texto se corresponden entre sí.
ESTO ES SIMILAR A RECORTAR Y ALINEAR, PERO MÁS EFICIENTE, ESCALABLE Y ROBUSTO. Al mismo tiempo, este método consiste en entrenar previamente el componente de incrustación de imágenes ViT, de modo que cuando ViT se inserta en PaLI, se descarta el transformador de incrustación de texto.
Echemos un vistazo al modelo completo de PaLI. La salida del codificador de imágenes ViT forma un token visual antes de la agrupación y se asigna linealmente y se agrega al token de texto de entrada incrustado. A continuación, estos tokens se pasan a un modelo de codificador-descodificador 3B UL2 previamente entrenado para generar una salida de texto. La entrada de texto del modelo suele contener peticiones de datos que describen el tipo de tarea y codifican la entrada de texto necesaria para la tarea.
Adiestramiento
El proceso de formación consta de varias etapas.
Fase 0: Preentrenamiento unimodal. De acuerdo con el protocolo de entrenamiento SigLIP, el codificador de imágenes tiene una resolución de entrenamiento de 224×224; El codificador-decodificador de texto es un modelo 3B UL2 entrenado siguiendo el procedimiento híbrido de reducción de ruido descrito por Tay et al.
Fase 1: Entrenamiento multimodal. El modelo PaLI combinado se entrena en tareas y datos multimodales mediante la combinación de un codificador de imagen con un codificador-decodificador de texto, momento en el que el codificador de imagen permanece congelado a una resolución de 224×224. Mediante el filtrado heurístico de la calidad del texto y el uso del objetivo de entrenamiento SplitCap, los principales componentes de mezcla se derivan de nuevo del conjunto de datos WebLI.
Fase 2: Mejora. La entrada de alta resolución es una forma ampliamente aceptada de mejorar el rendimiento, tanto porque se pueden percibir más detalles en la imagen como porque el modelo se mejora al aumentar la longitud de la secuencia. Este artículo aumenta la resolución de PaLI-3 descongelando el codificador de imagen, manteniendo los puntos de control en resoluciones 812×812 y 1064×1064.
Migración de tareas. Finalmente, para cada tarea individual (punto de referencia), este documento ajusta el modelo PaLI-3 en los datos de entrenamiento de la tarea utilizando un codificador de imagen ViT congelado; Para la mayoría de las tareas, este artículo ajusta el punto de control de resolución 812×812, pero para ambas tareas de comprensión de documentos, este artículo aumenta la resolución a 1064×1064.
Experimentos y resultados
En primer lugar, el experimento comparó los resultados de diferentes modelos de ViT bajo el marco de PaLI, y los investigadores consideraron dos modelos de ViT: Classif y SigLIP.
Los resultados, que se muestran en la Tabla 1, muestran que, si bien el modelo SigLIP se queda atrás en la clasificación lineal de muestras pequeñas, mediante el uso de PaLI-3, el modelo SigLIP proporciona ganancias modestas en tareas más simples, como subtítulos y respuestas a preguntas, y enormes ganancias en escenarios más complejos, a saber, tareas de comprensión espacial y de texto.
Los investigadores ampliaron PaLI-3 para predecir máscaras de segmentación con resultados similares a los del lenguaje. Para ello, utilizaron el Autocodificador Variacional Vectorizado (VQ-VAE) de Ning et al. (2023). VQ-VAE está entrenado para aprender 128 tokens de máscara, y su codificador puede marcar una máscara de segmentación de 64 × 64 píxeles como 16 tokens de máscara, que el decodificador puede volver a convertir.
Los investigadores entrenaron a PaLI-3 para predecir una sola máscara de segmentación, primero generando 4 coordenadas como texto y representándolas como cuadros delimitadores. A esto le siguen 16 fichas de máscara, que representan las máscaras dentro del cuadro delimitador.
En la Tabla 1 se muestra que el preentrenamiento de contraste es más eficaz que el preentrenamiento de clasificación para este tipo de tareas de focalización. El Cuadro 3 muestra que el modelo PaLI-3 completo es ligeramente superior al estado de la técnica en términos de segmentación de expresiones de referencia.
A continuación, los investigadores evaluaron a PaLI-3 en una tarea general de comprensión del lenguaje visual. Al igual que con su trabajo anterior, no utilizaron un módulo de OCR externo porque estos puntos de referencia rara vez involucraban texto en imágenes.
Los resultados muestran que el PaLI-3 es mucho más pequeño en tamaño en comparación con los modelos SOTA recientes, pero muestra un rendimiento muy fuerte en estos puntos de referencia. Para COCO, PaLI-3 es superior a todos los modelos excepto BEiT-3 y 17B y 55B PaLI. En VQAv2 y TallyQA, PaLI-3 supera a todos los modelos anteriores excepto PaLI-X. Para las misiones OKVQA, el PaLI-3 solo está por detrás del PaLM-E (562B) y el PaLI-X (55B), pero aún supera al modelo Flamingo (80B) de 32 disparos.
El estudio afinó y evaluó el modelo PaLI-3 en 4 puntos de referencia de subtitulado de video: MSR-VTT, VATEX, ActivityNet Captions y Spoken Moments in Time. Además, el estudio hizo lo mismo en 3 puntos de referencia de respuesta a preguntas en video: NExT-QA, MSR-VTT-QA y ActivityNet-QA.
A pesar de no utilizar datos de vídeo para el entrenamiento previo, PaLI-3 logró excelentes resultados de control de calidad de vídeo con un tamaño de modelo pequeño: rendimiento de última generación en MSR-VTT-QA y ActivityNet-QA, y resultados competitivos en NextQA. Las mejoras continuas en el control de calidad de imágenes y videos resaltan los beneficios de adoptar un ViT comparativo.
Además, PaLI-3 logra muy buenos resultados de subtítulos de video, con un promedio de solo 3 puntos CIDEr por debajo de los resultados de SOTA. Teniendo en cuenta el tamaño del modelo, el PaLI-3 parece ser una excelente opción tanto en términos de rendimiento como de practicidad.
Evaluación directa del codificador de imagen
Los investigadores también evaluaron el modelo ViT-G, que puede entenderse como un PaLI-3 no completo, como se muestra en la Tabla 6.
En primer lugar, el estudio probó las capacidades de clasificación de imágenes utilizando el punto de referencia estándar ImageNet y sus dos variantes más populares. Los resultados muestran que SigLIP se queda ligeramente rezagado en la precisión de top-1 y v2, pero los resultados son comparables en ReaL.
En segundo lugar, el estudio informa de los resultados de diferentes modelos en el punto de referencia Crossmodal-3600. Los resultados muestran que el modelo SigLIP ViT-G es significativamente mejor que el modelo ViT-e más grande.
Finalmente, el estudio también reportó resultados de sondeo lineal, que mostraron que SigLIP era inferior a otros modelos.