Obtenga más información sobre LCL en un artículo: la capacidad de aprendizaje de modelos grandes multimodales se puede mejorar mediante el "razonamiento causal"
Fuente de la imagen: generada por la herramienta Unbounded AI
Los modelos de lenguaje son capaces de generar texto coherente y contextual, revolucionando la forma en que nos comunicamos con las computadoras. Los modelos de lenguaje grande (LLM) han estado a la vanguardia de este avance, aprendiendo los patrones y matices del lenguaje humano entrenándose con cantidades masivas de datos de texto. Como pionero de la revolución LLM, ChatGPT es extremadamente popular entre personas de diferentes disciplinas.
El superpoder de LLM hace que diversas tareas sean más fáciles de manejar. Los usamos para resumir texto, redactar correos electrónicos, automatizar tareas de programación, interpretar documentos y más. Todas estas tareas, que hace un año consumían mucho tiempo, ahora se pueden realizar en minutos.
Sin embargo, con la creciente necesidad de comprensión multimodal, los modelos deben procesar y generar contenido en diferentes modalidades, como texto, imágenes e incluso videos, por lo que ha surgido la necesidad de modelos de lenguajes grandes multimodales (MLLM). MLLM combina el poder de los modelos de lenguaje con la comprensión visual, lo que permite a las máquinas comprender y generar contenido de una manera más integral y consciente del contexto.
Después de que la moda de ChatGPT disminuyó un poco, los MLLM tomaron por asalto el campo de la inteligencia artificial, permitiendo a las máquinas comprender y generar contenido en diferentes modos, como texto e imágenes. Estos modelos funcionan bien en tareas como el reconocimiento de imágenes, los fundamentos de la visión y la comprensión de instrucciones. Sin embargo, cómo entrenar eficazmente estos modelos sigue siendo un desafío. El mayor desafío es cuando MLLM se encuentra con escenas completamente desconocidas, donde se desconocen tanto las imágenes como las etiquetas.
Además, MLLM tiende a "perderse" cuando procesa contextos más largos. Estos modelos dependen en gran medida de las posiciones inicial y media, por lo que a medida que aumenta el número de muestras, la precisión se estabilizará (una pausa o disminución temporal en el proceso de aprendizaje o formación de habilidades). Por lo tanto, MLLM tiene dificultades con entradas más largas.
Ahora, introduzcamos el aprendizaje de contexto vinculado (LCL) para resolver varios problemas difíciles en MLLM.
*Enlace propuesto: Diálogo de demostración de aprendizaje contextual; Fuente: *
En MLLM, existen dos estrategias de formación clave. Ajuste rápido multimodal (M-PT) y ajuste de instrucción multimodal (M-IT). M-PT solo ajusta una pequeña parte de los parámetros del modelo, dejando los parámetros restantes sin cambios. Este enfoque ayuda a lograr resultados similares al ajuste completo y al mismo tiempo minimiza los recursos computacionales. M-IT, por otro lado, mejora la capacidad de disparo cero de MLLM al ajustar MLLM en un conjunto de datos que contiene descripciones de instrucciones. Esta estrategia mejora la capacidad del modelo para comprender y afrontar nuevas tareas sin requerir formación previa. Todos estos métodos son eficaces, pero todos conllevan sacrificios.
Diferencia entre aprendizaje contextual y aprendizaje contextual vinculado. Fuente: https://arxiv.org/abs/2308.07891
LCL explora diferentes estrategias de entrenamiento: estrategia híbrida, estrategia bidireccional, estrategia aleatoria bidireccional y estrategia ponderada bidireccional. La característica sobresaliente de la estrategia mixta es que puede mejorar significativamente la precisión del disparo cero y lograr resultados impresionantes cuando el número de muestras llega a 6. Sin embargo, cuando el número de muestras es 16, su rendimiento disminuye ligeramente. Por el contrario, la precisión de la estrategia bidireccional aumenta gradualmente de 2 muestras a 16 muestras, lo que indica que está más cerca del modo de entrenamiento.
A diferencia del aprendizaje contextual tradicional, LCL va un paso más allá y le da al modelo la capacidad de establecer un mapeo entre fuentes y objetivos, mejorando así su desempeño general. Al proporcionar demostraciones de conexiones causales, LCL permite a MLLM identificar no solo analogías sino también posibles conexiones causales entre puntos de datos, lo que lo hace más eficaz a la hora de identificar imágenes invisibles y comprender nuevos conceptos.
Además, LCL también presenta el conjunto de datos ISEKAI, un conjunto de datos novedoso y completo diseñado específicamente para evaluar las capacidades de MLLM. El conjunto de datos ISEKAI consta de imágenes completamente generadas y conceptos fabricados. Desafía a MLLM a absorber nuevos conceptos de conversaciones en curso y retener este conocimiento para responder preguntas con precisión.
En resumen, LCL proporciona información valiosa sobre las estrategias de capacitación empleadas por los modelos de lenguaje multimodal. Las estrategias híbridas y las estrategias bidireccionales ofrecen diferentes enfoques para mejorar el rendimiento de los modelos de lenguaje multimodal, cada uno con sus propias fortalezas y limitaciones. El análisis contextual revela los desafíos que enfrentan los modelos de lenguaje multimodal cuando procesan entradas más largas y resalta la importancia de realizar más investigaciones en esta área.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Obtenga más información sobre LCL en un artículo: la capacidad de aprendizaje de modelos grandes multimodales se puede mejorar mediante el "razonamiento causal"
撰文:Ekrem Chetinkaya
Fuente: MarkTechPost
Los modelos de lenguaje son capaces de generar texto coherente y contextual, revolucionando la forma en que nos comunicamos con las computadoras. Los modelos de lenguaje grande (LLM) han estado a la vanguardia de este avance, aprendiendo los patrones y matices del lenguaje humano entrenándose con cantidades masivas de datos de texto. Como pionero de la revolución LLM, ChatGPT es extremadamente popular entre personas de diferentes disciplinas.
El superpoder de LLM hace que diversas tareas sean más fáciles de manejar. Los usamos para resumir texto, redactar correos electrónicos, automatizar tareas de programación, interpretar documentos y más. Todas estas tareas, que hace un año consumían mucho tiempo, ahora se pueden realizar en minutos.
Sin embargo, con la creciente necesidad de comprensión multimodal, los modelos deben procesar y generar contenido en diferentes modalidades, como texto, imágenes e incluso videos, por lo que ha surgido la necesidad de modelos de lenguajes grandes multimodales (MLLM). MLLM combina el poder de los modelos de lenguaje con la comprensión visual, lo que permite a las máquinas comprender y generar contenido de una manera más integral y consciente del contexto.
Después de que la moda de ChatGPT disminuyó un poco, los MLLM tomaron por asalto el campo de la inteligencia artificial, permitiendo a las máquinas comprender y generar contenido en diferentes modos, como texto e imágenes. Estos modelos funcionan bien en tareas como el reconocimiento de imágenes, los fundamentos de la visión y la comprensión de instrucciones. Sin embargo, cómo entrenar eficazmente estos modelos sigue siendo un desafío. El mayor desafío es cuando MLLM se encuentra con escenas completamente desconocidas, donde se desconocen tanto las imágenes como las etiquetas.
Además, MLLM tiende a "perderse" cuando procesa contextos más largos. Estos modelos dependen en gran medida de las posiciones inicial y media, por lo que a medida que aumenta el número de muestras, la precisión se estabilizará (una pausa o disminución temporal en el proceso de aprendizaje o formación de habilidades). Por lo tanto, MLLM tiene dificultades con entradas más largas.
Ahora, introduzcamos el aprendizaje de contexto vinculado (LCL) para resolver varios problemas difíciles en MLLM.
En MLLM, existen dos estrategias de formación clave. Ajuste rápido multimodal (M-PT) y ajuste de instrucción multimodal (M-IT). M-PT solo ajusta una pequeña parte de los parámetros del modelo, dejando los parámetros restantes sin cambios. Este enfoque ayuda a lograr resultados similares al ajuste completo y al mismo tiempo minimiza los recursos computacionales. M-IT, por otro lado, mejora la capacidad de disparo cero de MLLM al ajustar MLLM en un conjunto de datos que contiene descripciones de instrucciones. Esta estrategia mejora la capacidad del modelo para comprender y afrontar nuevas tareas sin requerir formación previa. Todos estos métodos son eficaces, pero todos conllevan sacrificios.
LCL explora diferentes estrategias de entrenamiento: estrategia híbrida, estrategia bidireccional, estrategia aleatoria bidireccional y estrategia ponderada bidireccional. La característica sobresaliente de la estrategia mixta es que puede mejorar significativamente la precisión del disparo cero y lograr resultados impresionantes cuando el número de muestras llega a 6. Sin embargo, cuando el número de muestras es 16, su rendimiento disminuye ligeramente. Por el contrario, la precisión de la estrategia bidireccional aumenta gradualmente de 2 muestras a 16 muestras, lo que indica que está más cerca del modo de entrenamiento.
A diferencia del aprendizaje contextual tradicional, LCL va un paso más allá y le da al modelo la capacidad de establecer un mapeo entre fuentes y objetivos, mejorando así su desempeño general. Al proporcionar demostraciones de conexiones causales, LCL permite a MLLM identificar no solo analogías sino también posibles conexiones causales entre puntos de datos, lo que lo hace más eficaz a la hora de identificar imágenes invisibles y comprender nuevos conceptos.
Además, LCL también presenta el conjunto de datos ISEKAI, un conjunto de datos novedoso y completo diseñado específicamente para evaluar las capacidades de MLLM. El conjunto de datos ISEKAI consta de imágenes completamente generadas y conceptos fabricados. Desafía a MLLM a absorber nuevos conceptos de conversaciones en curso y retener este conocimiento para responder preguntas con precisión.
En resumen, LCL proporciona información valiosa sobre las estrategias de capacitación empleadas por los modelos de lenguaje multimodal. Las estrategias híbridas y las estrategias bidireccionales ofrecen diferentes enfoques para mejorar el rendimiento de los modelos de lenguaje multimodal, cada uno con sus propias fortalezas y limitaciones. El análisis contextual revela los desafíos que enfrentan los modelos de lenguaje multimodal cuando procesan entradas más largas y resalta la importancia de realizar más investigaciones en esta área.