Узнайте о LCL в одной статье: способность к обучению мультимодальных больших моделей можно улучшить с помощью «причинно-следственных рассуждений».

Исполнитель: Экрем Четинкая

Источник: МаркТехПост

Источник изображения: создан с помощью инструмента Unbounded AI

Языковые модели способны генерировать связный и контекстуальный текст, что революционизирует то, как мы общаемся с компьютерами. Крупномасштабные языковые модели (LLM) были в авангарде этого прогресса, изучая закономерности и нюансы человеческого языка путем обучения огромным объемам текстовых данных. Будучи пионером революции LLM, ChatGPT чрезвычайно популярен среди людей разных дисциплин.

Супервозможности LLM облегчают решение различных задач. Мы используем их для обобщения текста, составления электронных писем, автоматизации задач программирования, интерпретации документов и многого другого. Все эти задачи, которые год назад отнимали много времени, теперь можно выполнить за считанные минуты.

Однако с растущей потребностью в мультимодальном понимании модели должны обрабатывать и генерировать контент в различных модальностях, таких как текст, изображения и даже видео, поэтому возникла потребность в мультимодальных моделях большого языка (MLLM). MLLM сочетает в себе мощь языковых моделей с визуальным пониманием, позволяя машинам понимать и генерировать контент более комплексным и контекстно-зависимым образом.

Когда увлечение ChatGPT немного утихло, MLLM штурмовали область искусственного интеллекта, позволяя машинам понимать и генерировать контент в различных режимах, таких как текст и изображения. Эти модели хорошо справляются с такими задачами, как распознавание изображений, основы зрения и понимание инструкций. Однако вопрос о том, как эффективно обучать эти модели, остается проблемой. Самая большая проблема заключается в том, что MLLM сталкивается с совершенно незнакомыми сценами, где неизвестны как изображения, так и метки.

Более того, MLLM имеют тенденцию «теряться» при обработке более длинных контекстов. Эти модели сильно полагаются на начальную и среднюю позиции, поэтому по мере увеличения количества выборок точность выходит на плато (временная пауза или спад в процессе обучения или формирования навыков). Таким образом, MLLM испытывает трудности с более длинными входными данными.

Теперь давайте познакомимся с контекстно-ссылочным обучением (LCL) для решения различных задач в MLLM.

Предлагаемый демонстрационный диалог изучения контекста ссылок; Источник:

В MLLM есть две ключевые стратегии обучения. Мультимодальная подсказка (M-PT) и мультимодальная настройка инструкций (M-IT). M-PT осуществляет тонкую настройку лишь небольшой части параметров модели, оставляя остальные параметры неизменными. Такой подход помогает достичь результатов, аналогичных полной точной настройке, при минимизации вычислительных ресурсов. M-IT, с другой стороны, расширяет возможности MLLM с нулевым результатом за счет точной настройки MLLM на наборе данных, содержащем описания инструкций. Эта стратегия улучшает способность модели понимать и справляться с новыми задачами, не требуя предварительного обучения. Все эти методы эффективны, но все они сопряжены с жертвами.

Разница между контекстным обучением и связанным контекстным обучением. Источник: https://arxiv.org/abs/2308.07891

LCL исследует различные стратегии обучения: гибридную стратегию, двунаправленную стратегию, двунаправленную случайную стратегию и двунаправленную взвешенную стратегию. Выдающейся особенностью гибридной стратегии является то, что она позволяет значительно повысить точность нулевых выборок и добиться впечатляющих результатов, когда количество выборок достигает шести. Однако, когда количество семплов равно 16, его производительность несколько снижается. Напротив, точность двусторонней стратегии постепенно увеличивается с 2 выборок до 16 выборок, что указывает на приближение к режиму обучения.

В отличие от традиционного контекстного обучения, LCL идет на шаг дальше, наделяя модель способностью устанавливать соответствие между источником и целью, тем самым улучшая ее общую производительность. Предоставляя демонстрацию причинно-следственных связей, LCL позволяет MLLM выявлять не только аналогии, но и потенциальные причинно-следственные связи между точками данных, что делает его более эффективным при выявлении невидимых изображений и понимании новых концепций.

Кроме того, LCL представляет набор данных ISEKAI, новый и всеобъемлющий набор данных, предназначенный для оценки возможностей MLLM. Набор данных ISEKAI состоит из полностью сгенерированных изображений и сфабрикованных концепций. Это требует от MLLM усваивать новые концепции из текущих разговоров и сохранять эти знания, чтобы точно отвечать на вопросы.

Таким образом, LCL дает ценную информацию о стратегиях обучения, используемых для мультимодальных языковых моделей. Гибридные стратегии и двунаправленные стратегии предоставляют разные способы повышения производительности мультимодальных языковых моделей, каждая из которых имеет свои преимущества и ограничения. Контекстный анализ проливает свет на проблемы, с которыми сталкиваются мультимодальные языковые модели при обработке более длинных входных данных, а также подчеркивает важность дальнейших исследований в этой области.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить