Прорывная технология! Мультимодальная модель с открытым исходным кодом — MiniGPT-5

Первоисточник: AIGC Open Community

Источник изображения: Generated by Unbounded AI

Мультимодальная генерация всегда была важной областью исследований для технологических гигантов, таких как OpenAI, Microsoft и Baidu, но то, как добиться связного текста и связанных с ним изображений, является сложной проблемой.

Для того, чтобы преодолеть техническое узкое место, Калифорнийский университет в Санта-Крузе разработал модель MiniGPT-5** и предложил новую техническую концепцию «Generative Vokens», которая становится «мостом» между текстовым пространством признаков и пространством признаков изображения**, реализуя эффективное выравнивание обычных обучающих данных и генерируя высококачественный текст и изображения одновременно.

Чтобы оценить эффекты MiniGPT-5, исследователи протестировали его на нескольких наборах данных, включая CC3M, VIST и MMDialog. Результаты показывают, что MiniGPT-5 превосходит несколько базовых показателей сравнения по нескольким показателям и способен генерировать связный, высококачественный текст и изображения.

Например, в наборе данных VIST оценка CLIP изображения, сгенерированного MiniGPT-5, выше, чем у fine-tunedStable Diffusion 2; При оценке на людях MiniGPT-5 обеспечил лучшую языковую когерентность (57,18%), более высокое качество изображения (52,06%) и более сильную мультимодальную когерентность (57,62%).

На наборе данных MMDialog индекс корреляции MM MiniGPT-5 достиг 0,67, превысив 0,62 у эталонной модели Divter. Это полностью доказывает сильную адаптивность MiniGPT-5 в различных режимах данных.

Адрес с открытым исходным кодом:

Адрес:

Модель MiniGPT-5 имеет три основных нововведения: 1) Она использует мультимодальный кодировщик для извлечения признаков текста и изображения, что представляет собой новую технологию выравнивания текста и изображения, которая лучше, чем метод прямого использования больших языковых моделей для генерации визуальных токенов.

  1. Предложена двухступенчатая стратегия обучения без полного описания изображения: первый этап ориентирован на простое выравнивание текста и изображения; На втором этапе проводится мультимодальное детальное изучение признаков.

  2. В обучение внедрена технология «без классификатора», которая позволяет эффективно повысить качество контента мультимодальной генерации. Основная архитектура модуля выглядит следующим образом.

Генеративные вокены

Основной инновацией MiniGPT-5 является выдвижение технической концепции «Генеративных вокенов», которая реализует бесшовную связь между большими языковыми моделями и моделями генерации изображений.

В частности, исследователи добавили восемь специальных токенов Voken в лексикон модели[IMG1] [IMG8]- 。 Эти вокены используются в качестве заполнителей для изображений во время обучения модели.

На стороне ввода объекты изображения соединяются с векторами слов Voken для формирования входной последовательности. На выходе модель предсказывает положение этих Вокенов, а соответствующее скрытое состояние h_voken используется для представления содержимого изображения.

Затем h_voken преобразуется в условные признаки изображения ˆh_voken выравнивается с выходными данными текстового кодировщика Stable Diffusion с помощью модуля сопоставления признаков.

В Stable Diffusion ˆh_voken используется в качестве условного ввода для управления генерацией изображения. Весь конвейер обеспечивает стыковку между образами и языковыми моделями и генерацией образов.

Этот метод выравнивания с помощью Voken более прост, чем обратные вычисления, и более универсален, чем использование описаний изображений. Проще говоря, Generative Vokens действует как «мост», который делает передачу информации между различными доменами модели более плавной.

Двухфазная стратегия обучения

Учитывая, что существуют определенные различия в пространстве признаков текста и изображений, MiniGPT-5 использует двухступенчатую стратегию обучения.

Первый этап — это фаза унимодального выравнивания: используются только данные из одной пары изображение-текст, например CC3M. Модель учится генерировать соответствующий Voken из подписи к изображению. В то же время была добавлена потеря вторичного заголовка изображения, чтобы помочь Voken выровнять его с содержимым.

Второй этап — это фаза мультимодального обучения: тонкая настройка с использованием данных, содержащих смежные мультимодальные выборки, такие как VIST. Настраивайте различные обучающие задачи, включая генерацию текста, генерацию изображений и и то, и другое. Улучшены возможности модели по обработке мультимодальной информации.

Эта поэтапная стратегия может облегчить проблему обучения непосредственно на ограниченных данных. Сначала было выполнено крупнозернистое выравнивание, а затем тонкая настройка мелкозернистых признаков, что улучшило выразительность и надежность модели.

Нет руководства по классификатору

Чтобы еще больше улучшить согласованность сгенерированного текста и изображений, MiniGPT-5 также использует технологию «без наведения классификатора».

Основная идея заключается в том, что в процессе диффузии изображения условный Voken заменяется нулевыми признаками с определенной вероятностью для достижения безусловной генерации.

При выводе условные и безусловные результаты используются в качестве положительных и отрицательных выборок, и модель может лучше использовать контраст между ними для получения согласованного мультимодального результата. Этот метод прост и эффективен, не требует введения дополнительных классификаторов и направляет обучение модели через характер сравнения данных.

Модель генерации текста в изображение

MiniGPT-5 использует Stable Diffusion 2.1 и мультимодальную модель MiniGPT-4 в качестве модели генерации текста в изображение. Высококачественные изображения с высоким разрешением могут быть сгенерированы из текстовых описаний.

Stable Diffusion использует модель Diffusion и U-Net в качестве основных компонентов. Модель диффузии может представлять изображение в виде данных шума, которые затем могут быть подавлены и реконструированы шаг за шагом.

U-Net использует текстовые функции в качестве условий, направляющих процесс шумоподавления для создания соответствующих изображений. По сравнению с GAN, диффузионная модель более стабильна, а эффект генерации более четкий и реалистичный.

Чтобы точно выровнять генеративные маркеры с генеративной моделью, исследователи разработали компактный картографический модуль для сопоставления размерностей и включили некоторые контролируемые потери, включая потерю текстового пространства и потерю модели скрытой диффузии.

Текстовые пространственные потери помогают модели узнать правильное положение маркера, в то время как потенциальные потери диффузии напрямую выравнивают маркер с соответствующим визуальным элементом. Поскольку признаки, генерирующие Vokens, напрямую управляются изображением, описательное обучение может быть достигнуто без необходимости всестороннего описания изображения.

По мнению исследователей, самый большой вклад MiniGPT-5 заключается в эффективной интеграции генерации текста и генерации изображений. Для предварительного обучения требуются только обычные текст и изображения, а когерентная мультимодальная генерация может быть проведена без сложного описания изображений. Это обеспечивает единообразное и эффективное решение мультимодальных задач.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить