MiniGPT-5, который объединяет генерацию изображений и текста, уже здесь: токен становится Voken, и модель может не только продолжать писать, но и автоматически добавлять изображения.
Большая модель OpenAI GPT-5, кажется, еще далека, но некоторые исследователи взяли на себя инициативу в запуске инновационной визуальной и языковой модели MiniGPT-5. Это имеет важные последствия для создания изображений с последовательными текстовыми описаниями.
Источник изображения: Создано Unbounded AI
Большие модели совершают переход между языком и видением, обещая беспрепятственно понимать и генерировать текстовый и графический контент. Согласно серии недавних исследований, мультимодальная интеграция функций не только является растущей тенденцией, но и уже привела к ключевым достижениям, начиная от мультимодальных диалогов и заканчивая инструментами создания контента. Большие языковые модели продемонстрировали беспрецедентные возможности в понимании и генерации текста. Однако одновременное создание изображений с последовательным текстовым повествованием все еще остается областью, требующей развития.
Недавно исследовательская группа из Калифорнийского университета в Санта-Крус предложила MiniGPT-5, инновационную технологию генерации чередующегося визуального языка, основанную на концепции «генеративного голосования».
* Бумажный адрес:
адрес проекта:
Объединив механизм стабильной диффузии с LLM через специальный визуальный токен «генеративное голосование», MiniGPT-5 представляет собой новую модель квалифицированной мультимодальной генерации. В то же время предложенный в этой статье двухэтапный метод обучения подчеркивает важность базового этапа без описаний, позволяющего модели «процветать» даже при недостатке данных. Общая фаза метода не требует аннотаций, специфичных для предметной области, что отличает наше решение от существующих методов. Чтобы гарантировать, что сгенерированный текст и изображения гармоничны, в игру вступает стратегия двойной потери, а метод генеративного голосования и метод классификации еще больше усиливают этот эффект.
Данная работа, основанная на этих методах, представляет собой преобразующий подход. Используя ViT (Vision Transformer) и Qformer, а также большие языковые модели, исследовательская группа преобразует мультимодальные входные данные в генеративные голоса и легко объединяет их с Stable Diffusion2.1 высокого разрешения для достижения контекстно-зависимой генерации изображений. В этой статье изображения сочетаются в качестве вспомогательных входных данных с методами настройки инструкций и впервые используются потери при генерации текста и изображений, тем самым расширяя синергию между текстом и изображением.
MiniGPT-5 соответствует таким моделям, как ограничения CLIP, и умело интегрирует модель диффузии с MiniGPT-4 для достижения лучших мультимодальных результатов, не полагаясь на аннотации, специфичные для предметной области. Самое главное, что наша стратегия может воспользоваться достижениями в области базовых моделей мультимодального визуального языка и предоставить новый план для улучшения мультимодальных генеративных возможностей.
Как показано на рисунке ниже, в дополнение к своим исходным возможностям мультимодального понимания и генерации текста, MiniGPT5 также может обеспечивать разумный и последовательный мультимодальный вывод:
Вклад этой статьи отражен в трех аспектах:
Рекомендуется использовать мультимодальный кодер, который представляет собой новый метод общего назначения и оказался более эффективным, чем LLM и инвертированные генеративные Vokens, и комбинировать его со Stable Diffusion для генерации чередующихся визуальных и языковых выходных данных (мультимодальный кодировщик). языковая модель, способная к мультимодальной генерации).
Освещает новую стратегию двухэтапного обучения для мультимодальной генерации без описаний. На этапе одномодального выравнивания получаются высококачественные визуальные элементы, выровненные по тексту, из большого количества пар текст-изображение. Фаза мультимодального обучения включает в себя новую учебную задачу, генерацию контекста, гарантирующую, что видение и текст могут быть хорошо скоординированы и сгенерированы. Добавление руководства без классификатора на этапе обучения еще больше улучшает качество генерации.
По сравнению с другими мультимодальными генеративными моделями MiniGPT-5 обеспечивает высочайшую производительность на наборе данных CC3M. MiniGPT-5 также установил новые стандарты для таких известных наборов данных, как VIST и MMDialog.
Далее рассмотрим детали исследования.
Обзор метода
Чтобы обеспечить возможность мультимодальной генерации крупномасштабных языковых моделей, исследователи представили структурированную структуру, которая объединяет предварительно обученные мультимодальные крупномасштабные языковые модели и модели генерации текста в изображение. Чтобы решить различия между разными полями модели, они ввели специальные визуальные символы «генеративные голоса» (generative voices), которые можно обучать непосредственно на исходных изображениях. Кроме того, для дальнейшего улучшения качества генерации усовершенствован двухэтапный метод обучения в сочетании со стратегией начальной загрузки без классификатора.
Мультимодальный входной каскад
Последние достижения в области мультимодальных больших моделей (таких как MiniGPT-4) в основном сосредоточены на мультимодальном понимании, способном обрабатывать изображения как непрерывный ввод. Чтобы расширить его функциональность до мультимодальной генерации, исследователи представили генеративные Vokens, специально предназначенные для вывода визуальных функций. Кроме того, они также внедрили методы точной настройки с эффективным использованием параметров в рамках модели большого языка (LLM) для обучения мультимодальному выводу.
Генерация мультимодальной продукции
Чтобы точно согласовать генеративные токены с генеративными моделями, мы формулируем компактный модуль сопоставления для сопоставления размерностей и учитываем несколько контролируемых потерь, включая потерю текстового пространства и скрытую потерю модели диффузии. Потеря текстового пространства помогает модели изучить правильную локализацию токенов, в то время как скрытая диффузионная потеря напрямую выравнивает токены с соответствующими визуальными особенностями. Поскольку функции генеративных символов напрямую определяются изображениями, этот метод не требует исчерпывающих описаний изображений, что позволяет обучаться без описаний.
Стратегия обучения
Учитывая, что существует значительный сдвиг домена между текстовым доменом и доменом изображения, исследователи обнаружили, что обучение непосредственно на ограниченном наборе чередующихся данных текста и изображений может привести к несовпадению и ухудшению качества изображения.
Поэтому они использовали две разные стратегии обучения, чтобы облегчить эту проблему. Первая стратегия предполагает использование методов начальной загрузки без классификаторов для повышения эффективности генерируемых токенов на протяжении всего процесса распространения; вторая стратегия разворачивается в два этапа: начальный этап предварительного обучения с упором на грубое выравнивание функций, за которым следует этап тонкой настройки. по изучению сложных функций.
Эксперимент и результаты
Чтобы оценить эффективность модели, исследователи провели серию оценок по нескольким критериям. Эксперимент направлен на решение нескольких ключевых вопросов:
Может ли MiniGPT-5 генерировать правдоподобные изображения и осмысленный текст?
Как MiniGPT-5 работает по сравнению с другими моделями SOTA в одно- и многораундовых задачах генерации визуального языка с чередованием?
Какое влияние конструкция каждого модуля оказывает на общую производительность?
Чтобы оценить производительность модели в различных тестах на разных этапах обучения, образцы количественного анализа MiniGPT-5 показаны на рисунке 3 ниже:
Оценка здесь охватывает как визуальную (метрики, связанные с изображениями), так и лингвистические (метрики текста) области, чтобы продемонстрировать общность и надежность предлагаемой модели.
Заключительный этап оценки VIST
Первая серия экспериментов включает одноэтапную оценку, то есть создание соответствующих изображений на основе модели на последнем этапе, а результаты показаны в таблице 1.
MiniGPT-5 превосходит настроенный SD 2 по всем трем настройкам. Примечательно, что показатель CLIP модели MiniGPT-5 (LoRA) неизменно превосходит другие варианты для нескольких типов, особенно при объединении изображений и текста. С другой стороны, оценка FID подчеркивает конкурентоспособность модели MiniGPT-5 (Prefix), указывая на то, что может существовать компромисс между качеством встраивания изображений (отраженным оценкой CLIP) и разнообразием и аутентичностью изображений (отраженными оценкой CLIP). оценка FID). По сравнению с моделью, обученной непосредственно на VIST без включения этапа одномодальной регистрации (MiniGPT-5 без БПЛА), хотя модель сохраняет способность генерировать осмысленные изображения, качество и согласованность изображения значительно снижаются. Это наблюдение подчеркивает важность двухэтапной стратегии обучения.
Многоэтапная оценка VIST
При более детальной и всесторонней оценке исследователи систематически предоставляли модели предшествующий исторический контекст и впоследствии оценивали полученные изображения и повествования на каждом этапе.
В таблицах 2 и 3 суммированы результаты этих экспериментов, суммируя показатели изображения и языка соответственно. Экспериментальные результаты показывают, что MiniGPT-5 способен генерировать последовательные высококачественные изображения, используя длинногоризонтальные мультимодальные входные данные во всех данных, не влияя при этом на возможности мультимодального понимания исходной модели. Это подчеркивает эффективность MiniGPT-5 в различных средах.
Оценка человека VIST
Как показано в таблице 4, MiniGPT-5 генерировал более подходящее текстовое повествование в 57,18% случаев, обеспечивал лучшее качество изображения в 52,06% случаев и генерировал более связный многорежимный вывод статуса в 57,62% сцен. По сравнению с двухэтапной базовой линией, в которой используется повествование из текста в изображение без сослагательного наклонения, эти данные ясно демонстрируют более сильные возможности мультимодальной генерации.
Многократная оценка MMDialog
Результаты показаны в таблице 5. MiniGPT-5 превосходит базовую модель Divter в генерировании более точных текстовых ответов. Хотя сгенерированные изображения имеют одинаковое качество, MiniGPT-5 превосходит базовую модель в корреляции ММ, что указывает на то, что он может лучше научиться правильно позиционировать генерацию изображений и генерировать высокосогласованные мультимодальные ответы.
Каков эффект? Давайте посмотрим на выходные данные MiniGPT-5. На рисунке 7 ниже показано сравнение базовых моделей проверочных наборов MiniGPT-5 и CC3M.
На рисунке 8 ниже показано сравнение MiniGPT-5 и базовой модели из набора проверки VIST.
На рисунке 9 ниже показано сравнение MiniGPT-5 и базовой модели на тестовом наборе MMDialog.
Более подробную информацию об исследовании можно найти в оригинальной статье.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
MiniGPT-5, который объединяет генерацию изображений и текста, уже здесь: токен становится Voken, и модель может не только продолжать писать, но и автоматически добавлять изображения.
Большие модели совершают переход между языком и видением, обещая беспрепятственно понимать и генерировать текстовый и графический контент. Согласно серии недавних исследований, мультимодальная интеграция функций не только является растущей тенденцией, но и уже привела к ключевым достижениям, начиная от мультимодальных диалогов и заканчивая инструментами создания контента. Большие языковые модели продемонстрировали беспрецедентные возможности в понимании и генерации текста. Однако одновременное создание изображений с последовательным текстовым повествованием все еще остается областью, требующей развития.
Недавно исследовательская группа из Калифорнийского университета в Санта-Крус предложила MiniGPT-5, инновационную технологию генерации чередующегося визуального языка, основанную на концепции «генеративного голосования».
Объединив механизм стабильной диффузии с LLM через специальный визуальный токен «генеративное голосование», MiniGPT-5 представляет собой новую модель квалифицированной мультимодальной генерации. В то же время предложенный в этой статье двухэтапный метод обучения подчеркивает важность базового этапа без описаний, позволяющего модели «процветать» даже при недостатке данных. Общая фаза метода не требует аннотаций, специфичных для предметной области, что отличает наше решение от существующих методов. Чтобы гарантировать, что сгенерированный текст и изображения гармоничны, в игру вступает стратегия двойной потери, а метод генеративного голосования и метод классификации еще больше усиливают этот эффект.
Данная работа, основанная на этих методах, представляет собой преобразующий подход. Используя ViT (Vision Transformer) и Qformer, а также большие языковые модели, исследовательская группа преобразует мультимодальные входные данные в генеративные голоса и легко объединяет их с Stable Diffusion2.1 высокого разрешения для достижения контекстно-зависимой генерации изображений. В этой статье изображения сочетаются в качестве вспомогательных входных данных с методами настройки инструкций и впервые используются потери при генерации текста и изображений, тем самым расширяя синергию между текстом и изображением.
MiniGPT-5 соответствует таким моделям, как ограничения CLIP, и умело интегрирует модель диффузии с MiniGPT-4 для достижения лучших мультимодальных результатов, не полагаясь на аннотации, специфичные для предметной области. Самое главное, что наша стратегия может воспользоваться достижениями в области базовых моделей мультимодального визуального языка и предоставить новый план для улучшения мультимодальных генеративных возможностей.
Как показано на рисунке ниже, в дополнение к своим исходным возможностям мультимодального понимания и генерации текста, MiniGPT5 также может обеспечивать разумный и последовательный мультимодальный вывод:
Далее рассмотрим детали исследования.
Обзор метода
Чтобы обеспечить возможность мультимодальной генерации крупномасштабных языковых моделей, исследователи представили структурированную структуру, которая объединяет предварительно обученные мультимодальные крупномасштабные языковые модели и модели генерации текста в изображение. Чтобы решить различия между разными полями модели, они ввели специальные визуальные символы «генеративные голоса» (generative voices), которые можно обучать непосредственно на исходных изображениях. Кроме того, для дальнейшего улучшения качества генерации усовершенствован двухэтапный метод обучения в сочетании со стратегией начальной загрузки без классификатора.
Последние достижения в области мультимодальных больших моделей (таких как MiniGPT-4) в основном сосредоточены на мультимодальном понимании, способном обрабатывать изображения как непрерывный ввод. Чтобы расширить его функциональность до мультимодальной генерации, исследователи представили генеративные Vokens, специально предназначенные для вывода визуальных функций. Кроме того, они также внедрили методы точной настройки с эффективным использованием параметров в рамках модели большого языка (LLM) для обучения мультимодальному выводу.
Генерация мультимодальной продукции
Чтобы точно согласовать генеративные токены с генеративными моделями, мы формулируем компактный модуль сопоставления для сопоставления размерностей и учитываем несколько контролируемых потерь, включая потерю текстового пространства и скрытую потерю модели диффузии. Потеря текстового пространства помогает модели изучить правильную локализацию токенов, в то время как скрытая диффузионная потеря напрямую выравнивает токены с соответствующими визуальными особенностями. Поскольку функции генеративных символов напрямую определяются изображениями, этот метод не требует исчерпывающих описаний изображений, что позволяет обучаться без описаний.
Стратегия обучения
Учитывая, что существует значительный сдвиг домена между текстовым доменом и доменом изображения, исследователи обнаружили, что обучение непосредственно на ограниченном наборе чередующихся данных текста и изображений может привести к несовпадению и ухудшению качества изображения.
Поэтому они использовали две разные стратегии обучения, чтобы облегчить эту проблему. Первая стратегия предполагает использование методов начальной загрузки без классификаторов для повышения эффективности генерируемых токенов на протяжении всего процесса распространения; вторая стратегия разворачивается в два этапа: начальный этап предварительного обучения с упором на грубое выравнивание функций, за которым следует этап тонкой настройки. по изучению сложных функций.
Эксперимент и результаты
Чтобы оценить эффективность модели, исследователи провели серию оценок по нескольким критериям. Эксперимент направлен на решение нескольких ключевых вопросов:
Чтобы оценить производительность модели в различных тестах на разных этапах обучения, образцы количественного анализа MiniGPT-5 показаны на рисунке 3 ниже:
Заключительный этап оценки VIST
Первая серия экспериментов включает одноэтапную оценку, то есть создание соответствующих изображений на основе модели на последнем этапе, а результаты показаны в таблице 1.
MiniGPT-5 превосходит настроенный SD 2 по всем трем настройкам. Примечательно, что показатель CLIP модели MiniGPT-5 (LoRA) неизменно превосходит другие варианты для нескольких типов, особенно при объединении изображений и текста. С другой стороны, оценка FID подчеркивает конкурентоспособность модели MiniGPT-5 (Prefix), указывая на то, что может существовать компромисс между качеством встраивания изображений (отраженным оценкой CLIP) и разнообразием и аутентичностью изображений (отраженными оценкой CLIP). оценка FID). По сравнению с моделью, обученной непосредственно на VIST без включения этапа одномодальной регистрации (MiniGPT-5 без БПЛА), хотя модель сохраняет способность генерировать осмысленные изображения, качество и согласованность изображения значительно снижаются. Это наблюдение подчеркивает важность двухэтапной стратегии обучения.
При более детальной и всесторонней оценке исследователи систематически предоставляли модели предшествующий исторический контекст и впоследствии оценивали полученные изображения и повествования на каждом этапе.
В таблицах 2 и 3 суммированы результаты этих экспериментов, суммируя показатели изображения и языка соответственно. Экспериментальные результаты показывают, что MiniGPT-5 способен генерировать последовательные высококачественные изображения, используя длинногоризонтальные мультимодальные входные данные во всех данных, не влияя при этом на возможности мультимодального понимания исходной модели. Это подчеркивает эффективность MiniGPT-5 в различных средах.
Как показано в таблице 4, MiniGPT-5 генерировал более подходящее текстовое повествование в 57,18% случаев, обеспечивал лучшее качество изображения в 52,06% случаев и генерировал более связный многорежимный вывод статуса в 57,62% сцен. По сравнению с двухэтапной базовой линией, в которой используется повествование из текста в изображение без сослагательного наклонения, эти данные ясно демонстрируют более сильные возможности мультимодальной генерации.
Результаты показаны в таблице 5. MiniGPT-5 превосходит базовую модель Divter в генерировании более точных текстовых ответов. Хотя сгенерированные изображения имеют одинаковое качество, MiniGPT-5 превосходит базовую модель в корреляции ММ, что указывает на то, что он может лучше научиться правильно позиционировать генерацию изображений и генерировать высокосогласованные мультимодальные ответы.