Новые разработки в моделях больших байтов: первое введение визуального позиционирования для достижения детального мультимодального совместного понимания, открытый исходный код и демо-игра

Первоисточник: Кубит

Модель большого байта, BuboGPT здесь.

Поддерживает три режима текста, изображения и звука для достижения детального мультимодального совместного понимания.

Где отвечать и что говорить, что сказано и что не сказано, понятно с первого взгляда:

Помимо «умных глаз» есть еще «умные уши». BuboGPT может слышать детали, которые люди не замечают:

Audio-1-chime-bird-breeze, кубит, 20 секунд

Впереди высокая энергия!

Трехмодальное совместное понимание, текстовое описание + позиционирование изображения + позиционирование звука, один щелчок, чтобы получить его, и точно определить источник звука:

Аудио-7-дорк-барк, кубит, 6 секунд

Не волнуйтесь, это еще не конец!

Даже если нет прямой связи между звуком и изображением, возможную связь между ними можно разумно описать.Также можно рассказывать истории, глядя на картинки и идентифицируя звуки:

Аудио-11-6 часов, кубит, 1 минута

Глядя на это таким образом, BuboGPT выполняет некоторую работу, которая достаточно «хороша».

По мнению исследователей:

Популярные в последнее время мультимодальные большие модели, такие как MiniGPT-4, LLaVA и X-LLM, не выполняют базовых соединений с конкретными частями входных данных, а только строят карты общего назначения. В то время как BuboGPT использует богатую информацию и четкое соответствие между текстом и другими модальностями, он может обеспечить детальное понимание визуальных объектов и данной модальности.

Поэтому, когда BuboGPT описывает изображение, он может указать конкретное местонахождение объекта на картинке.

BuboGPT: впервые визуальная связь с LLM

В дополнение к приведенным выше примерам, опубликованным автором на YouTube, исследовательская группа также продемонстрировала в статье различные трюки BuboGPT.

Давно пора увидеть лягушку, играющую на пианино! Можно ли точно описать такой граф BuboGPT?

Как Канкан ответил дружно:

Вы не только можете точно описать позу лягушки, но и знаете, что это банджо?

Спросите его, какие интересные места есть на картинке, и он также может обобщить все, что находится на заднем плане картины.

BuboGPT «тест на зрение + слух + выразительность», исследователи обыгрывают его так, давайте сначала послушаем этот звук.

Аудио-9-фен, кубит, 5 секунд

Давайте посмотрим на описание BuboGPT:

BuboGPT может точно определить пол человека на картинке, источник звука и то, что произошло на картинке.

Эффект настолько хорош, потому что Byte на этот раз использовал метод введения визуального позиционирования в LLM.

Конкретный метод мы затем смотрим вниз.

Архитектура BuboGPT предназначена для достижения мультимодального понимания путем изучения общего семантического пространства и дальнейшего изучения тонких взаимосвязей между различными визуальными объектами и различными модальностями.

Для того чтобы изучить детализированную взаимосвязь между различными визуальными объектами и различными модальностями, исследователи сначала создали готовый конвейер визуальной локализации на основе SAM.

Этот конвейер состоит из трех модулей: Модуль тегирования (модуль тегирования), Модуль местоположения (модуль заземления) и Модуль сопоставления объектов (модуль сопоставления объектов).

Процесс примерно такой:

Во-первых, модуль маркировки представляет собой предварительно обученную модель, которая может генерировать несколько текстовых меток, связанных с входным изображением.

Модуль локализации на основе SAM дополнительно локализует семантическую маску или ограничивающую рамку, связанную с каждой текстовой меткой на изображении.

Затем модуль сопоставления сущностей использует способность рассуждений LLM для извлечения совпавших сущностей из меток и описаний изображений.

Именно так исследователи используют язык в качестве моста для соединения визуальных объектов с другими модальностями.

Чтобы ввод любой комбинации трех режимов дал хорошие результаты, исследователи приняли двухэтапную схему обучения, аналогичную Mini-GTP4:

Одномодальная предварительная подготовка и многомодальная корректировка инструкций.

В частности, BuboGPT использует ImageBind в качестве аудиокодировщика, BLIP-2 в качестве визуального кодировщика и Vicuna в качестве предварительно обученного LLM.

На этапе унимодальной предварительной подготовки соответствующий Q-Former модальности и слои линейной проекции обучаются на большом количестве парных данных модальность-текст.

Для визуального восприятия мы тренируем проекционный слой только для части генерации подписи к изображению и оставляем фиксированным Q-Former из BLIP2.

Для понимания звука они обучили как Q-Former, так и части генерации аудиозаголовков.

В обеих настройках без использования каких-либо подсказок ( ) модель просто получает на вход соответствующее изображение или звук и предсказывает соответствующую подпись (caption).

** **###### Различные инструкции ввода следуют примеру

На этапе настройки мультимодальных инструкций создается высококачественный набор данных мультимодальных инструкций для точной настройки уровня линейной проекции, включая:

  • Изображение-текст: настройка визуальной инструкции с использованием двух наборов данных в MiniGPT-4 и LLaVa.
  • Аудио-текст: серия выразительных и описательных данных построена на основе набора данных Clotho.
  • Аудио-изображение-текст: на основе набора данных VGGSS строится трехмодальная пара данных настройки <аудио, изображение, текст>, а затем вводятся отрицательные образцы для улучшения модели.

Стоит отметить, что, вводя отрицательные образцы «пары изображение-аудио» для семантического сопоставления, BuboGPT может быть лучше выровнен, и способность мультимодального совместного понимания становится сильнее.

В настоящее время код и набор данных BuboGPT находятся в открытом доступе, а также выпущена демоверсия. Давайте быстро попробуем.

демонстрация неглубокой игры

Функциональная область демонстрационной страницы BuboGPT понятна с первого взгляда, и операция также очень проста.Вы можете загружать изображения или аудио с правой стороны, а окно ответа BuboGPT и окно вопроса пользователя с левой стороны:

После загрузки фотографии нажмите первую кнопку ниже, чтобы загрузить разделенное изображение:

В качестве примера возьмем фотографию Великой китайской стены, BuboGPT разобрал ее вот так и определил горы, туристические достопримечательности и городские стены:

Когда мы попросили его описать эту картину, его ответ был более конкретным и в основном точным:

Вы можете видеть, что содержимое поля разделения также изменилось, что соответствует текстовому содержанию ответа.

Вот еще одна картинка, с кусочком аудио, и BuboGPT тоже правильно соответствует источнику звука:

Аудио-8-велосипед_колокол, кубит, 22 секунды

Конечно, он также не сможет распознать и выразить неправильно, например, на картинке ниже никого нет, а звук - просто звонок, но его описание, похоже, не соответствует картинке.

Заинтересованные члены семьи спешите попробовать сами~~

Портал: [1] [2]

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить