Новые разработки в моделях больших байтов: первое введение визуального позиционирования для достижения детального мультимодального совместного понимания, открытый исходный код и демо-игра

巴比特_

2023-08-15 04:52:59

Первоисточник: Кубит

Модель большого байта, BuboGPT здесь.

Поддерживает три режима текста, изображения и звука для достижения детального мультимодального совместного понимания.

Где отвечать и что говорить, что сказано и что не сказано, понятно с первого взгляда:

Помимо «умных глаз» есть еще «умные уши». BuboGPT может слышать детали, которые люди не замечают:

Audio-1-chime-bird-breeze, кубит, 20 секунд

Впереди высокая энергия!

Трехмодальное совместное понимание, текстовое описание + позиционирование изображения + позиционирование звука, один щелчок, чтобы получить его, и точно определить источник звука:

Аудио-7-дорк-барк, кубит, 6 секунд

Не волнуйтесь, это еще не конец!

Даже если нет прямой связи между звуком и изображением, возможную связь между ними можно разумно описать.Также можно рассказывать истории, глядя на картинки и идентифицируя звуки:

Аудио-11-6 часов, кубит, 1 минута

Глядя на это таким образом, BuboGPT выполняет некоторую работу, которая достаточно «хороша».

По мнению исследователей:

Популярные в последнее время мультимодальные большие модели, такие как MiniGPT-4, LLaVA и X-LLM, не выполняют базовых соединений с конкретными частями входных данных, а только строят карты общего назначения. В то время как BuboGPT использует богатую информацию и четкое соответствие между текстом и другими модальностями, он может обеспечить детальное понимание визуальных объектов и данной модальности.

Поэтому, когда BuboGPT описывает изображение, он может указать конкретное местонахождение объекта на картинке.

BuboGPT: впервые визуальная связь с LLM

В дополнение к приведенным выше примерам, опубликованным автором на YouTube, исследовательская группа также продемонстрировала в статье различные трюки BuboGPT.

Давно пора увидеть лягушку, играющую на пианино! Можно ли точно описать такой граф BuboGPT?

Как Канкан ответил дружно:

Вы не только можете точно описать позу лягушки, но и знаете, что это банджо?

Спросите его, какие интересные места есть на картинке, и он также может обобщить все, что находится на заднем плане картины.

BuboGPT «тест на зрение + слух + выразительность», исследователи обыгрывают его так, давайте сначала послушаем этот звук.

Аудио-9-фен, кубит, 5 секунд

Давайте посмотрим на описание BuboGPT:

BuboGPT может точно определить пол человека на картинке, источник звука и то, что произошло на картинке.

Эффект настолько хорош, потому что Byte на этот раз использовал метод введения визуального позиционирования в LLM.

Конкретный метод мы затем смотрим вниз.

Архитектура BuboGPT предназначена для достижения мультимодального понимания путем изучения общего семантического пространства и дальнейшего изучения тонких взаимосвязей между различными визуальными объектами и различными модальностями.

Для того чтобы изучить детализированную взаимосвязь между различными визуальными объектами и различными модальностями, исследователи сначала создали готовый конвейер визуальной локализации на основе SAM.

Этот конвейер состоит из трех модулей: Модуль тегирования (модуль тегирования), Модуль местоположения (модуль заземления) и Модуль сопоставления объектов (модуль сопоставления объектов).

Процесс примерно такой:

Во-первых, модуль маркировки представляет собой предварительно обученную модель, которая может генерировать несколько текстовых меток, связанных с входным изображением.

Модуль локализации на основе SAM дополнительно локализует семантическую маску или ограничивающую рамку, связанную с каждой текстовой меткой на изображении.

Затем модуль сопоставления сущностей использует способность рассуждений LLM для извлечения совпавших сущностей из меток и описаний изображений.

Именно так исследователи используют язык в качестве моста для соединения визуальных объектов с другими модальностями.

Чтобы ввод любой комбинации трех режимов дал хорошие результаты, исследователи приняли двухэтапную схему обучения, аналогичную Mini-GTP4:

Одномодальная предварительная подготовка и многомодальная корректировка инструкций.

В частности, BuboGPT использует ImageBind в качестве аудиокодировщика, BLIP-2 в качестве визуального кодировщика и Vicuna в качестве предварительно обученного LLM.

На этапе унимодальной предварительной подготовки соответствующий Q-Former модальности и слои линейной проекции обучаются на большом количестве парных данных модальность-текст.

Для визуального восприятия мы тренируем проекционный слой только для части генерации подписи к изображению и оставляем фиксированным Q-Former из BLIP2.

Для понимания звука они обучили как Q-Former, так и части генерации аудиозаголовков.

В обеих настройках без использования каких-либо подсказок ( ) модель просто получает на вход соответствующее изображение или звук и предсказывает соответствующую подпись (caption).

** **###### △ Различные инструкции ввода следуют примеру

На этапе настройки мультимодальных инструкций создается высококачественный набор данных мультимодальных инструкций для точной настройки уровня линейной проекции, включая:

Изображение-текст: настройка визуальной инструкции с использованием двух наборов данных в MiniGPT-4 и LLaVa.
Аудио-текст: серия выразительных и описательных данных построена на основе набора данных Clotho.
Аудио-изображение-текст: на основе набора данных VGGSS строится трехмодальная пара данных настройки <аудио, изображение, текст>, а затем вводятся отрицательные образцы для улучшения модели.

Стоит отметить, что, вводя отрицательные образцы «пары изображение-аудио» для семантического сопоставления, BuboGPT может быть лучше выровнен, и способность мультимодального совместного понимания становится сильнее.

В настоящее время код и набор данных BuboGPT находятся в открытом доступе, а также выпущена демоверсия. Давайте быстро попробуем.

демонстрация неглубокой игры

Функциональная область демонстрационной страницы BuboGPT понятна с первого взгляда, и операция также очень проста.Вы можете загружать изображения или аудио с правой стороны, а окно ответа BuboGPT и окно вопроса пользователя с левой стороны:

После загрузки фотографии нажмите первую кнопку ниже, чтобы загрузить разделенное изображение:

В качестве примера возьмем фотографию Великой китайской стены, BuboGPT разобрал ее вот так и определил горы, туристические достопримечательности и городские стены:

Когда мы попросили его описать эту картину, его ответ был более конкретным и в основном точным:

Вы можете видеть, что содержимое поля разделения также изменилось, что соответствует текстовому содержанию ответа.

Вот еще одна картинка, с кусочком аудио, и BuboGPT тоже правильно соответствует источнику звука:

Аудио-8-велосипед_колокол, кубит, 22 секунды

Конечно, он также не сможет распознать и выразить неправильно, например, на картинке ниже никого нет, а звук - просто звонок, но его описание, похоже, не соответствует картинке.

Заинтересованные члены семьи спешите попробовать сами~~

Портал: [1] [2]

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
Gate 2025 Q2 Report Released
34k Популярность
Altcoin Season Update
12k Популярность
Bitcoin Whale Moves
6k Популярность
4Gate Derivatives Volume Hits New High
16k Популярность
5CPI Data Incoming
61k Популярность
6Join Gate VIP to Win MacBook
31k Популярность
7MicroStrategy Buys More Bitcoin
2k Популярность
8BTC Hits New High
95k Популярность
9My Gate Moments
27k Популярность
10VIP Exclusive Airdrop Carnival
27k Популярность

Закрепить

Карта сайта