Почему языковые модели отстают от диффузионных моделей с точки зрения визуальной генерации? Исследования, проведенные Google, CMU, показывают, что токенизатор является ключевым фактором.
Источник изображения: Generated by Unbounded AI
Большие языковые модели (LLM или LM) изначально создавали языки, но со временем они стали способны генерировать контент в нескольких модальностях и стали доминирующими в аудио, речи, генерации кода, медицинских приложениях, робототехнике и многом другом.
Конечно, LM также может генерировать изображения и видео. Во время этого процесса пиксели изображения сопоставляются визуальными создателями маркеров в серию дискретных маркеров. Затем эти лексемы подаются в LM-преобразователь и используются для генеративного моделирования так же, как словарь. Несмотря на то, что LM добился значительных успехов в визуальной генерации, LM по-прежнему работает хуже, чем диффузионные модели. Например, при оценке на наборе данных ImageNet, золотом эталоне для генерации изображений, лучшая языковая модель показала себя на 48% хуже, чем диффузионная модель (FID 3,41 против 1,79 при создании изображений с разрешением 256��256).
Почему языковые модели отстают от диффузионных моделей с точки зрения визуальной генерации? Исследователи из Google, CMU считают, что основной причиной является отсутствие хорошего визуального представления, аналогичного нашей системе естественного языка, для эффективного моделирования визуального мира. Чтобы подтвердить эту гипотезу, они провели исследование.
Ссылка на статью:
Это исследование показывает, что при хорошем визуальном токенизаторе маскирующие языковые модели превосходят модели диффузии SOTA с точки зрения генеративной точности и эффективности эталонных изображений и видео для тех же обучающих данных, сопоставимых размеров моделей и бюджета на обучение. Это первое доказательство того, что языковая модель превосходит диффузионную модель в культовом бенчмарке ImageNet.
Следует подчеркнуть, что цель исследователей состоит не в том, чтобы утверждать, превосходит ли языковая модель другие модели, а в том, чтобы способствовать изучению методов визуальной токенизации LLM. Принципиальное отличие LLM от других моделей, таких как диффузионные модели, заключается в том, что LLM использует дискретный латентный формат, т.е. токены, полученные в результате визуализации токенизаторов. Это исследование показывает, что ценность этих дискретных визуальных токенов не следует упускать из виду из-за их следующих преимуществ:
Совместимость с LLM. Основное преимущество представления токена заключается в том, что оно имеет ту же форму, что и языковой токен, что позволяет напрямую использовать преимущества оптимизаций, которые сообщество делало на протяжении многих лет для разработки LLM, включая более быстрое обучение и логический вывод, достижения в инфраструктуре моделей, способы масштабирования моделей и инновации, такие как оптимизация GPU/TPU. Объединение видения и языка через одно и то же пространство токенов может заложить основу для по-настоящему мультимодального LLM, который может быть понят, сгенерирован и аргументирован в нашей визуальной среде.
Сжатое представление. Дискретные токены могут по-новому взглянуть на сжатие видео. Визуальные токены можно использовать в качестве нового формата сжатия видео для уменьшения дискового пространства и пропускной способности, занимаемой данными при передаче через Интернет. В отличие от сжатых пикселей RGB, эти маркеры могут подаваться непосредственно в генеративную модель, минуя традиционную декомпрессию и потенциальные этапы кодирования. Это может ускорить обработку видеоприложений, что особенно полезно в сценариях периферийных вычислений.
Преимущества визуального понимания. Предыдущие исследования показали, что дискретные токены являются ценными в качестве предварительных целей при обучении с самоконтролируемым представлением, как обсуждалось в BEiT и BEVT. Кроме того, исследование показало, что использование токенов в качестве входных данных модели повышает надежность и обобщение.
В этой статье исследователи предлагают видеотокенизатор под названием MAGVIT-v2, который предназначен для отображения видео (и изображений) в компактные дискретные токены.
Модель основана на видеотокенизаторе SOTA – MAGVIT в рамках VQ-VAE. Исходя из этого, исследователи предлагают две новые технологии: 1) новый метод количественной оценки без поиска, позволяющий выучить большое количество слов для повышения качества генерации языковой модели; 2) Благодаря обширному эмпирическому анализу они определили модификации MAGVIT, которые не только улучшают качество сборки, но и позволяют токенизировать изображения и видео с помощью общего словаря.
Экспериментальные результаты показывают, что новая модель превосходит предыдущий самый эффективный видеотокенизатор MAGVIT в трех ключевых областях. Во-первых, новая модель значительно улучшает качество сборки MAGVIT, освежая SOTA на распространенных эталонах изображения и видео. Во-вторых, исследования пользователей показали, что его качество сжатия превосходит качество MAGVIT и текущего стандарта сжатия видео HEVC. Более того, он сопоставим с видеокодеком следующего поколения VVC. Наконец, исследователи показали, что их новый токен лучше справляется с задачей понимания видео с двумя настройками и тремя наборами данных по сравнению с MAGVIT.
Введение в метод
В этом документе представлен новый видеотокенизатор, предназначенный для динамического отображения пространства-времени в визуальных сценах в компактные дискретные лексемы, подходящие для языковых моделей. Кроме того, метод основан на MAGVIT.
Затем в исследовании были выделены две новые разработки: квантование без поиска (LFQ) и усовершенствования модели создания маркеров.
Без квантования поиска
В последнее время модель VQ-VAE добилась больших успехов, но одним из недостатков этого метода является то, что взаимосвязь между улучшением качества реконструкции и качеством последующей генерации не ясна. Многие ошибочно думают, что улучшение реконструкции эквивалентно улучшению генерации языковых моделей, например, расширение словарного запаса может улучшить качество реконструкции. Однако это улучшение относится только к созданию небольшого словаря, что может повредить производительности языковой модели, когда словарный запас очень большой.
В этой статье размер встраивания кодовой книги VQ-VAE уменьшается до 0, что является кодовой книгой
заменяется набором целых чисел
в нем
。
В отличие от модели VQ-VAE, эта новая конструкция полностью устраняет необходимость во встроенном поиске, отсюда и название LFQ. В данной работе делается вывод о том, что LFQ может улучшить качество генерации языковых моделей за счет увеличения словарного запаса. Как показано на синей кривой на рисунке 1, как реконструкция, так и генерация улучшаются по мере увеличения словарного запаса, чего не наблюдается в современных подходах VQ-VAE.
До сих пор доступно множество методов LFQ, но в этой статье обсуждается простой вариант. В частности, латентное пространство LFQ разлагается на декартовы произведения одномерных переменных, т.е.
。 Предположим, что дан вектор признаков
, количественно представляя каждое измерение q (z), полученное из следующего:
Для LFQ индекс токена для q (z) составляет:
Кроме того, в этой статье также добавлен штраф энтропии во время обучения:
Усовершенствования модели визуального маркеризатора
Федеративные изображения - токенизация видео. Для того, чтобы создать федеративный токенизатор изображений и видео, необходим новый дизайн. В этой статье делается вывод о том, что 3D-СНС работают лучше, чем пространственные преобразователи.
В данной статье рассматриваются два возможных варианта конструкции, такие как на рисунке 2b, сочетающий C-ViViT с MAGVIT; На рисунке 2c используется временная причинно-следственная 3D-свертка вместо обычной 3D-СНС.
В таблице 5а эмпирически сравнивается конструкция на рисунке 2 и делается вывод о том, что причинно-следственные 3D-СНС работают лучше всего.
В дополнение к использованию причинно-следственного слоя 3D CNN, были внесены другие архитектурные изменения для улучшения производительности MAGVIT, такие как изменение даунсемплера энкодера со среднего пула на ступенчатую свертку; Другим примером является добавление слоя адаптивной групповой нормализации перед остаточным блоком каждого разрешения в декодере.
Результаты экспериментов
Эксперименты проверяют производительность предложенного в этой статье токенизатора из трех частей: генерация видео и изображений, сжатие видео и распознавание движения. На рисунке 3 визуально сравниваются результаты Tokenizer с предыдущими исследованиями.
Генерация видео. В таблице 1 показано, что эта модель превосходит все известные уровни техники в обоих тестах, демонстрируя, что хороший визуальный генератор маркеров играет важную роль в создании LM высококачественных видео.
На рисунке 4 показан качественный образец модели.
Генерация изображений. В данной работе результаты генерации изображений MAGVIT-v2 оцениваются в соответствии со стандартными настройками условий класса ImageNet. Результаты показывают, что предложенная модель превосходит наиболее эффективную диффузионную модель с точки зрения качества выборки (ID и IS) и эффективности времени вывода (шаг выборки).
На рисунке 5 показана визуализация.
Сжатие видео. Результаты приведены в таблице 3, и модель превосходит MAGVIT по всем метрикам и превосходит все методы по LPIPS.
Понимание видео. Как показано в таблице 4, MAGVIT-v2 превосходит предыдущий лучший MAGVIT по этим оценкам.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
В генерации изображений и видео языковая модель впервые победила диффузионную модель, и токенизатор является ключевым фактором
Большие языковые модели (LLM или LM) изначально создавали языки, но со временем они стали способны генерировать контент в нескольких модальностях и стали доминирующими в аудио, речи, генерации кода, медицинских приложениях, робототехнике и многом другом.
Конечно, LM также может генерировать изображения и видео. Во время этого процесса пиксели изображения сопоставляются визуальными создателями маркеров в серию дискретных маркеров. Затем эти лексемы подаются в LM-преобразователь и используются для генеративного моделирования так же, как словарь. Несмотря на то, что LM добился значительных успехов в визуальной генерации, LM по-прежнему работает хуже, чем диффузионные модели. Например, при оценке на наборе данных ImageNet, золотом эталоне для генерации изображений, лучшая языковая модель показала себя на 48% хуже, чем диффузионная модель (FID 3,41 против 1,79 при создании изображений с разрешением 256��256).
Почему языковые модели отстают от диффузионных моделей с точки зрения визуальной генерации? Исследователи из Google, CMU считают, что основной причиной является отсутствие хорошего визуального представления, аналогичного нашей системе естественного языка, для эффективного моделирования визуального мира. Чтобы подтвердить эту гипотезу, они провели исследование.
Это исследование показывает, что при хорошем визуальном токенизаторе маскирующие языковые модели превосходят модели диффузии SOTA с точки зрения генеративной точности и эффективности эталонных изображений и видео для тех же обучающих данных, сопоставимых размеров моделей и бюджета на обучение. Это первое доказательство того, что языковая модель превосходит диффузионную модель в культовом бенчмарке ImageNet.
Следует подчеркнуть, что цель исследователей состоит не в том, чтобы утверждать, превосходит ли языковая модель другие модели, а в том, чтобы способствовать изучению методов визуальной токенизации LLM. Принципиальное отличие LLM от других моделей, таких как диффузионные модели, заключается в том, что LLM использует дискретный латентный формат, т.е. токены, полученные в результате визуализации токенизаторов. Это исследование показывает, что ценность этих дискретных визуальных токенов не следует упускать из виду из-за их следующих преимуществ:
Совместимость с LLM. Основное преимущество представления токена заключается в том, что оно имеет ту же форму, что и языковой токен, что позволяет напрямую использовать преимущества оптимизаций, которые сообщество делало на протяжении многих лет для разработки LLM, включая более быстрое обучение и логический вывод, достижения в инфраструктуре моделей, способы масштабирования моделей и инновации, такие как оптимизация GPU/TPU. Объединение видения и языка через одно и то же пространство токенов может заложить основу для по-настоящему мультимодального LLM, который может быть понят, сгенерирован и аргументирован в нашей визуальной среде.
Сжатое представление. Дискретные токены могут по-новому взглянуть на сжатие видео. Визуальные токены можно использовать в качестве нового формата сжатия видео для уменьшения дискового пространства и пропускной способности, занимаемой данными при передаче через Интернет. В отличие от сжатых пикселей RGB, эти маркеры могут подаваться непосредственно в генеративную модель, минуя традиционную декомпрессию и потенциальные этапы кодирования. Это может ускорить обработку видеоприложений, что особенно полезно в сценариях периферийных вычислений.
Преимущества визуального понимания. Предыдущие исследования показали, что дискретные токены являются ценными в качестве предварительных целей при обучении с самоконтролируемым представлением, как обсуждалось в BEiT и BEVT. Кроме того, исследование показало, что использование токенов в качестве входных данных модели повышает надежность и обобщение.
В этой статье исследователи предлагают видеотокенизатор под названием MAGVIT-v2, который предназначен для отображения видео (и изображений) в компактные дискретные токены.
Модель основана на видеотокенизаторе SOTA – MAGVIT в рамках VQ-VAE. Исходя из этого, исследователи предлагают две новые технологии: 1) новый метод количественной оценки без поиска, позволяющий выучить большое количество слов для повышения качества генерации языковой модели; 2) Благодаря обширному эмпирическому анализу они определили модификации MAGVIT, которые не только улучшают качество сборки, но и позволяют токенизировать изображения и видео с помощью общего словаря.
Экспериментальные результаты показывают, что новая модель превосходит предыдущий самый эффективный видеотокенизатор MAGVIT в трех ключевых областях. Во-первых, новая модель значительно улучшает качество сборки MAGVIT, освежая SOTA на распространенных эталонах изображения и видео. Во-вторых, исследования пользователей показали, что его качество сжатия превосходит качество MAGVIT и текущего стандарта сжатия видео HEVC. Более того, он сопоставим с видеокодеком следующего поколения VVC. Наконец, исследователи показали, что их новый токен лучше справляется с задачей понимания видео с двумя настройками и тремя наборами данных по сравнению с MAGVIT.
Введение в метод
В этом документе представлен новый видеотокенизатор, предназначенный для динамического отображения пространства-времени в визуальных сценах в компактные дискретные лексемы, подходящие для языковых моделей. Кроме того, метод основан на MAGVIT.
Затем в исследовании были выделены две новые разработки: квантование без поиска (LFQ) и усовершенствования модели создания маркеров.
Без квантования поиска
В последнее время модель VQ-VAE добилась больших успехов, но одним из недостатков этого метода является то, что взаимосвязь между улучшением качества реконструкции и качеством последующей генерации не ясна. Многие ошибочно думают, что улучшение реконструкции эквивалентно улучшению генерации языковых моделей, например, расширение словарного запаса может улучшить качество реконструкции. Однако это улучшение относится только к созданию небольшого словаря, что может повредить производительности языковой модели, когда словарный запас очень большой.
В этой статье размер встраивания кодовой книги VQ-VAE уменьшается до 0, что является кодовой книгой
В отличие от модели VQ-VAE, эта новая конструкция полностью устраняет необходимость во встроенном поиске, отсюда и название LFQ. В данной работе делается вывод о том, что LFQ может улучшить качество генерации языковых моделей за счет увеличения словарного запаса. Как показано на синей кривой на рисунке 1, как реконструкция, так и генерация улучшаются по мере увеличения словарного запаса, чего не наблюдается в современных подходах VQ-VAE.
Федеративные изображения - токенизация видео. Для того, чтобы создать федеративный токенизатор изображений и видео, необходим новый дизайн. В этой статье делается вывод о том, что 3D-СНС работают лучше, чем пространственные преобразователи.
В данной статье рассматриваются два возможных варианта конструкции, такие как на рисунке 2b, сочетающий C-ViViT с MAGVIT; На рисунке 2c используется временная причинно-следственная 3D-свертка вместо обычной 3D-СНС.
Результаты экспериментов
Эксперименты проверяют производительность предложенного в этой статье токенизатора из трех частей: генерация видео и изображений, сжатие видео и распознавание движения. На рисунке 3 визуально сравниваются результаты Tokenizer с предыдущими исследованиями.