Фронтально міцний ГПТ-4В! Випускники Чжецзянського університету з відкритим вихідним кодом мультимодальна велика модель LLaVA-1.5, 13 мільярдів параметрів і 8 A100 можуть бути навчені за один день

Перше джерело: Xinzhiyuan

Джерело зображення: створено Unbounded AI

Наприкінці вересня OpenAI оголосив про зняття заборони на мультимодальні можливості ChatGPT. Чарівні можливості мультимодального GPT-4V змусили всіх вигукнути: це GPT-4.5?

Невдовзі конкурент GPT-4V з відкритим кодом, LLaVA-1.5, уже був тут!

У квітні дослідники з Університету Вісконсіна-Медісон, Microsoft Research і Колумбійського університету відкрили вихідний код нової наскрізної мультимодальної великої моделі LLaVA.

Тепер оновлений LLaVA-1.5 не тільки досягає результатів SOTA в 11 еталонних тестах, але навіть може прямо конкурувати з GPT-4V.

Дослідники значно покращили продуктивність LLaVA-1.5, використовуючи CLIP-ViT-L-336px із відображенням MLP і додавши орієнтовані на академічні завдання дані VQA з простими підказками у форматі відповіді.

Результати показують, що LLaVA-1.5, який має простішу архітектуру, потребує лише 1,2 мільйона публічних даних, що може перевершити Qwen-VL, який використовує 1,45 мільярда навчальних даних, і HuggingFace IDEFICS (модель 80B, подібна до Flamingo), який використовує 130 мільйонів даних.

Серед них навчання моделі 13B можна завершити протягом 1 дня лише з 8 A100.

LLaVA-1.5 тверда планка GPT-4V

Кажуть, що він може конкурувати з GPT-4V, але в чому сила LLaVA-1.5?

Нехай GPT-4V, LLaVA і LLaVA-1,5 шт.

адреса проекту:

Запитання: «Якщо є фактичні помилки, вкажіть їх. Якщо ні, скажіть, будь ласка, що відбувається в пустелі?»

Відповідь GPT-4V була трохи дурною: «Вибачте, я не можу відповісти на це запитання, оскільки немає контексту, щоб показати пустелю, яку ви згадали».

LLaVA правильно відповів: «На зображенні місто та пляж утворюють міський горизонт, а люди насолоджуються заходом сонця. Ця сцена на пляжі насправді знаходиться в пустелі, що досить незвично».

Єдиний ідеальний результат, LLaVA-1.5, дав ідеальну відповідь: «На зображенні взагалі немає пустелі, але є пальми, пляжі, міські горизонти та велика водойма».

Крім того, LLaVA-1.5 також може отримувати інформацію з графіка та відповідати в потрібному форматі, наприклад, виводити її у форматі JSON.

Видно, що LLaVA-1.5 в основному впорався із завданням, і є ще деякі недоліки порівняно з GPT-4V.

Подібним чином надайте LLaVA-1.5 зображення, повне фруктів і овочів, і воно зможе перетворити зображення на JSON, як GPT-4V.

Візуальний аналіз і інтелектуальне перетворення даних – це так просто!

Наступне питання не таке просте - що означає ця картинка?

Виявилося, що це спрощений скетч за мотивами «Початку» Нолана, щоб збільшити складність, ім’я персонажа було замінено на псевдонім.

LLaVA-1.5 не збентежився і впевнено відповів: «Це картинка про фільм «Початок». Вона показує різні рівні у світі мрій, і кожен рівень позначено лінією. Зображення Напишіть це на аркуші паперу та покладіть папір на стіл».

Гурмани радіють! Що робити, якщо ви бачите апетитну фотографію, яка викликає бажання її з’їсти?

Надішліть його безпосередньо до LLaVA-1.5, і він швидко згенерує для вас рецепт.

Крім того, LLaVA-1.5 може розпізнавати коди перевірки без «джейлбрейка».

Він також може визначити, яка монета на зображенні.

Особливо вражає те, що LLaVA-1.5 також може сказати вам, якої породи собака на зображенні.

Деякі користувачі мережі використовували Bing, щоб створити зображення чоловіка в зимовому пальто на сонячному літньому пляжі, і попросили LLaVA 1.5 вказати, які проблеми є на зображенні.

Його проникливе око дуже гостре——

Це оброблена або фотошоплена фотографія чоловіка в піджаку, який стоїть на пляжі. Чоловік розкрив пальто, і сонце осяяло його. Проблема з цим зображенням полягає в тому, що це не справжня пляжна сцена. Чоловік насправді не стояв на пляжі і сонце не світило на нього. Це зображення було оброблено в фотошопі, щоб створити ілюзію пляжної сцени, але воно не відповідає дійсності.

Однак здатність LLaVA-1.5 писати інтерфейсний код відповідно до дизайну слабша.

Судячи з результатів, його вихід справді є відносно сирим...

8 A100, навчання завершено за один день

Архітектура моделі LLaVA поєднує попередньо навчений візуальний кодер (CLIP ViT-L/14) з великомасштабною мовною моделлю (Vicuna).

Дві моделі з’єднані простою матрицею відображення, яка відповідає за вирівнювання або трансформацію візуальних і лінгвістичних функцій, щоб ними можна було керувати в єдиному просторі.

У мультимодальних інструкціях після набору даних LLaVA показав хороші результати з результатом 85,1% порівняно з GPT-4. На Science QA точність LLaVA встановила новий рекорд, досягнувши 92,53%.

Цього разу дослідники створили більш потужну та практичну базову лінію на основі фреймворку LLaVA.

Адреса паперу:

Кросмодальні з’єднувачі MLP і об’єднання даних, пов’язаних із навчальними завданнями (таких як VQA), надають LLaVA сильніші можливості мультимодального розуміння.

Порівняно з InstructBLIP або Qwen-VL, які є спеціально розробленими візуальними ресемплерами, навченими на сотнях мільйонів або навіть мільярдах парних даних зображення та тексту, LLaVA використовує найпростіший дизайн архітектури LMM, для якого потрібно лише 600 тис. зображень. простий повністю зв'язаний шар відображення.

Остаточна модель може бути навчена на 8 A100 за один день, і вона досягла рівня SOTA в різних контрольних тестах.

Крім того, Qwen-VL включає внутрішні дані під час навчання, але LLaVA потребує лише публічних даних.

Немає сумніву, що ці вдосконалені та легко відтворювані базові показники стануть цінним орієнтиром для майбутнього LMM з відкритим кодом.

Продуктивність значно покращено, 11 елементів SOTA оновлено

Як модель тонкого налаштування візуальних інструкцій з відкритим вихідним кодом, LLaVA дуже добре показує можливості візуального мислення - у порівняльних тестах, заснованих на реальних візуальних інструкціях, які виконують завдання, LLaVA навіть перевершує останні моделі.

Однак LLaVA не показала себе добре в академічних тестах, які часто вимагають коротких відповідей, наприклад слів. Причина в тому, що LLaVA не проходить попереднє навчання великомасштабним даним.

Масштабування моделі

По-перше, дослідники збільшили роздільну здатність вхідного зображення, щоб LLM міг чітко «бачити» деталі зображення, і додали набір даних GQA як додаткове джерело візуальних знань. Крім того, також додано дані ShareGPT, щоб збільшити LLM до 13B.

Результати MM-Vet показують, що покращення є найбільш значним, коли LLM розширено до 13B, що також показує, що здатність базового LLM у візуальному діалозі є дуже важливою.

Остаточна модель після всіх удосконалень, відома як LLaVA-1.5, показала вражаючі результати, значно перевершивши оригінальну LLaVA.

Результати масштабування для даних, моделі та роздільної здатності

Порівняння з SOTA

Потім дослідники перевірили LLaVA-1.5 на ряді академічних тестів VQA та тестів, запропонованих спеціально для LMM, що виконують інструкції.

Результати показують, що LLaVA-1.5 не тільки використовує менше даних попереднього навчання та тонкого налаштування інструкцій, але також використовує найпростішу архітектуру, академічні обчислення та загальнодоступні набори даних для досягнення найкращої продуктивності - за 11 із 12 тестів, отриманих SOTA.

Крім того, дослідження також виявило, що точне налаштування візуальних інструкцій відіграє більш важливу роль у покращенні можливостей LMM, ніж попереднє навчання.

Це також змушує нас переосмислити переваги візуальних семплерів і необхідність додаткового широкомасштабного попереднього навчання з точки зору можливостей виконання мультимодальних інструкцій.

Порівняння з методами SOTA на 12 тестах

Поради щодо формату відповіді

Дослідники виявили, що попередні методи, такі як InstructBLIP, не змогли досягти балансу між короткою та довгою формами VQA. Основна причина полягає в тому, що——

По-перше, підказки щодо формату відповіді були нечіткими.

Наприклад, "Q: {Question} A: {Answer}" не вказує чітко на ідеальний вихідний формат. Навіть природний візуальний діалог може призвести до того, що LLM переналаштує відповіді короткого формату.

По-друге, LLM не було налаштовано.

Наприклад, InstructBLIP лише точно налаштовує інструкції для Qformer. Незважаючи на те, що можна використовувати маркер візуального виведення Qformer для керування довжиною виводу LLM, Qformer має відносно обмежену ємність порівняно з LLM, такими як LLaMA, тому він може не мати змоги зробити це належним чином.

Щоб вирішити цю проблему, дослідники запропонували додати підказку в кінці запитання VQA, яка б прояснила вихідний формат, дозволяючи моделі генерувати короткі відповіді. Наприклад: «Відповісти на питання одним словом або фразою».

Коли LLM використовує цю підказку для точного налаштування, LLaVA може правильно налаштувати вихідний формат відповідно до інструкцій користувача та не вимагає додаткової обробки даних VQA за допомогою ChatGPT.

Результати показують, що просто додавши VQAv2 під час навчання, продуктивність LLaVA на MME значно покращилася (1323,8 проти 502,8), що на 111 балів вище, ніж у InstructBLIP!

### Дані для навчальних завдань

Крім того, дослідники додали набори даних VQA для академічних завдань для VQA, OCR та сприйняття на регіональному рівні, щоб покращити можливості моделі з різних аспектів.

Спочатку вони включили чотири додаткові набори даних, які використовує InstructBLIP: Open Knowledge VQA.

Серед них A-OKVQA перетворюється на формат запитання з кількома варіантами відповіді та використовує підказку спеціального формату відповіді – дайте відповідь безпосередньо за допомогою літер у наведених варіантах.

Використовуючи лише частину набору даних, який використовує InstructBLIP, LLaVA перевершив InstructBLIP у всіх трьох завданнях у таблиці 1, що показує, що дизайн LLaVA дуже ефективний.

Крім того, дослідники виявили, що здатність моделі локалізувати дрібні візуальні деталі можна покращити шляхом подальшого додавання наборів даних VQA на рівні регіону.

Узагальнення інструкцій у форматі Zero-shot

Хоча LLaVA-1.5 використовує лише інструкції обмеженого формату для навчання, він може узагальнювати інструкції інших форматів.

Наприклад, VizWiz вимагає, щоб модель виводила «unanswerable», коли наданого вмісту недостатньо для відповіді на запитання, а підказки формату відповіді LLaVA можуть ефективно наказати моделі це зробити (питання, на які немає відповіді, складають 11,1% → 67,8%).

### Багатомовна можливість Zero-shot

У той же час LLaVA-1.5 не налаштована на багатомовні інструкції. Однак, оскільки ShareGPT містить велику кількість релевантних даних, він все ще може реалізувати багатомодальне виконання команд кількома мовами.

Дослідники кількісно оцінили здатність моделі до узагальнення китайською мовою на MMBenchCN, де запитання MMBench були перетворені на китайську мову.

Варто зазначити, що LLaVA-1.5 на 7,3% точніший за Qwen-VL-Chat (63,6% проти 56,7%). Серед них Qwen зробив тонке налаштування китайських мультимодальних інструкцій, а LLaVA-1.5 – ні.

Витрати на обчислення

Для LLaVA-1.5 дослідники використали той самий набір даних попереднього навчання, що й для LCS-558K, і зберегли приблизно таку ж кількість ітерацій навчання з тонким налаштуванням інструкцій і розміри пакетів, що й LLaVA.

Оскільки вхідна роздільна здатність зображення збільшена до 336 пікселів, час навчання LLaVA-1.5 вдвічі перевищує час LLaVA: 6 годин попереднього навчання та 20 годин тонкого налаштування візуальних інструкцій за допомогою 8 A100.

Обмеження

Хоча LLaVA-1.5 досягла дуже хороших результатів, слід визнати, що вона все ще має деякі обмеження.

По-перше, LLaVA використовує повні патчі зображень, що може подовжити час кожної ітерації навчання.

По-друге, LLaVA-1.5 ще не може обробляти кілька зображень через відсутність таких інструкцій для дотримання даних і обмеження довжини контексту.

По-третє, хоча LLaVA-1.5 може вміло виконувати складні інструкції, його можливості вирішення проблем все одно будуть обмежені в деяких областях, чого можна досягти шляхом тонкого налаштування даних за допомогою більш потужних мовних моделей і високоякісних цільових візуальних інструкцій.

Нарешті, LLaVA-1.5 неминуче схильний до галюцинацій і дезінформації, тому його слід використовувати з обережністю в таких критичних цілях, як медицина.

Про автора

Haotian Liu

Хаотян Лю є докторантом з інформатики в Університеті Вісконсіна-Медісон під керівництвом професора Йонг Дже Лі. Раніше він отримав ступінь бакалавра Чжецзянського університету.

Його наукові інтереси стосуються комп’ютерного зору та машинного навчання, особливо ефективних алгоритмів для візуального сприйняття та розуміння. Останні дослідження зосереджені на створенні настроюваних великих моделей на основі людських намірів.

Чуньюань Лі

Чунюань Лі є головним науковим співробітником Microsoft Research Redmond.

Раніше він отримав ступінь доктора філософії з машинного навчання в Університеті Дьюка, де його керівником був професор Лоуренс Карін. Він очолював NeurIPS, ICML, ICLR, EMNLP і AAAI, а також був запрошеним редактором IJCV.

Його останні дослідження зосереджені на широкомасштабній попередній підготовці комп’ютерного зору та обробки природної мови. Наприклад, побудова великомасштабних мультимодальних моделей, які відповідають людським намірам, візуальна та мовна попередня підготовка, а також великомасштабні глибокі генеративні моделі.

Юхен Лі

Юхен Лі є докторантом з інформатики в Університеті Вісконсін-Медісон під керівництвом професора Йонг Дже Лі. Раніше він отримав ступінь бакалавра в Huazhong University of Science and Technology.

Його дослідницькі інтереси пов’язані з генерацією та обробкою керованих мультимодальних зображень та іншими проблемами, пов’язаними з творчим баченням.

Література:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити