Розуміння LCL в одній статті: здатність до навчання мультимодальних великих моделей можна покращити за допомогою «причинно-наслідкових міркувань»

撰文: Екрем Четінкая

Джерело: MarkTechPost

Джерело зображення: створено інструментом Unbounded AI

Здатність мовних моделей генерувати зв’язний і контекстно-залежний текст революціонізувала спосіб спілкування з комп’ютерами. Великі мовні моделі (LLM) були в авангарді цього прогресу, вивчаючи моделі та нюанси людської мови, навчаючись на величезних обсягах текстових даних. ChatGPT, піонер революції LLM, надзвичайно популярний серед людей з різних дисциплін.

Надпотужність LLM полегшує виконання різноманітних завдань. Ми використовуємо їх для узагальнення тексту, створення електронних листів, автоматизації завдань програмування, інтерпретації документів тощо. Усі ці завдання, які рік тому вимагали багато часу, тепер можна виконати за лічені хвилини.

Однак із зростаючою потребою в мультимодальному розумінні моделі повинні обробляти та генерувати вміст у різних модальностях, таких як текст, зображення та навіть відео, тому виникла потреба у багатомодальних моделях великої мови (MLLM). MLLM поєднує в собі потужність мовних моделей із візуальним розумінням, дозволяючи машинам розуміти та генерувати вміст у більш вичерпний спосіб з урахуванням контексту.

Коли захоплення ChatGPT трохи вщухло, MLLM штурмом захопили сферу штучного інтелекту, дозволивши машинам розуміти та генерувати вміст у різних режимах, наприклад текст і зображення. Ці моделі добре виконують такі завдання, як розпізнавання зображень, основи бачення та розуміння інструкцій. Однак питання, як ефективно навчити ці моделі, залишається проблемою. Найбільша проблема полягає в тому, що коли MLLM стикається з абсолютно незнайомою сценою, і зображення, і мітки невідомі.

Крім того, MLLM має тенденцію «губитися» під час обробки довших контекстів. Ці моделі значною мірою залежать від початкових і середніх позицій, тому точність плато (тимчасові паузи або зниження в процесі навчання або формування навичок) зі збільшенням кількості зразків. Таким чином, MLLM бореться з довшими входами.

Тепер давайте познайомимося з навчанням контексту посилань (LCL) для вирішення різноманітних завдань у MLLM.

*Пропоноване посилання - Демонстраційний діалог контекстного навчання; Джерело: *

У MLLM є дві ключові стратегії навчання. Мультимодальне налаштування підказок (M-PT) і мультимодальне налаштування інструкцій (M-IT). M-PT налаштовує лише невелику частину параметрів моделі, залишаючи решту параметрів незмінними. Цей підхід допомагає досягти результатів, подібних до повного тонкого налаштування, при мінімізації обчислювальних ресурсів. M-IT, з іншого боку, розширює можливості MLLM з нуля шляхом точного налаштування MLLM на наборі даних, що містить описи інструкцій. Ця стратегія покращує здатність моделі розуміти та справлятися з новими завданнями без попереднього навчання. Усі ці методи ефективні, але всі вони пов’язані з жертвами.

Різниця між контекстним навчанням і пов’язаним контекстним навчанням. Джерело: https://arxiv.org/abs/2308.07891

LCL досліджує різні стратегії навчання: змішану стратегію, двонаправлену стратегію, двонаправлену стохастичну стратегію та двонаправлену зважену стратегію. Видатною особливістю гібридної стратегії є те, що вона може значно підвищити точність нульових проб і досягти вражаючих результатів, коли кількість проб досягне 6. Однак на 16 зразках його продуктивність трохи падає. Навпаки, точність двосторонньої стратегії поступово покращується з 2 зразків до 16 зразків, що вказує на те, що він ближче до шаблону навчання.

На відміну від традиційного контекстного навчання, LCL йде далі і дає моделі можливість встановлювати відображення між джерелами та цілями, таким чином покращуючи її загальну продуктивність. Забезпечуючи демонстрацію причинно-наслідкових зв’язків, LCL дозволяє MLLM ідентифікувати не лише аналогії, але й потенційні причинно-наслідкові зв’язки між точками даних, що робить його ефективнішим у ідентифікації невидимих зображень і розумінні нових концепцій.

Крім того, LCL також представляє набір даних ISEKAI, новий комплексний набір даних, спеціально розроблений для оцінки можливостей MLLM. Набір даних ISEKAI складається з повністю згенерованих зображень і сфабрикованих концепцій. Це кидає виклик MLLM засвоювати нові концепції з поточних розмов і зберігати ці знання, щоб точно відповідати на запитання.

Підводячи підсумок, LCL надає цінну інформацію про стратегії навчання, які використовуються мультимодальними моделями мови. Гібридні стратегії та двонаправлені стратегії пропонують різні підходи до покращення продуктивності мультимодальних мовних моделей, кожна з яких має свої сильні сторони та обмеження. Контекстний аналіз проливає світло на проблеми, з якими стикаються мультимодальні мовні моделі під час обробки довших вхідних даних, а також підкреслює важливість подальших досліджень у цій галузі.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити