Перенавчайте велику модель за допомогою токена паузи, і ШІ навчиться думати двічі

2023-10-15 04:52:39

Джерело: Qubits

Більше обмірковуючи кроки, перш ніж ChatGPT дасть відповідь, можна підвищити точність.

Тож чи можете ви пропустити підказку та безпосередньо засвоїти цю здатність у великій моделі?

Нове дослідження, проведене CMU та командою Google, додає токен паузи під час навчання великих моделей для досягнення цього.

В експерименті покращилися бали 8 оцінок, серед яких оцінка EM SQuAD зросла на 18%, CommonSenseQA збільшилася на 8%, а завдання логічного висновку в GSM8k також зросло на 1%.

Дослідник Джек Хак сказав, що не так давно висунув подібну гіпотезу і був радий її перевірці.

Інженер Nvidia Аарон Еріксон сказав, що чи є правдою додавати «е-е-е-е» під час розмови з людьми?

До токена паузи додано тонке налаштування перед тренуванням

В основі всього дослідження лежить проста ідея:

Додайте послідовність (токен паузи) до вхідної послідовності, затримуючи модель від виведення наступного токена.

Це може дати моделі додатковий обчислювальний час для обробки більш складних вхідних даних.

Автори не тільки вводять його, коли подальша задача налаштовується, але й випадковим чином вставляють його в послідовність під час попереднього навчання, дозволяючи моделі навчитися використовувати переваги цієї обчислювальної затримки на обох етапах.

На етапі попереднього тренування певний відсоток токенів паузи випадковим чином вставляється в корпус у вхідну послідовність для стандартної авторегресійної попередньої підготовки. Однак прогноз призупиненого токена пропускається при розрахунку збитку.

Коли низхідне завдання налаштовується, певна кількість токенів паузи додається до вхідних даних, а потім робиться авторегресивне прогнозування цільової послідовності, одночасно тонко налаштовуючи параметри моделі.

Фаза логічного висновку також додає таку саму кількість токенів паузи, але ігнорує вихід моделі до останнього токена паузи, а потім починає витягувати відповідь.

В експерименті використовується стандартна модель чистого декодера Transformer, яка розділена на дві версії: параметр 130M і параметр 1B.

Токен паузи додає лише 1024 параметри, що є його власним розміром вбудовування.

Експерименти над 9 різними завданнями показали, що ефект від введення токенів паузи тільки на етапі тонкого налаштування не був очевидним, а деякі завдання не покращилися.

Але якщо ви використовуєте токени паузи як на етапі попереднього навчання, так і на етапі тонкого налаштування, ви отримаєте значне покращення більшості завдань.

У статті також досліджуються ключові гіперпараметри, такі як кількість і розташування підвішених токенів. З'ясувалося, що для різних моделей зазвичай знайдеться оптимальна кількість.

Наостанок автори також зазначають, що ця робота також має низку обмежень.

Оскільки токен призупинення збільшує обсяг обчислень моделі, чи справедливо порівнювати його з іншими методами, ще належить обговорити
Новий метод потребує повторного попереднього навчання, а застосувати його на практиці поки що складно
Досі бракує глибокого розуміння конкретних механізмів роботи
Якщо кількість токенів паузи дорівнює 0 під час виведення, модель все одно працює погано

Генеральний директор пошукової системи You.com заявив, що наступний крок - випробувати всі методи поліпшення когнітивних функцій людини на великих моделях?

Зараз є «подумай крок за кроком» і «глибоко вдихни».

Можливо, наступний блокбастер – навчити великих моделей спати з проблемами, або більш обурливо здоровим харчуванням і фізичними вправами.

Паперова адреса:

Посилання на джерела:
[1]

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
1/3
1CandyDrop Airdrop Event 6.0
17k Популярність
2White House Crypto Report
35k Популярність
3Join Alpha RION Airdrop to Earn $40
9k Популярність
4Fed Holds Rates Decision
8k Популярність
5July Spark Program TOP 10 Creators Announced
2k Популярність

Закріпити

карта сайту