Альпаки еволюціонують у китів, Мета «автоматизує» вирівнювання, а Горбатий перемагає всі існуючі моделі LLaMa

2023-08-15 05:46:13

Редактори: Сяочжоу, Чень Пін

**Джерело: **The Heart of the Machine

Минулого року велика мовна модель (LLM), представлена ChatGPT і GPT-4, швидко розвивалася, а за нею пішли моделі LLaMa та Llama 2 від Meta з відкритим кодом, які також викликали неабиякий ажіотаж у світі штучного інтелекту. . Але далі були постійні суперечки.Деякі люди вважали, що LLM має деякі неконтрольовані ризики, створюючи деякі потенційні загрози для виживання людини.

Щоб вирішити ці проблеми, дослідження вирівнювання LLM стають все більш і більш важливими.Деякі дослідники запропонували дотримання інструкцій (дотримання інструкцій), але цей метод вимагає багато анотацій вручну. Однак анотування таких високоякісних наборів даних, які слідують інструкціям, коштує дорого.

У цій статті дослідники з Meta AI пропонують масштабований метод під назвою зворотний переклад інструкцій, який створює високоякісну мовну модель, що виконує інструкції, шляхом автоматичного анотування відповідних інструкцій.

Адреса паперу:

Зокрема, дослідження починається з мовної моделі як початкової моделі, яка точно налаштована на невеликій кількості початкових даних, а також веб-корпусів. Роль вихідної моделі полягає в створенні навчальних зразків, а потім із цих зразків буде відібрано кілька високоякісних зразків, а потім ці дані будуть використані для точного налаштування більш потужної моделі.

Після двох раундів ітераційного налаштування набору даних LLaMa отримана модель Humpback перевершує інші існуючі недистильовані моделі, такі як LIMA, Claude, Guanaco тощо в таблиці лідерів Alpaca.

Горбатий спочатку означав горбатого кита, також відомого як горбатий кит. Мета назвав модель Горбатий, тому глибокого сенсу немає.

Причина, чому це називається зворотним перекладом інструкцій, кажуть дослідники, полягає в тому, що він спирається на класичний метод зворотного перекладу в машинному перекладі, у якому цільове речення, написане людьми, автоматично анотується вихідним реченням іншою мовою, створеним моделлю. .

Лауреат премії Тюрінга Янн ЛеКун дав загальний огляд методології дослідження та високо оцінив роботу Мети як важливий внесок у дослідження вирівнювання:

Деякі користувачі мережі зробили гарний підсумок цього дослідження: якість даних дійсно важлива для великих моделей. У процесі дослідження вони використовували різні рівні відфільтрованих даних для точного налаштування моделі. Результати показали, що лише найкращі зразки для отримання модель, яка працює краще, ніж інші зразки.

У цьому документі пропонується нова парадигма розширення даних, яку потрібно завершити в два етапи. По-перше, необхідно мати набір початкових (інструкцій, вихідних) пар і корпус для генерації більш якісних даних інструкцій.

На малюнку нижче показано порівняння Humpback з деякими моделями з відкритим вихідним кодом і пропрієтарними моделями.

Таблиця 4 нижче показує, що наш метод працює найкраще серед недистильованих моделей як на модельних шкалах 65B, так і на 33B.

Давайте розглянемо конкретний метод нижче.

Ознайомлення з методом

У дослідженні пропонується підхід до самопідготовки, який зазвичай передбачає доступ до базової мовної моделі, невеликої кількості вихідних даних і немаркованого набору зразків (наприклад, веб-корпусу). Дані без міток часто являють собою велику колекцію документів різної форми, написаних людьми, включаючи вміст на різні теми, що цікавлять людей, але, що найважливіше, вони не поєднуються з інструкціями.

Тут є два ключових припущення.Перше припущення полягає в тому, що є деякі підмножини цього дуже великого текстового набору (набір зразків без міток), які підходять як згенеровані зразки для деяких інструкцій користувача. Друга гіпотеза полягає в тому, що інструкції відповідей цих кандидатів можна передбачити, що може бути використано для формування високоякісних пар вибірок для навчання моделей, що слідують інструкціям.

Як показано на малюнку 1 нижче, дослідження передбачає, що процес зворотного перекладу інструкцій включає два основні кроки:

Самодоповнення: генеруйте інструкції для немаркованих даних (тобто веб-корпусу) для генерації пар навчальних даних (інструкція-вихід) для налаштування інструкцій.
Самокерування: самостійно вибирайте високоякісні зразки даних як навчальні дані для точного налаштування базової моделі відповідно до інструкцій. Цей метод виконується ітераційно.

Серед них прийняті кроки самоконтролю показані в таблиці 1 нижче:

Експеримент і результати

Набір даних у цьому документі в основному включає дані про насіння та розширені дані. Конкретна інформація наведена в таблиці 2 і на малюнку 2:

На рисунку 3 показано, що доповнені дані без самоконтролю, які використовуються для навчання моделі, не покращують продуктивність інструкцій, незважаючи на збільшення розміру даних.

На малюнку нижче порівнюється ефективність даних різних наборів даних налаштування інструкцій.

Спільне розширення даних і моделей: дослідження виявило, що тенденції розширення даних, які спостерігаються в моделі 7B, також застосовуються до більших моделей. Наприклад, додавання високоякісних даних доповнення до початкової моделі 65B принесе додаткові покращення.

Розсудливі міркування: дослідження було протестовано за п’ятьма тестами здорового глузду, SIQA, PIQA, Arc-Easy, Arc-Challenge та Openbook QA (OBQA), і результати підсумовані в таблиці 5. Результати показують, що порівняно з базовою моделлю продуктивність нашої моделі була покращена в кількох аспектах, таких як соціальне міркування.

MMLU: Таблиця 6 підсумовує результати різних моделей у MMLU (розуміння мови масового виконання багатьох завдань). Наша детально налаштована модель покращує точність нульового удару порівняно з базовою моделлю, але працює погано на контекстному прикладі з 5 зразками.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків

Нагородити
1
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
Gate 2025 Q2 Report Released
24397 Популярність
Altcoin Season Update
7415 Популярність
Bitcoin Whale Moves
1124 Популярність
4Gate Derivatives Volume Hits New High
14763 Популярність
5CPI Data Incoming
58645 Популярність
6Join Gate VIP to Win MacBook
29607 Популярність
7MicroStrategy Buys More Bitcoin
1579 Популярність
8BTC Hits New High
110198 Популярність
9My Gate Moments
26216 Популярність
10VIP Exclusive Airdrop Carnival
25653 Популярність

Закріпити

карта сайту