Байти «розпаковують» усі великі моделі OpenAI, розкриваючи шлях еволюції від GPT-3 до GPT-4! підірвав Лі Му

Джерело статті: qubits

Як саме GPT-3 еволюціонував у GPT-4?

Bytes дав OpenAI всім великим моделям операцію «розпакування».

Результати дійсно з'ясували конкретну роль і вплив деяких ключових технологій на еволюцію GPT-4.

Наприклад, що:

  • SFT сприяв еволюції ранніх GPT
  • Найбільший внесок у можливості кодування GPT роблять SFT і RLHF
  • Додавання кодових даних до попереднього навчання покращує можливості наступних версій GPT у всіх аспектах, особливо висновків...

Після відкриття бізнесу в очах громадськості також з'явився дуже зайнятий бик-штучний інтелект Лі Му**, який був дуже зайнятий, і похвалив це дослідження.

Користувачі мережі навіть похвалили:

Це перша на сьогоднішній день робота, яка повністю розпаковує всі моделі OpenAI, респект.

Крім деяких нових відкриттів, це також підтверджує деякі існуючі припущення:

Наприклад, GPT-4 не є панікером щодо того, щоб стати дурним, і ця оцінка показала, що на шляху еволюції GPT існує очевидний «феномен гойдалки», тобто одні здібності збільшуються, а інші знижуються під час еволюції моделі.

Це збігається з попередніми почуттями користувачів мережі.

Як каже сам автор:

Ця робота може дати цінну інформацію про еволюційний шлях від GPT-3 до GPT-4.

Іншими словами, через нього ми можемо отримати уявлення про «шлях успіху» моделі GPT і надати ефективний досвід для наступних великомасштабних робіт з будівництва моделі.

Отже, що саме він «відкриває», давайте подивимося на папір.

Досліджуємо еволюцію від GPT-3 до GPT-4

Перша еволюційна діаграма була узагальнена авторами на основі загальнодоступної інформації.

Як бачите, він позначає, які технології зазнала кожна проміжна модель (такі як тонке налаштування коду, SFT/FeedME тощо), які еволюціонували від оригінального GPT-3 до 3.5, а тепер і до 4.

Від davinci до gpt-4-0613, байти перевірили всі 7 основних здібностей кожного покоління GPT, таких як математика, кодування та міркування.

### 1. SFT: рушійна сила ранньої еволюції GPT

По-перше, у сімействі GPT-3 оригінальний davinci (GPT-3) еволюціонував у text-davinci-001, контролюючи тонке налаштування SFT та його варіанту, FeedME.

Це дає останньому приріст продуктивності практично на всіх завданнях:

Більш інтуїтивно зрозуміле представлення показано на малюнку нижче («фандом» є еволюційний текст-davinci-001).

Потім GPT перейшов у серію 3.5, де найпростіший код-davinci002 еволюціонував у text-davinci-002 за тією ж технологією.

Однак ефект від цієї еволюційної операції насправді не великий, і продуктивність GPT покращилася лише в кілька разів, і більше не збільшилося, а зменшилося.

Тут автори підводять свій перший висновок, а саме:

SFT працює тільки на слабких базових моделях і мало впливає на сильніші моделі.

Подібне явище можна спостерігати і в моделях з відкритим вихідним кодом (в цьому огляді також тестувалися Llama1 і 2, PaLM2-L, Claude 2 і т.д.):

На додаток до оригінального Llama-65B, SFT вдалося покращити свої характеристики в бенчмарку MMLU, але всі Llama2-70B, які використовували покращення SFT, показали лише незначні покращення в таблиці лідерів Open LLM.

Резюме: На етапі GPT3 технологія SFT відіграла ключову роль в еволюції моделі.

2, RLHF та SFT: Сприяє покращенню навичок кодування

Слідом за серією GPT3.5, починаючи з text-davinci-002, OpenAI почала впроваджувати нову технологію на основі алгоритму PPO RLHF, в результаті чого з'явився text-davinci-003.

На даний момент його продуктивність у більшості бенчмарків на рівні або трохи гірша за його попередника, що вказує на те, що ефект не особливо очевидний (і те саме стосується моделей з відкритим вихідним кодом).

За одним винятком: завдання з кодування, яке зросло майже на 30 пунктів.

Нагадуючи попередній code-davinci002, який використовував технологію SFT для еволюції в text-davinci-002, що призвело до зниження загальної продуктивності, завдання кодування не постраждало, але оцінка зросла——

Автори вирішили перевірити вплив SFT і RLHF на здатність кодування великих моделей.

Тут вони виміряли такі бали, як pass@1 (ймовірність 1 проходу 1 вибірки) pass@100 (ймовірність 100 проходів 100 зразків) кількох поколінь моделей GPT.

В результаті модель з використанням технології SFT і RLHF показала значне поліпшення pass@1 і незначне зниження pass@100 в порівнянні з базовою моделлю.

Що це означає?

Автор пояснює:

pass@100 описує внутрішню здатність кодування моделі, тоді як pass@1 представляє одноразову здатність моделі кодувати без помилок.

pass@100 незначне зниження свідчить про те, що SFT і RLHF все ще мають так званий податок на вирівнювання завдань кодування, як і будь-яке інше завдання.

Тим не менш, SFT і RLHF змогли навчитися pass@1 pass@100 здібностям, тобто перетворити внутрішні здібності (але вимагають багато спроб) в кодування без помилок, що призвело до значного збільшення pass@1.

Уважно подивившись на результати, ми можемо побачити, що gpt-3.5-turbo-0301 значно покращує pass@1 за рахунок SFT і RLHF, що є гарною новиною для оптимізації продуктивності невеликих моделей.

І це ще не все, враховуючи, що автори раніше помітили, що GPT-4 зміг вирішити проблему після кількох спроб деяких складних завдань логічного висновку.

У поєднанні з наведеними вище спостереженнями вони узагальнили його так:
LLM все ще можуть використовувати SFT і RLHF для безперервного перетворення своїх внутрішніх можливостей (але вони вимагають кількох спроб) в можливості одноразового вирішення проблем, наближаючись до верхньої межі можливостей LLM.

Мається на увазі, що GPT-4 може бути ще сильнішим.

3. Код додається до попереднього навчання, що є найкориснішим для висновків

На шляху еволюції GPT4 також з'явилися 2 спеціальні моделі:

code-cushman-001 (Codex-12B) 和code-davinci-002。

Перший є першою спробою OpenAI навчити модель за допомогою даних коду, і, незважаючи на невеликий масштаб, він також досяг хороших можливостей коду.

Остання є базовою моделлю GPT3.5, яка є результатом навчання з кодом RLHF+ на базі GPT3, тобто гібридного попереднього навчання тексту та коду.

Видно, що він значно перевершує GPT-3 (не тільки за здатністю кодування), і навіть перевершує GPT-3.5-turbo-0613 у деяких завданнях логічного висновку (наприклад, BBH).

Автори зазначають:

Це свідчить про те, що додавання кодових даних до попереднього навчання може всебічно покращити можливості LLM, особливо висновків.

4, феномен "гойдалки"

Порівнюючи моделі OpenAI API за березень 2023 року та червень 2023 року, ми дійсно можемо побачити цей феномен:

У порівнянні з gpt-3.5-turbo-0301, оновлений gpt-3.5-turbo-0613 добре показує себе на Human (53.9 -> 80.0), але значно падає на MATH (32.0 -> 15.0).

GPT-4-0613 перевершив GPT-4-0314 (78,7 -> 87,2) на DROP, але також побачив різке падіння (82,2 -> 68,7) на MGSM.

На думку авторів:

«Феномен гойдалки» може стати каменем спотикання на шляху до AGI для LLM, адже AGI робить акцент на «загальному інтелекті», і вимагає відмінної продуктивності у всіх завданнях, вимагаючи від моделей не бути «упередженими».

Тут вони також закликали спільноту звернути увагу на це питання та спільно сприяти дослідженням збалансованої розробки великих моделей.

Допоможіть великим модельним практикам знайти свій шлях

Всі перераховані вище висновки засновані на GPT-Fathom -

Нещодавно компанія Byte запропонувала великий інструмент оцінки моделі.

Імовірно, у кожного повинні виникати питання:

Вже існує багато великих інструментів ранжування моделей та оцінки, тож навіщо вигадувати новий підхід?

На думку авторів, у порівнянні з існуючими методами оцінки, шкала GPT-Fathom є більш однорідною, а результати відтворюваними.

Великі моделі-практики можуть використовувати його, щоб прояснити, де знаходиться розрив між ними та провідною моделлю, щоб цілеспрямовано вдосконалювати свої продукти.

Зокрема, GPT-Fathom в основному вирішує три недоліки інших методів оцінки великих моделей:

Непослідовні критерії встановлення: Не існує єдиного стандарту щодо того, чи використовувати такі налаштування, як ланцюжок думок (CoT), розмір вибірки тощо, а також методи оцінювання відповідей Неповна модель і збір завдань: Здатність перевіряти увагу не є всеосяжною, і бракує фокусу на попередніх моделях Відсутність досліджень чутливості моделі

Для того, щоб більш інтуїтивно відобразити характеристики GPT-Fatham, автор порівнює деякі конкретні існуючі списки, які можна узагальнити в наступній таблиці:

Серед них оцінка чутливості виявила проблеми, які попередні стандарти випробувань не змогли виявити.

У порівнянні з GPT, інші моделі дуже чутливі до слів-підказок, і невелика зміна призведе до зовсім іншого результату, що свідчить про те, що все ще існує великий розрив між стійкістю інших моделей і GPT.

Наприклад, на наборі даних TriviaQA невелика зміна слова-підказки знизила оцінку Llama 2-70B на чверть, тоді як моделі серії GPT суттєво не змінилися.

Крім того, такі фактори, як CoT, розмір вибірки та дисперсія вибірки, також включаються до тестування чутливості.

У майбутньому автори планують продовжувати розширювати GPT-Fathom з трьох вимірів: типів можливостей, тестових наборів даних і моделей, а також підтримуватимуть оцінку багатораундового діалогу, мультимодальності та інших можливостей, а також збільшить тестування кількох наборів даних і моделей.

Двома співавторами GPT-Fatham є Юю Чжан, дослідник дослідницької групи прикладного машинного навчання Byte, і Шень Чжен, стажер.

Шень Чжен є студентом магістратури в Університеті Іллінойсу в Урбана-Шампейн (UIUC).

Крім того, в дослідженні також брали участь чотири дослідники, в тому числі Іцзе Чжу з Bytes і професор Кевін Чен-Чуань Чанг з UIUC.

Адреса:

Посилання на джерела:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити