Bytes «распаковывает» все большие модели OpenAI, раскрывая путь эволюции от GPT-3 до GPT-4! взорвал Ли Му

巴比特_

2023-11-04 07:07:38

Источник статьи: qubits

Как именно GPT-3 превратился в GPT-4?

Bytes дал OpenAI все большие модели операцию «распаковки».

Результаты действительно выявили конкретную роль и влияние некоторых ключевых технологий на эволюцию GPT-4.

Как что:

SFT был движущей силой эволюции раннего GPT
Наибольший вклад в возможности программирования GPT вносят SFT и RLHF
Добавление данных кода в предварительное обучение улучшает возможности последующих версий GPT во всех аспектах**, особенно в инференсе...

После того, как он начал свой бизнес, бык ИИ Ли Му, который был очень занят, также появился в глазах общественности спустя долгое время и похвалил это исследование.

Пользователи сети даже похвалили:

Это первая на сегодняшний день работа по полной распаковке всех моделей OpenAI, респект.

В дополнение к некоторым новым открытиям, он также подтверждает некоторые существующие гипотезы:

Например, GPT-4 не паникерствует по поводу того, чтобы стать глупым, и эта оценка обнаружила, что на пути эволюции GPT существует очевидное «явление качелей», то есть одни способности увеличиваются, а другие снижаются в процессе эволюции модели.

Это совпадает с предыдущими ощущениями пользователей сети.

Как говорит сам автор:

Эта работа может дать ценную информацию об эволюционном пути от GPT-3 к GPT-4.

Другими словами, с его помощью мы можем получить представление о «пути успеха» модели GPT, и предоставить эффективный опыт для следующих масштабных работ по построению модели.

Итак, что именно он «открывает», давайте посмотрим на бумагу.

Изучение эволюции GPT-3 до GPT-4

Первая эволюционная диаграмма была обобщена авторами на основе общедоступной информации.

Как вы можете видеть, он отмечает, какие технологии претерпела каждая промежуточная модель (например, тонкая настройка кода, SFT/FeedME и т. д.), которые эволюционировали от первоначального GPT-3 до 3.5, а теперь и до 4.

От davinci до gpt-4-0613, bytes протестировал все 7 основных способностей каждого поколения GPT, таких как математика, кодирование и рассуждение.

### 1. SFT: Фактор, способствующий ранней эволюции GPT

Во-первых, в семействе GPT-3 оригинальный davinci (GPT-3) эволюционировал в text-davinci-001, контролируя тонкую настройку SFT и его варианта, FeedME.

Это дает последнему прирост производительности практически во всех задачах:

Более интуитивное представление показано на рисунке ниже («фэндом» — это эволюционировавший text-davinci-001).

Затем GPT перешла в серию 3.5, где самый простой code-davinci002 превратился в text-davinci-002 с использованием той же технологии.

Однако эффект от этой эволюционной операции действительно невелик, и производительность GPT улучшилась всего в несколько раз, и больше не увеличилось, а уменьшилось.

Здесь авторы приводят к своему первому выводу, а именно:

SFT работает только на более слабых базовых моделях и мало влияет на более сильные модели.

Подобное явление можно наблюдать и в моделях с открытым исходным кодом (в этом обзоре также тестировались Llama1 и 2, PaLM2-L, Claude 2 и т.д.):

Помимо оригинального Llama-65B, SFT удалось улучшить свои показатели в бенчмарке MMLU, но все Llama2-70B, которые использовали улучшения SFT, показали лишь незначительные улучшения в таблице лидеров Open LLM.

Описание: На этапе GPT3 технология SFT сыграла ключевую роль в эволюции модели.

2, RLHF и SFT: Вклад в улучшение возможностей кодирования

Вслед за серией GPT3.5, начиная с text-davinci-002, OpenAI начала внедрять новую технологию, основанную на алгоритме PPO RLHF, в результате чего появился text-davinci-003.

На данный момент его производительность в большинстве бенчмарков находится на одном уровне или немного хуже, чем у его предшественника, что указывает на то, что эффект не особенно очевиден (и то же самое верно для моделей с открытым исходным кодом).

За одним исключением: задание по программированию, которое увеличилось почти на 30 баллов.

Напоминая предыдущий code-davinci002, использующий технологию SFT для превращения в text-davinci-002, что привело к снижению общей производительности, задача кодирования не была затронута, но оценка увеличилась——

Авторы решили проверить влияние SFT и RLHF на способность к кодированию больших моделей.

Здесь они измеряли такие оценки, как pass@1 (вероятность 1 прохода 1 выборки), pass@100 (вероятность 100 проходов из 100 выборок) нескольких поколений GPT-моделей.

В результате модель, использующая технологии SFT и RLHF, показала значительное улучшение pass@1 и незначительное снижение pass@100 по сравнению с базовой моделью.

Что это значит?

Автор поясняет:

pass@100 описывает внутреннюю возможность кодирования модели, в то время как pass@1 представляет собой одноразовую способность модели к кодированию без ошибок.

pass@100 небольшое снижение говорит о том, что SFT и RLHF по-прежнему имеют так называемый налог на выравнивание для задач кодирования, как и для любой другой задачи.

Тем не менее, SFT и RLHF смогли обучиться pass@1 pass@100 способностям, т.е. преобразовать внутренние способности (но требующие многих попыток) в однократное кодирование без ошибок, что привело к значительному увеличению pass@1.

Внимательно изучив результаты, мы видим, что gpt-3.5-turbo-0301 значительно улучшает pass@1 за счет SFT и RLHF, что является хорошей новостью для оптимизации производительности небольших моделей.

И это еще не все, учитывая, что авторы ранее отмечали, что GPT-4 смог решить проблему после нескольких попыток решения некоторых сложных задач логического вывода.

В сочетании с вышеуказанными наблюдениями они резюмировали это следующим образом:
LLM по-прежнему могут использовать SFT и RLHF для непрерывного преобразования своих внутренних возможностей (но для этого требуется несколько попыток) в одноразовые возможности решения проблем, приближаясь к верхнему пределу возможностей LLM.

Подразумевается, что GPT-4 может быть еще сильнее.

3. Код добавляется в предварительное обучение, что наиболее полезно для инференса

На пути эволюции GPT4 также появились 2 специальные модели:

code-cushman-001 (Codex-12B) 和code-davinci-002。

Первый из них является первой попыткой OpenAI обучить модель с использованием данных кода, и, несмотря на свой небольшой масштаб, он также достиг хороших возможностей кода.

Последняя является базовой моделью GPT3.5, которая является результатом обучения с кодом RLHF+ на основе GPT3, то есть гибридного предварительного обучения текста и кода.

Видно, что он значительно превосходит GPT-3 (не только по способностям кодирования), и даже превосходит GPT-3.5-turbo-0613 в некоторых задачах логического вывода (например, BBH).

Авторы утверждают:

Это показывает, что добавление данных кода к предварительному обучению может всесторонне улучшить возможности LLM, особенно логический вывод.

4, феномен "качелей"

Сравнивая модели OpenAI API за март 2023 года и июнь 2023 года, мы действительно можем увидеть это явление:

По сравнению с gpt-3.5-turbo-0301, модернизированный gpt-3.5-turbo-0613 показывает хорошие результаты на Human (53.9 -> 80.0), но значительно падает на MATH (32.0 -> 15.0).

GPT-4-0613 превзошел GPT-4-0314 (78,7 -> 87,2) на DROP, но также показал резкое падение (82,2 -> 68,7) на MGSM.

По мнению авторов:

«Феномен качелей» может стать камнем преткновения на пути к AGI для магистров права, потому что AGI делает акцент на «общем интеллекте» и требует отличной производительности по всем задачам, требуя, чтобы модели не были «предвзятыми».

Здесь же они призвали сообщество обратить внимание на этот вопрос и совместно продвигать исследования по сбалансированной разработке больших моделей.

Помогите крупным моделям найти свой путь

Все вышеперечисленные выводы основаны на GPT-Fathom -

Недавно компания Byte предложила большой инструмент оценки моделей.

Предположительно, у каждого должны возникнуть вопросы:

Уже существует множество крупных рейтингов моделей и инструментов оценки, так зачем придумывать новый подход?

По мнению авторов, по сравнению с существующими методами оценки, шкала GPT-Fathom более однородна, а результаты воспроизводимы.

Специалисты по крупным моделям могут использовать его, чтобы прояснить, где находится разрыв между ними и ведущей моделью, чтобы целенаправленно улучшать свои продукты.

В частности, GPT-Fathom в основном решает три недостатка других методов оценки больших моделей:

Несогласованные критерии настройки: Не существует единого стандарта для того, следует ли использовать такие параметры, как цепочка мыслей (CoT), размер выборки и т. д., а также методы оценки ответов Неполная модель и набор задач: Способность тестировать внимание не является всеобъемлющей, и наблюдается недостаток внимания к более ранним моделям Отсутствие исследований чувствительности модели

Для того, чтобы более интуитивно отразить характеристики GPT-Fatham, автор сравнивает некоторые конкретные существующие списки, которые можно свести в следующую таблицу:

Среди них оценка чувствительности выявила проблемы, которые не были выявлены предыдущими стандартами испытаний.

По сравнению с GPT, другие модели очень чувствительны к словам-подсказкам, и небольшое изменение приведет к совершенно другому результату, предполагая, что все еще существует большой разрыв между надежностью других моделей и GPT.

Например, в наборе данных TriviaQA небольшое изменение слова-подсказки снизило оценку Llama 2-70B на четверть, в то время как модели серии GPT существенно не изменились.

Кроме того, такие факторы, как CoT, размер выборки и дисперсия выборки, также учитываются при тестировании чувствительности.

В будущем авторы планируют продолжить расширение GPT-Fathom по трем измерениям: типам возможностей, тестовым наборам данных и моделям, и будут поддерживать оценку многораундового диалога, мультимодальности и других возможностей, а также увеличивать тестирование нескольких наборов данных и моделей.

Двумя соавторами GPT-Fatham являются Юй Чжан (Yuyu Zhang), исследователь из исследовательской группы прикладного машинного обучения Byte, и Шэнь Чжэн (Shen Zheng), стажер.

Шэнь Чжэн учится в магистратуре Иллинойского университета в Урбана-Шампейн (UIUC).

Кроме того, в исследовании также участвовали четыре исследователя, в том числе Ицье Чжу из Bytes и профессор Кевин Чен-Чуан Чанг из UIUC.

Адрес:

Ссылки:

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

0/400

Нет комментариев

Тема
#Gate & WLFI USD1 Points Program
62k Популярность
#Trump Allows 401(k) Crypto Investing
36k Популярность
#Join Copy Trading Share to Win $2,000
29k Популярность
#Show My Alpha Points
77k Популярность
#SOL Futures Reach New High
22k Популярность

Закрепить

Карта сайта