Bytes дал OpenAI все большие модели операцию «распаковки».
Результаты действительно выявили конкретную роль и влияние некоторых ключевых технологий на эволюцию GPT-4.
Как что:
SFT был движущей силой эволюции раннего GPT
Наибольший вклад в возможности программирования GPT вносят SFT и RLHF
Добавление данных кода в предварительное обучение улучшает возможности последующих версий GPT во всех аспектах**, особенно в инференсе...
После того, как он начал свой бизнес, бык ИИ Ли Му, который был очень занят, также появился в глазах общественности спустя долгое время и похвалил это исследование.
Пользователи сети даже похвалили:
Это первая на сегодняшний день работа по полной распаковке всех моделей OpenAI, респект.
В дополнение к некоторым новым открытиям, он также подтверждает некоторые существующие гипотезы:
Например, GPT-4 не паникерствует по поводу того, чтобы стать глупым, и эта оценка обнаружила, что на пути эволюции GPT существует очевидное «явление качелей», то есть одни способности увеличиваются, а другие снижаются в процессе эволюции модели.
Это совпадает с предыдущими ощущениями пользователей сети.
Как говорит сам автор:
Эта работа может дать ценную информацию об эволюционном пути от GPT-3 к GPT-4.
Другими словами, с его помощью мы можем получить представление о «пути успеха» модели GPT, и предоставить эффективный опыт для следующих масштабных работ по построению модели.
Итак, что именно он «открывает», давайте посмотрим на бумагу.
Изучение эволюции GPT-3 до GPT-4
Первая эволюционная диаграмма была обобщена авторами на основе общедоступной информации.
Как вы можете видеть, он отмечает, какие технологии претерпела каждая промежуточная модель (например, тонкая настройка кода, SFT/FeedME и т. д.), которые эволюционировали от первоначального GPT-3 до 3.5, а теперь и до 4.
От davinci до gpt-4-0613, bytes протестировал все 7 основных способностей каждого поколения GPT, таких как математика, кодирование и рассуждение.
### 1. SFT: Фактор, способствующий ранней эволюции GPT
Во-первых, в семействе GPT-3 оригинальный davinci (GPT-3) эволюционировал в text-davinci-001, контролируя тонкую настройку SFT и его варианта, FeedME.
Это дает последнему прирост производительности практически во всех задачах:
Более интуитивное представление показано на рисунке ниже («фэндом» — это эволюционировавший text-davinci-001).
Затем GPT перешла в серию 3.5, где самый простой code-davinci002 превратился в text-davinci-002 с использованием той же технологии.
Однако эффект от этой эволюционной операции действительно невелик, и производительность GPT улучшилась всего в несколько раз, и больше не увеличилось, а уменьшилось.
Здесь авторы приводят к своему первому выводу, а именно:
SFT работает только на более слабых базовых моделях и мало влияет на более сильные модели.
Подобное явление можно наблюдать и в моделях с открытым исходным кодом (в этом обзоре также тестировались Llama1 и 2, PaLM2-L, Claude 2 и т.д.):
Помимо оригинального Llama-65B, SFT удалось улучшить свои показатели в бенчмарке MMLU, но все Llama2-70B, которые использовали улучшения SFT, показали лишь незначительные улучшения в таблице лидеров Open LLM.
Описание: На этапе GPT3 технология SFT сыграла ключевую роль в эволюции модели.
2, RLHF и SFT: Вклад в улучшение возможностей кодирования
Вслед за серией GPT3.5, начиная с text-davinci-002, OpenAI начала внедрять новую технологию, основанную на алгоритме PPO RLHF, в результате чего появился text-davinci-003.
На данный момент его производительность в большинстве бенчмарков находится на одном уровне или немного хуже, чем у его предшественника, что указывает на то, что эффект не особенно очевиден (и то же самое верно для моделей с открытым исходным кодом).
За одним исключением: задание по программированию, которое увеличилось почти на 30 баллов.
Напоминая предыдущий code-davinci002, использующий технологию SFT для превращения в text-davinci-002, что привело к снижению общей производительности, задача кодирования не была затронута, но оценка увеличилась——
Авторы решили проверить влияние SFT и RLHF на способность к кодированию больших моделей.
Здесь они измеряли такие оценки, как pass@1 (вероятность 1 прохода 1 выборки), pass@100 (вероятность 100 проходов из 100 выборок) нескольких поколений GPT-моделей.
В результате модель, использующая технологии SFT и RLHF, показала значительное улучшение pass@1 и незначительное снижение pass@100 по сравнению с базовой моделью.
Что это значит?
Автор поясняет:
pass@100 описывает внутреннюю возможность кодирования модели, в то время как pass@1 представляет собой одноразовую способность модели к кодированию без ошибок.
pass@100 небольшое снижение говорит о том, что SFT и RLHF по-прежнему имеют так называемый налог на выравнивание для задач кодирования, как и для любой другой задачи.
Тем не менее, SFT и RLHF смогли обучиться pass@1 pass@100 способностям, т.е. преобразовать внутренние способности (но требующие многих попыток) в однократное кодирование без ошибок, что привело к значительному увеличению pass@1.
Внимательно изучив результаты, мы видим, что gpt-3.5-turbo-0301 значительно улучшает pass@1 за счет SFT и RLHF, что является хорошей новостью для оптимизации производительности небольших моделей.
И это еще не все, учитывая, что авторы ранее отмечали, что GPT-4 смог решить проблему после нескольких попыток решения некоторых сложных задач логического вывода.
В сочетании с вышеуказанными наблюдениями они резюмировали это следующим образом:
LLM по-прежнему могут использовать SFT и RLHF для непрерывного преобразования своих внутренних возможностей (но для этого требуется несколько попыток) в одноразовые возможности решения проблем, приближаясь к верхнему пределу возможностей LLM.
Подразумевается, что GPT-4 может быть еще сильнее.
3. Код добавляется в предварительное обучение, что наиболее полезно для инференса
На пути эволюции GPT4 также появились 2 специальные модели:
code-cushman-001 (Codex-12B) 和code-davinci-002。
Первый из них является первой попыткой OpenAI обучить модель с использованием данных кода, и, несмотря на свой небольшой масштаб, он также достиг хороших возможностей кода.
Последняя является базовой моделью GPT3.5, которая является результатом обучения с кодом RLHF+ на основе GPT3, то есть гибридного предварительного обучения текста и кода.
Видно, что он значительно превосходит GPT-3 (не только по способностям кодирования), и даже превосходит GPT-3.5-turbo-0613 в некоторых задачах логического вывода (например, BBH).
Авторы утверждают:
Это показывает, что добавление данных кода к предварительному обучению может всесторонне улучшить возможности LLM, особенно логический вывод.
4, феномен "качелей"
Сравнивая модели OpenAI API за март 2023 года и июнь 2023 года, мы действительно можем увидеть это явление:
По сравнению с gpt-3.5-turbo-0301, модернизированный gpt-3.5-turbo-0613 показывает хорошие результаты на Human (53.9 -> 80.0), но значительно падает на MATH (32.0 -> 15.0).
GPT-4-0613 превзошел GPT-4-0314 (78,7 -> 87,2) на DROP, но также показал резкое падение (82,2 -> 68,7) на MGSM.
По мнению авторов:
«Феномен качелей» может стать камнем преткновения на пути к AGI для магистров права, потому что AGI делает акцент на «общем интеллекте» и требует отличной производительности по всем задачам, требуя, чтобы модели не были «предвзятыми».
Здесь же они призвали сообщество обратить внимание на этот вопрос и совместно продвигать исследования по сбалансированной разработке больших моделей.
Помогите крупным моделям найти свой путь
Все вышеперечисленные выводы основаны на GPT-Fathom -
Недавно компания Byte предложила большой инструмент оценки моделей.
Предположительно, у каждого должны возникнуть вопросы:
Уже существует множество крупных рейтингов моделей и инструментов оценки, так зачем придумывать новый подход?
По мнению авторов, по сравнению с существующими методами оценки, шкала GPT-Fathom более однородна, а результаты воспроизводимы.
Специалисты по крупным моделям могут использовать его, чтобы прояснить, где находится разрыв между ними и ведущей моделью, чтобы целенаправленно улучшать свои продукты.
В частности, GPT-Fathom в основном решает три недостатка других методов оценки больших моделей:
Несогласованные критерии настройки: Не существует единого стандарта для того, следует ли использовать такие параметры, как цепочка мыслей (CoT), размер выборки и т. д., а также методы оценки ответов
Неполная модель и набор задач: Способность тестировать внимание не является всеобъемлющей, и наблюдается недостаток внимания к более ранним моделям
Отсутствие исследований чувствительности модели
Для того, чтобы более интуитивно отразить характеристики GPT-Fatham, автор сравнивает некоторые конкретные существующие списки, которые можно свести в следующую таблицу:
Среди них оценка чувствительности выявила проблемы, которые не были выявлены предыдущими стандартами испытаний.
По сравнению с GPT, другие модели очень чувствительны к словам-подсказкам, и небольшое изменение приведет к совершенно другому результату, предполагая, что все еще существует большой разрыв между надежностью других моделей и GPT.
Например, в наборе данных TriviaQA небольшое изменение слова-подсказки снизило оценку Llama 2-70B на четверть, в то время как модели серии GPT существенно не изменились.
Кроме того, такие факторы, как CoT, размер выборки и дисперсия выборки, также учитываются при тестировании чувствительности.
В будущем авторы планируют продолжить расширение GPT-Fathom по трем измерениям: типам возможностей, тестовым наборам данных и моделям, и будут поддерживать оценку многораундового диалога, мультимодальности и других возможностей, а также увеличивать тестирование нескольких наборов данных и моделей.
Двумя соавторами GPT-Fatham являются Юй Чжан (Yuyu Zhang), исследователь из исследовательской группы прикладного машинного обучения Byte, и Шэнь Чжэн (Shen Zheng), стажер.
Шэнь Чжэн учится в магистратуре Иллинойского университета в Урбана-Шампейн (UIUC).
Кроме того, в исследовании также участвовали четыре исследователя, в том числе Ицье Чжу из Bytes и профессор Кевин Чен-Чуан Чанг из UIUC.
Адрес:
Ссылки:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Bytes «распаковывает» все большие модели OpenAI, раскрывая путь эволюции от GPT-3 до GPT-4! взорвал Ли Му
Источник статьи: qubits
Как именно GPT-3 превратился в GPT-4?
Bytes дал OpenAI все большие модели операцию «распаковки».
Результаты действительно выявили конкретную роль и влияние некоторых ключевых технологий на эволюцию GPT-4.
После того, как он начал свой бизнес, бык ИИ Ли Му, который был очень занят, также появился в глазах общественности спустя долгое время и похвалил это исследование.
Например, GPT-4 не паникерствует по поводу того, чтобы стать глупым, и эта оценка обнаружила, что на пути эволюции GPT существует очевидное «явление качелей», то есть одни способности увеличиваются, а другие снижаются в процессе эволюции модели.
Это совпадает с предыдущими ощущениями пользователей сети.
Другими словами, с его помощью мы можем получить представление о «пути успеха» модели GPT, и предоставить эффективный опыт для следующих масштабных работ по построению модели.
Итак, что именно он «открывает», давайте посмотрим на бумагу.
Изучение эволюции GPT-3 до GPT-4
Первая эволюционная диаграмма была обобщена авторами на основе общедоступной информации.
Как вы можете видеть, он отмечает, какие технологии претерпела каждая промежуточная модель (например, тонкая настройка кода, SFT/FeedME и т. д.), которые эволюционировали от первоначального GPT-3 до 3.5, а теперь и до 4.
От davinci до gpt-4-0613, bytes протестировал все 7 основных способностей каждого поколения GPT, таких как математика, кодирование и рассуждение.
Во-первых, в семействе GPT-3 оригинальный davinci (GPT-3) эволюционировал в text-davinci-001, контролируя тонкую настройку SFT и его варианта, FeedME.
Это дает последнему прирост производительности практически во всех задачах:
Однако эффект от этой эволюционной операции действительно невелик, и производительность GPT улучшилась всего в несколько раз, и больше не увеличилось, а уменьшилось.
SFT работает только на более слабых базовых моделях и мало влияет на более сильные модели.
Подобное явление можно наблюдать и в моделях с открытым исходным кодом (в этом обзоре также тестировались Llama1 и 2, PaLM2-L, Claude 2 и т.д.):
Помимо оригинального Llama-65B, SFT удалось улучшить свои показатели в бенчмарке MMLU, но все Llama2-70B, которые использовали улучшения SFT, показали лишь незначительные улучшения в таблице лидеров Open LLM.
Описание: На этапе GPT3 технология SFT сыграла ключевую роль в эволюции модели.
2, RLHF и SFT: Вклад в улучшение возможностей кодирования
Вслед за серией GPT3.5, начиная с text-davinci-002, OpenAI начала внедрять новую технологию, основанную на алгоритме PPO RLHF, в результате чего появился text-davinci-003.
На данный момент его производительность в большинстве бенчмарков находится на одном уровне или немного хуже, чем у его предшественника, что указывает на то, что эффект не особенно очевиден (и то же самое верно для моделей с открытым исходным кодом).
За одним исключением: задание по программированию, которое увеличилось почти на 30 баллов.
Здесь они измеряли такие оценки, как pass@1 (вероятность 1 прохода 1 выборки), pass@100 (вероятность 100 проходов из 100 выборок) нескольких поколений GPT-моделей.
Что это значит?
Автор поясняет:
pass@100 описывает внутреннюю возможность кодирования модели, в то время как pass@1 представляет собой одноразовую способность модели к кодированию без ошибок.
pass@100 небольшое снижение говорит о том, что SFT и RLHF по-прежнему имеют так называемый налог на выравнивание для задач кодирования, как и для любой другой задачи.
Тем не менее, SFT и RLHF смогли обучиться pass@1 pass@100 способностям, т.е. преобразовать внутренние способности (но требующие многих попыток) в однократное кодирование без ошибок, что привело к значительному увеличению pass@1.
Внимательно изучив результаты, мы видим, что gpt-3.5-turbo-0301 значительно улучшает pass@1 за счет SFT и RLHF, что является хорошей новостью для оптимизации производительности небольших моделей.
В сочетании с вышеуказанными наблюдениями они резюмировали это следующим образом:
LLM по-прежнему могут использовать SFT и RLHF для непрерывного преобразования своих внутренних возможностей (но для этого требуется несколько попыток) в одноразовые возможности решения проблем, приближаясь к верхнему пределу возможностей LLM.
Подразумевается, что GPT-4 может быть еще сильнее.
3. Код добавляется в предварительное обучение, что наиболее полезно для инференса
На пути эволюции GPT4 также появились 2 специальные модели:
code-cushman-001 (Codex-12B) 和code-davinci-002。
Первый из них является первой попыткой OpenAI обучить модель с использованием данных кода, и, несмотря на свой небольшой масштаб, он также достиг хороших возможностей кода.
Последняя является базовой моделью GPT3.5, которая является результатом обучения с кодом RLHF+ на основе GPT3, то есть гибридного предварительного обучения текста и кода.
Видно, что он значительно превосходит GPT-3 (не только по способностям кодирования), и даже превосходит GPT-3.5-turbo-0613 в некоторых задачах логического вывода (например, BBH).
Это показывает, что добавление данных кода к предварительному обучению может всесторонне улучшить возможности LLM, особенно логический вывод.
4, феномен "качелей"
Сравнивая модели OpenAI API за март 2023 года и июнь 2023 года, мы действительно можем увидеть это явление:
По сравнению с gpt-3.5-turbo-0301, модернизированный gpt-3.5-turbo-0613 показывает хорошие результаты на Human (53.9 -> 80.0), но значительно падает на MATH (32.0 -> 15.0).
GPT-4-0613 превзошел GPT-4-0314 (78,7 -> 87,2) на DROP, но также показал резкое падение (82,2 -> 68,7) на MGSM.
По мнению авторов:
«Феномен качелей» может стать камнем преткновения на пути к AGI для магистров права, потому что AGI делает акцент на «общем интеллекте» и требует отличной производительности по всем задачам, требуя, чтобы модели не были «предвзятыми».
Здесь же они призвали сообщество обратить внимание на этот вопрос и совместно продвигать исследования по сбалансированной разработке больших моделей.
Помогите крупным моделям найти свой путь
Все вышеперечисленные выводы основаны на GPT-Fathom -
Недавно компания Byte предложила большой инструмент оценки моделей.
Предположительно, у каждого должны возникнуть вопросы:
Уже существует множество крупных рейтингов моделей и инструментов оценки, так зачем придумывать новый подход?
По мнению авторов, по сравнению с существующими методами оценки, шкала GPT-Fathom более однородна, а результаты воспроизводимы.
Специалисты по крупным моделям могут использовать его, чтобы прояснить, где находится разрыв между ними и ведущей моделью, чтобы целенаправленно улучшать свои продукты.
В частности, GPT-Fathom в основном решает три недостатка других методов оценки больших моделей:
Несогласованные критерии настройки: Не существует единого стандарта для того, следует ли использовать такие параметры, как цепочка мыслей (CoT), размер выборки и т. д., а также методы оценки ответов Неполная модель и набор задач: Способность тестировать внимание не является всеобъемлющей, и наблюдается недостаток внимания к более ранним моделям Отсутствие исследований чувствительности модели
Для того, чтобы более интуитивно отразить характеристики GPT-Fatham, автор сравнивает некоторые конкретные существующие списки, которые можно свести в следующую таблицу:
По сравнению с GPT, другие модели очень чувствительны к словам-подсказкам, и небольшое изменение приведет к совершенно другому результату, предполагая, что все еще существует большой разрыв между надежностью других моделей и GPT.
Например, в наборе данных TriviaQA небольшое изменение слова-подсказки снизило оценку Llama 2-70B на четверть, в то время как модели серии GPT существенно не изменились.
В будущем авторы планируют продолжить расширение GPT-Fathom по трем измерениям: типам возможностей, тестовым наборам данных и моделям, и будут поддерживать оценку многораундового диалога, мультимодальности и других возможностей, а также увеличивать тестирование нескольких наборов данных и моделей.
Двумя соавторами GPT-Fatham являются Юй Чжан (Yuyu Zhang), исследователь из исследовательской группы прикладного машинного обучения Byte, и Шэнь Чжэн (Shen Zheng), стажер.
Шэнь Чжэн учится в магистратуре Иллинойского университета в Урбана-Шампейн (UIUC).
Кроме того, в исследовании также участвовали четыре исследователя, в том числе Ицье Чжу из Bytes и профессор Кевин Чен-Чуан Чанг из UIUC.
Адрес:
Ссылки: