Скриншот статьи Microsoft показал, что GPT-3.5 имеет только 20 миллиардов параметров? Круг ИИ был шокирован, а пользователи сети кричали, что это возмутительно!

Первоисточник: New Zhiyuan

Источник изображения: Generated by Unbounded AI

GPT-3.5 имеет всего 20 миллиардов параметров?

Сегодня большой модельный круг был взорван скриншотом в газете Microsoft, что происходит?

Буквально несколько дней назад Microsoft опубликовала статью на arXiv, в которой предложила мелкомасштабную диффузионную модель всего с 75 млн параметров - CodeFusion.

С точки зрения производительности, 75 миллионов параметров CodeFusion сопоставимы с новейшей моделью 350M-175B по показателям точности топ-1.

Адрес:

Работа этой статьи очень интересна, но что привлекает всеобщее особое внимание, так это -

Когда автор сравнивает ChatGPT (gpt-3.5-turbo), номинальное количество параметров составляет всего 20B!

До этого все догадывались о количестве параметров GPT-3.5 в 175 миллиардов, что эквивалентно сокращению почти в десять раз!

Согласно откровениям этой статьи, пользователи сети также обратились к Википедии, чтобы обновить введение GPT-3.5 и напрямую изменили размер параметра на 20B.

Как только новость вышла, она сразу же появилась в горячем поиске Чжиху, и пользователи сети взорвались.

Некоторые люди говорили: «Поторопитесь вернуться и вытащите мой предыдущий пост в блоге о дистилляции моделей, чтобы просмотреть и просмотреть».

## **Это "улун" или "факт"? **

Как только появились откровения пользователей сети, они мгновенно вызвали бурные обсуждения.

На данный момент посмотреть пришло более 680 000 человек.

Старший брат сказал, что несколько авторов статьи также используют Twitter, и, по оценкам, не пройдет много времени, прежде чем они объяснятся лично.

Что касается этой загадочной «20Б», то у пользователей сети тоже разные мнения.

Некоторые предполагают, что это, скорее всего, ошибка автора. Например, изначально это было 120В, или 200В.

В сочетании с различными оценками в реальности действительно существует множество небольших моделей, которые могут достичь результатов, аналогичных ChatGPT, таких как Mistral-7B.

Возможно, это тоже побочное подтверждение того, что GPT-3.5 действительно не большой.

Многие пользователи сети также считают, что параметры 20B могут быть точными, и они вздохнули:

«Это невообразимо! Ни Falcon-180B, ни Llama2-70B не могут превзойти модель 20B».

Некоторые пользователи сети также считают, что GPT-3.5-Turbo является усовершенствованной версией GPT-3.5.

И эта «утечка» параметров как раз подтверждает те слухи о том, что GPT-3.5-Turbo не так хороша, как старая GPT-3.5.

Однако, согласно официальной документации OpenAI, за исключением text-davinci и code-davinci, которые больше не используются, все члены семейства GPT-3.5 основаны на gpt-3.5-turbo.

## Microsoft выпускает CodeFusion

В документе Microsoft, который показал, что GPT3.5 имеет только 20 млрд параметров, предлагается внедрить модель диффузии для генерации кода.

Исследователи оценили CodeFusion, модель для задачи генерации кода для естественного языка для правил условного форматирования (CF) Bash, Python и Microsoft Excel.

Эксперименты показали, что CodeFusion (всего 75 млн параметров) сопоставим с современным LLM (350M-175B параметры) по точности топ-1, а также имеет отличную производительность и соотношение параметров по точности топ-3 и топ-5.

Модельная архитектура

CODEFUSION ИСПОЛЬЗУЕТСЯ ДЛЯ ЗАДАЧ ГЕНЕРАЦИИ КОДА, И ЕГО ОБУЧЕНИЕ РАЗДЕЛЕНО НА ДВЕ ФАЗЫ, ПЕРВАЯ СТАДИЯ — ЭТО НЕКОНТРОЛИРУЕМОЕ ПРЕДВАРИТЕЛЬНОЕ ОБУЧЕНИЕ, А ВТОРАЯ СТАДИЯ — КОНТРОЛИРУЕМАЯ ТОНКАЯ НАСТРОЙКА.

НА ПЕРВОМ ЭТАПЕ CODEFUSION ИСПОЛЬЗУЕТ НЕПОМЕЧЕННЫЕ ФРАГМЕНТЫ КОДА ДЛЯ ОБУЧЕНИЯ ШУМОПОДАВИТЕЛЯ И ДЕКОДЕРА. Он также использует обучаемый уровень внедрения, L, для встраивания фрагментов кода в смежные пространства.

НА ВТОРОМ ЭТАПЕ CODEFUSION ВЫПОЛНЯЕТ КОНТРОЛИРУЕМУЮ ТОНКУЮ НАСТРОЙКУ, ИСПОЛЬЗУЯ ДАННЫЕ ИЗ ПАР ТЕКСТ-КОД. На этом этапе кодировщик, шумоподавитель и декодер настроены для лучшего выполнения задачи.

КРОМЕ ТОГО, CODEFUSION ОПИРАЕТСЯ НА ПРЕДЫДУЩИЕ ИССЛЕДОВАНИЯ ПО РАСПРОСТРАНЕНИЮ ТЕКСТА, ЧТОБЫ ОБЪЕДИНИТЬ СКРЫТОЕ ПРЕДСТАВЛЕНИЕ D ИЗ ДЕКОДЕРА В МОДЕЛЬ. Это необходимо для повышения производительности модели. В процессе обучения на разных этапах модель вносит некоторый шум, а затем вычисляет функцию потерь, чтобы убедиться, что сгенерированный фрагмент кода больше соответствует ожидаемому стандарту.

ТАКИМ ОБРАЗОМ, CODEFUSION — ЭТО НЕБОЛЬШАЯ МОДЕЛЬ, КОТОРАЯ ВЫПОЛНЯЕТ РАБОТУ ПО СОЗДАНИЮ КОДА И ПОСТОЯННО ПОВЫШАЕТ СВОЮ ПРОИЗВОДИТЕЛЬНОСТЬ ЗА СЧЕТ ДВУХ ЭТАПОВ ОБУЧЕНИЯ И ПРИЕМА ШУМА. Эта модель вдохновлена изучением диффузии текста и улучшает функцию потерь за счет слияния скрытого представления декодера для лучшей генерации высококачественных фрагментов кода.

Результаты оценки

В следующей таблице приведена сводная информация о производительности модели CODEFUSION и каждой базовой модели при параметрах top-1, top-3 и top-5.

В топ-1 производительность CODEFUSION сопоставима, а в некоторых случаях даже лучше, особенно в задачах Python, где только GPT-3 (175B) работает немного лучше, чем CODEFUSION (75M). Тем не менее, с точки зрения топ-3 и топ-5 CODEFUSION значительно превзошел все базовые модели.

В приведенной ниже таблице показаны средние результаты разнесения моделей CODEFUSION и авторегрессии (включая T5, CodeT5, StarCoder, CodeGen и GPT-3) для каждой контрольной задачи, а также рассмотрены результаты, полученные первыми 5 поколениями каждой модели.

ПО СРАВНЕНИЮ С МОДЕЛЯМИ АВТОРЕГРЕССИИ, CODEFUSION ГЕНЕРИРУЕТ БОЛЕЕ РАЗНООБРАЗНЫЕ РЕЗУЛЬТАТЫ И РАБОТАЕТ ЛУЧШЕ.

В эксперименте по абляции авторы остановили процесс шумоподавления и сгенерировали фрагмент кода текущего состояния в диапазоне временного шага t∈[0, T]. Нормализовать расстояние редактирования строки используется для измерения результатов, полученных для каждого временного шага (с шагом каждые 100 шагов).

ТАКОЙ ПОДХОД ПОМОГАЕТ ОБОБЩИТЬ И ПРОДЕМОНСТРИРОВАТЬ ПОШАГОВЫЙ ПРОГРЕСС МОДЕЛИ CODEFUSION, КАК ПОКАЗАНО НА РИСУНКЕ НИЖЕ.

Итак, каково количество параметров в GPT-3.5? Какова техническая и иная связь между GPT-4 и GPT-3.5?

GPT-3.5 — это ансамбль небольших экспертных моделей или универсальная модель? Выделено ли оно с помощью более крупной модели или обучено на больших данных?

Ответы на эти вопросы будут раскрыты только тогда, когда они будут действительно открыты.

Ресурсы:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить