Открытый исходный код и коммерчески доступная стоимость большой модели MPT-30B с 30 миллиардами параметров составляет лишь часть GPT-3.

Компания MosaicML, занимающаяся разработкой больших моделей искусственного интеллекта, недавно выпустила новую коммерчески доступную модель большого языка с открытым исходным кодом MPT-30B с 30 миллиардами параметров, которая значительно мощнее, чем языковая модель предыдущего поколения MPT-7B (7 миллиардов параметров), а ее производительность выше. лучше ГПТ-3.

Источник изображения: сгенерировано Unbounded AI

Кроме того, они выпустили две доработанные модели: MPT-30B-Instruct и MPT-30B-Chat, которые основаны на MPT-30B и хорошо подходят для однооборотного отслеживания инструкций и многооборотного диалога соответственно.

Особенности модели МПТ-30Б:

  • Окно контекста токена 8k во время обучения
  • Поддержка более длинных контекстов через ALiBi
  • Добейтесь эффективного логического вывода + производительности обучения с помощью FlashAttention
  • Серия MPT-30B также обладает широкими возможностями кодирования благодаря предварительно обученному набору данных.

Модель была расширена до окна контекста токена 8k на NVIDIA H100, что сделало ее первым LLM, обученным на H100.

МПТ-30Б сильнее ГПТ-3?

MPT-30B — это коммерческая базовая модель с открытым исходным кодом под лицензией Apache 2.0, которая мощнее оригинальной GPT-3 и конкурирует с другими моделями с открытым исходным кодом, такими как LLaMa-30B и Falcon-40B.

(Вверху) Нулевая точность MPT-30B по сравнению с GPT-3 в девяти задачах контекстного обучения (ICL). MPT-30B превосходит GPT-3 по шести из девяти показателей.

MosaicML обучал MPT-30B в течение 2 месяцев, используя для обучения кластер GPU Nvidia H100.

Как показано на рисунке ниже, тренировочные данные МПТ-30Б:

MPT-30B предварительно обучается путем смешивания данных, а токены данных предварительного обучения 1T собираются из 10 различных корпусов текстов с открытым исходным кодом, а текст сегментируется с использованием токенизатора EleutherAI GPT-NeoX-20B и отбирается в соответствии с указанным выше соотношением. .

Сравнение МПТ-7Б и МПТ-30Б

Стоимость обучения MPT-30B

Навин Рао, генеральный директор и соучредитель MosaicML, сказал, что стоимость обучения MPT-30B составляет 700 000 долларов США (около 5,0244 млн юаней), что намного ниже десятков миллионов долларов, необходимых для аналогичных продуктов, таких как GPT- 3. .

Сколько времени и денег потребуется, чтобы обучить нестандартную модель MPT-30B? Начнем с базовой модели.

На рисунке выше показано время и стоимость предварительного обучения MPT-30B с нуля с использованием графических процессоров A100 или H100. Благодаря инфраструктуре MosaicML вы можете обучить свой собственный MPT-30B с нуля с помощью токенов 1T за 2 недели.

Что, если вы не хотите тренироваться с нуля, а просто дорабатываете существующую модель?

На рисунке ниже показано время и стоимость тонкой настройки MPT-30B для каждого токена 1B. Благодаря инфраструктуре MosaicML вы можете полностью настроить модель MPT-30B, не беспокоясь о нехватке системной памяти, и всего за несколько сотен долларов!

В MosaicML заявили, что расширение модели до 30 миллиардов параметров — это только первый шаг, а затем они запустят более крупную и качественную модель с целью снижения затрат.

Использованная литература:

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить