2 октября по восточному времени известная платформа с открытым исходным кодом Stability.ai объявила на своем официальном сайте о запуске модели большого языка с открытым исходным кодом StableLM-3B-4E1T. (Адрес открытого источника:
Сообщается, что Stable LM 3B представляет собой базовую модель большого языка в основном для мобильных устройств, таких как мобильные телефоны и ноутбуки. Она значительно снижает требования к вычислительным ресурсам, обеспечивая при этом производительность.
Стабильная версия LM 3B поддерживает такие функции, как генерация текста/кода, обобщение сводных данных, точная настройка данных, рассуждения на основе здравого смысла и решение математических задач. Длина глобального контекста составляет 4096. (именуемый «Стабильный LM 3B»)
С ростом популярности ChatGPT во всем мире произошел энергичный «бум разработки крупных моделей». Однако большинство моделей требуют большого количества вычислительных ресурсов для предварительного обучения и тонкой настройки, а также предъявляют высокие требования к операционной среде разрабатываемых генеративных приложений ИИ. Qualcomm даже выпустила генеративный чип искусственного интеллекта специально для мобильных устройств, чтобы решить проблему вычислительной мощности.
Stability.ai надеется открыть исходный код Stable LM 3B, чтобы помочь разработчикам, не обладающим огромными вычислительными ресурсами, создавать небольшие и компактные продукты генеративного ИИ, которые могут безопасно и стабильно работать на мобильных устройствах.
Стабильный набор обучающих данных LM 3B
Хотя модель имеет всего 3 миллиарда параметров, она использует огромный набор обучающих данных из 1 триллиона токенов, включая текст, код, Википедию, ArXiv, книги, C4 и другие данные.
Этот набор данных фильтруется и смешивается из нескольких крупномасштабных наборов данных с открытым исходным кодом, включая Falcon RefinedWeb, RedPajama-Data, The Pile и StarCoder.
Это позволяет Stable LM 3B превосходить модели того же размера с меньшими ресурсами и даже сильнее, чем некоторые большие модели с 7 миллиардами или 10 миллиардами параметров.
Стабильный процесс обучения LM 3B
Стабильная версия LM 3B начинается с точного обучения bfloat16 размером 972 КБ, а длина глобального контекста составляет 4096 вместо многоэтапного улучшения с 2048 до 4096, как в StableLM-Alpha v2.
Stability.ai использовал AdamW для оптимизации производительности и использовал линейный прогрев для первых 4800 шагов, за которым следовал график косинусного затухания, чтобы снизить скорость обучения до 4% от пика.
Ранняя нестабильность объясняется длительным пребыванием в регионе с высокой скоростью обучения. Поскольку модель относительно небольшая, дропаут не используется.
В процессе обучения Stability.ai оценивает показатели естественного языка и наблюдает устойчивые улучшения от обучения в конце графика снижения скорости обучения. По этой причине разработчики решили линейно снизить скорость обучения до 0, аналогично тому, что сделали Чжай и др., в надежде добиться лучшей производительности.
Кроме того, начальный этап предварительного обучения опирается на API Flash-Attention и его готовую поддержку треугольной причинной маскировки. Это заставляет модель обрабатывать различные документы в упакованной последовательности одинаковым образом.
На этапе охлаждения Stability.ai сбрасывает идентификаторы позиций и маски внимания на маркерах EOD для всех упакованных последовательностей после эмпирического наблюдения улучшения качества выборки (т. е. уменьшения дублирования) в параллельных экспериментах.
Что касается аппаратного обеспечения, StableLM-3B обучен на вычислительном кластере Stability AI. Кластер содержит 256 видеокарт NVIDIA A100 40 ГБ. Обучение началось 23 августа 2023 года и длилось около 30 дней.
Что касается тестирования производительности, StableLM-3B был протестирован в системе оценки качества изображения с нулевой выборкой. Результаты показывают, что производительность не уступает модели с 7 миллиардами параметров и даже выше, чем у некоторых моделей с 10 миллиардами параметров.
Материал этой статьи взят с официального сайта Stability.ai. Если есть какие-либо нарушения, свяжитесь с нами, чтобы удалить их.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Его можно запускать на мобильных телефонах с 1 триллионом обучающих данных! СтабильныйLM-3B-4E1T уже здесь.
**Источник: **Открытое сообщество AIGC.
2 октября по восточному времени известная платформа с открытым исходным кодом Stability.ai объявила на своем официальном сайте о запуске модели большого языка с открытым исходным кодом StableLM-3B-4E1T. (Адрес открытого источника:
Сообщается, что Stable LM 3B представляет собой базовую модель большого языка в основном для мобильных устройств, таких как мобильные телефоны и ноутбуки. Она значительно снижает требования к вычислительным ресурсам, обеспечивая при этом производительность.
Стабильная версия LM 3B поддерживает такие функции, как генерация текста/кода, обобщение сводных данных, точная настройка данных, рассуждения на основе здравого смысла и решение математических задач. Длина глобального контекста составляет 4096. (именуемый «Стабильный LM 3B»)
Stability.ai надеется открыть исходный код Stable LM 3B, чтобы помочь разработчикам, не обладающим огромными вычислительными ресурсами, создавать небольшие и компактные продукты генеративного ИИ, которые могут безопасно и стабильно работать на мобильных устройствах.
Стабильный набор обучающих данных LM 3B
Хотя модель имеет всего 3 миллиарда параметров, она использует огромный набор обучающих данных из 1 триллиона токенов, включая текст, код, Википедию, ArXiv, книги, C4 и другие данные.
Этот набор данных фильтруется и смешивается из нескольких крупномасштабных наборов данных с открытым исходным кодом, включая Falcon RefinedWeb, RedPajama-Data, The Pile и StarCoder.
Это позволяет Stable LM 3B превосходить модели того же размера с меньшими ресурсами и даже сильнее, чем некоторые большие модели с 7 миллиардами или 10 миллиардами параметров.
Стабильный процесс обучения LM 3B
Стабильная версия LM 3B начинается с точного обучения bfloat16 размером 972 КБ, а длина глобального контекста составляет 4096 вместо многоэтапного улучшения с 2048 до 4096, как в StableLM-Alpha v2.
Stability.ai использовал AdamW для оптимизации производительности и использовал линейный прогрев для первых 4800 шагов, за которым следовал график косинусного затухания, чтобы снизить скорость обучения до 4% от пика.
Ранняя нестабильность объясняется длительным пребыванием в регионе с высокой скоростью обучения. Поскольку модель относительно небольшая, дропаут не используется.
Кроме того, начальный этап предварительного обучения опирается на API Flash-Attention и его готовую поддержку треугольной причинной маскировки. Это заставляет модель обрабатывать различные документы в упакованной последовательности одинаковым образом.
На этапе охлаждения Stability.ai сбрасывает идентификаторы позиций и маски внимания на маркерах EOD для всех упакованных последовательностей после эмпирического наблюдения улучшения качества выборки (т. е. уменьшения дублирования) в параллельных экспериментах.
Что касается тестирования производительности, StableLM-3B был протестирован в системе оценки качества изображения с нулевой выборкой. Результаты показывают, что производительность не уступает модели с 7 миллиардами параметров и даже выше, чем у некоторых моделей с 10 миллиардами параметров.