2 жовтня за східним часом відома платформа з відкритим кодом Stability.ai оголосила на своєму офіційному сайті про запуск великої мовної моделі з відкритим кодом StableLM-3B-4E1T. (Адреса відкритого джерела:
Повідомляється, що Stable LM 3B є базовою великою мовною моделлю в основному для мобільних пристроїв, таких як мобільні телефони та ноутбуки. Вона значно знижує вимоги до обчислювальних ресурсів, забезпечуючи при цьому продуктивність.
Stable LM 3B підтримує такі функції, як генерація тексту/коду, резюмування підсумків, точне налаштування даних, міркування здорового глузду та вирішення математичних задач. Довжина глобального контексту становить 4096. (іменується "Stable LM 3B")
Із зростанням популярності ChatGPT у всьому світі відбувся потужний «бум розробки великих моделей». Однак більшість моделей вимагають великої кількості обчислювальних ресурсів для попереднього навчання та точного налаштування, а також мають високі вимоги до робочого середовища розроблених генеративних додатків ШІ. Qualcomm навіть випустила генеративний чіп AI спеціально для мобільних пристроїв, щоб вирішити проблему обчислювальної потужності.
Stability.ai сподівається відкрити вихідний код Stable LM 3B, щоб допомогти розробникам, які не мають величезних обчислювальних ресурсів, створювати невеликі та компактні генеративні продукти ШІ, які можуть безпечно та стабільно працювати на мобільних пристроях.
Стабільний набір навчальних даних LM 3B
Хоча модель має лише 3 мільярди параметрів, вона використовує величезний набір навчальних даних із 1 трильйона токенів, включаючи текст, код, Wikipedia, ArXiv, книги, C4 та інші дані.
Цей набір даних відфільтровано та змішано з кількох широкомасштабних наборів даних з відкритим кодом, зокрема Falcon RefinedWeb, RedPajama-Data, The Pile та StarCoder.
Це дозволяє Stable LM 3B перевершувати моделі такого ж розміру з меншими ресурсами та навіть сильніше, ніж деякі великі моделі з 7 мільярдами або 10 мільярдами параметрів.
Стабільний тренувальний процес LM 3B
Стабільний LM 3B починається з точного навчання bfloat16 972 Кб, а довжина глобального контексту становить 4096 замість багатоетапного вдосконалення з 2048 до 4096, як у StableLM-Alpha v2.
Stability.ai використовував AdamW для оптимізації продуктивності та використовував лінійну розминку для перших 4800 кроків, а потім косинусний розклад, щоб знизити швидкість навчання до 4% від піку.
Рання нестабільність пояснюється тривалим перебуванням у регіоні з високим рівнем навчання. Оскільки модель відносно невелика, дропаут не використовується.
Під час процесу навчання Stability.ai оцінює контрольні показники природної мови та спостерігає постійні покращення від навчання в кінці графіка зниження швидкості навчання. З цієї причини розробники вирішили лінійно зменшити швидкість навчання до 0, подібно до того, що зробили Чжай та інші, в надії досягти кращої продуктивності.
Крім того, початковий етап попереднього навчання покладається на API flash-attention і його готову підтримку трикутного причинно-наслідкового маскування. Це змушує модель обробляти різні документи в упакованій послідовності подібним чином.
Під час фази охолодження Stability.ai скидає ідентифікатори позиції та маски уваги на маркерах EOD для всіх упакованих послідовностей після емпіричного спостереження покращення якості зразка (тобто: зменшення дублювання) у одночасних експериментах.
З точки зору апаратного забезпечення, StableLM-3B навчається на обчислювальному кластері Stability AI. Кластер містить 256 відеокарт NVIDIA A100 40 ГБ. Навчання розпочалося 23 серпня 2023 року та тривало приблизно 30 днів.
З точки зору тестування продуктивності, StableLM-3B було протестовано в системі оцінки lm-uation-harness з нульовою вибіркою. Результати показують, що продуктивність не поступається моделі з 7 мільярдами параметрів і навіть перевершує деякі моделі з 10 мільярдами параметрів.
Матеріал цієї статті взято з офіційного сайту Stability.ai.Якщо є порушення, будь ласка, зв'яжіться з нами, щоб видалити його.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Його можна запускати на мобільних телефонах із 1 трильйоном навчальних даних! StableLM-3B-4E1T тут
**Джерело: **AIGC Open Community
2 жовтня за східним часом відома платформа з відкритим кодом Stability.ai оголосила на своєму офіційному сайті про запуск великої мовної моделі з відкритим кодом StableLM-3B-4E1T. (Адреса відкритого джерела:
Повідомляється, що Stable LM 3B є базовою великою мовною моделлю в основному для мобільних пристроїв, таких як мобільні телефони та ноутбуки. Вона значно знижує вимоги до обчислювальних ресурсів, забезпечуючи при цьому продуктивність.
Stable LM 3B підтримує такі функції, як генерація тексту/коду, резюмування підсумків, точне налаштування даних, міркування здорового глузду та вирішення математичних задач. Довжина глобального контексту становить 4096. (іменується "Stable LM 3B")
Stability.ai сподівається відкрити вихідний код Stable LM 3B, щоб допомогти розробникам, які не мають величезних обчислювальних ресурсів, створювати невеликі та компактні генеративні продукти ШІ, які можуть безпечно та стабільно працювати на мобільних пристроях.
Стабільний набір навчальних даних LM 3B
Хоча модель має лише 3 мільярди параметрів, вона використовує величезний набір навчальних даних із 1 трильйона токенів, включаючи текст, код, Wikipedia, ArXiv, книги, C4 та інші дані.
Цей набір даних відфільтровано та змішано з кількох широкомасштабних наборів даних з відкритим кодом, зокрема Falcon RefinedWeb, RedPajama-Data, The Pile та StarCoder.
Це дозволяє Stable LM 3B перевершувати моделі такого ж розміру з меншими ресурсами та навіть сильніше, ніж деякі великі моделі з 7 мільярдами або 10 мільярдами параметрів.
Стабільний тренувальний процес LM 3B
Стабільний LM 3B починається з точного навчання bfloat16 972 Кб, а довжина глобального контексту становить 4096 замість багатоетапного вдосконалення з 2048 до 4096, як у StableLM-Alpha v2.
Stability.ai використовував AdamW для оптимізації продуктивності та використовував лінійну розминку для перших 4800 кроків, а потім косинусний розклад, щоб знизити швидкість навчання до 4% від піку.
Рання нестабільність пояснюється тривалим перебуванням у регіоні з високим рівнем навчання. Оскільки модель відносно невелика, дропаут не використовується.
Крім того, початковий етап попереднього навчання покладається на API flash-attention і його готову підтримку трикутного причинно-наслідкового маскування. Це змушує модель обробляти різні документи в упакованій послідовності подібним чином.
Під час фази охолодження Stability.ai скидає ідентифікатори позиції та маски уваги на маркерах EOD для всіх упакованих послідовностей після емпіричного спостереження покращення якості зразка (тобто: зменшення дублювання) у одночасних експериментах.
З точки зору тестування продуктивності, StableLM-3B було протестовано в системі оцінки lm-uation-harness з нульовою вибіркою. Результати показують, що продуктивність не поступається моделі з 7 мільярдами параметрів і навіть перевершує деякі моделі з 10 мільярдами параметрів.