Навчання на півдня з бюджетом 1000 юанів, ефект можна порівняти з основними великими моделями з відкритим кодом і комерційно доступними китайськими LLaMA-2
У порівнянні з LLaMA-1, LLaMA-2 представляє більш якісний корпус, досягає значного покращення продуктивності та повністю дозволений для комерційного використання, що ще більше стимулює процвітання спільноти з відкритим кодом і розширює уяву застосування великомасштабних моделей. Однак вартість попереднього навчання великих моделей з нуля досить висока, і її жартома називають «50 мільйонів доларів, щоб увійти в гру», що відлякує багато компаній і розробників. Отже, як створити власні великі моделі за меншу вартість?
Будучи лідером у зниженні витрат і підвищенні ефективності великих моделей, команда Colossal-AI повністю використовує основні можливості LLaMA-2 і застосовує ефективні методи навчання, використовуючи лише близько 8,5 млрд даних токенів, 15 годин і тисячі юанів. **Успішно створено китайський LLaMA-2 із відмінними характеристиками, який має відмінні показники в кількох списках оцінювання.
Порівняно з оригінальним LLaMA-2, на основі успішного вдосконалення навичок китайської мови він ще більше покращив навички англійської мови, а його продуктивність можна порівняти з аналогічною попередньо навченою моделлю SOTA у спільноті з відкритим кодом. Дотримуючись послідовного принципу відкритого коду команди Colossal-AI, ** весь навчальний процес, код і ваги є повністю відкритим кодом, без комерційних обмежень, ** і повна система оцінки Colossal надається для досягнення низької вартості відтворюваність. Пов’язані рішення також можна перенести в будь-яке вертикальне поле та використовувати для створення недорогих попередньо навчених моделей з нуля.
Відкритий код і вага:
Продуктивність
*Примітка. Базуючись на оцінці Colossal, оцінки в дужках взято з оцінок офіційного списку відповідних моделей, а оцінка C – на офіційному веб-сайті таблиці лідерів. *
У загальних списках оцінки китайською та англійською мовами ми бачимо, що в англійському списку MMLU Colossal-LLaMA-2-7B-base подолав проблему катастрофічного забування завдяки підтримці недорогого інкрементального попереднього навчання. Поступове вдосконалення ( 44.47 -> 53.06), продуктивність відмінна серед усіх моделей масштабу 7B.
У китайському списку в основному порівнюються CMMLU, AGI, GAOKAO і C-, і ефект значно перевищує інші китайські моделі локалізації на основі LLaMA-2. Навіть порівняно з іншими відомими моделями, які використовують китайський корпус і можуть коштувати десятки мільйонів доларів на попереднє навчання з нуля, Colossal-LLaMA-2 все ще добре працює в тому ж масштабі. Особливо порівняно з оригінальним LLaMA-2, відбувся якісний стрибок у китайських можливостях (CMMLU: 32,97 -> 49,89).
Однак завдяки тонкому налаштуванню за допомогою SFT, LoRA та інших методів знання та можливості, які можна ефективно впровадити в базову модель, дуже обмежені, і вони не можуть краще задовольнити потреби створення високоякісних знань предметної області або додатків вертикальної моделі.
Щоб краще оцінити продуктивність моделі, команда Colossal-AI не тільки покладається на кількісні показники, але й вручну оцінює різні аспекти моделі. Ось кілька прикладів:
Судячи з запису про втрату всього навчання, використовуючи переваги системи Colossal-AI зменшувати витрати та підвищувати ефективність, конвергенція моделі також повністю гарантована, лише з приблизно 8,5 мільярдами токенів (8,5 мільярдів токенів) і обчислювальною потужністю. вартістю кілька тисяч юанів Нехай модель досягне таких приголомшливих ефектів. Однак великі моделі на ринку часто використовують трильйони токенів для навчання, щоб забезпечити ефективні результати, що дуже дорого.
Отже, як команда Colossal-AI зменшила витрати на навчання та досягла таких результатів?
Розширення словникового запасу та ініціалізація моделі
Оригінальний список словників LLaMA-2 не оптимізований спеціально для китайської мови та містить обмежену кількість китайських слів, що призводить до недостатнього розуміння китайського корпусу. Тому словниковий запас LLaMA-2 спочатку було розширено.
Команда Colossal-AI виявила:
Розширення словникового запасу може не тільки ефективно підвищити ефективність кодування послідовності рядків, але й зробити так, щоб послідовність кодування містила ефективнішу інформацію, яка буде більш корисною для кодування та розуміння на рівні розділу.
Однак через невелику кількість додаткових даних попереднього навчання розширення слів призведе до того, що деякі слова чи комбінації не матимуть практичного значення, що ускладнить повне вивчення набору даних додаткового попереднього навчання, що вплине на кінцевий ефект.
Надмірно великий словниковий запас призведе до збільшення параметрів, пов’язаних із вбудовуванням, що вплине на ефективність навчання.
Тому, після неодноразових експериментів і враховуючи якість і ефективність навчання, команда Colossal-AI нарешті вирішила розширити словниковий запас з початкових 32 000 LLaMA-2 до 69 104.
З розширеним словником наступним кроком є ініціалізація вбудовування нового словника на основі оригінального LLaMA-2. Щоб краще перенести оригінальні можливості LLaMA-2 і досягти швидкого переходу від оригінального LLaMA-2 до можливостей китайського LLaMA-2, команда Colossal-AI використала вагові коефіцієнти оригінального LLaMA-2, щоб усереднити нове вбудовування. ініціалізація. Це не тільки гарантує, що здатність англійської мови щойно ініціалізованої моделі не постраждає у початковому стані, але також дозволяє якомога безпроблемніше перенести здатність англійської мови на китайську мову.
Побудова даних
Щоб значно знизити вартість навчання, високоякісні дані відіграють ключову роль, особливо для поступового попереднього навчання, яке має надзвичайно високі вимоги до якості та розподілу даних. Щоб краще перевіряти високоякісні дані, команда Colossal-AI створила повну систему очищення даних і набір інструментів для перевірки високоякісних даних для поступового попереднього навчання.
На наступних малюнках показано повний процес керування даними команди Colossal-AI:
На додаток до звичайної евристичної фільтрації та дедуплікації даних, він також виконує оцінку, класифікацію та фільтрацію ключових даних. Відповідні дані відіграють вирішальну роль у стимулюванні навичок китайської мови LLaMA-2, одночасно подолавши катастрофічну проблему забування англійської мови.
Нарешті, щоб підвищити ефективність навчання, для даних того самого суб’єкта команда Colossal-AI відсортувала довжину даних і з’єднала їх відповідно до максимальної довжини 4096.
Стратегія навчання
Багатоетапне навчання
З точки зору навчання, з огляду на характеристики поступового попереднього навчання, команда Colossal-AI розробила багатоетапний ієрархічний поступовий план попереднього навчання, який розділив процес навчання на три етапи:
* Масштабна стадія попереднього навчання: мета полягає в тому, щоб навчити модель через велику кількість корпусу, щоб модель могла створювати відносно гладкий текст. Цей етап завершує LLaMA-2. Після цього етапу модель опанувала великий обсяг знань англійської мови та може виводити плавні результати на основі Next Token Prediction.
Етап впровадження китайських знань: цей етап залежить від високоякісних знань китайської мови. З одного боку, він покращує володіння моделлю знаннями китайської мови, а з іншого боку, покращує розуміння моделлю слів у щойно доданому китайському словнику.
Релевантний етап відтворення знань: цей етап присвячений покращенню розуміння моделі та здатності узагальнювати знання та полегшенню проблеми катастрофічного забування.
Кілька етапів доповнюють один одного і зрештою гарантують, що можливості моделі китайською та англійською мовами йдуть рука об руку.
Тренування з відром
Поступове попереднє навчання надзвичайно чутливе до розподілу даних, і баланс особливо важливий. Тому, щоб забезпечити збалансований розподіл даних, команда Colossal-AI розробила стратегію групування даних, щоб розділити дані одного типу на 10 різних бункерів. Під час процесу навчання кожне відро даних рівномірно містить контейнер кожного типу даних, таким чином гарантуючи, що кожен тип даних може рівномірно використовуватися моделлю.
Система оцінювання
Щоб краще оцінити продуктивність моделі, команда Colossal-AI створила повну систему оцінювання – Colossal, сподіваючись оцінити великі мовні моделі за кількома вимірами. Код інфраструктури процесу є повністю відкритим кодом, який не тільки підтримує відтворення результатів, але й дозволяє користувачам налаштовувати набори даних і методи оцінки відповідно до різних сценаріїв застосування. Особливості системи оцінювання підсумовуються таким чином:
Охоплює загальні набори даних, такі як MMLU, CMMLU тощо для оцінки можливостей резерву знань великих мовних моделей. Для форми запитань з одним вибором відповіді, на додаток до загального методу обчислення порівняння ймовірностей ABCD, додано більш комплексні методи обчислення, такі як абсолютна відповідність, здивування з одним вибором тощо, щоб більш повно виміряти майстерність моделі знань..
Підтримує оцінювання з кількома варіантами відповіді та оцінювання за довгим текстом.
Підтримує методи оцінки для різних сценаріїв застосування, таких як багатораундовий діалог, рольова гра, витяг інформації, генерація контенту тощо. Користувачі можуть вибірково оцінювати можливості різних аспектів моделі відповідно до власних потреб і підтримувати розширення методів налаштування та оцінки.
Побудуйте міст для переходу від звичайних великих моделей до великих вертикальних моделей
Судячи з досвіду команди Colossal-AI, створення китайської версії моделі на основі LLaMA-2 можна в основному розділити на такі процеси:
Отже, чи можна використовувати цей розчин повторно?
Відповідь - так, і це дуже важливо в сценарії впровадження бізнесу.
З хвилею штучного інтелекту, розпочатою ChatGPT, великі інтернет-гіганти, компанії штучного інтелекту, стартапи, університети та дослідницькі установи по всьому світу мчаться на трасі загальних великих моделей. Однак за загальними можливостями загальних великих моделей часто криється брак знань у конкретних галузях, тому при реальній реалізації проблема ілюзії великої моделі стає особливо серйозною. Хоча тонке налаштування бізнесу може досягти певних переваг, відсутність великих вертикальних моделей призводить до вузьких місць у продуктивності реалізації програми. Якщо велику вертикальну модель можна побудувати швидко та з низькими витратами, а потім налаштувати бізнес на основі великої вертикальної моделі, ми точно зможемо зробити наступний крок вперед у реалізації бізнесу та скористатися можливостями та перевагами.
Застосовуючи наведений вище процес для передачі знань у будь-якій галузі, ви можете побудувати легкий процес для побудови великих вертикальних базових моделей у будь-якій галузі за низькою ціною: **
Для попереднього навчання та створення базової великої моделі з нуля ми також можемо використати наведений вище досвід і можливості Colossal-AI щодо зниження витрат і підвищення ефективності, щоб завершити це ефективно та з найменшими витратами.
Оптимізація системи
Вищезазначені видатні переваги продуктивності та вартості Colossal-LLaMA-2 побудовані на недорогій системі розробки великої моделі ШІ Colossal-AI.
Colossal-AI заснований на PyTorch, який може зменшити витрати на розробку та застосування великої моделі штучного інтелекту, навчання/точне налаштування/виведення, покращити продуктивність завдань моделі та зменшити вимоги до GPU завдяки ефективному багатовимірному паралелізму, гетерогенній пам’яті тощо. Трохи більше ніж за рік він отримав понад 30 000 зірок GitHub у спільноті з відкритим кодом GitHub, посівши перше місце в світі за інструментами розробки великих моделей і сегментації спільноти, і був розроблений спільно з багатьма відомими виробниками, включаючи провідних світових виробників. 500 компаній/ Оптимізуйте 100 мільярдів/10 мільярдів параметрів для попереднього навчання великих моделей або створення вертикальних моделей.
Colossal-AI Cloud Platform
Щоб ще більше підвищити ефективність розробки та розгортання великих моделей штучного інтелекту, Colossal-AI було оновлено до хмарної платформи Colossal-AI, яка дозволяє користувачам навчати, налаштовувати та розгортати великі моделі в хмарі в умовах низьких витрат. код/без коду за низькою ціною, швидка інтеграція різних моделей, інтегрованих у персоналізовані програми.
Наразі основні моделі та рішення, такі як Stable diffusion і LLaMA-2, попередньо встановлені на хмарній платформі Colossal-AI. Користувачам потрібно лише завантажити власні дані для точного налаштування. У той же час вони також можуть розгортати свої точні Налаштовані моделі як API за доступними цінами дозволяють використовувати A10, A800, H800 та інші ресурси GPU без необхідності підтримувати власні обчислювальні кластери та різні інфраструктури. Постійно повторюються нові сценарії застосування, різні поля, різні версії моделей, розгортання платформи приватизації підприємства тощо.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Навчання на півдня з бюджетом 1000 юанів, ефект можна порівняти з основними великими моделями з відкритим кодом і комерційно доступними китайськими LLaMA-2
У порівнянні з LLaMA-1, LLaMA-2 представляє більш якісний корпус, досягає значного покращення продуктивності та повністю дозволений для комерційного використання, що ще більше стимулює процвітання спільноти з відкритим кодом і розширює уяву застосування великомасштабних моделей. Однак вартість попереднього навчання великих моделей з нуля досить висока, і її жартома називають «50 мільйонів доларів, щоб увійти в гру», що відлякує багато компаній і розробників. Отже, як створити власні великі моделі за меншу вартість?
Будучи лідером у зниженні витрат і підвищенні ефективності великих моделей, команда Colossal-AI повністю використовує основні можливості LLaMA-2 і застосовує ефективні методи навчання, використовуючи лише близько 8,5 млрд даних токенів, 15 годин і тисячі юанів. **Успішно створено китайський LLaMA-2 із відмінними характеристиками, який має відмінні показники в кількох списках оцінювання.
Порівняно з оригінальним LLaMA-2, на основі успішного вдосконалення навичок китайської мови він ще більше покращив навички англійської мови, а його продуктивність можна порівняти з аналогічною попередньо навченою моделлю SOTA у спільноті з відкритим кодом. Дотримуючись послідовного принципу відкритого коду команди Colossal-AI, ** весь навчальний процес, код і ваги є повністю відкритим кодом, без комерційних обмежень, ** і повна система оцінки Colossal надається для досягнення низької вартості відтворюваність. Пов’язані рішення також можна перенести в будь-яке вертикальне поле та використовувати для створення недорогих попередньо навчених моделей з нуля.
Відкритий код і вага:
У загальних списках оцінки китайською та англійською мовами ми бачимо, що в англійському списку MMLU Colossal-LLaMA-2-7B-base подолав проблему катастрофічного забування завдяки підтримці недорогого інкрементального попереднього навчання. Поступове вдосконалення ( 44.47 -> 53.06), продуктивність відмінна серед усіх моделей масштабу 7B.
У китайському списку в основному порівнюються CMMLU, AGI, GAOKAO і C-, і ефект значно перевищує інші китайські моделі локалізації на основі LLaMA-2. Навіть порівняно з іншими відомими моделями, які використовують китайський корпус і можуть коштувати десятки мільйонів доларів на попереднє навчання з нуля, Colossal-LLaMA-2 все ще добре працює в тому ж масштабі. Особливо порівняно з оригінальним LLaMA-2, відбувся якісний стрибок у китайських можливостях (CMMLU: 32,97 -> 49,89).
Однак завдяки тонкому налаштуванню за допомогою SFT, LoRA та інших методів знання та можливості, які можна ефективно впровадити в базову модель, дуже обмежені, і вони не можуть краще задовольнити потреби створення високоякісних знань предметної області або додатків вертикальної моделі.
Щоб краще оцінити продуктивність моделі, команда Colossal-AI не тільки покладається на кількісні показники, але й вручну оцінює різні аспекти моделі. Ось кілька прикладів:
Розширення словникового запасу та ініціалізація моделі
Оригінальний список словників LLaMA-2 не оптимізований спеціально для китайської мови та містить обмежену кількість китайських слів, що призводить до недостатнього розуміння китайського корпусу. Тому словниковий запас LLaMA-2 спочатку було розширено.
Команда Colossal-AI виявила:
Тому, після неодноразових експериментів і враховуючи якість і ефективність навчання, команда Colossal-AI нарешті вирішила розширити словниковий запас з початкових 32 000 LLaMA-2 до 69 104.
З розширеним словником наступним кроком є ініціалізація вбудовування нового словника на основі оригінального LLaMA-2. Щоб краще перенести оригінальні можливості LLaMA-2 і досягти швидкого переходу від оригінального LLaMA-2 до можливостей китайського LLaMA-2, команда Colossal-AI використала вагові коефіцієнти оригінального LLaMA-2, щоб усереднити нове вбудовування. ініціалізація. Це не тільки гарантує, що здатність англійської мови щойно ініціалізованої моделі не постраждає у початковому стані, але також дозволяє якомога безпроблемніше перенести здатність англійської мови на китайську мову.
Побудова даних
Щоб значно знизити вартість навчання, високоякісні дані відіграють ключову роль, особливо для поступового попереднього навчання, яке має надзвичайно високі вимоги до якості та розподілу даних. Щоб краще перевіряти високоякісні дані, команда Colossal-AI створила повну систему очищення даних і набір інструментів для перевірки високоякісних даних для поступового попереднього навчання.
На наступних малюнках показано повний процес керування даними команди Colossal-AI:
Нарешті, щоб підвищити ефективність навчання, для даних того самого суб’єкта команда Colossal-AI відсортувала довжину даних і з’єднала їх відповідно до максимальної довжини 4096.
Стратегія навчання
Багатоетапне навчання
З точки зору навчання, з огляду на характеристики поступового попереднього навчання, команда Colossal-AI розробила багатоетапний ієрархічний поступовий план попереднього навчання, який розділив процес навчання на три етапи:
Кілька етапів доповнюють один одного і зрештою гарантують, що можливості моделі китайською та англійською мовами йдуть рука об руку.
Тренування з відром
Поступове попереднє навчання надзвичайно чутливе до розподілу даних, і баланс особливо важливий. Тому, щоб забезпечити збалансований розподіл даних, команда Colossal-AI розробила стратегію групування даних, щоб розділити дані одного типу на 10 різних бункерів. Під час процесу навчання кожне відро даних рівномірно містить контейнер кожного типу даних, таким чином гарантуючи, що кожен тип даних може рівномірно використовуватися моделлю.
Система оцінювання
Щоб краще оцінити продуктивність моделі, команда Colossal-AI створила повну систему оцінювання – Colossal, сподіваючись оцінити великі мовні моделі за кількома вимірами. Код інфраструктури процесу є повністю відкритим кодом, який не тільки підтримує відтворення результатів, але й дозволяє користувачам налаштовувати набори даних і методи оцінки відповідно до різних сценаріїв застосування. Особливості системи оцінювання підсумовуються таким чином:
Побудуйте міст для переходу від звичайних великих моделей до великих вертикальних моделей
Судячи з досвіду команди Colossal-AI, створення китайської версії моделі на основі LLaMA-2 можна в основному розділити на такі процеси:
Відповідь - так, і це дуже важливо в сценарії впровадження бізнесу.
З хвилею штучного інтелекту, розпочатою ChatGPT, великі інтернет-гіганти, компанії штучного інтелекту, стартапи, університети та дослідницькі установи по всьому світу мчаться на трасі загальних великих моделей. Однак за загальними можливостями загальних великих моделей часто криється брак знань у конкретних галузях, тому при реальній реалізації проблема ілюзії великої моделі стає особливо серйозною. Хоча тонке налаштування бізнесу може досягти певних переваг, відсутність великих вертикальних моделей призводить до вузьких місць у продуктивності реалізації програми. Якщо велику вертикальну модель можна побудувати швидко та з низькими витратами, а потім налаштувати бізнес на основі великої вертикальної моделі, ми точно зможемо зробити наступний крок вперед у реалізації бізнесу та скористатися можливостями та перевагами.
Застосовуючи наведений вище процес для передачі знань у будь-якій галузі, ви можете побудувати легкий процес для побудови великих вертикальних базових моделей у будь-якій галузі за низькою ціною: **
Оптимізація системи
Вищезазначені видатні переваги продуктивності та вартості Colossal-LLaMA-2 побудовані на недорогій системі розробки великої моделі ШІ Colossal-AI.
Colossal-AI заснований на PyTorch, який може зменшити витрати на розробку та застосування великої моделі штучного інтелекту, навчання/точне налаштування/виведення, покращити продуктивність завдань моделі та зменшити вимоги до GPU завдяки ефективному багатовимірному паралелізму, гетерогенній пам’яті тощо. Трохи більше ніж за рік він отримав понад 30 000 зірок GitHub у спільноті з відкритим кодом GitHub, посівши перше місце в світі за інструментами розробки великих моделей і сегментації спільноти, і був розроблений спільно з багатьма відомими виробниками, включаючи провідних світових виробників. 500 компаній/ Оптимізуйте 100 мільярдів/10 мільярдів параметрів для попереднього навчання великих моделей або створення вертикальних моделей.
Colossal-AI Cloud Platform
Щоб ще більше підвищити ефективність розробки та розгортання великих моделей штучного інтелекту, Colossal-AI було оновлено до хмарної платформи Colossal-AI, яка дозволяє користувачам навчати, налаштовувати та розгортати великі моделі в хмарі в умовах низьких витрат. код/без коду за низькою ціною, швидка інтеграція різних моделей, інтегрованих у персоналізовані програми.
Довідкове посилання: