Обучение на полдня при бюджете 1000 юаней, эффект сравним с обычными крупными моделями с открытым исходным кодом и коммерчески доступными китайскими LLaMA-2.

2023-09-25 05:56:51

Источник изображения: Создано Unbounded AI

По сравнению с LLaMA-1, LLaMA-2 представляет более высококачественный корпус, обеспечивает значительное улучшение производительности и полностью разрешен для коммерческого использования, что еще больше стимулирует процветание сообщества открытого исходного кода и расширяет возможности применения крупномасштабных моделей. Однако стоимость предварительного обучения больших моделей с нуля довольно высока и в шутку называется «50 миллионов долларов за вход в игру», что отпугивает многие компании и разработчиков. Так как же создать свои собственные большие модели с меньшими затратами?

Являясь лидером в сокращении затрат и повышении эффективности больших моделей, команда Colossal-AI в полной мере использует базовые возможности LLaMA-2 и применяет эффективные методы обучения, используя всего около 8,5 млрд данных токенов, 15 часов и тысячи юаней. **Успешно построен китайский LLaMA-2 с отличными характеристиками, который имеет отличные показатели в нескольких оценочных списках.

По сравнению с исходным LLaMA-2, благодаря успешному улучшению навыков китайского языка, он еще больше улучшил свои знания английского языка, а его производительность сравнима с предварительно обученной моделью SOTA того же масштаба в сообществе с открытым исходным кодом. Придерживаясь последовательного принципа открытого исходного кода команды Colossal-AI, ** весь процесс обучения, код и веса являются полностью открытыми, без каких-либо коммерческих ограничений, ** и полная система оценки Colossal предоставляется для достижения низкой стоимости. воспроизводимость. Сопутствующие решения также можно перенести в любую вертикальную область и использовать для создания недорогих предварительно обученных моделей с нуля.

Открытый исходный код и вес:

Производительность

*Примечание: на основании оценки Colossal оценки в скобках взяты из официального списка оценок соответствующих моделей, а оценка C- взята с официального сайта Leaderboard. *

В общих китайских и английских оценочных списках мы видим, что в английском списке MMLU Colossal-LLaMA-2-7B-base преодолела проблему катастрофического забывания благодаря поддержке недорогого дополнительного предварительного обучения. 44,47 -> 53,06), характеристики превосходны среди всех моделей масштаба 7B.

В китайском списке в основном сравниваются CMMLU, AGI, GAOKAO и C-, причем эффект намного превосходит другие модели китайской локализации на основе LLaMA-2. Даже по сравнению с другими известными моделями, которые используют китайский корпус и могут стоить десятки миллионов долларов для предварительного обучения с нуля, Colossal-LLaMA-2 по-прежнему хорошо работает в том же масштабе. Особенно по сравнению с оригинальным LLaMA-2, произошел качественный скачок в способностях китайцев (CMMLU: 32,97 -> 49,89).

Однако из-за тонкой настройки с помощью SFT, LoRA и других методов знания и способности, которые можно эффективно внедрить в базовую модель, очень ограничены и не могут лучше удовлетворить потребности в создании высококачественных знаний предметной области или приложений вертикальных моделей.

Чтобы лучше оценить производительность модели, команда Colossal-AI не только опирается на количественные показатели, но и вручную оценивает различные аспекты модели.Вот несколько примеров:

Судя по записи потерь всего обучения, при использовании способности системы Colossal-AI снижать затраты и повышать эффективность, сходимость модели также полностью гарантирована, имея всего около 8,5 млрд токенов (8,5 млрд токенов) и вычислительную мощность. стоимость в несколько тысяч юаней.Пусть модель достигнет таких потрясающих эффектов. Однако крупные модели на рынке часто используют для обучения триллионы токенов для обеспечения эффективных результатов, что обходится очень дорого.

Так как же команде Colossal-AI удалось сократить затраты на обучение и добиться таких результатов?

Расширение словарного запаса и инициализация модели

Исходный словарный список LLaMA-2 специально не оптимизирован для китайского языка и содержит ограниченное количество китайских слов, что приводит к недостаточному пониманию китайского корпуса. Поэтому словарь LLaMA-2 впервые был расширен.

Команда Colossal-AI обнаружила:

Расширение словарного запаса может не только эффективно повысить эффективность кодирования строковых последовательностей, но также сделать так, чтобы последовательность кодирования содержала более эффективную информацию, что будет более полезно при кодировании и понимании на уровне главы.
Однако из-за небольшого объема дополнительных данных предварительного обучения расширение большего количества слов приведет к тому, что некоторые слова или комбинации не будут иметь практического значения, что затруднит полное обучение на дополнительном наборе данных предварительного обучения, что повлияет на конечный эффект.
Чрезмерно большой словарный запас приведет к увеличению параметров, связанных с встраиванием, что повлияет на эффективность обучения.

Поэтому после неоднократных экспериментов и принимая во внимание качество и эффективность обучения, команда Colossal-AI наконец решила расширить словарный запас с исходных 32 000 LLaMA-2 до 69 104.

Следующим шагом при расширении словаря является инициализация внедрения нового словаря на основе исходного LLaMA-2. Чтобы лучше перенести исходные возможности LLaMA-2 и добиться быстрого перехода от исходного LLaMA-2 к китайским возможностям LLaMA-2, команда Colossal-AI использовала веса исходного LLaMA-2 для усреднения нового внедрения. инициализация. Это не только гарантирует, что способность новой инициализированной модели к английскому языку не будет затронута в исходном состоянии, но также позволяет максимально плавно перенести способность английского языка на китайский.

Создание данных

Чтобы в большей степени снизить стоимость обучения, ключевую роль играют высококачественные данные, особенно для поэтапного предварительного обучения, которое предъявляет чрезвычайно высокие требования к качеству и распределению данных. Чтобы лучше проверять высококачественные данные, команда Colossal-AI создала полноценную систему очистки данных и набор инструментов для проверки высококачественных данных для поэтапного предварительного обучения.

На следующих изображениях показан полный процесс управления данными команды Colossal-AI:

Помимо обычной эвристической фильтрации и дедупликации данных, он также выполняет оценку, классификацию и фильтрацию ключевых данных. Соответствующие данные играют решающую роль в стимулировании способностей LLaMA-2 к китайскому языку и преодолении катастрофической проблемы забывания английского языка.

Наконец, чтобы повысить эффективность обучения, для данных одного и того же субъекта команда Colossal-AI отсортировала данные по длине и склеила их по максимальной длине 4096.

Стратегия обучения

Многоэтапное обучение

Что касается обучения, то, учитывая особенности поэтапного предварительного обучения, команда Colossal-AI разработала многоэтапный иерархический план поэтапного предварительного обучения, разделив процесс обучения на три этапа:

* Масштабный этап предварительного обучения. Цель состоит в том, чтобы обучить модель на большом объеме корпуса, чтобы модель могла создавать относительно плавный текст. Этот этап завершается LLaMA-2.После этого этапа модель освоила большой объем знаний английского языка и может выдавать плавные результаты на основе прогнозирования следующего токена.

Этап внедрения знаний китайского языка: этот этап опирается на высококачественные знания китайского языка. С одной стороны, он улучшает владение моделью знаниями китайского языка, а с другой стороны, улучшает понимание моделью слов из недавно добавленного китайского словаря.
Соответствующий этап воспроизведения знаний: этот этап посвящен улучшению понимания модели и способности к обобщению знаний, а также облегчению проблемы катастрофического забывания.

Многочисленные этапы дополняют друг друга и в конечном итоге гарантируют, что возможности модели на китайском и английском языках будут идти рука об руку.

Групповое обучение

Поэтапное предварительное обучение чрезвычайно чувствительно к распределению данных, и баланс особенно важен. Поэтому, чтобы обеспечить сбалансированное распределение данных, команда Colossal-AI разработала стратегию группирования данных, позволяющую разделить данные одного и того же типа на 10 разных ячеек. Во время процесса обучения каждая корзина данных равномерно содержит корзину каждого типа данных, что обеспечивает равномерное использование каждого типа данных моделью.

Система оценки

Чтобы лучше оценить производительность модели, команда Colossal-AI создала полноценную систему оценки Colossal, надеясь оценить большие языковые модели по нескольким измерениям. Код структуры процесса имеет полностью открытый исходный код, который не только поддерживает воспроизведение результатов, но также позволяет пользователям настраивать наборы данных и методы оценки в соответствии с различными сценариями их применения. Особенности системы оценки резюмируются следующим образом:

Охватывает общие наборы данных, такие как MMLU, CMMLU и т. д., для оценки возможностей резерва знаний больших языковых моделей. Для формы вопросов с одним выбором, в дополнение к общему методу расчета сравнения вероятностей ABCD, добавляются более полные методы расчета, такие как абсолютное совпадение, недоумение с одним выбором и т. д., чтобы более полно измерить мастерство модели. знаний. .
Поддерживает тесты с множественным выбором и длинные текстовые тесты.
Поддерживает методы оценки для различных сценариев применения, таких как многораундовый диалог, ролевая игра, извлечение информации, генерация контента и т. д. Пользователи могут выборочно оценивать возможности различных аспектов модели в соответствии со своими потребностями и поддерживать расширение методов настройки и оценки.

Создайте мост для перехода от общих больших моделей к вертикальным большим моделям

Судя по опыту команды Colossal-AI, построение китайской версии модели на базе LLaMA-2 можно условно разделить на следующие процессы:

Так можно ли повторно использовать это решение?

Ответ — да, и это очень важно в сценарии бизнес-реализации.

С волной искусственного интеллекта, вызванной ChatGPT, крупные интернет-гиганты, компании, занимающиеся искусственным интеллектом, стартапы, университеты и исследовательские институты по всему миру мчатся по трассе общих больших моделей. Однако за общими возможностями больших моделей часто скрывается недостаток знаний в конкретных областях, поэтому при реальной реализации проблема иллюзии больших моделей становится особенно серьезной. Хотя тонкая настройка бизнеса может принести определенные выгоды, отсутствие крупных вертикальных моделей приводит к снижению производительности при реализации приложений. Если большую вертикальную модель удастся построить быстро и с низкими затратами, а затем на основе большой вертикальной модели можно будет точно настроить бизнес, мы определенно сможем сделать следующий шаг вперед в реализации бизнеса и воспользоваться возможностями и преимуществами.

Применяя описанный выше процесс для передачи знаний в любой области, вы можете построить упрощенный процесс построения больших вертикальных базовых моделей в любой области с небольшими затратами: **

Для предварительного обучения и создания базовой большой модели с нуля мы также можем использовать вышеупомянутый опыт и возможности Colossal-AI по снижению затрат и повышению эффективности, чтобы завершить ее эффективно и с наименьшими затратами.

Оптимизация системы

Вышеупомянутые выдающиеся характеристики и ценовые преимущества Colossal-LLaMA-2 основаны на недорогой системе разработки больших моделей искусственного интеллекта Colossal-AI.

Colossal-AI основан на PyTorch, который может снизить затраты на разработку и применение для обучения/тонкой настройки/вывода больших моделей ИИ, повысить производительность задач модели и снизить требования к графическому процессору за счет эффективного многомерного параллелизма, гетерогенной памяти и т. д. Всего за год он получил более 30 000 звезд GitHub Stars в сообществе GitHub с открытым исходным кодом, заняв первое место в мире по инструментам разработки больших моделей и сегментации сообщества. Он был разработан совместно со многими известными производителями, включая ведущих мировых производителей. 500 компаний/ Оптимизация 100 миллиардов/10 миллиардов параметров для предварительного обучения больших моделей или создания вертикальных моделей.

Облачная платформа Colossal-AI

В целях дальнейшего повышения эффективности разработки и развертывания крупных моделей ИИ Colossal-AI был модернизирован до облачной платформы Colossal-AI, которая позволяет пользователям проводить обучение, тонкую настройку и развертывание крупных моделей в облаке с минимальными затратами. -кодирование/безкодирование по низкой цене, быстрая интеграция различных моделей в персонализированные приложения.

В настоящее время на облачной платформе Colossal-AI предварительно настроены основные модели и решения, такие как Stable Diffuse и LLaMA-2.Пользователям нужно только загрузить свои собственные данные для точной настройки.В то же время они также могут развернуть свои тонкие -настроенные модели в виде API по доступным ценам позволяют использовать A10, A800, H800 и другие ресурсы графических процессоров без необходимости содержания собственных вычислительных кластеров и различных инфраструктур. Постоянно обновляются новые сценарии применения, различные области, разные версии моделей, развертывание платформы приватизации предприятия и т. д.

Облачная платформа Colossal-AI: Platform.luchentech.com.
Документация по облачной платформе Colossal-AI:
Адрес открытого исходного кода Colossal-AI:

Справочная ссылка:

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков

Награда
1
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1Simple Earn Annual Rate 24.4%
37k Популярность
2Gate Launchpad List IKA
39k Популярность
3ETH Trading Volume Surges
40k Популярность
4Gate ETH 10th Anniversary Celebration
22k Популярность
5Trump’s AI Strategy
18k Популярность

Закрепить

Карта сайта