Как можно сравнить маленькую модель с большой, Пекинский технологический институт выпустил большую модель Mingde MindLLM, и маленькая модель имеет большой потенциал
Большие языковые модели (LLM) продемонстрировали отличную производительность в различных задачах естественного языка, но все еще существует много практических проблем в применении больших языковых моделей в профессиональной сфере из-за высокой стоимости обучения и вывода моделей с большими параметрами. Поэтому команда начала с упрощенных моделей, чтобы максимизировать преимущества данных и моделей, основанных на более качественном обслуживании конкретных областей и снижении затрат на обучение и логический вывод для последующих задач.
24 октября команда обработки естественного языка Пекинского технологического института выпустила серию двуязычных облегченных больших языковых моделей (Ming De LLM) - MindLLM, которая всесторонне знакомит с опытом, накопленным в процессе разработки крупномасштабных моделей, охватывая каждый детальный этап построения данных, архитектуры модели, процесса оценки и применения. MindLLM обучен с нуля и поставляется в версиях 1.3B и 3B, неизменно соответствуя или превосходя производительность других больших моделей с открытым исходным кодом в некоторых общедоступных тестах. MindLLM также расширяет свои возможности, представляя инновационную систему настройки инструкций, разработанную специально для небольших моделей. Кроме того, для приложений в специфических вертикалях, таких как юриспруденция и финансы, MindLLM также обладает отличной адаптируемостью предметной области.
*Адрес:
Основные моменты MindLLM
Мы поделились своим опытом в области обработки данных, включая поддержание высокого качества и высокого процента веб-текста, сохранение долгосрочных данных, таких как книги и разговоры, понижение разрешения математических данных и повышение разрешения данных кода. Мы рекомендуем равномерно скремблировать данные для обучения по компетенциям и фрагментировать некоторые выборки для небольших сценариев обучения.
Наши результаты оценки превзошли некоторые большие модели, а модель MindLLM превзошла большие модели, такие как MPT-7B и GPT-J-6B, в оценках MMLU и AGI без тонкой настройки и выравнивания инструкций. На китайском языке MindLLM демонстрирует производительность, сопоставимую с более крупными параметрическими моделями на C- и CMMLU. В частности, MindLLM-3B превосходит более крупные модели, такие как MOSS-Base-16B и MPT-7B, по математическим способностям, а также превосходит Baichuan2-7B и MOSS-Base-16B по двуязычию. Более того, MindLLM-1.3B математически лучше, чем GPT-Neo-1.3B того же размера.
Мы сравнили две различные стратегии обучения в двуязычном обучении и рассмотрели влияние того, были ли данные равномерно распределены в течение предтренировочного периода. Мы пришли к выводу, что для облегченных моделей (≤7B) с ограниченным масштабом емкости не оптимально достигать сложных способностей, таких как математический, логический или двуязычный согласование, с помощью предварительно обученных, а затем обученных стратегий, поскольку трудно интегрировать новые и существующие знания. Напротив, более эффективной стратегией является создание с нуля и интеграция нескольких типов данных в сочетании с потребностями последующих задач, чтобы обеспечить последовательное и эффективное получение требуемых возможностей.
Мы обнаружили, что использование настраиваемых данных для конкретных возможностей во время настройки инструкций может значительно улучшить специфические возможности облегченных моделей, такие как всестороннее рассуждение или предметные знания.
Мы представляем подход к построению набора инструкций с использованием стратегии массовой фильтрации на основе энтропии и демонстрируем его эффективность в фильтрации высококачественных данных настройки инструкций для облегченных моделей. Мы демонстрируем, что в контексте облегченных моделей производительность модели может быть оптимизирована более эффективно за счет повышения качества данных настройки инструкций, а не просто за счет увеличения объема данных.
Наши модели продемонстрировали отличные результаты в конкретных областях, особенно в таких областях, как право и финансы. Мы обнаружили, что различия в размерах параметров модели не приводят к существенным различиям в пределах конкретной области, и что меньшие модели могут превзойти более крупные. Наша модель превосходит все модели с размерами параметров от 1,3B до 3B в данной области, оставаясь при этом конкурентоспособной с моделями с размерами параметров от 6B до 13B, а способность модели классифицировать в пределах конкретной области значительно улучшена при подходе COT.
СВЯЗАННЫЕ С ДАННЫМИ
Обработка данных
Мы используем обучающие данные как на английском, так и на китайском языках. Данные на английском языке были получены из набора данных Pile и подвергнуты дальнейшей обработке. Китайские данные включают в себя обучающие данные из открытых источников, таких как Wudao и CBooks, а также данные, которые мы сканируем из Интернета. Для обеспечения качества данных мы применяем строгие методы обработки данных, особенно для данных, сканируемых из Интернета.
Наш подход к обработке данных включает в себя следующее:
Очистка формата: Мы используем парсер веб-страниц для извлечения и очистки текстового содержимого с исходной веб-страницы. Этот этап включает в себя удаление ненужных логотипов HTML, CSS, JS и эмодзи, чтобы обеспечить поток текста. Кроме того, мы разобрались с проблемой несогласованного форматирования. Мы также сохранили китайские традиционные китайские иероглифы, чтобы наши модели могли изучать древнюю литературу или поэзию.
Некачественная фильтрация данных: Мы оцениваем качество данных на основе соотношения текста и контента на веб-странице. В частности, мы исключаем страницы с плотностью текста менее 75% или менее 100 китайских иероглифов. Этот порог был определен путем первоначального тестирования выборки веб-страниц.
Дедупликация данных: Учитывая, что данные WuDao также получены с веб-страниц, некоторые веб-сайты могут публиковать одну и ту же информацию повторно. Поэтому мы используем локально чувствительный алгоритм хеширования для удаления дублирующегося контента, сохраняя при этом разнообразие наших обучающих данных.
Фильтрация конфиденциальной информации: Учитывая, что веб-страницы часто содержат конфиденциальный контент, мы использовали эвристики и чувствительные лексиконы для обнаружения и фильтрации этого контента, чтобы построить позитивную языковую модель. Для защиты конфиденциальности мы используем регулярные выражения для идентификации личной информации, такой как идентификационные номера, номера телефонов и адреса электронной почты, и заменяем их специальными тегами.
Фильтрация малоинформативных данных: малоинформативные данные, такие как реклама, часто отображаются в виде дублирующегося контента. Поэтому мы выявляем этот тип контента, анализируя частотность фраз в текстовом контенте веб-страницы. Мы считаем, что частое повторение фраз с одного и того же сайта может пагубно сказаться на обучении модели. В результате наши фильтры в основном фокусируются на постоянно повторяющихся фразах в рекламных объявлениях или на неаутентифицированных веб-сайтах.
В итоге мы получили следующие данные:
Закон масштабирования
Чтобы обеспечить оптимальную производительность в условиях растущих затрат на обучение для глубокого обучения и больших языковых моделей, мы провели исследование взаимосвязи между объемом данных и емкостью модели, известное как закон масштабирования. Прежде чем приступить к обучению большой языковой модели с миллиардами параметров, мы сначала обучим меньшую модель, чтобы создать шаблон масштабирования для обучения более крупной модели. Размеры наших моделей варьируются от 10 до 500 миллионов параметров, и каждая модель обучается на наборе данных, содержащем до 10 миллиардов токенов. В этих тренингах используются согласованные параметры гиперпараметров, а также тот же набор данных, что и ранее. Анализируя конечные потери различных моделей, мы смогли установить отображение от обучающего FLOP (операция с плавающей запятой) к Loss. Как показано на рисунке ниже, объем обучающих данных, насыщенных моделями разного размера, различен, и с увеличением размера модели увеличиваются и требуемые обучающие данные. Для того, чтобы удовлетворить требования к точным данным целевой модели, мы использовали степенную формулу, чтобы она соответствовала закону разложения модели, и спрогнозировали объем обучающих данных и величину потерь модели параметра 3B, и сравнили их с фактическими результатами (звездочки на рисунке).
Промискуитет и курс по работе с данными
Влияние данных на модель в основном охватывает два аспекта: (1) коэффициент смешивания, который включает в себя то, как данные из разных источников объединяются для создания набора данных определенного размера с ограниченным бюджетом на обучение; и (2) курсы по работе с данными, которые посвящены систематизации данных из различных источников для тренировки навыков, связанных с конкретными моделями.
Мы уменьшили масштаб каждого источника данных, чтобы обучить модель с 15 млн параметров. Как показано на рисунке ниже, различные типы данных по-разному влияют на эффективность обучения и конечный результат модели. Например, математическая задача имеет меньшую конечную потерю данных и быстрее усваивается, что указывает на то, что она имеет более выраженную закономерность и проста в изучении. В отличие от этого, данные из информативных книг или разнообразных веб-текстов требуют больше времени для адаптации. Некоторые области с аналогичными данными могут быть ближе с точки зрения потерь, например, данные, связанные с технологиями и энциклопедии.
Для дальнейшего изучения производительности модели, обобщающей от одних данных к другим, мы используем эти модели, обученные на одних данных, для тестирования на других данных, и результаты показаны на следующем рисунке:
Различные наборы данных демонстрируют разную степень способности к обобщению, например, модель, обученная на веб-тексте, энциклопедии и данных вопросов и ответов, демонстрирует сильную способность к обобщению на нескольких источниках данных, указывая на то, что их содержимое содержит разнообразную информацию в различных областях. В отличие от них, модели, обученные на данных научных статей и данных кода, преуспевают в математических способностях, но слабы в обобщении, вероятно, из-за специфики предметной области и уникальной информации о форматировании.
Кроме того, мы внесли несколько корректировок масштабирования данных, чтобы сбалансировать производительность модели по различным навыкам и типам данных. На основе проведенных экспериментов мы окончательно сформулировали некоторые принципы для соотношений смешивания данных:
• Поддерживать долю высококачественных веб-текстов и энциклопедических данных из-за их разнообразия.
Уменьшите долю математических данных, чтобы избежать переобучения.
Улучшайте математику с помощью кода и академических данных, одновременно уменьшая форматирование за счет разнообразной выборки и связанной с ней обработки.
Поддерживайте разговоры и забронируйте данные, которые помогут вам изучить долгосрочные зависимости.
В дополнение к соотношению смешивания, ход данных (порядок, в котором данные обучаются) также влияет на способность модели к обучению. Эксперименты показали, что данные из разных источников заставят модель обучаться разным навыкам, и что принятие определенного порядка обучения может помочь модели освоить новые навыки из-за корреляции между навыками. Наши эксперименты сосредоточены на влиянии неоднородных смешанных данных и обучения переносу языка на возможности модели. Наши эксперименты показывают, что неоднородные смешанные данные приводят к непрерывному обучению модели на одном и том же типе данных, который ближе к контексту контекстного обучения, а значит, лучше работает при обучении с несколькими выстрелами. Однако из-за неравномерности обучения на более поздних этапах может наблюдаться заметное явление забывания. Кроме того, перенос языка помогает модели приобрести двуязычные способности, и общая производительность может быть улучшена за счет языкового выравнивания, но мы считаем, что обучение со смешанными языковыми данными более благоприятно для распределения и приобретения навыков модели.
Архитектура модели MindLLMs
MindLLM-1.3B использует ту же архитектуру модели, что и GPTNeo-1.3B, в то время как MindLLM-3B добавляет некоторые улучшения. Основываясь на стабильности обучения и возможностях модели, мы используем Rotated Position Coding (RoPE) DeepNorm, RMS Norm, FlashAttention-2, GeGLU и другие операторы оптимизации.
Мы добавили китайскую лексику на основе GPTNeo-1.3B и использовали стратегии трансферного обучения для тренировки двуязычных способностей MindLLM-1.3B. Для MindLLM-3B мы используем BPE из SentencePiece для разметки данных, и наш Tokenizer имеет окончательный размер словаря 125 700. Рассмотрев два различных способа двуязычного обучения, мы обобщили некоторые распространенные и практические методы предварительного обучения.
Предварительная подготовка
Информация о предварительном обучении
Мы использовали две разные стратегии для обучения двуязычной модели MindLLM de novo. Для MindLLM-3B мы предварительно обучили 800 000 шагов непосредственно на смешанных двуязычных данных на китайском и английском языках во время изучения китайского и английского языков; Для MindLLM-1.3B мы сначала предварительно обучили 101 100 шагов на английском наборе данных, а затем обучили 105 900 шагов, используя смешанные китайские и английские данные. Ниже приведена информация о предварительном обучении:
### Предтренировочная оценка
Меньшая модель может превзойти большую
Чтобы оценить уровень владения моделью китайским и английским языками, мы использовали MMLU (5 выстрелов) и AGI (4 выстрела) для оценки уровня владения английским языком модели, а также C-(5 выстрелов) и CMMLU (4 выстрела) для оценки уровня владения китайским языком модели. В AGI используется часть английской части с несколькими вариантами ответов. Результаты оценки:
С точки зрения английской производительности, MindLLM в среднем превосходят GPT-J-6B, MPT-7B, MOSS-Base-16B и другие более крупные модели и приближаются к Falcon-7B, которые имеют большие размеры моделей и больше предварительно обученных данных. С точки зрения китайских способностей, MindLLM работают наравне с LLM с открытым исходным кодом. Стоит отметить, что MindLLM все еще обучаются для улучшения.
Кроме того, мы обнаружили, что MindLLM-1.3B, который был обучен как на китайском, так и на английском языках, превзошел GPT-Neo-1.3B на MMLU, предполагая, что это может быть преимуществом двуязычного обучения, поскольку между разными языками есть сходство с точки зрения способностей. Подробные эксперименты и анализы можно найти в разделе 4.4 статьи.
Модели меньшего размера имеют большой потенциал с точки зрения конкретных возможностей
Для упрощенных моделей, применяемых к последующим задачам, достаточно только наличия соответствующих возможностей. Поэтому в этом разделе мы хотим изучить производительность и факторы, влияющие на MindLLM и другие облегченные LLM в (≤7B) конкретных возможностях.
Мы оцениваем производительность различных моделей в основном с трех точек зрения: математические способности, способность к рассуждению и способность к двуязычному выравниванию, поскольку эти три способности являются сложными и относительно важными для применения двуязычных моделей.
(1) Математика**
Мы использовали набор данных Arithmetic (5-shot) для оценки арифметических способностей модели, а также GSM8K (4-shot) и MATH (4-shot) для оценки общих математических способностей модели. Результаты оценки:
我们发现,MindLLM-3B在数学能力上的平均分数达到了16.01,超过了MOSS-Base-16B(15.71)和MPT-7B(13.42),GPT-J-6B(13.15)。此外MindLLM-1.3B的数学平均水平也超过了相同大小的GPT-Neo-1.3B。以上结果表明,轻量级模型在数学上有着巨大的潜力,较小的模型也可以在具体领域表现出超越或者与更大模型相当的水平。进一步,我们可以看到数学能力较为出色的(均分≥15) , кроме MindLLM-3B, все модели около 7В. Это говорит о том, что полное приобретение сложных способностей, таких как математические способности, может быть ограничено размером модели, и это предположение может быть в дальнейшем отражено в оценке двуязычия модели и способности к рассуждению.
(2) Рассуждение
Мы использовали HellaSwag и WinoGrande для оценки способности модели к языковому мышлению (5 выстрелов), LogiQA для оценки способности модели к логическому мышлению (5 выстрелов), PubMedQA, PIKA и MathQA для оценки способности модели к рассуждению о знаниях (5 выстрелов) и BBH для оценки способности модели к всестороннему рассуждению (3 выстрела). Конкретные результаты оценки заключаются в следующем:
Во-первых, в условиях ограниченного модельного потенциала прирост способностей, обеспечиваемый билингвизмом, может быть уравновешен потреблением модельного потенциала при изучении языка. Изучение языка может занимать часть возможностей модели, позволяя приобрести сложные способности, такие как способность к рассуждению. Например, MindLLM-1.3B лучше GPT-Neo-1.3B по показателям оценки английского MMLU, но слабее последнего по средней способности к рассуждению (35,61 против 38,95). Навыки рассуждения Блумса были не особенно хорошими, но двуязычие в последующей оценке было превосходным, что также в определенной степени подтвердило вышесказанное. Например, производительность вывода Open-LLaMA-3B сравнима с производительностью более крупной модели, а ее предварительно обученные данные составляют 1 ТББ, что превышает производительность предварительно обученных данных, используемых другими моделями того же размера. В результате, модели меньшего размера по-прежнему имеют потенциал для достижения сопоставимой производительности с точки зрения мощности вывода, как и более крупные модели. Кроме того, мы обнаружили, что уровень логического вывода MOSS, по-видимому, работает не лучше, чем выигрыш от обучения предыдущим кодовым данным (MOSS продолжал обучаться на CodeGen), но связанная с этим работа показывает, что код действительно полезен для улучшения способности модели к логическому выводу, поэтому то, как и когда данные кода добавляются в обучение для улучшения способности модели к логическому выводу, заслуживает дальнейшего обсуждения.
(3) Двуязычие
Мы использовали секцию zh-en Flores-101 (8 кадров) для оценки совмещения двуязычных или многоязычных моделей на китайском и английском языках. Мы включили Chinese-LLaMA-2-7B, модель адаптации китайского домена на основе LLaMA-2-7B. Результаты следующие:
Мы обнаружили, что модель показала плохие результаты в переводах с английского на китайский традиционный, в основном потому, что предварительно обученные данные составляли небольшую долю перевода с китайского традиционного языка. Кроме того, только Blooms и MindLLM-3B преуспели в двустороннем согласовании китайско-английских и англо-китайских языков, за ними следуют LLaMA-2-7B и MOSS-Base-16B. LLaMA-7B и Open-LLaMA-7B могут быть выровнены только с китайского по английскому языку. В сочетании с предтренировочными данными модели можно увидеть, что предобучающие данные Blooms и MindLLM-3B имеют сбалансированную пропорцию китайского и английского языков, в то время как доля китайских данных в LLaMA-2-7B значительно ниже, чем у английской, а доля китайского языка в предобучающих данных LLaMA-7B и Open-LLaMA-7B еще меньше.
Таким образом, у нас есть два вывода, один из которых заключается в том, что модель может обучаться языковому представлению через большое количество тренировок на одном языке, и в то же время может быть понята и однонаправленно выровнена путем смешивания с небольшим количеством других языков, таких как производительность LLaMA-7B и Open-LLaMA-7B. Во-вторых, если требуется лучшее двуязычное или многоязычное согласование, то в начале предварительного обучения необходима сбалансированная пропорция двуязычных или многоязычных данных, таких как Blooms и MindLLM-3B. Кроме того, мы обнаружили, что MOSS-Base-16B и Chinese-LLaMA-2-7B имеют разумную пропорцию китайских и английских данных, а одиночный все еще не показывает двустороннего выравнивания, и наша гипотеза заключается в том, что трудно добавить двуязычную способность выравнивания во время миграционного обучения, потому что модель в это время уже имеет много знаний, что приведет к противоречиям в случае небольшой емкости. Этим же объясняется и тот факт, что MindLLM-1.3B, обладающий меньшей емкостью и малым объемом данных на ранней стадии одноязычного обучения, не приобрел возможностей двуязычного выравнивания. С другой стороны, Baichuan 2-7B очень хорош в других аспектах, может занимать большую емкость и не может научиться хорошему двустороннему выравниванию.
(4) Резюме
Оценив результаты предтренировочного этапа, мы получаем следующие два вывода:
Облегченные модели обладают большим потенциалом для того, чтобы превзойти или достичь уровня более крупных моделей в определенной области или возможностях.
Для модели с ограниченными возможностями (≤7B) мы можем разумно распределить долю данных в предобучающих данных в соответствии с конкретными требованиями к способностям последующей задачи, что способствует тому, чтобы модель обучалась и получала целевую способность с нуля, а также интегрировала и продвигала различные знания и способности.
Кроме того, в работе также сравнивается влияние поддержания равномерного распределения данных на предобучающую производительность модели, и экспериментальные результаты показывают, что метод построения данных аналогичного курсового обучения может работать так же, как и модель, обученная на ранней стадии, и метод построения равномерно смешанных данных, но в конечном итоге может привести к катастрофическому забыванию и внезапному снижению производительности, в то время как производительность последней более последовательна и стабильна, а знание полученных предобучающих данных является более полным, что также подтверждает приведенный выше второй вывод. Кроме того, мы обнаружили, что способ, которым данные конструируются в аналогичном курсе, может привести к большему количеству распределений данных, которые способствуют повышению способности модели к контекстному обучению. Подробности см. в разделе 4.5 документа.
Инструкция Тонкая настройка
Мы хотим изучить, как тонкая настройка инструкций может работать на облегченных моделях с различными типами наборов данных. В следующей таблице приведен набор данных для тонкой настройки инструкций, который мы используем, включая наш реконструированный китайский набор данных MingLi, общедоступный набор данных Tulu (английский) и китайско-английский двуязычный набор данных MOSS.
**Для MindLLM качество данных для тонкой настройки инструкций важнее, чем их количество. **
Производительность моделей MindLLM-1.3B и MindLLM-3B на C- после тонкой настройки инструкций под разными данными выглядит следующим образом. Согласно результатам эксперимента, производительность модели, обученной на тщательно отобранном наборе данных тонкой настройки из 50 000 инструкций, выше, чем у набора данных тонкой настройки инструкций с большим разнообразием и большим объемом данных. Аналогично модель показала такую же производительность на английском индикаторе MMLU (подробнее см. табл. 14). Поэтому для облегченных моделей очень важно определить и отфильтровать высококачественные наборы данных тонкой настройки инструкций.
Тонкая настройка стратегии фильтрации данных на основе энтропии данных
Как определить высококачественные данные тонкой настройки инструкций? Некоторые ученые предположили, что разнообразие данных тонкой настройки инструкций может отражать качество данных наборов данных тонкой настройки инструкций. Однако, согласно нашим экспериментам, энтропия данных и длина данных тонкой настройки инструкций будут больше влиять на производительность облегченных моделей. Мы определяем потери взаимной энтропии каждого фрагмента данных в предварительно обученной модели как энтропию данных данных и кластеризуем данные в соответствии с энтропией данных с помощью алгоритма K-средних для получения различных кластеров данных. Результаты MindLLM после тонкой настройки инструкций каждого кластера данных, а затем C- показаны в следующей таблице (см. Таблицу 19 для получения подробной информации о результатах MMLU):
Согласно результатам, приведенным в таблице, производительность MindLLM-1.3B и MindLLM-3B на разных кластерах данных существенно отличается. Далее мы анализируем связь между энтропией данных и точностью модели на C- и MMLU и аппроксимацией функций, как показано на рисунке:
Точка красной пентаграммы на изображении — это энтропия предварительно обученной модели. Согласно анализу, когда энтропия данных в 1-1,5 раза выше, чем энтропия предварительно обученной модели, модель имеет наилучшую производительность после тонкой настройки инструкций данных в этом интервале. Поэтому мы определяем высококачественные данные по энтропии данных и предлагаем метод скрининга высококачественных данных.
MindLLM может точно настроить набор данных с помощью определенных инструкций для получения конкретных возможностей
Для того, чтобы изучить, может ли MindLLM эффективно улучшить свои специфические возможности за счет тонкой настройки инструкций, мы используем часть экзаменационных данных из набора данных объемом 10 000 томов для тонкой настройки модели, чтобы повысить способность модели к предметным знаниям. Мы провели оценку на C-, и результаты следующие:
Видно, что после тонкой настройки инструкций модель значительно улучшила свои предметные знания, а производительность 1.3B MindLLM даже превосходит показатели более крупных моделей, таких как ChatGLM-6B и Chinese-Alpaca-33B. Поэтому мы считаем, что MindLLM может улучшить свои специфические возможности после тонкой настройки инструкций, и благодаря своим облегченным характеристикам он больше подходит для развертывания в нижестоящих вертикальных задачах.
Полевое применение
Для того, чтобы продемонстрировать эффект от применения малых моделей в конкретных областях, мы используем два общедоступных набора данных в области финансов и права для их верификации. Из результатов видно, что размер параметра модели оказывает определенное влияние на производительность домена, но производительность не очевидна. Производительность MindLLM превосходит другие модели сопоставимого размера в полевых условиях и сравнима с более крупными моделями. Это еще раз доказывает, что маленькая модель имеет большой потенциал в области применения.
Финансовый сектор
В этой области задача классификации восприятия эмоций выполняется на финансовых данных. Во-первых, мы просканировали данные с 13 мая 2011 года по 31 августа 2023 года из Oriental Fortune и пометили данные на основе следующих колебаний цен на акции. Впоследствии данные разбиваются на обучающий и тестовый наборы по дате. Учитывая дисбаланс категорий, мы провели выборку данных и в итоге использовали 320 000 единиц данных в качестве обучающего набора и 20 000 единиц данных в качестве тестового набора.
Мы использовали два разных метода обучения, чтобы сравнить производительность разных моделей. Во-первых, для классификации текста используется только простая контролируемая тонкая настройка (SFT). Во-вторых, данные процесса инференса были извлечены из ChatGPT и добавлены в обучение в качестве вспомогательных данных с использованием метода обучения COT (Chain-Of-Thought).
Результаты эксперимента показывают, что эффект всех базовых моделей и моделей MindLLM может быть улучшен в той или иной степени за счет дополнения вспомогательной информации. Кроме того, можно заметить, что производительность MindLLM-1.3B и 3B улучшена на 27,81% и 26,28% соответственно по сравнению с производительностью обучения SFT с помощью COT-обучения, и MindLLM более значительно улучшена, чем другие модели, кроме Baichuan-7B. Кроме того, MindLLM-1.3B и 3B достигают наилучшей производительности при том же масштабе и превосходят ChatGLM2-6B и Open-LLaMA-7B.
ПРАВОВОЕ ПОЛЕ
Мы собрали некоторые общедоступные юридические данные и объединили их с некоторыми общими данными директивы для Directive Fine-Tuning (SFT) MindLLM. Чтобы изучить, как длина маркера данных влияет на производительность модели в конкретных доменах, мы используем данные разной длины данных для обучения MindLLM отдельно. Сначала мы проверили все данные длиной менее 450, а затем использовали маркеризаторы MindLLM-1.3B и MindLLM-3B, чтобы отфильтровать данные от 200-300 до 300-450 соответственно. В следующей таблице перечислены статистические данные и соответствующие модели обучения.
Чтобы избежать ошибок, вызванных предвзятостью и отсутствием опыта в оценке человеком, мы используем ChatGPT в качестве оценщика следующими способами. Набор данных из нескольких раундов юридических консультаций, сгенерированных ChatGPT, 100 из которых были извлечены в качестве наших оценочных данных. Мы используем ChatGPT для оценки ответов модели на юридические консультации, позволяем ChatGPT ранжировать ответы модели, а затем рассчитываем балл Эло на основе результатов ранжирования. Наконец, была выбрана одна из лучших моделей для сравнения MindLLM-Law с другими моделями с открытым исходным кодом.
Для Bloom модели GPT-Neo и Open-LLaMA были точно настроены с использованием того же набора данных, что и MindLLM-Law, и результаты сравнения выглядят следующим образом:
Результаты показывают, что MindLLM-Law не превзошел модель с параметрами 13B и ChatGLM2-6B, в основном из-за отсутствия данных на этапе предварительного обучения юриспруденции, чтобы принести больший выигрыш. Тем не менее, MindLLM имеет очевидные общие преимущества перед Baichuan2-7B-Chat, тонко настроенным Open-LLaMA-7B и другими моделями того же размера.
Резюме
В этой статье представлено семейство моделей MindLLM, которое в настоящее время включает в себя две облегченные большие языковые модели. Мы подробно обсудили процесс их обучения, включая обработку данных, предварительную подготовку, тонкую настройку и применение предметной области, а также поделились ценным опытом и техническими приложениями, накопленными в этих областях. Несмотря на относительно небольшой размер параметров, MindLLM показали хорошие результаты в многочисленных тестах производительности, а в некоторых отношениях даже превзошли некоторые из более крупных моделей. MindLLM демонстрирует превосходную производительность по сравнению с другими облегченными моделями с точки зрения адаптации домена. В то же время они способны достичь сопоставимых результатов с более высокой скоростью обучения и меньшим количеством обучающих ресурсов, чем более крупные модели. Основываясь на приведенном выше анализе, мы считаем, что малые модели по-прежнему имеют большой потенциал. Мы продолжим улучшать качество данных, оптимизировать процесс обучения модели и масштабировать модель для повышения производительности MindLLM многомерным образом. В будущем мы планируем экспериментировать с более последующими задачами и конкретными предметными областями, чтобы достичь более глубоких конкретных применений легких больших моделей.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Как можно сравнить маленькую модель с большой, Пекинский технологический институт выпустил большую модель Mingde MindLLM, и маленькая модель имеет большой потенциал
Первоисточник: Heart of the Machine
Большие языковые модели (LLM) продемонстрировали отличную производительность в различных задачах естественного языка, но все еще существует много практических проблем в применении больших языковых моделей в профессиональной сфере из-за высокой стоимости обучения и вывода моделей с большими параметрами. Поэтому команда начала с упрощенных моделей, чтобы максимизировать преимущества данных и моделей, основанных на более качественном обслуживании конкретных областей и снижении затрат на обучение и логический вывод для последующих задач.
24 октября команда обработки естественного языка Пекинского технологического института выпустила серию двуязычных облегченных больших языковых моделей (Ming De LLM) - MindLLM, которая всесторонне знакомит с опытом, накопленным в процессе разработки крупномасштабных моделей, охватывая каждый детальный этап построения данных, архитектуры модели, процесса оценки и применения. MindLLM обучен с нуля и поставляется в версиях 1.3B и 3B, неизменно соответствуя или превосходя производительность других больших моделей с открытым исходным кодом в некоторых общедоступных тестах. MindLLM также расширяет свои возможности, представляя инновационную систему настройки инструкций, разработанную специально для небольших моделей. Кроме того, для приложений в специфических вертикалях, таких как юриспруденция и финансы, MindLLM также обладает отличной адаптируемостью предметной области.
Основные моменты MindLLM
СВЯЗАННЫЕ С ДАННЫМИ
Обработка данных
Мы используем обучающие данные как на английском, так и на китайском языках. Данные на английском языке были получены из набора данных Pile и подвергнуты дальнейшей обработке. Китайские данные включают в себя обучающие данные из открытых источников, таких как Wudao и CBooks, а также данные, которые мы сканируем из Интернета. Для обеспечения качества данных мы применяем строгие методы обработки данных, особенно для данных, сканируемых из Интернета.
Наш подход к обработке данных включает в себя следующее:
В итоге мы получили следующие данные:
Закон масштабирования
Чтобы обеспечить оптимальную производительность в условиях растущих затрат на обучение для глубокого обучения и больших языковых моделей, мы провели исследование взаимосвязи между объемом данных и емкостью модели, известное как закон масштабирования. Прежде чем приступить к обучению большой языковой модели с миллиардами параметров, мы сначала обучим меньшую модель, чтобы создать шаблон масштабирования для обучения более крупной модели. Размеры наших моделей варьируются от 10 до 500 миллионов параметров, и каждая модель обучается на наборе данных, содержащем до 10 миллиардов токенов. В этих тренингах используются согласованные параметры гиперпараметров, а также тот же набор данных, что и ранее. Анализируя конечные потери различных моделей, мы смогли установить отображение от обучающего FLOP (операция с плавающей запятой) к Loss. Как показано на рисунке ниже, объем обучающих данных, насыщенных моделями разного размера, различен, и с увеличением размера модели увеличиваются и требуемые обучающие данные. Для того, чтобы удовлетворить требования к точным данным целевой модели, мы использовали степенную формулу, чтобы она соответствовала закону разложения модели, и спрогнозировали объем обучающих данных и величину потерь модели параметра 3B, и сравнили их с фактическими результатами (звездочки на рисунке).
Промискуитет и курс по работе с данными
Влияние данных на модель в основном охватывает два аспекта: (1) коэффициент смешивания, который включает в себя то, как данные из разных источников объединяются для создания набора данных определенного размера с ограниченным бюджетом на обучение; и (2) курсы по работе с данными, которые посвящены систематизации данных из различных источников для тренировки навыков, связанных с конкретными моделями.
Мы уменьшили масштаб каждого источника данных, чтобы обучить модель с 15 млн параметров. Как показано на рисунке ниже, различные типы данных по-разному влияют на эффективность обучения и конечный результат модели. Например, математическая задача имеет меньшую конечную потерю данных и быстрее усваивается, что указывает на то, что она имеет более выраженную закономерность и проста в изучении. В отличие от этого, данные из информативных книг или разнообразных веб-текстов требуют больше времени для адаптации. Некоторые области с аналогичными данными могут быть ближе с точки зрения потерь, например, данные, связанные с технологиями и энциклопедии.
Кроме того, мы внесли несколько корректировок масштабирования данных, чтобы сбалансировать производительность модели по различным навыкам и типам данных. На основе проведенных экспериментов мы окончательно сформулировали некоторые принципы для соотношений смешивания данных:
• Поддерживать долю высококачественных веб-текстов и энциклопедических данных из-за их разнообразия.
В дополнение к соотношению смешивания, ход данных (порядок, в котором данные обучаются) также влияет на способность модели к обучению. Эксперименты показали, что данные из разных источников заставят модель обучаться разным навыкам, и что принятие определенного порядка обучения может помочь модели освоить новые навыки из-за корреляции между навыками. Наши эксперименты сосредоточены на влиянии неоднородных смешанных данных и обучения переносу языка на возможности модели. Наши эксперименты показывают, что неоднородные смешанные данные приводят к непрерывному обучению модели на одном и том же типе данных, который ближе к контексту контекстного обучения, а значит, лучше работает при обучении с несколькими выстрелами. Однако из-за неравномерности обучения на более поздних этапах может наблюдаться заметное явление забывания. Кроме того, перенос языка помогает модели приобрести двуязычные способности, и общая производительность может быть улучшена за счет языкового выравнивания, но мы считаем, что обучение со смешанными языковыми данными более благоприятно для распределения и приобретения навыков модели.
Архитектура модели MindLLMs
MindLLM-1.3B использует ту же архитектуру модели, что и GPTNeo-1.3B, в то время как MindLLM-3B добавляет некоторые улучшения. Основываясь на стабильности обучения и возможностях модели, мы используем Rotated Position Coding (RoPE) DeepNorm, RMS Norm, FlashAttention-2, GeGLU и другие операторы оптимизации.
Мы добавили китайскую лексику на основе GPTNeo-1.3B и использовали стратегии трансферного обучения для тренировки двуязычных способностей MindLLM-1.3B. Для MindLLM-3B мы используем BPE из SentencePiece для разметки данных, и наш Tokenizer имеет окончательный размер словаря 125 700. Рассмотрев два различных способа двуязычного обучения, мы обобщили некоторые распространенные и практические методы предварительного обучения.
Предварительная подготовка
Информация о предварительном обучении
Мы использовали две разные стратегии для обучения двуязычной модели MindLLM de novo. Для MindLLM-3B мы предварительно обучили 800 000 шагов непосредственно на смешанных двуязычных данных на китайском и английском языках во время изучения китайского и английского языков; Для MindLLM-1.3B мы сначала предварительно обучили 101 100 шагов на английском наборе данных, а затем обучили 105 900 шагов, используя смешанные китайские и английские данные. Ниже приведена информация о предварительном обучении:
Меньшая модель может превзойти большую
Чтобы оценить уровень владения моделью китайским и английским языками, мы использовали MMLU (5 выстрелов) и AGI (4 выстрела) для оценки уровня владения английским языком модели, а также C-(5 выстрелов) и CMMLU (4 выстрела) для оценки уровня владения китайским языком модели. В AGI используется часть английской части с несколькими вариантами ответов. Результаты оценки:
Кроме того, мы обнаружили, что MindLLM-1.3B, который был обучен как на китайском, так и на английском языках, превзошел GPT-Neo-1.3B на MMLU, предполагая, что это может быть преимуществом двуязычного обучения, поскольку между разными языками есть сходство с точки зрения способностей. Подробные эксперименты и анализы можно найти в разделе 4.4 статьи.
Модели меньшего размера имеют большой потенциал с точки зрения конкретных возможностей
Для упрощенных моделей, применяемых к последующим задачам, достаточно только наличия соответствующих возможностей. Поэтому в этом разделе мы хотим изучить производительность и факторы, влияющие на MindLLM и другие облегченные LLM в (≤7B) конкретных возможностях.
Мы оцениваем производительность различных моделей в основном с трех точек зрения: математические способности, способность к рассуждению и способность к двуязычному выравниванию, поскольку эти три способности являются сложными и относительно важными для применения двуязычных моделей.
(1) Математика**
Мы использовали набор данных Arithmetic (5-shot) для оценки арифметических способностей модели, а также GSM8K (4-shot) и MATH (4-shot) для оценки общих математических способностей модели. Результаты оценки:
(2) Рассуждение
Мы использовали HellaSwag и WinoGrande для оценки способности модели к языковому мышлению (5 выстрелов), LogiQA для оценки способности модели к логическому мышлению (5 выстрелов), PubMedQA, PIKA и MathQA для оценки способности модели к рассуждению о знаниях (5 выстрелов) и BBH для оценки способности модели к всестороннему рассуждению (3 выстрела). Конкретные результаты оценки заключаются в следующем:
(3) Двуязычие
Мы использовали секцию zh-en Flores-101 (8 кадров) для оценки совмещения двуязычных или многоязычных моделей на китайском и английском языках. Мы включили Chinese-LLaMA-2-7B, модель адаптации китайского домена на основе LLaMA-2-7B. Результаты следующие:
Таким образом, у нас есть два вывода, один из которых заключается в том, что модель может обучаться языковому представлению через большое количество тренировок на одном языке, и в то же время может быть понята и однонаправленно выровнена путем смешивания с небольшим количеством других языков, таких как производительность LLaMA-7B и Open-LLaMA-7B. Во-вторых, если требуется лучшее двуязычное или многоязычное согласование, то в начале предварительного обучения необходима сбалансированная пропорция двуязычных или многоязычных данных, таких как Blooms и MindLLM-3B. Кроме того, мы обнаружили, что MOSS-Base-16B и Chinese-LLaMA-2-7B имеют разумную пропорцию китайских и английских данных, а одиночный все еще не показывает двустороннего выравнивания, и наша гипотеза заключается в том, что трудно добавить двуязычную способность выравнивания во время миграционного обучения, потому что модель в это время уже имеет много знаний, что приведет к противоречиям в случае небольшой емкости. Этим же объясняется и тот факт, что MindLLM-1.3B, обладающий меньшей емкостью и малым объемом данных на ранней стадии одноязычного обучения, не приобрел возможностей двуязычного выравнивания. С другой стороны, Baichuan 2-7B очень хорош в других аспектах, может занимать большую емкость и не может научиться хорошему двустороннему выравниванию.
(4) Резюме
Оценив результаты предтренировочного этапа, мы получаем следующие два вывода:
Кроме того, в работе также сравнивается влияние поддержания равномерного распределения данных на предобучающую производительность модели, и экспериментальные результаты показывают, что метод построения данных аналогичного курсового обучения может работать так же, как и модель, обученная на ранней стадии, и метод построения равномерно смешанных данных, но в конечном итоге может привести к катастрофическому забыванию и внезапному снижению производительности, в то время как производительность последней более последовательна и стабильна, а знание полученных предобучающих данных является более полным, что также подтверждает приведенный выше второй вывод. Кроме того, мы обнаружили, что способ, которым данные конструируются в аналогичном курсе, может привести к большему количеству распределений данных, которые способствуют повышению способности модели к контекстному обучению. Подробности см. в разделе 4.5 документа.
Инструкция Тонкая настройка
Мы хотим изучить, как тонкая настройка инструкций может работать на облегченных моделях с различными типами наборов данных. В следующей таблице приведен набор данных для тонкой настройки инструкций, который мы используем, включая наш реконструированный китайский набор данных MingLi, общедоступный набор данных Tulu (английский) и китайско-английский двуязычный набор данных MOSS.
Производительность моделей MindLLM-1.3B и MindLLM-3B на C- после тонкой настройки инструкций под разными данными выглядит следующим образом. Согласно результатам эксперимента, производительность модели, обученной на тщательно отобранном наборе данных тонкой настройки из 50 000 инструкций, выше, чем у набора данных тонкой настройки инструкций с большим разнообразием и большим объемом данных. Аналогично модель показала такую же производительность на английском индикаторе MMLU (подробнее см. табл. 14). Поэтому для облегченных моделей очень важно определить и отфильтровать высококачественные наборы данных тонкой настройки инструкций.
Как определить высококачественные данные тонкой настройки инструкций? Некоторые ученые предположили, что разнообразие данных тонкой настройки инструкций может отражать качество данных наборов данных тонкой настройки инструкций. Однако, согласно нашим экспериментам, энтропия данных и длина данных тонкой настройки инструкций будут больше влиять на производительность облегченных моделей. Мы определяем потери взаимной энтропии каждого фрагмента данных в предварительно обученной модели как энтропию данных данных и кластеризуем данные в соответствии с энтропией данных с помощью алгоритма K-средних для получения различных кластеров данных. Результаты MindLLM после тонкой настройки инструкций каждого кластера данных, а затем C- показаны в следующей таблице (см. Таблицу 19 для получения подробной информации о результатах MMLU):
MindLLM может точно настроить набор данных с помощью определенных инструкций для получения конкретных возможностей
Для того, чтобы изучить, может ли MindLLM эффективно улучшить свои специфические возможности за счет тонкой настройки инструкций, мы используем часть экзаменационных данных из набора данных объемом 10 000 томов для тонкой настройки модели, чтобы повысить способность модели к предметным знаниям. Мы провели оценку на C-, и результаты следующие:
Полевое применение
Для того, чтобы продемонстрировать эффект от применения малых моделей в конкретных областях, мы используем два общедоступных набора данных в области финансов и права для их верификации. Из результатов видно, что размер параметра модели оказывает определенное влияние на производительность домена, но производительность не очевидна. Производительность MindLLM превосходит другие модели сопоставимого размера в полевых условиях и сравнима с более крупными моделями. Это еще раз доказывает, что маленькая модель имеет большой потенциал в области применения.
Финансовый сектор
В этой области задача классификации восприятия эмоций выполняется на финансовых данных. Во-первых, мы просканировали данные с 13 мая 2011 года по 31 августа 2023 года из Oriental Fortune и пометили данные на основе следующих колебаний цен на акции. Впоследствии данные разбиваются на обучающий и тестовый наборы по дате. Учитывая дисбаланс категорий, мы провели выборку данных и в итоге использовали 320 000 единиц данных в качестве обучающего набора и 20 000 единиц данных в качестве тестового набора.
ПРАВОВОЕ ПОЛЕ
Мы собрали некоторые общедоступные юридические данные и объединили их с некоторыми общими данными директивы для Directive Fine-Tuning (SFT) MindLLM. Чтобы изучить, как длина маркера данных влияет на производительность модели в конкретных доменах, мы используем данные разной длины данных для обучения MindLLM отдельно. Сначала мы проверили все данные длиной менее 450, а затем использовали маркеризаторы MindLLM-1.3B и MindLLM-3B, чтобы отфильтровать данные от 200-300 до 300-450 соответственно. В следующей таблице перечислены статистические данные и соответствующие модели обучения.
Для Bloom модели GPT-Neo и Open-LLaMA были точно настроены с использованием того же набора данных, что и MindLLM-Law, и результаты сравнения выглядят следующим образом:
Резюме
В этой статье представлено семейство моделей MindLLM, которое в настоящее время включает в себя две облегченные большие языковые модели. Мы подробно обсудили процесс их обучения, включая обработку данных, предварительную подготовку, тонкую настройку и применение предметной области, а также поделились ценным опытом и техническими приложениями, накопленными в этих областях. Несмотря на относительно небольшой размер параметров, MindLLM показали хорошие результаты в многочисленных тестах производительности, а в некоторых отношениях даже превзошли некоторые из более крупных моделей. MindLLM демонстрирует превосходную производительность по сравнению с другими облегченными моделями с точки зрения адаптации домена. В то же время они способны достичь сопоставимых результатов с более высокой скоростью обучения и меньшим количеством обучающих ресурсов, чем более крупные модели. Основываясь на приведенном выше анализе, мы считаем, что малые модели по-прежнему имеют большой потенциал. Мы продолжим улучшать качество данных, оптимизировать процесс обучения модели и масштабировать модель для повышения производительности MindLLM многомерным образом. В будущем мы планируем экспериментировать с более последующими задачами и конкретными предметными областями, чтобы достичь более глубоких конкретных применений легких больших моделей.