Як маленьку модель можна порівняти з великою, Пекінський технологічний інститут випустив велику модель Mingde MindLLM, і маленька модель має великий потенціал
Великі мовні моделі (LLM) продемонстрували відмінну продуктивність у різноманітних завданнях природної мови, але все ще існує багато практичних проблем у застосуванні великих мовних моделей у професійній сфері через високу вартість навчання та виведення моделей з великими параметрами. Тому команда почала з легких моделей, щоб максимізувати переваги даних і моделей, заснованих на кращому обслуговуванні конкретних областей і зниженні витрат на навчання та висновки подальших завдань.
24 жовтня команда обробки природної мови Пекінського технологічного інституту випустила серію двомовних легких великих мовних моделей (Ming De LLM) - MindLLM, яка всебічно представляє досвід, накопичений у процесі розробки великомасштабних моделей, охоплюючи кожен детальний етап побудови даних, архітектури моделі, процесу оцінки та застосування. MindLLM навчається з нуля і поставляється у версіях 1.3B і 3B, послідовно збігаючись або перевершуючи продуктивність інших великих моделей з відкритим вихідним кодом у деяких публічних тестах. MindLLM також розширює свої можливості, представляючи інноваційну структуру налаштування інструкцій, розроблену спеціально для невеликих моделей. Крім того, для додатків у конкретних вертикалях, таких як право та фінанси, MindLLM також має чудову адаптивність домену.
*Адреса:
Основні моменти MindLLM
Ми поділилися нашим досвідом обробки даних, включаючи підтримку високоякісного та високовідсоткового веб-тексту, збереження довгострокових даних, таких як книги та розмови, зменшення математичних даних та збільшення даних коду. Ми рекомендуємо рівномірно зашифрувати дані для компетентнісного навчання та розділити деякі зразки для сценаріїв навчання з невеликим кроком.
Результати нашої оцінки перевершили деякі великі моделі, а модель MindLLM перевершила великі моделі, такі як MPT-7B і GPT-J-6B, за оцінками MMLU та AGI без точного налаштування та вирівнювання інструкцій. У китайській мові MindLLM демонструє порівнянну продуктивність з більшими параметричними моделями на C- і CMMLU. Зокрема, MindLLM-3B перевершує більші моделі, такі як MOSS-Base-16B і MPT-7B за математичними здібностями, а також перевершує Baichuan2-7B і MOSS-Base-16B за двомовністю. Більш того, MindLLM-1.3B математично краще, ніж GPT-Neo-1.3B такого ж розміру.
Ми порівняли дві різні стратегії навчання у двомовному навчанні та розглянули вплив того, чи були дані рівномірно розподілені протягом періоду перед навчанням. Ми дійшли висновку, що для легких моделей (≤7B) з обмеженою шкалою потужностей не є оптимальним досягнення складних можливостей, таких як математичні, міркування або двомовне вирівнювання, за допомогою попередньо навчених, а потім навчених перенесенням стратегій, оскільки важко інтегрувати нові та існуючі знання. На противагу цьому, більш ефективна стратегія полягає в тому, щоб почати з нуля та інтегрувати кілька типів даних у поєднанні з потребами подальших завдань, щоб забезпечити послідовне та ефективне придбання необхідних можливостей.
Ми виявили, що використання індивідуальних даних для конкретних можливостей під час налаштування інструкцій може значно розширити специфічні можливості легких моделей, такі як всебічне міркування або знання предмета.
Представлено підхід до побудови набору інструкцій з використанням стратегії масової фільтрації на основі ентропії та продемонстровано його ефективність у фільтрації високоякісних даних налаштування інструкцій для легких моделей. Ми демонструємо, що в контексті легких моделей продуктивність моделі може бути оптимізована більш ефективно, покращуючи якість даних для налаштування інструкцій, а не просто збільшуючи обсяг даних.
Наші моделі продемонстрували відмінну ефективність у конкретних сферах, особливо в таких сферах, як право та фінанси. Ми виявили, що відмінності в розмірах параметрів моделі не призводять до суттєвих відмінностей у межах певної області, і що менші моделі можуть перевершувати більші моделі. Наша модель перевершує всі моделі з розмірами параметрів від 1,3B до 3B в даній області, залишаючись конкурентоспроможною з моделями з розмірами параметрів від 6B до 13B, а здатність моделі класифікуватися в межах певної області значно розширюється в рамках підходу COT.
ПОВ'ЯЗАНІ З ДАНИМИ
Обробка даних
Ми використовуємо навчальні дані англійською та китайською мовами. Англомовні дані були отримані з набору даних Pile і були додатково оброблені. Китайські дані включають навчальні дані з відкритих джерел, таких як Wudao та CBooks, а також дані, які ми скануємо з Інтернету. Щоб забезпечити якість даних, ми застосовуємо суворі методи обробки даних, особливо для даних, які скануються з Інтернету.
Наш підхід до обробки даних включає наступне:
Очищення формату: Ми використовуємо парсер веб-сторінок для вилучення та очищення текстового вмісту з вихідної веб-сторінки. Цей етап включає видалення непотрібних логотипів HTML, CSS, JS та емодзі, щоб забезпечити потік тексту. Крім того, ми розібралися з проблемою непослідовного форматування. Ми також зберегли китайські традиційні китайські ієрогліфи, щоб наші моделі могли вивчати стародавню літературу чи поезію.
Неякісна фільтрація даних: ми оцінюємо якість даних на основі співвідношення тексту та вмісту на веб-сторінці. Зокрема, ми виключаємо сторінки з щільністю тексту менше 75% або менше 100 китайських ієрогліфів. Цей поріг був визначений шляхом первинного тестування вибірки веб-сторінок.
Дедуплікація даних: Враховуючи, що дані WuDao також отримані з веб-сторінок, деякі веб-сайти можуть публікувати одну й ту саму інформацію повторно. Тому ми використовуємо локально чутливий алгоритм хешування, щоб видалити дубльований контент, зберігаючи при цьому різноманітність наших навчальних даних.
Фільтрація конфіденційної інформації: Враховуючи, що веб-сторінки часто містять конфіденційний вміст, ми використовували евристику та чутливі лексикони для виявлення та фільтрації цього контенту, щоб побудувати позитивну мовну модель. Щоб захистити конфіденційність, ми використовуємо регулярні вирази для ідентифікації особистої інформації, такої як ідентифікаційні номери, номери телефонів і адреси електронної пошти, і замінюємо їх спеціальними тегами.
Фільтрація даних із низьким рівнем інформації: Малоінформативні дані, як-от реклама, часто відображаються як дубльований вміст. Тому ми визначаємо цей тип контенту, аналізуючи частоту фраз у текстовому контенті веб-сторінки. Ми вважаємо, що часте повторення фраз з одного і того ж веб-сайту може бути шкідливим для навчання моделі. Як наслідок, наші фільтри в основному зосереджені на безперервних повторюваних фразах у рекламних оголошеннях або на неавтентифікованих веб-сайтах.
У підсумку ми отримали такі дані:
Закон масштабування
Щоб забезпечити оптимальну продуктивність в умовах зростаючих витрат на навчання глибокому навчанню та великим мовним моделям, ми провели дослідження взаємозв'язку між обсягом даних та ємністю моделі, відоме як закон масштабування. Перш ніж ми почнемо навчати велику мовну модель з мільярдами параметрів, ми спочатку навчаємо меншу модель, щоб встановити шаблон масштабування для навчання більшої моделі. Розміри наших моделей варіюються від 10 до 500 мільйонів параметрів, і кожна модель навчається на наборі даних, що містить до 10 мільярдів токенів. У цих тренінгах використовуються узгоджені налаштування гіперпараметрів, а також той самий набір даних, про який згадувалося раніше. Аналізуючи кінцеві втрати різних моделей, ми змогли встановити відображення від навчання FLOP (операція з плаваючою комою) до Loss. Як показано на малюнку нижче, обсяг тренувальних даних, насичених моделями різного розміру, різний, і зі збільшенням розміру моделі збільшуються і необхідні тренувальні дані. Для того, щоб задовольнити вимоги до точних даних цільової моделі, ми використали формулу степеневого закону, щоб відповідати закону розширення моделі, а також передбачили обсяг навчальних даних і значення втрат моделі параметрів 3B, а також порівняли їх з фактичними результатами (зірки на малюнку).
Розбещеність даних та курс даних
Вплив даних на модель в основному охоплює два аспекти: (1) коефіцієнт змішування, який передбачає, як дані з різних джерел об'єднуються для створення набору даних певного розміру з обмеженим бюджетом на навчання; і (2) курси з даних, які стосуються систематизації даних з різних джерел для тренування навичок роботи з конкретною моделлю.
Ми зменшили кожне джерело даних, щоб навчити модель із 15 мільйонами параметрів. Як показано на малюнку нижче, різні типи даних по-різному впливають на ефективність навчання та кінцевий результат моделі. Наприклад, математична задача має меншу кінцеву втрату даних і швидше засвоюється, що вказує на те, що вона має більш виражену закономірність і легко піддається вивченню. На противагу цьому, дані з інформативних книг або різноманітних веб-текстів потребують більше часу для адаптації. Деякі області подібних даних можуть бути ближчими з точки зору втрат, наприклад, дані, пов'язані з технологіями, та енциклопедії.
Для того, щоб глибше дослідити продуктивність моделі, що узагальнює від одних даних до інших даних, ми використовуємо ці моделі, навчені на одних даних для тестування на інших даних, і результати показані на наступному малюнку:
Різні набори даних демонструють різний ступінь здатності до узагальнення, наприклад, модель, навчена на веб-тексті, енциклопедіях і даних запитань і відповідей, демонструє сильну здатність до узагальнення на декількох джерелах даних, що вказує на те, що їх зміст містить різноманітну інформацію в різних областях. На противагу цьому, моделі, навчені на даних академічної роботи та кодових даних, перевершують математичні здібності, але слабкі в узагальненні, ймовірно, через специфіку предметної області та унікальну інформацію про форматування.
Крім того, ми внесли численні корективи в масштабування даних, щоб збалансувати продуктивність моделі для різних навичок і типів даних. На основі наших експериментів ми доопрацювали деякі принципи для пропорцій змішування даних:
Підтримуйте частку високоякісних веб-текстів та енциклопедичних даних через їхню різноманітність.
Зменшіть частку математичних даних, щоб уникнути перенавчання.
Покращуйте математику за допомогою коду та академічних даних, одночасно пом'якшуючи форматування за допомогою різноманітної вибірки та пов'язаної з нею обробки.
Зберігайте деякі дані про розмови та книги, щоб допомогти вам вивчити залежності на великій відстані.
На додаток до співвідношення міксів, курс даних (порядок, в якому навчаються дані) також впливає на здатність моделі до навчання. Експерименти показали, що дані з різних джерел змусять модель засвоїти різні навички, і що прийняття певного порядку навчання може допомогти моделі освоїти нові навички через кореляцію між навичками. Наші експерименти зосереджені на впливі неоднорідних змішаних даних і вивчення мовного перенесення на можливості моделі. Наші експерименти показують, що неоднорідні змішані дані призводять до безперервного навчання моделі на однотипних даних, які є ближчими до контексту навчання в контексті, а отже, краще працюють при навчанні з кількома кадрами. Однак через нерівномірність навчання може спостерігатися помітне явище забування на пізніх стадіях. Крім того, навчання мовному перенесенню допомагає моделі набути двомовних здібностей, і загальна продуктивність може бути покращена за рахунок узгодження мови, але ми вважаємо, що навчання зі змішаними мовними даними є більш сприятливим для розподілу та набуття модельних здібностей.
Архітектура моделі MindLLM
MindLLM-1.3B використовує ту саму архітектуру моделі, що й GPTNeo-1.3B, тоді як MindLLM-3B додає деякі покращення поверх неї. Виходячи зі стабільності навчання та можливостей моделі, ми використовуємо Rotated Position Coding (RoPE) DeepNorm, RMS Norm, FlashAttention-2, GeGLU та інші оператори оптимізації.
Ми додали китайський словник на основі GPTNeo-1.3B і використали стратегії трансферного навчання для тренування двомовних здібностей MindLLM-1.3B. Для MindLLM-3B ми використовуємо BPE від SentencePiece для токенізації даних, а наш токенізатор має остаточний розмір словникового запасу 125 700. За допомогою двох різних способів білінгвального навчання ми узагальнили деякі загальні та практичні методи попереднього навчання.
Попереднє навчання
Подробиці попередньої підготовки
Ми використовували дві різні стратегії для навчання двомовної моделі MindLLM de novo. Для MindLLM-3B ми попередньо навчили 800 000 кроків безпосередньо на змішаних двомовних даних китайською та англійською мовами, одночасно вивчаючи китайську та англійську мови; Для MindLLM-1.3B ми спочатку попередньо навчили 101 100 кроків на англійському наборі даних, а потім навчили 105 900 кроків, використовуючи змішані китайські та англійські дані. Подробиці попередньої підготовки такі:
### Оцінювання на етапі підготовки
Менша модель може перемогти більшу модель
Щоб оцінити китайські та англійські здібності моделі, ми використовували MMLU (5 знімків) і AGI (4 знімки) для оцінки англійських здібностей моделі, а також C-(5 знімків) і CMMLLU (4 знімки) для оцінки китайських здібностей моделі. AGI використовує частину англійської частини з декількома варіантами відповідей. Результати оцінки такі:
З точки зору англійської продуктивності, MindLLM в середньому перевершують GPT-J-6B, MPT-7B, MOSS-Base-16B та інші більші моделі, а також наближаються до Falcon-7B, які мають більші розміри моделей і більше попередньо навчених даних. З точки зору китайських можливостей, MindLLM працюють на одному рівні з LLM з відкритим вихідним кодом. Варто зазначити, що MindLLM все ще навчаються для вдосконалення.
Крім того, ми виявили, що MindLLM-1.3B, який був навчений як на китайських, так і на англійських даних, перевершив GPT-Neo-1.3B на MMLU, припускаючи, що це може бути перевагою від двомовного навчання, оскільки між різними мовами є схожість з точки зору здібностей. Детальні експерименти та аналізи можна знайти в розділі 4.4 статті.
Менші моделі мають великий потенціал з точки зору конкретних можливостей
Для легких моделей при застосуванні для подальших завдань достатньо лише наявності відповідних можливостей. Тому в цьому розділі ми хочемо дослідити продуктивність та фактори впливу MindLLM та інших легких LLM у специфічних можливостях (≤7B).
Ми оцінюємо продуктивність різних моделей в основному з трьох точок зору: математичні здібності, здатність міркувати та здатність до двомовного вирівнювання, оскільки ці три здібності є складними та відносно важливими для застосування двомовних моделей.
(1) Математика**
Для оцінки арифметичних здібностей моделі ми використовували набір даних Arithmetic (5 знімків), а також GSM8K (4 постріли) і MATH (4 постріли) для оцінки загальних математичних здібностей моделі. Результати оцінки такі:
我们发现,MindLLM-3B在数学能力上的平均分数达到了16.01,超过了MOSS-Base-16B(15.71)和MPT-7B(13.42),GPT-J-6B(13.15)。此外MindLLM-1.3B的数学平均水平也超过了相同大小的GPT-Neo-1.3B。以上结果表明,轻量级模型在数学上有着巨大的潜力,较小的模型也可以在具体领域表现出超越或者与更大模型相当的水平。进一步,我们可以看到数学能力较为出色的(均分≥15) , крім MindLLM-3B, всі моделі близько 7В. Це говорить про те, що повне набуття складних здібностей, таких як математичні здібності, може бути обмежене розміром моделі, і це припущення може бути додатково відображено в оцінці двомовності моделі та здатності міркувати.
(2) Міркування
Ми використовували HellaSwag і WinoGrande для оцінки здатності моделі міркувати мовою (5 знімків), LogiQA для оцінки здатності моделі до логічного мислення (5 знімків), PubMedQA, PIQA і MathQA для оцінки здатності моделі міркувати на знання (5 знімків) і BBH для оцінки всебічної здатності моделі міркувати (3 знімки). Конкретні результати оцінювання такі:
По-перше, в умовах обмеженого модельного потенціалу, приріст здібностей, принесений білінгвізмом, може бути збалансований зі споживанням модельних можливостей при вивченні мови. Вивчення мови може займати частину можливостей моделі, що дає можливість набути складних здібностей, таких як здатність міркувати. Наприклад, MindLLM-1.3B кращий, ніж GPT-Neo-1.3B за показниками оцінки MMLU англійською мовою, але слабший за останній за середніми здібностями до міркувань (35,61 проти 38,95). Навички міркування у Блумса були не дуже хорошими, але двомовність у подальшій оцінці була чудовою, що також певною мірою підтвердило вищезазначену думку. Наприклад, продуктивність висновків Open-LLaMA-3B порівнянна з продуктивністю більшої моделі, а її попередньо навчені дані становлять 1 ТББ, що перевищує попередньо навчені дані, що використовуються іншими моделями такого ж розміру. В результаті, менші моделі все ще мають потенціал для досягнення порівнянної продуктивності з точки зору потужності висновків, як і більші моделі. Крім того, ми виявили, що рівень логічного висновку MOSS, здається, не працює краще, ніж виграш від вивчення попередніх даних коду (MOSS продовжував тренуватися на CodeGen), але пов'язана з цим робота показує, що код дійсно корисний для покращення здатності моделі до висновків, тому те, як і коли дані коду додаються до навчання для покращення здатності моделі до висновків, заслуговує на подальше обговорення.
(3) Двомовність
Ми використовували zh-en секцію Flores-101 (8-заряд) для оцінки вирівнювання двомовних або багатомовних моделей китайською та англійською мовами. Ми включили Chinese-LLaMA-2-7B, модель для адаптації китайського домену на основі LLaMA-2-7B. Результати такі:
Ми виявили, що модель погано працювала як у традиційному перекладі з англійської на китайську, головним чином тому, що попередньо навчені дані становили невелику частку традиційного китайського перекладу. Крім того, тільки Blooms і MindLLM-3B досягли успіху в двосторонньому узгодженні мови з китайської на англійську і з англійської на китайську, за ними йдуть LLaMA-2-7B і MOSS-Base-16B. LLaMA-7B та Open-LLaMA-7B можна вирівняти лише з китайської на англійську. У поєднанні з передтренувальними даними моделі можна побачити, що передтренувальні дані Blooms і MindLLM-3B мають збалансовану частку китайської та англійської мов, тоді як частка китайських даних в LLaMA-2-7B набагато нижче, ніж в англійських, а частка китайців в передтренувальних даних LLaMA-7B і Open-LLaMA-7B ще менше.
Таким чином, у нас є два висновки, один з яких полягає в тому, що модель може вивчати представлення мови за допомогою великої кількості тренувань на одній мові, і в той же час може бути зрозуміла і односпрямована, змішавши невелику кількість інших мов, таких як продуктивність LLaMA-7B і Open-LLaMA-7B. По-друге, якщо потрібне краще двомовне або багатомовне вирівнювання, на початку попереднього тренування необхідна збалансована частка двомовних або багатомовних даних, таких як Blooms і MindLLM-3B. Крім того, ми виявили, що MOSS-Base-16B і Chinese-LLaMA-2-7B мають розумну частку китайських та англійських даних, і сингл все ще не показує двостороннього вирівнювання, і наша гіпотеза полягає в тому, що важко додати двомовну здатність вирівнювання під час міграційного навчання, тому що модель на цей час вже має багато знань, які викличуть протиріччя у випадку малої ємності. Це також пояснює той факт, що MindLLM-1.3B, який має меншу ємність і невеликий обсяг даних на ранній стадії одномовного навчання, не набув можливостей двомовного вирівнювання. Baichuan 2-7B, з іншого боку, дуже хороший в інших аспектах, і може займати велику ємність і не може навчитися хорошому двосторонньому вирівнюванню.
(4) Підсумок
Оцінюючи результати передтренувального етапу, ми маємо наступні два висновки:
Легкі моделі мають великий потенціал, щоб перевершити або досягти рівня більших моделей у певній галузі чи можливостях.
Для моделі з обмеженими можливостями (≤7B) ми можемо обґрунтовано розподілити пропорцію даних у даних попереднього навчання відповідно до конкретних вимог до здібностей наступного завдання, що сприяє моделі для навчання та отримання цільової здатності з нуля, а також для інтеграції та просування різних знань та можливостей.
Крім того, в роботі також порівнюється вплив підтримки рівномірного розподілу даних на продуктивність моделі перед навчанням, і експериментальні результати показують, що метод побудови даних аналогічного навчання курсу може працювати так само, як і метод моделі, навченої на ранній стадії, і метод рівномірно змішаної побудови даних, але в кінцевому підсумку може призвести до катастрофічного забування і раптового зниження продуктивності, в той час як продуктивність останнього є більш послідовною і стабільною, а знання отриманих даних перед навчанням є більш повним, що також підтверджує наведений вище другий висновок. Крім того, ми виявили, що спосіб, у який дані конструюються в подібному курсі, може призвести до більшої кількості розподілів даних, які сприятимуть покращенню здатності моделі до контекстного навчання. Подробиці можна знайти в розділі 4.5 статті.
Інструкція Тонке налаштування
Ми хочемо дослідити, як точне налаштування інструкцій може працювати на легких моделях з різними типами наборів даних. У наведеній нижче таблиці наведено набір даних для точного налаштування інструкцій, який ми використовуємо, включаючи наш реконструйований китайський набір даних MingLi, загальнодоступний набір даних Tulu (англійською мовою) та китайсько-англійський двомовний набір даних MOSS.
**Для MindLLM якість даних для точного налаштування інструкцій важливіша за кількість даних. **
Продуктивність моделей MindLLM-1.3B і MindLLM-3B на C- після інструкцій точного налаштування при різних даних наступна. Згідно з експериментальними результатами, продуктивність моделі, навченої з ретельно відібраним набором даних з 50 000 інструкцій для тонкого налаштування, вища, ніж у набору даних з точним налаштуванням інструкцій з великою різноманітністю та великим обсягом даних. Аналогічно модель показала аналогічні показники на англійському індикаторі MMLU (докладніше див. Таблицю 14). Тому для легких моделей дуже важливо визначити та відфільтрувати високоякісні набори даних для тонкого налаштування інструкцій.
Тонке налаштування стратегії фільтрації даних на основі ентропії даних
Як визначити високоякісні дані для тонкого налаштування інструкцій? Деякі вчені припускають, що різноманіття даних про тонке налаштування інструкцій може відображати якість даних наборів даних для точного налаштування інструкцій. Однак, згідно з нашими експериментами, ентропія даних і довжина даних тонкого налаштування інструкцій більше впливатимуть на продуктивність легких моделей. Ми визначаємо перехресні ентропійні втрати кожного фрагмента даних на попередньо навченій моделі як ентропію даних і кластеризуємо дані відповідно до ентропії даних за алгоритмом K-Means для отримання різних кластерів даних. Результати MindLLM після точного налаштування інструкцій кожного кластера даних, а потім C- показані в наступній таблиці (див. Таблицю 19 для отримання детальної інформації про результати MMLU):
Згідно з результатами, наведеними в таблиці, продуктивність MindLLM-1.3B і MindLLM-3B на різних кластерах даних істотно відрізняється. Далі проаналізуємо взаємозв'язок між ентропією даних і точністю моделі на C- і MMLU і апроксимації функцій, як показано на малюнку:
Точка червоної пентаграми на зображенні є ентропією заздалегідь навченої моделі. Згідно з аналізом, коли ентропія даних на 1-1,5 перевищує ентропію попередньо навченої моделі, модель має найкращу продуктивність після точного налаштування інструкцій даних у цьому інтервалі. Тому ми визначаємо якісні дані за ентропією даних і пропонуємо метод скринінгу якісних даних.
MindLLM може точно налаштувати набір даних за допомогою визначених інструкцій для отримання конкретних можливостей
Для того, щоб з'ясувати, чи може MindLLM ефективно покращити свої конкретні можливості за допомогою точного налаштування інструкцій, ми використовуємо частину екзаменаційних даних із 10 000-томного набору даних для точного налаштування моделі, щоб покращити здатність моделі до предметних знань. Ми провели оцінку на С-, і результати такі:
Видно, що після тонкого налаштування інструкцій модель значно покращила свої здібності до предметних знань, а продуктивність 1.3B MindLLM навіть перевищує продуктивність більших моделей, таких як ChatGLM-6B та Chinese-Alpaca-33B. Тому ми вважаємо, що MindLLM може покращити свої специфічні можливості після тонкого налаштування інструкцій, а завдяки своїм легким характеристикам він більше підходить для розгортання в подальших вертикальних завданнях.
Польове застосування
Для того, щоб продемонструвати ефект від застосування малих моделей у конкретних галузях, ми використовуємо два публічні набори даних у фінансах та юриспруденції для їх перевірки. З отриманих результатів можна помітити, що розмір параметра моделі має певний вплив на продуктивність домену, але продуктивність не очевидна. Продуктивність MindLLM перевершує інші моделі порівнянного розміру в польових умовах і порівнянна з більшими моделями. Це ще раз доводить, що маленька модель має великий потенціал у сфері застосування.
Фінансовий сектор
У цій галузі завдання класифікації сприйняття емоцій здійснюється за фінансовими даними. По-перше, ми просканували дані з 13 травня 2011 року по 31 серпня 2023 року з Oriental Fortune і позначили дані на основі наступних коливань цін на акції. Згодом дані поділяються на навчальні та тестові набори за датою. Враховуючи дисбаланс категорій, ми взяли вибірку даних і в підсумку використали 320 000 одиниць даних як навчальний набір і 20 000 одиниць даних як тестовий набір.
Ми використовували два різні методи навчання для порівняння продуктивності різних моделей. По-перше, для класифікації тексту використовується лише просте контрольоване тонке налаштування (SFT). По-друге, дані процесу висновків були перегнані з ChatGPT і додані до навчання як допоміжні дані за допомогою методу навчання COT (Chain-Of-Thought).
Результати експериментів показують, що ефект від усіх базових моделей і моделей MindLLM можна в тій чи іншій мірі покращити, доповнивши допоміжну інформацію. Крім того, можна помітити, що продуктивність MindLLM-1.3B і 3B покращилася на 27,81% і 26,28% відповідно в порівнянні з продуктивністю тренувань SFT за допомогою тренування COT, а MindLLM значно покращилася, ніж у інших моделей, крім Baichuan-7B. Крім того, MindLLM-1.3B і 3B досягають найкращої продуктивності в тому ж масштабі і перевершують ChatGLM2-6B і Open-LLaMA-7B.
ПРАВОВЕ ПОЛЕ
Ми зібрали деякі загальнодоступні юридичні дані та об'єднали їх із загальними директивними даними для Директиви Fine-Tuning (SFT) MindLLM. Для того, щоб дослідити, як довжина токена даних впливає на продуктивність моделі на конкретних доменах, ми використовуємо дані різної довжини даних для окремого навчання MindLLM. Спочатку ми перевірили всі дані довжиною менше 450, а потім використали токенізатори MindLLM-1.3B і MindLLM-3B, щоб відфільтрувати дані від 200-300 до 300-450 відповідно. У наступній таблиці наведено статистику та відповідні моделі тренувань:
Щоб уникнути помилок, спричинених упередженістю та відсутністю досвіду в оцінці людиною, ми використовуємо ChatGPT як оцінювача наступними способами. Набір даних кількох раундів розмов з юридичними консультаціями, згенерованих ChatGPT, 100 з яких були отримані як наші оціночні дані. Ми використовуємо ChatGPT для оцінки відповідей моделі на юридичні консультації, дозволяємо ChatGPT ранжувати відповіді моделі, а потім обчислюємо оцінку Elo на основі результатів ранжування. Нарешті, була обрана одна з кращих моделей для порівняння MindLLM-Law з іншими моделями з відкритим вихідним кодом.
Для Блума моделі GPT-Neo та Open-LLaMA були точно налаштовані з використанням того ж набору даних, що й MindLLM-Law, і результати порівняння такі:
Результати показують, що MindLLM-Law не перевершив модель з параметрами 13B і ChatGLM2-6B, в основному через відсутність даних на переднавчальній фазі права для отримання більшого виграшу. Тим не менш, MindLLM має очевидні загальні переваги перед Baichuan2-7B-Chat, тонко налаштованим Open-LLaMA-7B та іншими моделями такого ж розміру.
Підсумок
У цій статті представлено сімейство моделей MindLLM, яке наразі включає дві легкі великі мовні моделі. Ми детально обговорили процес навчання, включаючи обробку даних, попереднє навчання, тонке налаштування та доменні додатки, а також поділилися цінним досвідом та технічними додатками, накопиченими в цих галузях. Незважаючи на відносно невеликий розмір параметрів, MindLLM показали хороші результати в численних тестах продуктивності, навіть перевершуючи деякі великі моделі за деякими параметрами. MindLLM демонструє чудову продуктивність порівняно з іншими легкими моделями з точки зору адаптації домену. У той же час вони здатні досягати порівнянних результатів з більшою швидкістю навчання та меншими навчальними ресурсами, ніж більші моделі. Ґрунтуючись на наведеному вище аналізі, ми вважаємо, що малі моделі все ще мають великий потенціал. Ми ще більше покращимо якість даних, оптимізуємо процес навчання моделі та масштабуватимемо модель, щоб покращити продуктивність MindLLM багатовимірним способом. У майбутньому ми плануємо експериментувати в більш подальших завданнях і конкретних областях, щоб досягти більш глибоких конкретних застосувань легких великих моделей.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Як маленьку модель можна порівняти з великою, Пекінський технологічний інститут випустив велику модель Mingde MindLLM, і маленька модель має великий потенціал
Першоджерело: Heart of the Machine
Великі мовні моделі (LLM) продемонстрували відмінну продуктивність у різноманітних завданнях природної мови, але все ще існує багато практичних проблем у застосуванні великих мовних моделей у професійній сфері через високу вартість навчання та виведення моделей з великими параметрами. Тому команда почала з легких моделей, щоб максимізувати переваги даних і моделей, заснованих на кращому обслуговуванні конкретних областей і зниженні витрат на навчання та висновки подальших завдань.
24 жовтня команда обробки природної мови Пекінського технологічного інституту випустила серію двомовних легких великих мовних моделей (Ming De LLM) - MindLLM, яка всебічно представляє досвід, накопичений у процесі розробки великомасштабних моделей, охоплюючи кожен детальний етап побудови даних, архітектури моделі, процесу оцінки та застосування. MindLLM навчається з нуля і поставляється у версіях 1.3B і 3B, послідовно збігаючись або перевершуючи продуктивність інших великих моделей з відкритим вихідним кодом у деяких публічних тестах. MindLLM також розширює свої можливості, представляючи інноваційну структуру налаштування інструкцій, розроблену спеціально для невеликих моделей. Крім того, для додатків у конкретних вертикалях, таких як право та фінанси, MindLLM також має чудову адаптивність домену.
Основні моменти MindLLM
ПОВ'ЯЗАНІ З ДАНИМИ
Обробка даних
Ми використовуємо навчальні дані англійською та китайською мовами. Англомовні дані були отримані з набору даних Pile і були додатково оброблені. Китайські дані включають навчальні дані з відкритих джерел, таких як Wudao та CBooks, а також дані, які ми скануємо з Інтернету. Щоб забезпечити якість даних, ми застосовуємо суворі методи обробки даних, особливо для даних, які скануються з Інтернету.
Наш підхід до обробки даних включає наступне:
У підсумку ми отримали такі дані:
Закон масштабування
Щоб забезпечити оптимальну продуктивність в умовах зростаючих витрат на навчання глибокому навчанню та великим мовним моделям, ми провели дослідження взаємозв'язку між обсягом даних та ємністю моделі, відоме як закон масштабування. Перш ніж ми почнемо навчати велику мовну модель з мільярдами параметрів, ми спочатку навчаємо меншу модель, щоб встановити шаблон масштабування для навчання більшої моделі. Розміри наших моделей варіюються від 10 до 500 мільйонів параметрів, і кожна модель навчається на наборі даних, що містить до 10 мільярдів токенів. У цих тренінгах використовуються узгоджені налаштування гіперпараметрів, а також той самий набір даних, про який згадувалося раніше. Аналізуючи кінцеві втрати різних моделей, ми змогли встановити відображення від навчання FLOP (операція з плаваючою комою) до Loss. Як показано на малюнку нижче, обсяг тренувальних даних, насичених моделями різного розміру, різний, і зі збільшенням розміру моделі збільшуються і необхідні тренувальні дані. Для того, щоб задовольнити вимоги до точних даних цільової моделі, ми використали формулу степеневого закону, щоб відповідати закону розширення моделі, а також передбачили обсяг навчальних даних і значення втрат моделі параметрів 3B, а також порівняли їх з фактичними результатами (зірки на малюнку).
Розбещеність даних та курс даних
Вплив даних на модель в основному охоплює два аспекти: (1) коефіцієнт змішування, який передбачає, як дані з різних джерел об'єднуються для створення набору даних певного розміру з обмеженим бюджетом на навчання; і (2) курси з даних, які стосуються систематизації даних з різних джерел для тренування навичок роботи з конкретною моделлю.
Ми зменшили кожне джерело даних, щоб навчити модель із 15 мільйонами параметрів. Як показано на малюнку нижче, різні типи даних по-різному впливають на ефективність навчання та кінцевий результат моделі. Наприклад, математична задача має меншу кінцеву втрату даних і швидше засвоюється, що вказує на те, що вона має більш виражену закономірність і легко піддається вивченню. На противагу цьому, дані з інформативних книг або різноманітних веб-текстів потребують більше часу для адаптації. Деякі області подібних даних можуть бути ближчими з точки зору втрат, наприклад, дані, пов'язані з технологіями, та енциклопедії.
Крім того, ми внесли численні корективи в масштабування даних, щоб збалансувати продуктивність моделі для різних навичок і типів даних. На основі наших експериментів ми доопрацювали деякі принципи для пропорцій змішування даних:
На додаток до співвідношення міксів, курс даних (порядок, в якому навчаються дані) також впливає на здатність моделі до навчання. Експерименти показали, що дані з різних джерел змусять модель засвоїти різні навички, і що прийняття певного порядку навчання може допомогти моделі освоїти нові навички через кореляцію між навичками. Наші експерименти зосереджені на впливі неоднорідних змішаних даних і вивчення мовного перенесення на можливості моделі. Наші експерименти показують, що неоднорідні змішані дані призводять до безперервного навчання моделі на однотипних даних, які є ближчими до контексту навчання в контексті, а отже, краще працюють при навчанні з кількома кадрами. Однак через нерівномірність навчання може спостерігатися помітне явище забування на пізніх стадіях. Крім того, навчання мовному перенесенню допомагає моделі набути двомовних здібностей, і загальна продуктивність може бути покращена за рахунок узгодження мови, але ми вважаємо, що навчання зі змішаними мовними даними є більш сприятливим для розподілу та набуття модельних здібностей.
Архітектура моделі MindLLM
MindLLM-1.3B використовує ту саму архітектуру моделі, що й GPTNeo-1.3B, тоді як MindLLM-3B додає деякі покращення поверх неї. Виходячи зі стабільності навчання та можливостей моделі, ми використовуємо Rotated Position Coding (RoPE) DeepNorm, RMS Norm, FlashAttention-2, GeGLU та інші оператори оптимізації.
Ми додали китайський словник на основі GPTNeo-1.3B і використали стратегії трансферного навчання для тренування двомовних здібностей MindLLM-1.3B. Для MindLLM-3B ми використовуємо BPE від SentencePiece для токенізації даних, а наш токенізатор має остаточний розмір словникового запасу 125 700. За допомогою двох різних способів білінгвального навчання ми узагальнили деякі загальні та практичні методи попереднього навчання.
Попереднє навчання
Подробиці попередньої підготовки
Ми використовували дві різні стратегії для навчання двомовної моделі MindLLM de novo. Для MindLLM-3B ми попередньо навчили 800 000 кроків безпосередньо на змішаних двомовних даних китайською та англійською мовами, одночасно вивчаючи китайську та англійську мови; Для MindLLM-1.3B ми спочатку попередньо навчили 101 100 кроків на англійському наборі даних, а потім навчили 105 900 кроків, використовуючи змішані китайські та англійські дані. Подробиці попередньої підготовки такі:
Менша модель може перемогти більшу модель
Щоб оцінити китайські та англійські здібності моделі, ми використовували MMLU (5 знімків) і AGI (4 знімки) для оцінки англійських здібностей моделі, а також C-(5 знімків) і CMMLLU (4 знімки) для оцінки китайських здібностей моделі. AGI використовує частину англійської частини з декількома варіантами відповідей. Результати оцінки такі:
Крім того, ми виявили, що MindLLM-1.3B, який був навчений як на китайських, так і на англійських даних, перевершив GPT-Neo-1.3B на MMLU, припускаючи, що це може бути перевагою від двомовного навчання, оскільки між різними мовами є схожість з точки зору здібностей. Детальні експерименти та аналізи можна знайти в розділі 4.4 статті.
Менші моделі мають великий потенціал з точки зору конкретних можливостей
Для легких моделей при застосуванні для подальших завдань достатньо лише наявності відповідних можливостей. Тому в цьому розділі ми хочемо дослідити продуктивність та фактори впливу MindLLM та інших легких LLM у специфічних можливостях (≤7B).
Ми оцінюємо продуктивність різних моделей в основному з трьох точок зору: математичні здібності, здатність міркувати та здатність до двомовного вирівнювання, оскільки ці три здібності є складними та відносно важливими для застосування двомовних моделей.
(1) Математика**
Для оцінки арифметичних здібностей моделі ми використовували набір даних Arithmetic (5 знімків), а також GSM8K (4 постріли) і MATH (4 постріли) для оцінки загальних математичних здібностей моделі. Результати оцінки такі:
(2) Міркування
Ми використовували HellaSwag і WinoGrande для оцінки здатності моделі міркувати мовою (5 знімків), LogiQA для оцінки здатності моделі до логічного мислення (5 знімків), PubMedQA, PIQA і MathQA для оцінки здатності моделі міркувати на знання (5 знімків) і BBH для оцінки всебічної здатності моделі міркувати (3 знімки). Конкретні результати оцінювання такі:
(3) Двомовність
Ми використовували zh-en секцію Flores-101 (8-заряд) для оцінки вирівнювання двомовних або багатомовних моделей китайською та англійською мовами. Ми включили Chinese-LLaMA-2-7B, модель для адаптації китайського домену на основі LLaMA-2-7B. Результати такі:
Таким чином, у нас є два висновки, один з яких полягає в тому, що модель може вивчати представлення мови за допомогою великої кількості тренувань на одній мові, і в той же час може бути зрозуміла і односпрямована, змішавши невелику кількість інших мов, таких як продуктивність LLaMA-7B і Open-LLaMA-7B. По-друге, якщо потрібне краще двомовне або багатомовне вирівнювання, на початку попереднього тренування необхідна збалансована частка двомовних або багатомовних даних, таких як Blooms і MindLLM-3B. Крім того, ми виявили, що MOSS-Base-16B і Chinese-LLaMA-2-7B мають розумну частку китайських та англійських даних, і сингл все ще не показує двостороннього вирівнювання, і наша гіпотеза полягає в тому, що важко додати двомовну здатність вирівнювання під час міграційного навчання, тому що модель на цей час вже має багато знань, які викличуть протиріччя у випадку малої ємності. Це також пояснює той факт, що MindLLM-1.3B, який має меншу ємність і невеликий обсяг даних на ранній стадії одномовного навчання, не набув можливостей двомовного вирівнювання. Baichuan 2-7B, з іншого боку, дуже хороший в інших аспектах, і може займати велику ємність і не може навчитися хорошому двосторонньому вирівнюванню.
(4) Підсумок
Оцінюючи результати передтренувального етапу, ми маємо наступні два висновки:
Крім того, в роботі також порівнюється вплив підтримки рівномірного розподілу даних на продуктивність моделі перед навчанням, і експериментальні результати показують, що метод побудови даних аналогічного навчання курсу може працювати так само, як і метод моделі, навченої на ранній стадії, і метод рівномірно змішаної побудови даних, але в кінцевому підсумку може призвести до катастрофічного забування і раптового зниження продуктивності, в той час як продуктивність останнього є більш послідовною і стабільною, а знання отриманих даних перед навчанням є більш повним, що також підтверджує наведений вище другий висновок. Крім того, ми виявили, що спосіб, у який дані конструюються в подібному курсі, може призвести до більшої кількості розподілів даних, які сприятимуть покращенню здатності моделі до контекстного навчання. Подробиці можна знайти в розділі 4.5 статті.
Інструкція Тонке налаштування
Ми хочемо дослідити, як точне налаштування інструкцій може працювати на легких моделях з різними типами наборів даних. У наведеній нижче таблиці наведено набір даних для точного налаштування інструкцій, який ми використовуємо, включаючи наш реконструйований китайський набір даних MingLi, загальнодоступний набір даних Tulu (англійською мовою) та китайсько-англійський двомовний набір даних MOSS.
Продуктивність моделей MindLLM-1.3B і MindLLM-3B на C- після інструкцій точного налаштування при різних даних наступна. Згідно з експериментальними результатами, продуктивність моделі, навченої з ретельно відібраним набором даних з 50 000 інструкцій для тонкого налаштування, вища, ніж у набору даних з точним налаштуванням інструкцій з великою різноманітністю та великим обсягом даних. Аналогічно модель показала аналогічні показники на англійському індикаторі MMLU (докладніше див. Таблицю 14). Тому для легких моделей дуже важливо визначити та відфільтрувати високоякісні набори даних для тонкого налаштування інструкцій.
Як визначити високоякісні дані для тонкого налаштування інструкцій? Деякі вчені припускають, що різноманіття даних про тонке налаштування інструкцій може відображати якість даних наборів даних для точного налаштування інструкцій. Однак, згідно з нашими експериментами, ентропія даних і довжина даних тонкого налаштування інструкцій більше впливатимуть на продуктивність легких моделей. Ми визначаємо перехресні ентропійні втрати кожного фрагмента даних на попередньо навченій моделі як ентропію даних і кластеризуємо дані відповідно до ентропії даних за алгоритмом K-Means для отримання різних кластерів даних. Результати MindLLM після точного налаштування інструкцій кожного кластера даних, а потім C- показані в наступній таблиці (див. Таблицю 19 для отримання детальної інформації про результати MMLU):
MindLLM може точно налаштувати набір даних за допомогою визначених інструкцій для отримання конкретних можливостей
Для того, щоб з'ясувати, чи може MindLLM ефективно покращити свої конкретні можливості за допомогою точного налаштування інструкцій, ми використовуємо частину екзаменаційних даних із 10 000-томного набору даних для точного налаштування моделі, щоб покращити здатність моделі до предметних знань. Ми провели оцінку на С-, і результати такі:
Польове застосування
Для того, щоб продемонструвати ефект від застосування малих моделей у конкретних галузях, ми використовуємо два публічні набори даних у фінансах та юриспруденції для їх перевірки. З отриманих результатів можна помітити, що розмір параметра моделі має певний вплив на продуктивність домену, але продуктивність не очевидна. Продуктивність MindLLM перевершує інші моделі порівнянного розміру в польових умовах і порівнянна з більшими моделями. Це ще раз доводить, що маленька модель має великий потенціал у сфері застосування.
Фінансовий сектор
У цій галузі завдання класифікації сприйняття емоцій здійснюється за фінансовими даними. По-перше, ми просканували дані з 13 травня 2011 року по 31 серпня 2023 року з Oriental Fortune і позначили дані на основі наступних коливань цін на акції. Згодом дані поділяються на навчальні та тестові набори за датою. Враховуючи дисбаланс категорій, ми взяли вибірку даних і в підсумку використали 320 000 одиниць даних як навчальний набір і 20 000 одиниць даних як тестовий набір.
ПРАВОВЕ ПОЛЕ
Ми зібрали деякі загальнодоступні юридичні дані та об'єднали їх із загальними директивними даними для Директиви Fine-Tuning (SFT) MindLLM. Для того, щоб дослідити, як довжина токена даних впливає на продуктивність моделі на конкретних доменах, ми використовуємо дані різної довжини даних для окремого навчання MindLLM. Спочатку ми перевірили всі дані довжиною менше 450, а потім використали токенізатори MindLLM-1.3B і MindLLM-3B, щоб відфільтрувати дані від 200-300 до 300-450 відповідно. У наступній таблиці наведено статистику та відповідні моделі тренувань:
Для Блума моделі GPT-Neo та Open-LLaMA були точно налаштовані з використанням того ж набору даних, що й MindLLM-Law, і результати порівняння такі:
Підсумок
У цій статті представлено сімейство моделей MindLLM, яке наразі включає дві легкі великі мовні моделі. Ми детально обговорили процес навчання, включаючи обробку даних, попереднє навчання, тонке налаштування та доменні додатки, а також поділилися цінним досвідом та технічними додатками, накопиченими в цих галузях. Незважаючи на відносно невеликий розмір параметрів, MindLLM показали хороші результати в численних тестах продуктивності, навіть перевершуючи деякі великі моделі за деякими параметрами. MindLLM демонструє чудову продуктивність порівняно з іншими легкими моделями з точки зору адаптації домену. У той же час вони здатні досягати порівнянних результатів з більшою швидкістю навчання та меншими навчальними ресурсами, ніж більші моделі. Ґрунтуючись на наведеному вище аналізі, ми вважаємо, що малі моделі все ще мають великий потенціал. Ми ще більше покращимо якість даних, оптимізуємо процес навчання моделі та масштабуватимемо модель, щоб покращити продуктивність MindLLM багатовимірним способом. У майбутньому ми плануємо експериментувати в більш подальших завданнях і конкретних областях, щоб досягти більш глибоких конкретних застосувань легких великих моделей.