Джерело зображення: створено інструментом Unbounded AI, загальна модель (гра CG)
Раніше довжина контексту була одним із найбільших обмежень GPT-3. GPT-3 може приймати лише до 4000 токенів (3000 слів, 6 сторінок), інакше буде повідомлено про помилку. Тому, щоб мати справу з довгими документами та підказками (), необхідно запровадити інші методи пошуку, такі як LangChain. Однак MosaicML (який був придбаний Databricks приблизно за 1,3 мільярда доларів) на початку травня відкрив контекст MPT-7B довжиною 84 000 токенів (63 000 слів, 126 сторінок), що значно розширило діапазон тексту, який можна обробити. , Модель Claude, розроблена Anthronpic, має довжину контексту, розширену до 100 000 токенів.
MPT-7B було навчено з нуля, використовуючи 1 трильйон токенів тексту та коду як навчальних даних. Порівняно з іншими подібними моделями (такими як Pythia та OpenLLaMA використовують 300 мільярдів токенів, StableLM використовує 800 мільярдів токенів), навчальні дані MPT-7B більші, а їх якість порівнянна з LLaMA-7B. Модель навчали на платформі MosaicML з використанням 440 графічних процесорів, і процес навчання тривав 9,5 днів без втручання людини, вартістю близько 200 000 доларів. На відміну від інших відкритих моделей, MPT-7B має ліцензію на комерційне використання та оптимізовано для швидкого навчання та висновків за допомогою FlashAttention і FasterTransformer.
(Ефективність MPT-7B при нульових академічних завданнях)
MosaicML також випустив три моделі MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ на основі базового MPT-7B для тонкого налаштування.
Модель налаштована на dolly_hhrlhf. Набір даних dolly_hhrlhf створено на основі набору даних "dolly-5k".
Модель налаштована на наборах даних ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless і Evol-Instruct.
Набір даних для точного налаштування для цієї моделі — це відфільтрована підмножина романів у книгах3 із довжиною контексту 65 Кб. Хоча рекламований розмір становив 65 тисяч токенів, команда змогла отримати відповідь у 84 тисячі токенів під час роботи на графічному процесорі A100-80GB одного вузла. Ключовою технологією, що стоїть за цим, є ALiBi. Спочатку «Великий Гетсбі» мав лише близько 68 тисяч токенів, тому команда використала модель MPT-7B-StoryWriter-65k+, щоб створити нову кінцівку для роману.
На додаток до контрольних точок моделі, команда відкрила повну кодову базу для попереднього навчання, тонкої настройки та оцінки MPT за допомогою свого нового MosaicML LLM Foundry. Наведену вище таблицю було створено за допомогою системи оцінювання контекстного навчання в LLM Foundry.
Головний науковий співробітник MosaicML Джонатан Франкл і науковий співробітник Абхінав Венігалла очолюють MPT-7B, керуючи всім навчальним процесом MPT-7B. В останньому подкасті Latent Space головний партнер Swyx і Decibel Partners Алессіо обговорив з ними інновації процесу навчання MPT-7B і пояснив, чому поєднання наборів даних LLM є важливим і загадковим мистецтвом. Крім того, деякі традиційні тести з множинним вибором можуть бути не дуже корисними для технології, що створюється, і вони також досліджуватимуть причини цього.
(Цей вміст зібрано та опубліковано OneFlow після авторизації, джерело: https://
Конструкція моделі МПТ-7Б
**Swyx: Чому ви розробили MPT-7B? **
Абхінав: Проект MPT-7B тривав близько 6-12 місяців. Ми почали працювати над мовними моделями минулого літа та опублікували допис у блозі, у якому аналізували мовні моделі та виявили, що вартість навчання насправді може бути набагато нижчою, ніж люди думають. Крім того, з тих пір, натхненні моделлю LLaMA, випущеною Meta AI, і багатьма іншими роботами з відкритим кодом, ми вирішили створити дійсно хорошу модель із 7 мільярдами параметрів, яка є джерелом MPT.
Алессіо: Ви сказали в одному з подкастів: Mosaic не планує створювати та випускати моделі. Але зрештою ви все одно випустили модель, що змусило вас змінити думку?
Джонатан: Я думаю, що є кілька факторів: нам все ще бракує першокласної моделі. На відміну від OpenAI, де наш бізнес зосереджений на створенні клієнтами власних моделей, ми передусім надаємо їм інструменти, і щоб ці інструменти були ефективними, ми повинні спочатку створити власні моделі.
Має бути зрозуміло, що якщо наші клієнти можуть робити великі речі, ми також можемо робити великі речі. У мене багато людей у Твіттері сумнівалися в правдивості чисел, які показала Mosaic, як-от Росс Вайтмен, який сказав: «Давайте подивимося фактичні результати», на що я відповів: «Россе, що ти думаєш, як це спрацювало ?" Ми розробили модель за 9,5 днів і вартістю 200 000 доларів, тож ви теж можете це зробити.
**Swyx: **З огляду на дані, які ви оприлюднили минулого року, спочатку було оцінено, що вартість навчання GPT-3 становила менше 450 000 доларів США, а потім вона була зменшена до 100 000 доларів США; вартість Stable Diffusion також була зменшена зі 160 000 доларів США менше 50 000 доларів США.
Джонатан: Я все ще дуже обережний щодо цифри в 100 000 доларів. Його ще немає, але ми рухаємося в цьому напрямку, і це є великим викликом для Абхі.
Swyx: Є три варіанти моделі MPT-7B, один із яких досягає SOTA з точки зору довжини контексту. Який процес навчання для цих моделей?
Абхінав: Наша базова модель — це відтворення LLaMA-7B із 7 мільярдами параметрів і навчальними даними в 1 трильйон токенів, що забезпечує ефективну початкову точку навчання для моделі тонкого налаштування без надмірного втручання. Тонка настройка моделі також дуже цікава, наприклад, MPT-7B-StoryWriter-65k+ можна використовувати для написання історії, довжина контекстного вікна становить 65 000, і вона також може продовжувати писати на основі відомого вмісту.
Звичайно, це лише один із напрямків, про який ми думаємо.Ви можете використовувати базову модель MPT-7B для створення користувальницьких моделей відповідно до різних потреб, таких як моделі довгого контекстного коду або моделі певної мови. Тож на основі базової моделі було створено три варіанти: MPT-7B-Instruct, MPT-7B-Chat і MPT-7B-StoryWriter-65k+, які використовуються для виконання коротких інструкцій, діалогу в чаті та написання історій відповідно.
Алессіо: Як ви вирішуєте, скільки токенів і параметрів використовувати під час навчання моделі? 7 мільярдів і 3 мільярди параметрів моделі здаються двома магічними цифрами, які зараз в моді.
Abhinav: для навчальних моделей закон масштабування може підказати вам, як найефективніше використовувати навчальні обчислювальні ресурси. Наприклад, якщо бюджет становить 200 000 доларів США, то за законом масштабу можна дати найбільш ефективну програму навчання.
Серед них ми найчастіше дотримуємося закону Шиншили. Для моделі MPT-7B та її пов’язаних варіантів ці закони не дотримуються суворо, тому що ми хочемо переконатися, що модель підходить для особистого використання та має хорошу ефективність логічного висновку, тому вона перенапрацьована, перевищуючи Chinchilla Point (посилаючись на дані рівень, виміряний у жетонах). Деякі люди в Інтернеті жартома називають ці моделі Llongboi, тому що час їх навчання досить тривалий. Для прикладу моделі 7B Chinchilla Point може складати 140 мільярдів токенів, але насправді ми навчили 1 трильйон токенів, тому час навчання становить майже 7 разів довше, ніж зазвичай.
**Swyx: Llongboi має на увазі метод навчання? **
Джонатан: Llongboi — це лише жарт інсайдера, який стосується методу навчання, який використовує більше жетонів, ніж вимагає закон Шиншили. Можна побачити, що Llongboi має два "L" на початку, які використовуються, щоб віддати належне LLaMA. Наш генеральний директор одного разу оприлюднив це ім’я в Twitter, назвавши модель «Llongboi». Іноді мені дуже хочеться взяти його пароль у Твіттері, щоб він не просочив раніше, але тепер увесь світ знає це ім’я.
Про архітектуру, ALiBi, контекст
**Алессіо:**Flash Attention і Faster Transformer є двома ключовими елементами створення вашої моделі. Які їхні переваги?
**Abhinav:**Flash Attention — це швидша реалізація Full Attention, розроблена Стенфордською лабораторією Hazy Research. Ми інтегрували Flash Attention у нашу бібліотеку у вересні минулого року, і він відіграв велику роль у навчанні та швидкості висновків. Порівняно з іншими моделями Hugging Face, ця модель дуже особлива.Вона може перемикатися між загальним Torch Attention і Flash Attention, спеціально розробленим для графічного процесора, завдяки чому швидкість навчання моделі збільшується приблизно в 2 рази, а швидкість висновку — на 50. % -100%.
**Swyx: Що спонукало вас обрати позиційне кодування ALiBi? **
Abhinav: Ми цікавим чином об’єднали позиційне кодування ALiBi, Flash Attention і тренувальну стабільність. ALiBi здатний позбутися необхідності позиційного вбудовування в модель. Раніше, якщо токен мав позицію 1, вам потрібно було додати конкретне вбудовування позиції, і не можна було перевищувати максимальну позицію (зазвичай 2000). Але з ALiBi ця проблема вирішується. Нам просто потрібно додати зміщення (зміщення) до Карти уваги, яке схоже на нахил, і якщо для висновку потрібен більший діапазон позицій, це розширить цей нахил до більшої кількості позицій. Цей підхід працює, оскільки нахил безперервний і його можна інтерпретувати.
Цікаво, що за допомогою Flash Attention модель зберігає багато пам’яті та покращує продуктивність, тому минулого року ми почали виконувати тести продуктивності на моделях із дуже довгими контекстами (до 65 Кб), і в той же час це дуже важко виконати. стабільна підготовка. Пізніше ми спробували інтегрувати ALiBi в модель, і стабільність моделі була значно покращена. Тепер ми можемо стабільно навчати моделі написання історій на дуже довгих контекстах і гарантувати ефективне їх використання.
Джонатан: Довжина контексту технічно необмежена. Поки достатньо пам’яті, діалог може тривати нескінченно довго. Ми вважаємо, що найдовше число, яке може обробляти модель, становить 84 КБ, що є найбільшою довжиною контексту, з якою люди можуть зручно працювати на практиці. Але ми також спробували на практиці довжину контексту, що перевищує 84 КБ, і ми можемо працювати з більшою довжиною.
**Swyx:**Наприклад, ми можемо ввести роман «Великий Гетсбі» в модель, а потім дозволити моделі продовжувати писати роман відповідно до введеного тексту, і нарешті модель виведе досить захоплюючий вміст.
Джонатан: У Mosaic є багато справді хороших версій кінця історії. Одна з версій описує похорон Гетсбі, Нік починає розмовляти з привидом Гетсбі, батько Гетсбі також з’являється, а потім вони з Томом з’являються в поліцейській дільниці. Ця версія робить великий акцент на сюжеті, описуючи те, що відбувається далі. Крім того, багато версій мають кінцівки в стилі Фіцджеральда, і вони чудово написані. Тож цікаво бачити, що модель справді обробляє вхідні дані та створює значущі результати. З такою довжиною контексту ми можемо зробити багато.
Алессіо: пам’ять починає ставати одним із обмежень моделі, тож як вибрати розмір параметра та довжину контексту?
Джонатан: Останнім часом дослідження довгих контекстів привернули велику увагу, і з’явилася серія відповідних робіт. Однак ці роботи не зовсім точні, і певною мірою, особливо щодо механізмів уваги, вони порівнюють неквадратичні механізми уваги (такі як приблизну, ієрархічну увагу) з явною та правильною квадратичною увагою. . Я налаштований на методи апроксимації, тому не можу дочекатися, щоб покопатися в цих документах.
Написання та читання робіт навчило мене важливого уроку про те, що не можна довіряти жодним даним, доки ви не зробите це самі. У Mosaic багато разів ми були розчаровані впровадженням, тому що документи, які спочатку виглядали багатообіцяючими, лише після впровадження зрозуміли, що документи маніпулювали даними. Таким чином, я завжди скептично ставлюся до даних і не довіряю жодним результатам, доки вони не будуть повторно впроваджені та перевірені. Загалом практика окупилася, і багато разів теорії не працювали на практиці так добре, як очікувалося.
Особливості MPT-7B
**Swyx: Які особливості MPT-7B? **
Абхінав: Я б розділив це на дві частини, перша – це стабільність навчання. Це питання можна розділити на три частини. По-перше, моделі потрібно уникати стрибків втрат під час навчання, що є нашою першою лінією захисту. На мою думку, стрибки втрат не є великою проблемою при розмірі навчання в 7 мільярдів параметрів. Однак уникнути стрибків втрат стає важко, оскільки час навчання збільшується. Ми витратили довгий час, щоб з’ясувати, як налаштувати методи ініціалізації, оптимізатори, архітектури тощо, щоб запобігти стрибкам втрат. Навіть під час нашого тренування, якщо ми уважно подивимось, ми все ще можемо знайти деякі невеликі періодичні піки, але ці піки повернуться до норми протягом кількох сотень кроків, що є дуже магічним явищем, яке може природним чином допомогти нам відновити втрату піку.
Рішучість і розумні стратегії відновлення є нашою другою лінією захисту. У разі катастрофічної помилки ми зможемо швидко відновити навчання, застосовуючи певне втручання в кілька партій до збою. Для можливих проблем ми зробили різні приготування. Але при навчанні MPT-7B ми взагалі не використовували ці резервні засоби, що, можна сказати, своєрідне щастя.
Правильна тренувальна інфраструктура – це третя лінія захисту. Якщо ми спробуємо навчити модель на сотнях графічних процесорів, часто виникають апаратні збої. Наприклад, при навчанні моделі у великому кластері з 512 GPU майже кожні два дні навчання виникатиме збій, причиною якого може бути збій мережі.
Як правило, люди створюють цілодобові групи, які працюють за викликом, щоб усунути ці збої. Коли виникає збій, команда намагається перевірити кластер, видалити зламані вузли, перезапустити тощо, що є дуже виснажливим завданням. Раніше ми витрачали місяці на перевірку помилок вручну, але тепер ми створили платформу для автоматизації кожного вузла в процесі навчання моделі.
Коли виникає проблема під час запуску моделі, наша автоматизована система моніторингу зупиняє роботу, перевіряє та перевіряє пошкоджені вузли та перезапускає. Завдяки детермінованим і швидким можливостям відновлення нашого програмного забезпечення модель продовжує працювати нормально. Як наслідок, іноді ми можемо побачити в журналах моделі, що після збою моделі о 2:00 вона відновлюється та працює протягом кількох хвилин без ручного втручання члена команди.
Джонатан: Зробити це справді нелегко. Якщо кілька місяців тому в моделі стався апаратний збій, членам команди довелося б вставати о другій годині ночі, щоб з’ясувати причину збій вузла та перезапустіть завдання. Раніше, навіть при масштабі навчання в 7 мільярдів параметрів, ми часто стикалися з катастрофічними стрибками втрат, і ці проблеми серйозно вплинули на навчання моделі.
Зараз ми вирішили ці проблеми шляхом поступових удосконалень. Як сказав Абхінав, тепер ми можемо сидіти в офісі, навчаючи кількох моделей, не турбуючись про те, що модель вийде з ладу та перерватиме навчання.
Відбір і повторення даних, а також проблеми оцінювання LLM
**Swyx: Ви зосереджені на виборі даних, можете розширити це? **
Джонатан: Абхі мало не вбив мене, коли я спробував використати весь графічний процесор для обробки даних замість того, щоб фактично навчати модель. Ми знаємо, що навчання моделі вимагає багато даних, але є також багато невизначеностей.
Один полягає в тому, які типи різних джерел даних є важливими, а інший — у важливості дублювання. Серед них питання про дублювання можна далі розбити на компроміси якості та кількості. Припустімо, у мене є найкращі 10 мільярдів лексичних даних у світі, чи краще перевчити їх сто разів, чи краще використовувати 1 трильйон низькоякісних, актуальних лексичних даних? Звісно, компроміс може бути, але як визначити якісні дані – теж проблема, однозначної відповіді поки немає. Якби я зараз повернувся до академії, я б точно написав про це статтю, тому що я ще нічого про це не знаю.
Swyx: Я ще не бачив жодних дослідницьких статей з цього приводу.
Джонатан: Головне питання дослідження дисертації полягає в тому, «яку комбінацію набору даних слід використовувати».
У процесі створення моделі я повернувся до Джорджтаунської юридичної школи, де викладав, і сів із групою студентів-юристів, щоб обговорити це. Я даю їм високоякісний набір даних, як змішувати дані та кількість токенів, які вони мають, і дозволяю їм створити найкращий набір даних для своєї моделі.
Вони нічого не знають про LLM, крім того, що вхідні дані впливають на поведінку. Я кажу їм створити гібрид, який охоплює всі різні компроміси. Спочатку може знадобитися великий обсяг англійського корпусу, який можна отримати через Інтернет; якщо ви хочете зробити його багатомовною моделлю, то англійський корпус буде дуже скорочений; крім того, чи включати код у це.
Деякі люди вважають, що код може покращити ефективність моделі в логічних міркуваннях, але я ніколи не бачив доказів на підтримку цієї ідеї. Незважаючи на те, що ми справді розробили чудову модель коду, потребує подальших досліджень, чи може модель коду сприяти покращенню мисленнєвого ланцюжка.
Кажуть, що версія GPT-3 навчається з роману «Код да Вінчі», тому деякі люди вважають, що це може бути корисним, але доказів немає; ) допоможе навчанню моделі, але є також відсутність доказів.
Тому ми експериментували з багатьма різними сумішами даних і виявили, що деякі суміші даних працюють краще або гірше, ніж інші. Наприклад, "The Pile" є дуже стабільною сумішшю даних, але, згідно з показниками оцінки, є інші кращі суміші даних. Далі я також торкнуся питання оцінювання, яке є дуже важливим.
Модель T5 спочатку була навчена на наборі даних C4, який показав винятково добре. Інші, у тому числі Стелла Бітерман з EleutherAI, згадували про це, коли я писав про це у Twitter. У оригінальній статті про модель T5 метод попередньої обробки для набору даних C4 виглядає дивно, і автори видалили з набору даних усе, що містить слово «Java», оскільки вони не хотіли попереджень, пов’язаних з Java. Крім того, вони видалили включення фігурних дужок, оскільки вони не хотіли отримати включення Java.
Вони переглянули список поганих слів і видалили контент, який містив погані слова. Однак список поганих слів насправді включає деякі слова, які насправді не є поганими, як-от «гей». Але через цей процес очищення отриманий набір даних здається неперевершеним. З цього моменту ми нічого не знаємо про дані.
Насправді ми також використовували набір даних під назвою MC4, MC4 і C4 мали однакову попередню обробку, але додали більше веб-дзвінків (веб-дзвінків), але порівняно з C4 англійська частина MC4 гірша Багато, з невідомих причин.
Для цього я поставив два критерії:
Перш за все, англійська частина має бути принаймні такою ж хорошою, як MC4. Порівняно з іншими доступними наборами даних, англійська частина MC4 краща. По-друге, зробіть все можливе для різноманітності даних і переконайтеся, що набір даних містить такі речі, як код, наукові статті та Вікіпедія, оскільки люди використовуватимуть модель для багатьох різних завдань.
Але я вважаю, що найголовніше, що модель хороша настільки, наскільки хороша метрика оцінки. Абхі може не погодитися з цим. Ми не знаємо, як точно оцінити генеративні моделі, коли їх просять виконувати конкретні завдання. У деяких випадках ми повинні визнати, що наші власні оцінки навіть не вимірюють те, що нас справді хвилює, тому ми можемо робити лише розумний вибір.
Swyx: Ви вважаєте, що такі методи оцінювання, як MMLU (Massive Multitask Language Understanding) і BIG-bench, недостатньо переконливі?
Джонатан: Ці методи, безсумнівно, виконують два типи завдань. Перше – це завдання з кількома варіантами відповіді, яке містить одну правильну відповідь, що дозволяє моделі генерувати такі варіанти, як A, B, C або D, а потім вибирає відповідь, яку модель, найімовірніше, згенерує, обчислюючи складність кожна можлива відповідь. Але замість того, щоб попросити модель відповісти на запитання з кількома варіантами відповіді, ми виконуємо другий вид відкритого генеративного завдання, наприклад підсумовування. Порівняння за допомогою таких метрик, як BLEU і ROUGE, недостатньо точне, існує багато чудових рефератів і відкритих методів генерації. Навпаки, ручне оцінювання є більш надійним стандартом оцінки, але ручне оцінювання вимагає багато часу та праці, і його неможливо порівняти з моделлю в реальному часі, що може стати можливим у майбутньому.
Абхінав: У нас чудова команда оцінювачів, яка допомагає нам створювати нові показники.
Джонатан: Але LLM важко оцінити, і я не думаю, що жоден із цих показників справді відображає те, чого ми очікуємо від моделі на практиці.
Зниження витрат і підвищення ефективності модельного навчання
Swyx: Зараз людям потрібно від трьох до десяти днів, щоб навчити модель, як довго ви хочете скоротити цей час?
Абхінав: Цей рік, мабуть, один із найцікавіших років з точки зору підвищення ефективності тренувань за необробленими моделями. Цього року як апаратне, так і програмне забезпечення було відповідно оновлено.По-перше, це апаратне забезпечення нового покоління Nvidia H100s, яке одне може підвищити продуктивність принаймні вдвічі. По-друге, існує новий формат чисел з плаваючою комою FP8, який може досягти такого ж підвищення продуктивності, якщо використовувати окремо.
З FP8 цього року ми можемо подвоїти пропускну здатність, а це означає, що ми можемо потроїти витрати. У той же час ми почали профілювати навчання LLM за допомогою FP8 на H100, і прогрес був швидким. Таким чином, просто покращивши апаратне забезпечення, ми можемо значно знизити вартість.
Крім того, існує багато досліджень про застосування в архітектурі. Ми досліджуємо способи введення певної розрідженості, але не зовсім випадкової розрідженості. Чи існує механізм воріт або архітектурний спосіб у стилі MoE для досягнення цього?
Джонатан: Ця ідея не є повітряним замком. Хоча цей етап ще не досягнуто, ця мета, ймовірно, буде досягнута до 2023 року.
Статистичних даних про витрати на навчання та висновки мало. Девід Паттерсон з Google опублікував допис у блозі, в якому обговорював використання енергії Google для машинного навчання. Після детального аналізу за останні три роки Google витратив три п’ятих своїх ресурсів на висновки та дві п’ятих на навчання. Вище наведено дані Google, вони надають моделі для мільярдів користувачів.
Google, мабуть, є місцем із найбільшим навантаженням на висновки у світі. І це лише розподіл ресурсів для навчання, причому три п’ятих припадає на висновки, а дві п’ятих – на навчання. Апаратне забезпечення може бути дорожчим, а мережева структура апаратного забезпечення може бути складнішою, тому навчання та міркування можуть бути розділені навпіл. Вище наведено коефіцієнт розподілу Google, але для інших компаній навчання може мати вищу вагу.
Важливість відкритості для досліджень ШІ
Алессіо: Вартість попереднього навчання була дуже дорогою, через що ми не змогли провести достатньо експериментів, тому було багато проблем із вибором наборів даних тощо.
Джонатан: У вищій школі я заздрив своїм друзям, тому що в них були графічні процесори, а в мене їх не було на моєму ноутбуці, тому я не міг навчати моделей. Я мріяв виграти в лотерею, щоб мати графічний процесор K80.
У глибині душі я все ще жадібний студент науки. Я твердо переконаний, що якщо ми хочемо проводити наукові дослідження і справді розуміти ці системи, як змусити їх добре працювати, розуміти елементи їхньої поведінки, безпеки та надійності, ми маємо зменшити вартість навчання, щоб ми могли справді займатися наукою дослідження. Візьмемо, наприклад, біологічні експерименти, де нам потрібно провести кілька культур клітин і експерименти, щоб переконатися, що ліки діють, необхідно багато наукових досліджень, перш ніж ми щось дійсно зрозуміємо.
**Абхінав: **MosaicML має багато клієнтів, які намагаються навчати моделей, тому компанія має стимул приділяти багато ресурсів і часу науковим дослідженням. Лише справді розуміючи, як потрібно навчати моделей, ми можемо допомогти більшій кількості людей. Тому для нас цей процес агрегації дуже важливий.
Я пам’ятаю, що до цього була стаття від Google про досліджуваний розмір партії чи щось таке. Цей документ, ймовірно, коштував мільйони доларів, і він має величезну користь для суспільства в цілому. Тепер ми всі можемо вчитися на цьому та заощаджувати гроші, не розбиваючи гроші. Тому для Mosaic шляхом експериментальних досліджень ми отримали глибоке розуміння даних, архітектури попереднього навчання тощо, тому клієнти обирають нас.
Джонатан: Відкритість дуже важлива для спільноти ШІ. У певному сенсі у нас немає причин закриватися. Ми отримуємо прибуток, допомагаючи клієнтам тренувати моделі. Ми не втрачаємо можливості ділитися результатами зі спільнотою. Зрештою, ми маємо отримувати дохід за допомогою індивідуальних моделей і відмінної інфраструктури. І об’єднавши ці аспекти, ми назвали нашу компанію MosaicML.
Ми завжди були відкритими і не будемо приховувати досягнуті результати. Але тепер я бачу, що ми стали однією з найбільших лабораторій із відкритим кодом у галузі, що є сумним фактом, оскільки MosaicML не така вже й велика з точки зору галузі в цілому, у нас лише близько 15 дослідників, багато інших Лабораторії закрилися і більше не публікують багато контенту публічно. Однак MosaicML продовжуватиме спілкуватися та ділитися з спільнотою, а також намагатиметься стати піонером відкритих досліджень. Хоча масштаб і обсяг наших досліджень не можуть зрівнятися з масштабами великої лабораторії, ми продовжуватимемо ділитися тим, що дізналися, намагаючись створити ресурси для спільноти.
Коли я обговорюю екосистему штучного інтелекту з політиками, завжди виникає спільне занепокоєння: відсутність відкритості заважатиме темпам інновацій. Я роками наголошував на цьому питанні, але нарешті це стала реальністю. Я прихильник відкритого коду, але не думаю, що кожен поділиться своєю роботою. Колись ми сприймали відкритий код як належне, але зараз це не так.
Я думаю, що це сповільнить наш розвиток. У багатьох випадках у кожній лабораторії існує монолітна культура, а спілкування є важливою рушійною силою наукового прогресу. Таким чином, відкритий вихідний код є не тільки незамінним у співтоваристві відкритого коду та академічних колах, але також має вирішальне значення для розвитку технологій. Нам потрібна активна дослідницька спільнота з відкритим кодом.
Майбутні тенденції
Swyx: Ви згадали, що багато речей не служать довго і їх легко замінити, але Transformer тут залишиться.
Абхінав: Я думаю, що ваша ставка багато в чому залежить від того, що визначається як увага. Якщо таку операцію, як множення матриці QK, замінити подібним методом, як це вплине на результат?
Джонатан: Зрештою, це просто повністю зв’язана мережа прямого зв’язку, трансформатор із простим механізмом уваги. Отже, все може змінитися, але ми продовжуємо використовувати Transformer, як це задумав Ашиш Васвані (автор Transformer) шість років тому, і, можливо, продовжуватимемо це робити в майбутньому.
Абхінав: Я думаю, що це стане схожим на MLP (багатошаровий персептрон), який є єдиним варіантом, який ми маємо на даний момент, тому що зараз архітектуру дуже спрощено, залишивши лише деякі лінійні шари, залишкові зв’язки, увагу , операція множення крапкою.
Джонатан: Ви припускаєте, що архітектура стане простішою, але реальність може виявитися навпаки, і архітектура може стати складнішою.
Swyx: Що ви думаєте про нещодавні дебати про «виниклі явища»?
Абхінав: Я бачив подібні статті, і це, ймовірно, лише побічні продукти таких методів оцінювання, як масштабування журналу, оцінювальні метрики, і те, що ми зараз робимо, це точність сітки, яка є суворо бінарними судженнями, тобто. класифікація результатів як істинних або хибних, без урахування більш дрібних послідовних відмінностей.
Але, подібно до точки зору Джонатана щодо оцінювання, у нас також є проблема з різноманітністю показників оцінювання: коли ми випускаємо ці моделі, навіть модель чату, модель команд, люди часто використовують її для різноманітних завдань. Навряд чи ми можемо заздалегідь точно виміряти та оцінити кожен вимір, і навіть у масштабі 7 мільярдів ці моделі все ще погано виконують деякі дуже складні завдання MMLU. Іноді вони набирають трохи більше випадкових результатів, особливо коли мають справу з дуже складними завданнями.
Таким чином, деякі з цих проблем можуть бути більш корисними для нас, оскільки ми шукаємо моделі вищої якості. Однак ми розробляли MPT-7B трохи наосліп, тому що не до кінця розуміли, як ця модель буде поводитися в кінцевому підсумку. Його можна розробити лише для невеликого набору звичайних завдань сприйняття, і продуктивність оцінюється шляхом порівняння цих показників з іншими моделями з відкритим кодом.
Алессіо: Я вважаю, що швидкі висновки та навчання є однією з цілей, тому існує компроміс між вирішенням найскладніших завдань і швидкістю в інших завданнях.
Абхінав: Так. Навіть при масштабі 7 мільярдів даних люди спробують запустити його на ЦП вдома або спробують перенести на свій мобільний телефон, головним чином тому, що невеликі програми спонукатимуть людей використовувати цю технологію, і це важлива тенденція в момент.
Алессіо: Які речі в ШІ рухаються набагато швидше, ніж очікувалося?
Джонатан: Я пам’ятаю, коли GPT-2 був випущений, я був не дуже схвильований, але на той момент він уже мав 1,5 мільярда параметрів. У міру збільшення розмірів моделей їх продуктивність не може продовжувати покращуватися. Потім вийшов GPT-3, і я просто подумав, що він трохи кращий у створенні тексту, але я знову і знову помилявся. Масштабування моделі може дати дуже корисні моделі шляхом прогнозування наступного токена.
Чесно кажучи, ми майже всі помиляємося в цьому, тому ми також не можемо звинувачувати себе. Інакше Google, Facebook і Microsoft Research випустили б мегамоделі вбивчих мов задовго до того, як я мав би можливість діяти. Я зробив дуже дивну парі, яка виявилася правильною: дифузійні моделі, хоч і дещо тупі, створювали приголомшливо красиві зображення.
Абхінав: Що стосується масштабних чат-ботів, я думаю, що мине багато часу, перш ніж сотні мільйонів людей почнуть масово спілкуватися з моделями ШІ. З такою кількістю стартапів і компаній, які зараз використовують не лише ChatGPT, але й інші проекти, як-от створення персонажів, дивовижно, скільки людей насправді встановлюють емоційні зв’язки за допомогою цих моделей ШІ. Не думаю, що я б передбачив таке у вересні чи жовтні минулого року. Точка перелому, яка сталася за останні шість місяців, була справді несподіваною.
Swyx: Як ви думаєте, для чого їх використовуватимуть, наприклад, для емоційної підтримки?
Абхінав: Деякі з них для емоційної підтримки або просто як друзі. Проблеми самотності та психічного здоров’я – актуальна тема. Якщо ви перейдете до субредітів цих спільнот, люди говорять і думають про своїх друзів зі штучним інтелектом і цих персонажів, це ніби щось із наукової фантастики, і я ніколи не очікував, що це станеться.
Swyx: Яка найцікавіша невирішена проблема в ШІ?
Абхінав: Мене цікавить, як далеко ми можемо зайти з точки зору точності та щось на зразок BF16/FP16.
Цікаво, чи ці проблеми стають більш вирішальними зі збільшенням розміру моделі. Пов’язані статті показують, що квантування та скорочення можуть стати легшими зі збільшенням масштабу. Таким чином, як природний наслідок розширення протягом наступних кількох років, ми можемо перейти до використання чотирьох-, дво-бітних або навіть двійкових ваг.
Джонатан: Я хотів по-іншому побачити, наскільки маленькою модель ми можемо створити та наскільки ефективно ми можемо розробити модель з еквівалентною продуктивністю. Це було питання, над яким я працював під час своєї докторської дисертації, а також у певному сенсі в Mosaic. OpenAI показав нам один шлях до цієї неймовірної можливості, а саме масштабування. Але я сподіваюся, що це не єдиний шлях. Я сподіваюся, що є багато інших способів досягти цього також за допомогою кращих методів моделювання, кращих алгоритмів тощо.
Хоча я не прихильник нейронаукових тропів, у певному сенсі наше існування та наш мозок доводять, що є принаймні інший спосіб досягти цієї неймовірної здатності без трильйонів параметрів або навіть астрономічних. Тож мені справді цікаво, якої маленької моделі ми можемо досягти? Чи є інший шлях до цих можливостей, який не повинен слідувати поточному шляху? Сподіваюся знайти відповідь у Mosaic, якщо вона існує.
Swyx: Так, одна з речей, яка мене найбільше цікавить, це той факт, що людський мозок споживає лише 30 Вт енергії, а модель на порядки від цього.
Абхінав: Я не думаю, що можна досягти цього лише за допомогою одного графічного процесора чи інших інструментів.
Алессіо: Зараз є багато інформації, наприклад, як люди мають думати про штучний інтелект? На чому вони мають зосередитися?
Але ми ще не створили загального інтелекту, і особисто ми далеко не наближаємося до цієї мети. Тому важливо бути мирним і дотримуватися науки, і саме цього прагне Mosaic AI. Ми намагаємося зосередитися на речах, які є корисними для людей, сподіваючись створити кращий світ. Ми зробимо все, що в наших силах, але найголовніше, ми будемо слідувати науці, керуватися даними та досягати цієї мети через реальні результати, а не риторику.
Абхінав: Я думаю, що немає нічого схожого на проведення досліджень у відкритій спільноті. У спільноті не тільки велика кількість людей звертає увагу на вашу модель, але навіть висловлює свою думку про проблеми моделі та способи її вдосконалення. Такого роду відкриті дослідження стануть шляхом уперед, як для збереження наших моделей, так і для вивчення реального впливу та наслідків цих моделей ШІ.
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Нескінченний контекст для великих моделей і мистецтво створення набору даних
Джерело | Прихований простір
Компіляція OneFlow
Переклад|Jia Chuan, Yang Ting, Wan Zilin
Раніше довжина контексту була одним із найбільших обмежень GPT-3. GPT-3 може приймати лише до 4000 токенів (3000 слів, 6 сторінок), інакше буде повідомлено про помилку. Тому, щоб мати справу з довгими документами та підказками (), необхідно запровадити інші методи пошуку, такі як LangChain. Однак MosaicML (який був придбаний Databricks приблизно за 1,3 мільярда доларів) на початку травня відкрив контекст MPT-7B довжиною 84 000 токенів (63 000 слів, 126 сторінок), що значно розширило діапазон тексту, який можна обробити. , Модель Claude, розроблена Anthronpic, має довжину контексту, розширену до 100 000 токенів.
MosaicML також випустив три моделі MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ на основі базового MPT-7B для тонкого налаштування.
Модель налаштована на dolly_hhrlhf. Набір даних dolly_hhrlhf створено на основі набору даних "dolly-5k".
Модель налаштована на наборах даних ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless і Evol-Instruct.
Набір даних для точного налаштування для цієї моделі — це відфільтрована підмножина романів у книгах3 із довжиною контексту 65 Кб. Хоча рекламований розмір становив 65 тисяч токенів, команда змогла отримати відповідь у 84 тисячі токенів під час роботи на графічному процесорі A100-80GB одного вузла. Ключовою технологією, що стоїть за цим, є ALiBi. Спочатку «Великий Гетсбі» мав лише близько 68 тисяч токенів, тому команда використала модель MPT-7B-StoryWriter-65k+, щоб створити нову кінцівку для роману.
Головний науковий співробітник MosaicML Джонатан Франкл і науковий співробітник Абхінав Венігалла очолюють MPT-7B, керуючи всім навчальним процесом MPT-7B. В останньому подкасті Latent Space головний партнер Swyx і Decibel Partners Алессіо обговорив з ними інновації процесу навчання MPT-7B і пояснив, чому поєднання наборів даних LLM є важливим і загадковим мистецтвом. Крім того, деякі традиційні тести з множинним вибором можуть бути не дуже корисними для технології, що створюється, і вони також досліджуватимуть причини цього.
(Цей вміст зібрано та опубліковано OneFlow після авторизації, джерело: https://
Конструкція моделі МПТ-7Б
**Swyx: Чому ви розробили MPT-7B? **
Абхінав: Проект MPT-7B тривав близько 6-12 місяців. Ми почали працювати над мовними моделями минулого літа та опублікували допис у блозі, у якому аналізували мовні моделі та виявили, що вартість навчання насправді може бути набагато нижчою, ніж люди думають. Крім того, з тих пір, натхненні моделлю LLaMA, випущеною Meta AI, і багатьма іншими роботами з відкритим кодом, ми вирішили створити дійсно хорошу модель із 7 мільярдами параметрів, яка є джерелом MPT.
Алессіо: Ви сказали в одному з подкастів: Mosaic не планує створювати та випускати моделі. Але зрештою ви все одно випустили модель, що змусило вас змінити думку?
Джонатан: Я думаю, що є кілька факторів: нам все ще бракує першокласної моделі. На відміну від OpenAI, де наш бізнес зосереджений на створенні клієнтами власних моделей, ми передусім надаємо їм інструменти, і щоб ці інструменти були ефективними, ми повинні спочатку створити власні моделі.
Має бути зрозуміло, що якщо наші клієнти можуть робити великі речі, ми також можемо робити великі речі. У мене багато людей у Твіттері сумнівалися в правдивості чисел, які показала Mosaic, як-от Росс Вайтмен, який сказав: «Давайте подивимося фактичні результати», на що я відповів: «Россе, що ти думаєш, як це спрацювало ?" Ми розробили модель за 9,5 днів і вартістю 200 000 доларів, тож ви теж можете це зробити.
**Swyx: **З огляду на дані, які ви оприлюднили минулого року, спочатку було оцінено, що вартість навчання GPT-3 становила менше 450 000 доларів США, а потім вона була зменшена до 100 000 доларів США; вартість Stable Diffusion також була зменшена зі 160 000 доларів США менше 50 000 доларів США.
Джонатан: Я все ще дуже обережний щодо цифри в 100 000 доларів. Його ще немає, але ми рухаємося в цьому напрямку, і це є великим викликом для Абхі.
Swyx: Є три варіанти моделі MPT-7B, один із яких досягає SOTA з точки зору довжини контексту. Який процес навчання для цих моделей?
Абхінав: Наша базова модель — це відтворення LLaMA-7B із 7 мільярдами параметрів і навчальними даними в 1 трильйон токенів, що забезпечує ефективну початкову точку навчання для моделі тонкого налаштування без надмірного втручання. Тонка настройка моделі також дуже цікава, наприклад, MPT-7B-StoryWriter-65k+ можна використовувати для написання історії, довжина контекстного вікна становить 65 000, і вона також може продовжувати писати на основі відомого вмісту.
Звичайно, це лише один із напрямків, про який ми думаємо.Ви можете використовувати базову модель MPT-7B для створення користувальницьких моделей відповідно до різних потреб, таких як моделі довгого контекстного коду або моделі певної мови. Тож на основі базової моделі було створено три варіанти: MPT-7B-Instruct, MPT-7B-Chat і MPT-7B-StoryWriter-65k+, які використовуються для виконання коротких інструкцій, діалогу в чаті та написання історій відповідно.
Алессіо: Як ви вирішуєте, скільки токенів і параметрів використовувати під час навчання моделі? 7 мільярдів і 3 мільярди параметрів моделі здаються двома магічними цифрами, які зараз в моді.
Abhinav: для навчальних моделей закон масштабування може підказати вам, як найефективніше використовувати навчальні обчислювальні ресурси. Наприклад, якщо бюджет становить 200 000 доларів США, то за законом масштабу можна дати найбільш ефективну програму навчання.
Серед них ми найчастіше дотримуємося закону Шиншили. Для моделі MPT-7B та її пов’язаних варіантів ці закони не дотримуються суворо, тому що ми хочемо переконатися, що модель підходить для особистого використання та має хорошу ефективність логічного висновку, тому вона перенапрацьована, перевищуючи Chinchilla Point (посилаючись на дані рівень, виміряний у жетонах). Деякі люди в Інтернеті жартома називають ці моделі Llongboi, тому що час їх навчання досить тривалий. Для прикладу моделі 7B Chinchilla Point може складати 140 мільярдів токенів, але насправді ми навчили 1 трильйон токенів, тому час навчання становить майже 7 разів довше, ніж зазвичай.
**Swyx: Llongboi має на увазі метод навчання? **
Джонатан: Llongboi — це лише жарт інсайдера, який стосується методу навчання, який використовує більше жетонів, ніж вимагає закон Шиншили. Можна побачити, що Llongboi має два "L" на початку, які використовуються, щоб віддати належне LLaMA. Наш генеральний директор одного разу оприлюднив це ім’я в Twitter, назвавши модель «Llongboi». Іноді мені дуже хочеться взяти його пароль у Твіттері, щоб він не просочив раніше, але тепер увесь світ знає це ім’я.
Про архітектуру, ALiBi, контекст
**Алессіо:**Flash Attention і Faster Transformer є двома ключовими елементами створення вашої моделі. Які їхні переваги?
**Abhinav:**Flash Attention — це швидша реалізація Full Attention, розроблена Стенфордською лабораторією Hazy Research. Ми інтегрували Flash Attention у нашу бібліотеку у вересні минулого року, і він відіграв велику роль у навчанні та швидкості висновків. Порівняно з іншими моделями Hugging Face, ця модель дуже особлива.Вона може перемикатися між загальним Torch Attention і Flash Attention, спеціально розробленим для графічного процесора, завдяки чому швидкість навчання моделі збільшується приблизно в 2 рази, а швидкість висновку — на 50. % -100%.
**Swyx: Що спонукало вас обрати позиційне кодування ALiBi? **
Abhinav: Ми цікавим чином об’єднали позиційне кодування ALiBi, Flash Attention і тренувальну стабільність. ALiBi здатний позбутися необхідності позиційного вбудовування в модель. Раніше, якщо токен мав позицію 1, вам потрібно було додати конкретне вбудовування позиції, і не можна було перевищувати максимальну позицію (зазвичай 2000). Але з ALiBi ця проблема вирішується. Нам просто потрібно додати зміщення (зміщення) до Карти уваги, яке схоже на нахил, і якщо для висновку потрібен більший діапазон позицій, це розширить цей нахил до більшої кількості позицій. Цей підхід працює, оскільки нахил безперервний і його можна інтерпретувати.
Цікаво, що за допомогою Flash Attention модель зберігає багато пам’яті та покращує продуктивність, тому минулого року ми почали виконувати тести продуктивності на моделях із дуже довгими контекстами (до 65 Кб), і в той же час це дуже важко виконати. стабільна підготовка. Пізніше ми спробували інтегрувати ALiBi в модель, і стабільність моделі була значно покращена. Тепер ми можемо стабільно навчати моделі написання історій на дуже довгих контекстах і гарантувати ефективне їх використання.
Джонатан: Довжина контексту технічно необмежена. Поки достатньо пам’яті, діалог може тривати нескінченно довго. Ми вважаємо, що найдовше число, яке може обробляти модель, становить 84 КБ, що є найбільшою довжиною контексту, з якою люди можуть зручно працювати на практиці. Але ми також спробували на практиці довжину контексту, що перевищує 84 КБ, і ми можемо працювати з більшою довжиною.
**Swyx:**Наприклад, ми можемо ввести роман «Великий Гетсбі» в модель, а потім дозволити моделі продовжувати писати роман відповідно до введеного тексту, і нарешті модель виведе досить захоплюючий вміст.
Джонатан: У Mosaic є багато справді хороших версій кінця історії. Одна з версій описує похорон Гетсбі, Нік починає розмовляти з привидом Гетсбі, батько Гетсбі також з’являється, а потім вони з Томом з’являються в поліцейській дільниці. Ця версія робить великий акцент на сюжеті, описуючи те, що відбувається далі. Крім того, багато версій мають кінцівки в стилі Фіцджеральда, і вони чудово написані. Тож цікаво бачити, що модель справді обробляє вхідні дані та створює значущі результати. З такою довжиною контексту ми можемо зробити багато.
Алессіо: пам’ять починає ставати одним із обмежень моделі, тож як вибрати розмір параметра та довжину контексту?
Джонатан: Останнім часом дослідження довгих контекстів привернули велику увагу, і з’явилася серія відповідних робіт. Однак ці роботи не зовсім точні, і певною мірою, особливо щодо механізмів уваги, вони порівнюють неквадратичні механізми уваги (такі як приблизну, ієрархічну увагу) з явною та правильною квадратичною увагою. . Я налаштований на методи апроксимації, тому не можу дочекатися, щоб покопатися в цих документах.
Написання та читання робіт навчило мене важливого уроку про те, що не можна довіряти жодним даним, доки ви не зробите це самі. У Mosaic багато разів ми були розчаровані впровадженням, тому що документи, які спочатку виглядали багатообіцяючими, лише після впровадження зрозуміли, що документи маніпулювали даними. Таким чином, я завжди скептично ставлюся до даних і не довіряю жодним результатам, доки вони не будуть повторно впроваджені та перевірені. Загалом практика окупилася, і багато разів теорії не працювали на практиці так добре, як очікувалося.
Особливості MPT-7B
**Swyx: Які особливості MPT-7B? **
Абхінав: Я б розділив це на дві частини, перша – це стабільність навчання. Це питання можна розділити на три частини. По-перше, моделі потрібно уникати стрибків втрат під час навчання, що є нашою першою лінією захисту. На мою думку, стрибки втрат не є великою проблемою при розмірі навчання в 7 мільярдів параметрів. Однак уникнути стрибків втрат стає важко, оскільки час навчання збільшується. Ми витратили довгий час, щоб з’ясувати, як налаштувати методи ініціалізації, оптимізатори, архітектури тощо, щоб запобігти стрибкам втрат. Навіть під час нашого тренування, якщо ми уважно подивимось, ми все ще можемо знайти деякі невеликі періодичні піки, але ці піки повернуться до норми протягом кількох сотень кроків, що є дуже магічним явищем, яке може природним чином допомогти нам відновити втрату піку.
Рішучість і розумні стратегії відновлення є нашою другою лінією захисту. У разі катастрофічної помилки ми зможемо швидко відновити навчання, застосовуючи певне втручання в кілька партій до збою. Для можливих проблем ми зробили різні приготування. Але при навчанні MPT-7B ми взагалі не використовували ці резервні засоби, що, можна сказати, своєрідне щастя.
Правильна тренувальна інфраструктура – це третя лінія захисту. Якщо ми спробуємо навчити модель на сотнях графічних процесорів, часто виникають апаратні збої. Наприклад, при навчанні моделі у великому кластері з 512 GPU майже кожні два дні навчання виникатиме збій, причиною якого може бути збій мережі.
Як правило, люди створюють цілодобові групи, які працюють за викликом, щоб усунути ці збої. Коли виникає збій, команда намагається перевірити кластер, видалити зламані вузли, перезапустити тощо, що є дуже виснажливим завданням. Раніше ми витрачали місяці на перевірку помилок вручну, але тепер ми створили платформу для автоматизації кожного вузла в процесі навчання моделі.
Коли виникає проблема під час запуску моделі, наша автоматизована система моніторингу зупиняє роботу, перевіряє та перевіряє пошкоджені вузли та перезапускає. Завдяки детермінованим і швидким можливостям відновлення нашого програмного забезпечення модель продовжує працювати нормально. Як наслідок, іноді ми можемо побачити в журналах моделі, що після збою моделі о 2:00 вона відновлюється та працює протягом кількох хвилин без ручного втручання члена команди.
Джонатан: Зробити це справді нелегко. Якщо кілька місяців тому в моделі стався апаратний збій, членам команди довелося б вставати о другій годині ночі, щоб з’ясувати причину збій вузла та перезапустіть завдання. Раніше, навіть при масштабі навчання в 7 мільярдів параметрів, ми часто стикалися з катастрофічними стрибками втрат, і ці проблеми серйозно вплинули на навчання моделі.
Зараз ми вирішили ці проблеми шляхом поступових удосконалень. Як сказав Абхінав, тепер ми можемо сидіти в офісі, навчаючи кількох моделей, не турбуючись про те, що модель вийде з ладу та перерватиме навчання.
Відбір і повторення даних, а також проблеми оцінювання LLM
**Swyx: Ви зосереджені на виборі даних, можете розширити це? **
Джонатан: Абхі мало не вбив мене, коли я спробував використати весь графічний процесор для обробки даних замість того, щоб фактично навчати модель. Ми знаємо, що навчання моделі вимагає багато даних, але є також багато невизначеностей.
Один полягає в тому, які типи різних джерел даних є важливими, а інший — у важливості дублювання. Серед них питання про дублювання можна далі розбити на компроміси якості та кількості. Припустімо, у мене є найкращі 10 мільярдів лексичних даних у світі, чи краще перевчити їх сто разів, чи краще використовувати 1 трильйон низькоякісних, актуальних лексичних даних? Звісно, компроміс може бути, але як визначити якісні дані – теж проблема, однозначної відповіді поки немає. Якби я зараз повернувся до академії, я б точно написав про це статтю, тому що я ще нічого про це не знаю.
Swyx: Я ще не бачив жодних дослідницьких статей з цього приводу.
Джонатан: Головне питання дослідження дисертації полягає в тому, «яку комбінацію набору даних слід використовувати».
У процесі створення моделі я повернувся до Джорджтаунської юридичної школи, де викладав, і сів із групою студентів-юристів, щоб обговорити це. Я даю їм високоякісний набір даних, як змішувати дані та кількість токенів, які вони мають, і дозволяю їм створити найкращий набір даних для своєї моделі.
Вони нічого не знають про LLM, крім того, що вхідні дані впливають на поведінку. Я кажу їм створити гібрид, який охоплює всі різні компроміси. Спочатку може знадобитися великий обсяг англійського корпусу, який можна отримати через Інтернет; якщо ви хочете зробити його багатомовною моделлю, то англійський корпус буде дуже скорочений; крім того, чи включати код у це.
Деякі люди вважають, що код може покращити ефективність моделі в логічних міркуваннях, але я ніколи не бачив доказів на підтримку цієї ідеї. Незважаючи на те, що ми справді розробили чудову модель коду, потребує подальших досліджень, чи може модель коду сприяти покращенню мисленнєвого ланцюжка.
Кажуть, що версія GPT-3 навчається з роману «Код да Вінчі», тому деякі люди вважають, що це може бути корисним, але доказів немає; ) допоможе навчанню моделі, але є також відсутність доказів.
Тому ми експериментували з багатьма різними сумішами даних і виявили, що деякі суміші даних працюють краще або гірше, ніж інші. Наприклад, "The Pile" є дуже стабільною сумішшю даних, але, згідно з показниками оцінки, є інші кращі суміші даних. Далі я також торкнуся питання оцінювання, яке є дуже важливим.
Модель T5 спочатку була навчена на наборі даних C4, який показав винятково добре. Інші, у тому числі Стелла Бітерман з EleutherAI, згадували про це, коли я писав про це у Twitter. У оригінальній статті про модель T5 метод попередньої обробки для набору даних C4 виглядає дивно, і автори видалили з набору даних усе, що містить слово «Java», оскільки вони не хотіли попереджень, пов’язаних з Java. Крім того, вони видалили включення фігурних дужок, оскільки вони не хотіли отримати включення Java.
Вони переглянули список поганих слів і видалили контент, який містив погані слова. Однак список поганих слів насправді включає деякі слова, які насправді не є поганими, як-от «гей». Але через цей процес очищення отриманий набір даних здається неперевершеним. З цього моменту ми нічого не знаємо про дані.
Насправді ми також використовували набір даних під назвою MC4, MC4 і C4 мали однакову попередню обробку, але додали більше веб-дзвінків (веб-дзвінків), але порівняно з C4 англійська частина MC4 гірша Багато, з невідомих причин.
Для цього я поставив два критерії:
Перш за все, англійська частина має бути принаймні такою ж хорошою, як MC4. Порівняно з іншими доступними наборами даних, англійська частина MC4 краща. По-друге, зробіть все можливе для різноманітності даних і переконайтеся, що набір даних містить такі речі, як код, наукові статті та Вікіпедія, оскільки люди використовуватимуть модель для багатьох різних завдань.
Але я вважаю, що найголовніше, що модель хороша настільки, наскільки хороша метрика оцінки. Абхі може не погодитися з цим. Ми не знаємо, як точно оцінити генеративні моделі, коли їх просять виконувати конкретні завдання. У деяких випадках ми повинні визнати, що наші власні оцінки навіть не вимірюють те, що нас справді хвилює, тому ми можемо робити лише розумний вибір.
Swyx: Ви вважаєте, що такі методи оцінювання, як MMLU (Massive Multitask Language Understanding) і BIG-bench, недостатньо переконливі?
Джонатан: Ці методи, безсумнівно, виконують два типи завдань. Перше – це завдання з кількома варіантами відповіді, яке містить одну правильну відповідь, що дозволяє моделі генерувати такі варіанти, як A, B, C або D, а потім вибирає відповідь, яку модель, найімовірніше, згенерує, обчислюючи складність кожна можлива відповідь. Але замість того, щоб попросити модель відповісти на запитання з кількома варіантами відповіді, ми виконуємо другий вид відкритого генеративного завдання, наприклад підсумовування. Порівняння за допомогою таких метрик, як BLEU і ROUGE, недостатньо точне, існує багато чудових рефератів і відкритих методів генерації. Навпаки, ручне оцінювання є більш надійним стандартом оцінки, але ручне оцінювання вимагає багато часу та праці, і його неможливо порівняти з моделлю в реальному часі, що може стати можливим у майбутньому.
Абхінав: У нас чудова команда оцінювачів, яка допомагає нам створювати нові показники.
Джонатан: Але LLM важко оцінити, і я не думаю, що жоден із цих показників справді відображає те, чого ми очікуємо від моделі на практиці.
Зниження витрат і підвищення ефективності модельного навчання
Swyx: Зараз людям потрібно від трьох до десяти днів, щоб навчити модель, як довго ви хочете скоротити цей час?
Абхінав: Цей рік, мабуть, один із найцікавіших років з точки зору підвищення ефективності тренувань за необробленими моделями. Цього року як апаратне, так і програмне забезпечення було відповідно оновлено.По-перше, це апаратне забезпечення нового покоління Nvidia H100s, яке одне може підвищити продуктивність принаймні вдвічі. По-друге, існує новий формат чисел з плаваючою комою FP8, який може досягти такого ж підвищення продуктивності, якщо використовувати окремо.
З FP8 цього року ми можемо подвоїти пропускну здатність, а це означає, що ми можемо потроїти витрати. У той же час ми почали профілювати навчання LLM за допомогою FP8 на H100, і прогрес був швидким. Таким чином, просто покращивши апаратне забезпечення, ми можемо значно знизити вартість.
Крім того, існує багато досліджень про застосування в архітектурі. Ми досліджуємо способи введення певної розрідженості, але не зовсім випадкової розрідженості. Чи існує механізм воріт або архітектурний спосіб у стилі MoE для досягнення цього?
Джонатан: Ця ідея не є повітряним замком. Хоча цей етап ще не досягнуто, ця мета, ймовірно, буде досягнута до 2023 року.
Статистичних даних про витрати на навчання та висновки мало. Девід Паттерсон з Google опублікував допис у блозі, в якому обговорював використання енергії Google для машинного навчання. Після детального аналізу за останні три роки Google витратив три п’ятих своїх ресурсів на висновки та дві п’ятих на навчання. Вище наведено дані Google, вони надають моделі для мільярдів користувачів.
Google, мабуть, є місцем із найбільшим навантаженням на висновки у світі. І це лише розподіл ресурсів для навчання, причому три п’ятих припадає на висновки, а дві п’ятих – на навчання. Апаратне забезпечення може бути дорожчим, а мережева структура апаратного забезпечення може бути складнішою, тому навчання та міркування можуть бути розділені навпіл. Вище наведено коефіцієнт розподілу Google, але для інших компаній навчання може мати вищу вагу.
Важливість відкритості для досліджень ШІ
Алессіо: Вартість попереднього навчання була дуже дорогою, через що ми не змогли провести достатньо експериментів, тому було багато проблем із вибором наборів даних тощо.
Джонатан: У вищій школі я заздрив своїм друзям, тому що в них були графічні процесори, а в мене їх не було на моєму ноутбуці, тому я не міг навчати моделей. Я мріяв виграти в лотерею, щоб мати графічний процесор K80.
У глибині душі я все ще жадібний студент науки. Я твердо переконаний, що якщо ми хочемо проводити наукові дослідження і справді розуміти ці системи, як змусити їх добре працювати, розуміти елементи їхньої поведінки, безпеки та надійності, ми маємо зменшити вартість навчання, щоб ми могли справді займатися наукою дослідження. Візьмемо, наприклад, біологічні експерименти, де нам потрібно провести кілька культур клітин і експерименти, щоб переконатися, що ліки діють, необхідно багато наукових досліджень, перш ніж ми щось дійсно зрозуміємо.
**Абхінав: **MosaicML має багато клієнтів, які намагаються навчати моделей, тому компанія має стимул приділяти багато ресурсів і часу науковим дослідженням. Лише справді розуміючи, як потрібно навчати моделей, ми можемо допомогти більшій кількості людей. Тому для нас цей процес агрегації дуже важливий.
Я пам’ятаю, що до цього була стаття від Google про досліджуваний розмір партії чи щось таке. Цей документ, ймовірно, коштував мільйони доларів, і він має величезну користь для суспільства в цілому. Тепер ми всі можемо вчитися на цьому та заощаджувати гроші, не розбиваючи гроші. Тому для Mosaic шляхом експериментальних досліджень ми отримали глибоке розуміння даних, архітектури попереднього навчання тощо, тому клієнти обирають нас.
Джонатан: Відкритість дуже важлива для спільноти ШІ. У певному сенсі у нас немає причин закриватися. Ми отримуємо прибуток, допомагаючи клієнтам тренувати моделі. Ми не втрачаємо можливості ділитися результатами зі спільнотою. Зрештою, ми маємо отримувати дохід за допомогою індивідуальних моделей і відмінної інфраструктури. І об’єднавши ці аспекти, ми назвали нашу компанію MosaicML.
Ми завжди були відкритими і не будемо приховувати досягнуті результати. Але тепер я бачу, що ми стали однією з найбільших лабораторій із відкритим кодом у галузі, що є сумним фактом, оскільки MosaicML не така вже й велика з точки зору галузі в цілому, у нас лише близько 15 дослідників, багато інших Лабораторії закрилися і більше не публікують багато контенту публічно. Однак MosaicML продовжуватиме спілкуватися та ділитися з спільнотою, а також намагатиметься стати піонером відкритих досліджень. Хоча масштаб і обсяг наших досліджень не можуть зрівнятися з масштабами великої лабораторії, ми продовжуватимемо ділитися тим, що дізналися, намагаючись створити ресурси для спільноти.
Коли я обговорюю екосистему штучного інтелекту з політиками, завжди виникає спільне занепокоєння: відсутність відкритості заважатиме темпам інновацій. Я роками наголошував на цьому питанні, але нарешті це стала реальністю. Я прихильник відкритого коду, але не думаю, що кожен поділиться своєю роботою. Колись ми сприймали відкритий код як належне, але зараз це не так.
Я думаю, що це сповільнить наш розвиток. У багатьох випадках у кожній лабораторії існує монолітна культура, а спілкування є важливою рушійною силою наукового прогресу. Таким чином, відкритий вихідний код є не тільки незамінним у співтоваристві відкритого коду та академічних колах, але також має вирішальне значення для розвитку технологій. Нам потрібна активна дослідницька спільнота з відкритим кодом.
Майбутні тенденції
Swyx: Ви згадали, що багато речей не служать довго і їх легко замінити, але Transformer тут залишиться.
Абхінав: Я думаю, що ваша ставка багато в чому залежить від того, що визначається як увага. Якщо таку операцію, як множення матриці QK, замінити подібним методом, як це вплине на результат?
Джонатан: Зрештою, це просто повністю зв’язана мережа прямого зв’язку, трансформатор із простим механізмом уваги. Отже, все може змінитися, але ми продовжуємо використовувати Transformer, як це задумав Ашиш Васвані (автор Transformer) шість років тому, і, можливо, продовжуватимемо це робити в майбутньому.
Абхінав: Я думаю, що це стане схожим на MLP (багатошаровий персептрон), який є єдиним варіантом, який ми маємо на даний момент, тому що зараз архітектуру дуже спрощено, залишивши лише деякі лінійні шари, залишкові зв’язки, увагу , операція множення крапкою.
Джонатан: Ви припускаєте, що архітектура стане простішою, але реальність може виявитися навпаки, і архітектура може стати складнішою.
Swyx: Що ви думаєте про нещодавні дебати про «виниклі явища»?
Абхінав: Я бачив подібні статті, і це, ймовірно, лише побічні продукти таких методів оцінювання, як масштабування журналу, оцінювальні метрики, і те, що ми зараз робимо, це точність сітки, яка є суворо бінарними судженнями, тобто. класифікація результатів як істинних або хибних, без урахування більш дрібних послідовних відмінностей.
Але, подібно до точки зору Джонатана щодо оцінювання, у нас також є проблема з різноманітністю показників оцінювання: коли ми випускаємо ці моделі, навіть модель чату, модель команд, люди часто використовують її для різноманітних завдань. Навряд чи ми можемо заздалегідь точно виміряти та оцінити кожен вимір, і навіть у масштабі 7 мільярдів ці моделі все ще погано виконують деякі дуже складні завдання MMLU. Іноді вони набирають трохи більше випадкових результатів, особливо коли мають справу з дуже складними завданнями.
Таким чином, деякі з цих проблем можуть бути більш корисними для нас, оскільки ми шукаємо моделі вищої якості. Однак ми розробляли MPT-7B трохи наосліп, тому що не до кінця розуміли, як ця модель буде поводитися в кінцевому підсумку. Його можна розробити лише для невеликого набору звичайних завдань сприйняття, і продуктивність оцінюється шляхом порівняння цих показників з іншими моделями з відкритим кодом.
Алессіо: Я вважаю, що швидкі висновки та навчання є однією з цілей, тому існує компроміс між вирішенням найскладніших завдань і швидкістю в інших завданнях.
Абхінав: Так. Навіть при масштабі 7 мільярдів даних люди спробують запустити його на ЦП вдома або спробують перенести на свій мобільний телефон, головним чином тому, що невеликі програми спонукатимуть людей використовувати цю технологію, і це важлива тенденція в момент.
Алессіо: Які речі в ШІ рухаються набагато швидше, ніж очікувалося?
Джонатан: Я пам’ятаю, коли GPT-2 був випущений, я був не дуже схвильований, але на той момент він уже мав 1,5 мільярда параметрів. У міру збільшення розмірів моделей їх продуктивність не може продовжувати покращуватися. Потім вийшов GPT-3, і я просто подумав, що він трохи кращий у створенні тексту, але я знову і знову помилявся. Масштабування моделі може дати дуже корисні моделі шляхом прогнозування наступного токена.
Чесно кажучи, ми майже всі помиляємося в цьому, тому ми також не можемо звинувачувати себе. Інакше Google, Facebook і Microsoft Research випустили б мегамоделі вбивчих мов задовго до того, як я мав би можливість діяти. Я зробив дуже дивну парі, яка виявилася правильною: дифузійні моделі, хоч і дещо тупі, створювали приголомшливо красиві зображення.
Абхінав: Що стосується масштабних чат-ботів, я думаю, що мине багато часу, перш ніж сотні мільйонів людей почнуть масово спілкуватися з моделями ШІ. З такою кількістю стартапів і компаній, які зараз використовують не лише ChatGPT, але й інші проекти, як-от створення персонажів, дивовижно, скільки людей насправді встановлюють емоційні зв’язки за допомогою цих моделей ШІ. Не думаю, що я б передбачив таке у вересні чи жовтні минулого року. Точка перелому, яка сталася за останні шість місяців, була справді несподіваною.
Swyx: Як ви думаєте, для чого їх використовуватимуть, наприклад, для емоційної підтримки?
Абхінав: Деякі з них для емоційної підтримки або просто як друзі. Проблеми самотності та психічного здоров’я – актуальна тема. Якщо ви перейдете до субредітів цих спільнот, люди говорять і думають про своїх друзів зі штучним інтелектом і цих персонажів, це ніби щось із наукової фантастики, і я ніколи не очікував, що це станеться.
Swyx: Яка найцікавіша невирішена проблема в ШІ?
Абхінав: Мене цікавить, як далеко ми можемо зайти з точки зору точності та щось на зразок BF16/FP16.
Цікаво, чи ці проблеми стають більш вирішальними зі збільшенням розміру моделі. Пов’язані статті показують, що квантування та скорочення можуть стати легшими зі збільшенням масштабу. Таким чином, як природний наслідок розширення протягом наступних кількох років, ми можемо перейти до використання чотирьох-, дво-бітних або навіть двійкових ваг.
Джонатан: Я хотів по-іншому побачити, наскільки маленькою модель ми можемо створити та наскільки ефективно ми можемо розробити модель з еквівалентною продуктивністю. Це було питання, над яким я працював під час своєї докторської дисертації, а також у певному сенсі в Mosaic. OpenAI показав нам один шлях до цієї неймовірної можливості, а саме масштабування. Але я сподіваюся, що це не єдиний шлях. Я сподіваюся, що є багато інших способів досягти цього також за допомогою кращих методів моделювання, кращих алгоритмів тощо.
Хоча я не прихильник нейронаукових тропів, у певному сенсі наше існування та наш мозок доводять, що є принаймні інший спосіб досягти цієї неймовірної здатності без трильйонів параметрів або навіть астрономічних. Тож мені справді цікаво, якої маленької моделі ми можемо досягти? Чи є інший шлях до цих можливостей, який не повинен слідувати поточному шляху? Сподіваюся знайти відповідь у Mosaic, якщо вона існує.
Swyx: Так, одна з речей, яка мене найбільше цікавить, це той факт, що людський мозок споживає лише 30 Вт енергії, а модель на порядки від цього.
Абхінав: Я не думаю, що можна досягти цього лише за допомогою одного графічного процесора чи інших інструментів.
Алессіо: Зараз є багато інформації, наприклад, як люди мають думати про штучний інтелект? На чому вони мають зосередитися?
Але ми ще не створили загального інтелекту, і особисто ми далеко не наближаємося до цієї мети. Тому важливо бути мирним і дотримуватися науки, і саме цього прагне Mosaic AI. Ми намагаємося зосередитися на речах, які є корисними для людей, сподіваючись створити кращий світ. Ми зробимо все, що в наших силах, але найголовніше, ми будемо слідувати науці, керуватися даними та досягати цієї мети через реальні результати, а не риторику.
Абхінав: Я думаю, що немає нічого схожого на проведення досліджень у відкритій спільноті. У спільноті не тільки велика кількість людей звертає увагу на вашу модель, але навіть висловлює свою думку про проблеми моделі та способи її вдосконалення. Такого роду відкриті дослідження стануть шляхом уперед, як для збереження наших моделей, так і для вивчення реального впливу та наслідків цих моделей ШІ.