Источник изображения: сгенерировано инструментом Unbounded AI, общая модель (игровая компьютерная графика)
Длина контекста раньше была одним из самых больших ограничений GPT-3. GPT-3 может принимать только до 4000 токенов (3000 слов, 6 страниц), в противном случае будет сообщено об ошибке. Следовательно, чтобы иметь дело с длинными документами и подсказками (), необходимо внедрять другие методы поиска, такие как LangChain. Однако MosaicML (который был приобретен Databricks примерно за 1,3 миллиарда долларов) в начале мая открыл контекст MPT-7B длиной 84 000 токенов (63 000 слов, 126 страниц), что значительно расширило диапазон обрабатываемого текста. , Модель Клода, разработанная Anthronpic, имеет длину контекста, увеличенную до 100 000 токенов.
MPT-7B был обучен с нуля, используя 1 триллион токенов текста и кода в качестве обучающих данных. По сравнению с другими подобными моделями (например, Pythia и OpenLLaMA используют 300 миллиардов токенов, StableLM использует 800 миллиардов токенов), данные обучения MPT-7B больше, а их качество сравнимо с данными LLaMA-7B. Модель обучалась на платформе MosaicML с использованием 440 графических процессоров, процесс обучения занял 9,5 дней без вмешательства человека и стоил около 200 000 долларов. В отличие от других открытых моделей, MPT-7B лицензирован для коммерческого использования и оптимизирован для быстрого обучения и логических выводов с помощью FlashAttention и FasterTransformer.
(производительность MPT-7B при выполнении академических задач с нулевым выстрелом)
MosaicML также выпустила три модели MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ на базе базовой MPT-7B для тонкой настройки.
Модель доработана на тележке_hhrlhf. Набор данных Dolly_hhrlhf построен на основе набора данных "Dolly-5k".
Модель точно настроена на наборах данных ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless и Evol-Instruct.
Набор данных тонкой настройки для этой модели представляет собой отфильтрованное подмножество романов в книгах3 с длиной контекста 65 тыс. Хотя объявленный размер составлял 65 тыс. токенов, команда смогла получить ответ в размере 84 тыс. токенов при работе на графическом процессоре A100-80GB одного узла. Ключевой технологией, стоящей за этим, является ALiBi. Первоначально у Великого Гэтсби было всего около 68 тысяч токенов, поэтому команда использовала модель MPT-7B-StoryWriter-65k+, чтобы создать новую концовку романа.
В дополнение к контрольным точкам модели команда открыла полную кодовую базу для предварительного обучения, тонкой настройки и оценки MPT через свой новый MosaicML LLM Foundry. Приведенная выше таблица была создана с использованием системы оценки контекстного обучения в LLM Foundry.
Главный научный сотрудник MosaicML Джонатан Франкл и научный сотрудник Абхинав Венигалла являются руководителями MPT-7B и руководят всем процессом обучения MPT-7B. В последнем подкасте Latent Space главный партнер Swyx и Decibel Partners Алессио обсудил с ними инновации процесса обучения MPT-7B и объяснил, почему объединение наборов данных LLM является важным и загадочным искусством. Кроме того, некоторые традиционные тесты с множественным выбором могут оказаться не очень полезными для разрабатываемой технологии, и они также исследуют причины этого.
(Следующий контент компилируется и публикуется OneFlow после авторизации, источник: https://
Строительство модели МПТ-7Б
**Swyx: Почему вы разработали MPT-7B? **
Абхинав: Проект MPT-7B занял около 6-12 месяцев. Мы начали работать над языковыми моделями прошлым летом и опубликовали запись в блоге, в которой анализировали языковые модели и обнаружили, что стоимость обучения на самом деле может быть намного ниже, чем думают люди. Кроме того, с тех пор, вдохновленные моделью LLaMA, выпущенной Meta AI, и многими другими работами с открытым исходным кодом, мы решили создать действительно хорошую модель с 7 миллиардами параметров, которая является источником MPT.
Алессио: В одном из подкастов вы сказали: Mosaic не планирует создавать и выпускать модели. Но в итоге вы все равно выпустили модель, что заставило вас передумать?
Джонатан: Я думаю, есть несколько факторов: Нам все еще не хватает первоклассной модели. В отличие от OpenAI, где наш бизнес вращается вокруг клиентов, создающих свои собственные модели, мы в первую очередь предоставляем им инструменты, и для того, чтобы эти инструменты были эффективными, мы должны сначала создать свои собственные модели.
Должно быть ясно, что если наши клиенты могут делать великие дела, то и мы можем делать великие дела. У меня было много людей в Твиттере, которые подвергали сомнению достоверность показанных Mosaic цифр, например, Росс Уайтман говорил: «Давайте посмотрим на фактические результаты», на что я отвечал: «Росс, как вы думаете, как это работает? ?» Мы разработали модель за 9,5 дней и обошлись в 200 000 долларов, так что вы тоже можете это сделать.
**Swyx: **Ссылаясь на данные, которые вы опубликовали в прошлом году, первоначально предполагалось, что стоимость обучения GPT-3 составляла менее 450 000 долларов США, а затем она была снижена до 100 000 долларов США; стоимость Stable Diffusion также была снижена со 160 000 долларов США. до менее чем 50 000 долларов США.
Джонатан: Я все еще очень осторожно отношусь к цифре в 100 000 долларов. Этого еще нет, но мы движемся в этом направлении, и это большой вызов для Абхи.
Swyx: Существует три варианта модели MPT-7B, один из которых достигает SOTA с точки зрения длины контекста. Каков процесс обучения этих моделей?
Абхинав: Наша базовая модель — это воссоздание LLaMA-7B с 7 миллиардами параметров и обучающими данными из 1 триллиона токенов, что обеспечивает эффективную отправную точку обучения для точной настройки модели без чрезмерного вмешательства. Тонкая настройка модели также очень интересна, например, MPT-7B-StoryWriter-65k+ может использоваться для написания истории, длина контекстного окна составляет 65 000, а также может продолжать писать на основе известного контента.
Конечно, это только одно из направлений, о которых мы думаем.Вы можете использовать базовую модель MPT-7B для создания пользовательских моделей, отвечающих различным потребностям, таких как модели с длинным контекстным кодом или модели для конкретных языков. Таким образом, на основе базовой модели были построены три варианта: MPT-7B-Instruct, MPT-7B-Chat и MPT-7B-StoryWriter-65k+, которые используются для выполнения коротких инструкций, диалогов в чате и написания историй соответственно.
Алессио: Как вы решаете, сколько токенов и параметров использовать при обучении модели? 7 миллиардов и 3 миллиарда параметров модели кажутся двумя магическими числами, которые сейчас в моде.
Абхинав: Для обучающих моделей закон масштабирования может подсказать, как наиболее эффективно использовать обучающие вычислительные ресурсы. Например, если бюджет составляет 200 000 долларов США, то по закону масштаба можно дать наиболее эффективную программу обучения.
Среди них чаще всего мы следуем закону шиншиллы. Для модели MPT-7B и родственных ей вариантов эти законы строго не соблюдаются, потому что мы хотим убедиться, что модель пригодна для личного использования и имеет хорошую производительность логического вывода, поэтому она переобучается, превышая точку шиншиллы (ссылаясь на данные уровень измеряется в токенах). Некоторые люди в Интернете в шутку называют эти модели Llongboi, потому что время их обучения довольно велико.Взяв модель 7B в качестве примера, Chinchilla Point может составлять 140 миллиардов токенов, но на самом деле мы обучили 1 триллион токенов, поэтому время обучения составляет почти в 7 раз дольше обычного.
**Swyx: Ллонгбой имеет в виду метод обучения? **
Джонатан: Ллонгбой — это просто инсайдерская шутка, относящаяся к методу обучения, в котором используется больше жетонов, чем диктует закон Шиншиллы. Видно, что у Llongboi есть две буквы «L» в начале, которые используются, чтобы отдать дань уважения LLaMA. Наш генеральный директор однажды обнародовал это имя в Твиттере, назвав модель «Llongboi». Иногда мне очень хочется взять его пароль от твиттера, чтобы он не просочился раньше времени, но теперь это имя знает весь мир.
Об архитектуре, ALiBi, контексте
**Алессио:**Flash Attention и Faster Transformer — два основных элемента построения вашей модели. В чем их преимущества?
**Abhinav:**Flash Attention — это более быстрая реализация Full Attention, разработанная Стэнфордской лабораторией Hazy Research. Мы интегрировали Flash Attention в нашу библиотеку в сентябре прошлого года, и это сыграло большую роль в обучении и скорости логического вывода. По сравнению с другими моделями Hugging Face, эта модель очень особенная: она может переключаться между общим вниманием Torch и вниманием вспышки, специально разработанным для графического процессора, что увеличивает скорость обучения модели примерно в 2 раза, а скорость вывода увеличивается на 50. % -100%.
**Swyx: Что побудило вас выбрать позиционное кодирование ALiBi? **
Abhinav: Мы интересным образом объединили позиционное кодирование ALiBi, Flash Attention и стабильность обучения. ALiBi может устранить необходимость в позиционных вложениях в модели. Раньше, если у токена была позиция 1, вам нужно было добавить конкретную позицию и не могли превышать максимальную позицию (обычно 2000). Но с ALiBi эта проблема решена. Нам просто нужно добавить смещение (bias) к карте внимания, что похоже на наклон, и если для вывода требуется более длинный диапазон позиций, он расширит этот наклон на большее количество позиций. Этот подход работает, потому что наклон является непрерывным и может быть интерпретирован.
Интересно, что через Flash Attention модель экономит много памяти и повышает производительность, поэтому мы начали проводить тесты производительности на моделях с очень длинными контекстами (до 65к) еще в прошлом году, и в то же время это очень сложно выполнить стабильное обучение. Позже мы попытались интегрировать ALiBi в модель, и стабильность модели была значительно улучшена. Теперь мы можем стабильно обучать модели написания историй на очень длинных контекстах и гарантировать их эффективное использование.
Джонатан: Длина контекста технически не ограничена. Пока дается достаточно памяти, диалог может продолжаться бесконечно. Мы считаем, что самое длинное число, которое может обработать модель, составляет 84 КБ, что является самой длинной длиной контекста, с которой люди могут комфортно работать на практике. Но мы также пробовали на практике длину контекста, превышающую 84 КБ, и мы можем работать с большей длиной.
**Swyx:**Например, мы можем ввести роман «Великий Гэтсби» в модель, а затем позволить модели продолжить писать роман в соответствии с введенным текстом, и, наконец, модель выведет весьма захватывающий контент.
Джонатан: В Mosaic есть много действительно хороших версий конца истории. Одна из версий описывает похороны Гэтсби, Ник начинает разговаривать с призраком Гэтсби, появляется и отец Гэтсби, а затем они с Томом появляются в полицейском участке. В этой версии большое внимание уделяется сюжету, описывающему то, что происходит дальше. Кроме того, во многих версиях концовка очень похожа на Фитцджеральда, и они прекрасно написаны. Так что приятно видеть, что модель действительно обрабатывает входные данные и производит осмысленные выходные данные. Мы можем многое сделать с этой длиной контекста.
Алессио: Память начинает становиться одним из ограничений модели, так как же выбрать размер параметра и длину контекста?
Джонатан: В последнее время исследования длинных контекстов привлекли большое внимание, и появилась серия связанных статей. Однако эти статьи не совсем точны, и в какой-то степени, особенно в отношении механизмов внимания, они сравнивают неквадратичные механизмы внимания (например, приблизительное, иерархическое внимание) с явным и правильным квадратичным вниманием. . Я оптимистично отношусь к методам аппроксимации, поэтому не могу дождаться, чтобы покопаться в этих статьях.
Написание и чтение статей преподали мне важный урок о том, что нельзя доверять никаким данным, пока вы не сделаете это сами. В Mosaic мы много раз разочаровывались в реализациях, потому что документы, которые сначала выглядели многообещающе, только после внедрения поняли, что документы манипулировали данными. Поэтому я всегда скептически отношусь к данным и не доверяю никаким результатам, пока они не будут повторно реализованы и подтверждены. В целом, практика окупилась, и много раз теории не срабатывали на практике так хорошо, как ожидалось.
Особенности МПТ-7Б
**Swyx: Каковы особенности MPT-7B? **
Абхинав: Я бы разбил это на две части, первая — стабильность тренировки. Этот вопрос можно разделить на три части. Во-первых, модель должна избегать скачков потерь во время обучения, что является нашей первой линией защиты. На мой взгляд, пики потерь не являются большой проблемой при размере обучения в 7 миллиардов параметров. Однако по мере увеличения времени обучения становится все труднее избегать всплесков потерь. Мы потратили много времени на то, чтобы выяснить, как настроить методы инициализации, оптимизаторы, архитектуру и т. д., чтобы предотвратить скачки потерь. Даже во время нашего обучения, если мы внимательно посмотрим, мы все еще можем найти небольшие прерывистые пики, но эти пики вернутся к норме в течение нескольких сотен шагов, что является очень волшебным явлением, которое может естественным образом помочь нам восстановить потерю пика.
Стратегии детерминизма и разумного восстановления — наша вторая линия обороны. В случае катастрофической ошибки мы сможем быстро возобновить обучение, применив некоторое вмешательство в несколько партий перед сбоем. Для возможных проблем мы сделали различные препараты. Однако при обучении МПТ-7Б мы вообще не использовали эти резервные меры, что, надо сказать, своего рода удача.
Правильная тренировочная инфраструктура — третья линия обороны. Если мы попытаемся обучить модель на сотнях графических процессоров, часто возникают аппаратные сбои. Например, при обучении модели в большом кластере с 512 графическими процессорами обучение будет давать сбои почти каждые два дня, причиной сбоя может быть сбой в сети.
Как правило, люди создают дежурные команды, работающие круглосуточно и без выходных, для устранения таких сбоев. При сбое команда пытается проверить кластер, удалить сломанные узлы, перезапустить и т. д., что является очень утомительной задачей. Раньше мы месяцами проверяли ошибки вручную, но теперь создали платформу для автоматизации каждого узла в процессе обучения модели.
Когда возникает проблема с запуском модели, наша автоматизированная система мониторинга останавливает задание, тестирует и проверяет наличие сломанных узлов и перезапускает. Благодаря детерминированным и быстрым возможностям нашего программного обеспечения, модель продолжает работать нормально. В результате мы иногда можем видеть в журналах модели, что после сбоя модели в 2 часа ночи она снова запускается и работает в течение нескольких минут без ручного вмешательства члена команды.
Джонатан: Сделать это действительно непросто. Если бы несколько месяцев назад в модели произошел аппаратный сбой, членам команды пришлось бы вставать в два часа ночи, чтобы проверить причину сбоя. сбой узла и перезапустите задание. Раньше даже при обучающем масштабе в 7 миллиардов параметров мы часто сталкивались с катастрофическими всплесками потерь, и эти проблемы серьезно сказывались на обучении модели.
Теперь мы решили эти проблемы путем постепенных улучшений. Как сказал Абхинав, теперь мы можем сидеть в офисе и обучать несколько моделей, не беспокоясь о том, что модель выйдет из строя и прервет обучение.
Выбор и повторение данных и проблемы оценки LLM
**Swyx: Вы сосредоточены на выборе данных, можете ли вы расширить его? **
Джонатан: Абхи чуть не убил меня, когда я попытался использовать весь GPU для обработки данных вместо обучения модели. Мы знаем, что для обучения модели требуется много данных, но также есть много неопределенностей.
Во-первых, какие виды различных источников данных важны, а во-вторых, важность дублирования. Среди них вопрос о дублировании можно дополнительно разбить на компромиссы качества и количества. Предположим, у меня есть 10 миллиардов лучших лексических данных в мире, лучше ли переобучить их сто раз или лучше использовать 1 триллион некачественных, актуальных лексических данных? Конечно, здесь может быть компромиссный момент, но как определить качественные данные — тоже проблема, и однозначного ответа пока нет. Если бы я сейчас вернулся в академию, я бы определенно написал об этом статью, потому что я еще ничего об этом не знаю.
Swyx: Я пока не видел никаких исследований по этому вопросу.
Джонатан: Центральный вопрос диссертационного исследования — «какую комбинацию наборов данных следует использовать».
В процессе создания модели я вернулся в Джорджтаунскую юридическую школу, где преподавал, и обсудил ее с группой студентов-юристов. Я даю им высококачественный набор данных, как смешивать данные и количество токенов, которые у них есть, и позволяю им создать лучший набор данных для своей модели.
Они ничего не знают о LLM, кроме того, что входные данные влияют на поведение. Я говорю им создать гибрид, который охватывает все различные компромиссы. На первых порах может потребоваться большой объем англоязычного корпуса, который можно получить через Интернет, если вы хотите сделать его многоязычной моделью, то англоязычный корпус будет сильно сокращен, кроме того, следует ли включать код в это.
Некоторые люди думают, что код может заставить модель работать лучше в логических рассуждениях, но я никогда не видел никаких доказательств, подтверждающих эту идею. Хотя мы действительно разработали превосходную модель кода, вопрос о том, может ли модель кода привести к улучшению способности мыслить в цепочке рассуждений, требует дальнейших исследований.
Говорят, что версия GPT-3 обучается из романа "Код да Винчи", поэтому некоторые люди думают, что это может быть полезно, но доказательств нет ;) поможет обучение модели, но есть и отсутствие доказательств.
Поэтому мы экспериментировали со многими различными смесями данных и обнаружили, что некоторые смеси данных работают лучше или хуже, чем другие. Например, «Куча» — это очень стабильный набор данных, но, судя по показателям оценки, есть и другие лучшие наборы данных. Далее я также коснусь вопроса оценки, что очень важно.
Модель T5 изначально была обучена на наборе данных C4, который работал исключительно хорошо. Другие, в том числе Стелла Битерман из EleutherAI, упомянули об этом, когда я написал об этом в Твиттере. В оригинальной статье о модели T5 метод предварительной обработки для набора данных C4 выглядит странно, и авторы удалили из набора данных все, что содержит слово «Java», потому что они не хотели предупреждений, связанных с Java. Кроме того, они убрали включение фигурных скобок, потому что они не хотели включать Java.
Они просмотрели список нецензурных слов и удалили контент, содержащий нецензурные слова. Тем не менее, список плохих слов на самом деле включает в себя некоторые слова, которые на самом деле не являются плохими, например, «гей». Но из-за этого процесса очистки результирующий набор данных кажется непревзойденным. С этого момента мы ничего не знаем о данных.
На самом деле, мы также использовали набор данных под названием MC4, MC4 и C4 имели одинаковую предобработку, но добавили больше веб-вызовов (веб-вызовов), но по сравнению с C4 англоязычная часть MC4 хуже многих, по неизвестным причинам.
Для этого я установил два критерия:
Во-первых, англоязычная часть должна быть как минимум не хуже MC4. По сравнению с другими доступными наборами данных англоязычная часть MC4 лучше. Во-вторых, сделайте все возможное для разнообразия данных и убедитесь, что набор данных включает в себя такие вещи, как код, научные статьи и Википедия, потому что люди будут использовать модель для множества различных задач.
Но я думаю, самое главное, что модель настолько хороша, насколько хороша метрика оценки. Абхи может не согласиться с этим. Мы не знаем, как точно оценивать генеративные модели, когда их просят выполнить определенные задачи. В некоторых случаях мы должны признать, что наши собственные оценки даже не отражают то, что нас действительно волнует, поэтому мы можем делать только разумный выбор.
Swyx: Считаете ли вы, что методы оценки, такие как MMLU (Massive Multitask Language Understanding) и BIG-bench, недостаточно убедительны?
Джонатан: Эти методы, несомненно, решают два типа задач. Одна из них — задача с несколькими вариантами ответов, которая содержит один правильный ответ, что позволяет модели генерировать такие варианты, как A, B, C или D, а затем выбирает ответ, который модель с наибольшей вероятностью выдаст, вычисляя недоумение каждый возможный ответ. Но вместо того, чтобы просить модель задавать вопросы с несколькими вариантами ответов, мы выполняем второй тип открытой генеративной задачи, такой как подведение итогов. Сравнение с использованием таких показателей, как BLEU и ROUGE, недостаточно точно, существует множество отличных бумажных рефератов и открытых методов генерации. Напротив, ручная оценка является более надежным стандартом оценки, но ручная оценка требует очень много времени и труда, и ее нельзя сравнивать с моделью в реальном времени, что может быть возможно в будущем.
Abhinav: У нас есть отличная команда по оценке, которая помогает нам создавать новые показатели.
Джонатан: Но LLM трудно оценить, и я не думаю, что какие-либо из этих показателей действительно отражают то, что мы ожидаем от модели на практике.
Снижение затрат и повышение эффективности обучения моделей
Swyx: Теперь на обучение модели уходит от трех до десяти дней. На сколько вы хотите сократить это время?
Abhinav: Этот год, вероятно, является одним из самых захватывающих с точки зрения повышения эффективности обучения необработанных моделей. В этом году аппаратное и программное обеспечение были соответствующим образом обновлены.Первым является аппаратное обеспечение Nvidia нового поколения H100s, которое само по себе может повысить производительность как минимум в два раза. Во-вторых, появился новый формат чисел с плавающей запятой FP8, который может обеспечить такое же повышение производительности при отдельном использовании.
Несколько лет назад мы начали использовать 32-битную точность, а затем Nvidia представила 16-битную точность. После нескольких лет разработки мы постепенно освоили 16-битные навыки обучения благодаря постоянному совершенствованию требований.
С FP8 в этом году мы можем удвоить пропускную способность, а это значит, что мы можем утроить стоимость. В то же время мы начали профилировать обучение LLM с использованием FP8 на H100, и прогресс был быстрым. Таким образом, просто улучшая аппаратное обеспечение, мы можем значительно снизить стоимость.
Кроме того, существует множество исследований по архитектурным приложениям. Мы изучаем способы ввести некоторую разреженность, но не полностью случайную разреженность. Существует ли механизм ворот или архитектурный способ в стиле МО для достижения этой цели?
Нашей первоначальной целью было снизить стоимость обучения модели GPT-J с 500 000 до 100 000 долларов, и если мы сможем достичь этого к концу года, это будет большим достижением.
Джонатан: Эта идея — не воздушный замок. Хотя этот этап еще не достигнут, эта цель, вероятно, будет достигнута к 2023 году.
Статистические данные о затратах на обучение и выводы скудны. Дэвид Паттерсон из Google опубликовал сообщение в блоге, в котором обсуждается использование энергии Google для машинного обучения. После детального анализа за последние три года Google потратил три пятых своих ресурсов на инференс и две пятых на обучение. Выше приведены данные Google, они предоставляют модели для миллиардов пользователей.
Google, вероятно, является местом с самой большой нагрузкой в мире. И это всего лишь распределение ресурсов для обучения, при этом логический вывод составляет три пятых, а обучение — две пятых. Аппаратное обеспечение может быть более дорогим, а сетевая структура аппаратного обеспечения может быть более сложной, поэтому обучение и рассуждения могут быть разделены пополам. Выше приведен коэффициент распределения Google, но для других компаний обучение может иметь больший вес.
Важность открытости для исследований ИИ
Алессио: Предыдущая стоимость обучения была очень высокой, что мешало нам проводить достаточное количество экспериментов, поэтому было много проблем с выбором наборов данных и так далее.
Джонатан: В аспирантуре я завидовал своим друзьям, потому что у них были графические процессоры, а у меня не было на моем ноутбуке, поэтому я не мог обучать никакие модели. Я мечтал выиграть в лотерею, чтобы иметь графический процессор K80.
В глубине души я все тот же нетерпеливый студент. Я твердо верю, что если мы хотим проводить научные исследования и действительно понимать эти системы, как заставить их работать хорошо, понимать элементы их поведения, безопасности и надежности, мы должны снизить стоимость обучения, чтобы мы действительно могли проводить научные исследования. исследовать. Возьмем, к примеру, биологические эксперименты, когда нам нужно провести несколько клеточных культур и экспериментов, чтобы убедиться, что лекарство работает, необходимо провести множество научных исследований, прежде чем мы действительно что-то поймем.
**Абхинав:**У MosaicML много клиентов, которые пытаются обучать модели, поэтому у компании есть стимул посвятить много ресурсов и времени научным исследованиям. Только по-настоящему поняв, как следует обучать модели, мы сможем помочь большему количеству людей. Поэтому для нас этот процесс агрегации очень важен.
Я помню, что перед исследованием размера партии или чего-то в этом роде была статья от Google. Этот документ, вероятно, стоит миллионы долларов и приносит огромную пользу сообществу в целом. Теперь мы все можем извлечь из этого уроки и сэкономить деньги, не разоряя банк. Поэтому для Mosaic благодаря экспериментальным исследованиям мы получили глубокое понимание данных, архитектуры предварительного обучения и т. д., поэтому клиенты выбирают нас.
Джонатан: Открытость очень важна для сообщества ИИ. В каком-то смысле у нас нет причин для закрытия. Мы получаем доход, помогая клиентам обучать модели. Для нас нет потерь в том, чтобы делиться результатами с сообществом. В конце концов, мы должны получать доход за счет кастомизированных моделей и отличной инфраструктуры. Именно поэтому, объединив эти аспекты, мы назвали нашу компанию MosaicML.
Мы всегда сохраняли открытое отношение и не будем скрывать достигнутых результатов. Но теперь я считаю, что мы стали одной из крупнейших лабораторий с открытым исходным кодом в отрасли, что является печальным фактом, потому что MosaicML не так уж велик с точки зрения отрасли в целом, у нас всего около 15 исследователей, многие другие Лаборатории закрылись и больше не публикуют много контента в открытом доступе. Тем не менее, MosaicML продолжит общение и обмен информацией с сообществом и сделает все возможное, чтобы стать пионером открытых исследований. Хотя наши масштабы и объем исследований не могут сравниться с масштабами большой лаборатории, мы продолжим делиться тем, что узнаем, чтобы создавать ресурсы для сообщества.
Когда я обсуждаю экосистему ИИ с политиками, всегда возникает общее беспокойство: отсутствие открытости будет препятствовать темпам инноваций. Я подчеркивал эту проблему в течение многих лет, но, наконец, это стало реальностью. Я выступаю за открытый исходный код, но не думаю, что все будут делиться своей работой. Когда-то мы воспринимали открытый исходный код как должное, но это уже не так.
Я думаю, что это замедлит наше развитие. Во многих случаях в каждой лаборатории существует монолитная культура, и общение является важной движущей силой научного прогресса. Таким образом, открытый исходный код не только незаменим в сообществе открытого исходного кода и научных кругах, но также имеет решающее значение для развития технологий. Нам нужно активное исследовательское сообщество с открытым исходным кодом.
Будущие тенденции
Swyx: Вы упомянули, что многие вещи недолговечны и легко заменяются, но Transformer никуда не денется.
Джонатан: Трансформеры будут всегда. Сверточные нейронные сети (CNN) все еще используются сегодня, и визуальные преобразователи не заняли их место. Посмотрите на рекуррентную нейронную сеть (RNN), которая существует уже несколько десятилетий, но до сих пор активна во многих областях. В результате внедрение крупных улучшений инфраструктуры затруднено.
Абхинав: Я думаю, что ваша ставка во многом зависит от того, что определяется как внимание. Если такую операцию, как умножение матрицы QK, заменить аналогичным методом, как это повлияет на результат?
Джонатан: В конечном счете, это просто полностью подключенная сеть прямой связи, Трансформатор с простым механизмом внимания. Так что все может измениться, но мы продолжаем использовать Transformer, как Ашиш Васвани (автор Transformer) предполагал шесть лет назад, и, возможно, продолжим делать это в будущем.
Abhinav: Я думаю, что это станет похоже на MLP (Multilayer Perceptron), который является единственным вариантом, который у нас есть на данный момент, потому что теперь архитектура сильно упростилась, остались только некоторые линейные слои, остаточные соединения, Внимание , операция умножения на точку.
Джонатан: Вы предполагаете, что архитектура станет проще, но реальность может быть противоположной, и архитектура может стать более сложной.
Swyx: Что вы думаете о недавних дебатах о «эмерджентных явлениях»?
Abhinav: Я видел похожие статьи, и они, вероятно, являются просто побочными продуктами методов оценки, таких как логарифмическое масштабирование, метрики оценки, и то, что мы делаем сейчас, — это точность построения сетки, которая является строго бинарной оценкой, т.е. классификация результатов как истинных или ложных без учета более мелких последовательных различий.
Но, подобно замечанию Джонатана об оценке, у нас также есть проблема с разнообразием показателей оценки: когда мы выпускаем эти модели, даже модель чата, модель команд, люди часто используют их для множества разных задач. Мы вряд ли можем заранее точно измерить и оценить каждое измерение, и даже в масштабе 7 миллиардов эти модели по-прежнему плохо справляются с некоторыми очень сложными задачами MMLU. Иногда они набирают чуть больше случайного, особенно при решении очень сложных задач.
Следовательно, некоторые из этих проблем могут быть более полезными для нас, поскольку мы ищем модели более высокого качества. Однако мы разрабатывали MPT-7B немного вслепую, потому что не до конца понимали, как в конечном итоге поведет себя модель. Его можно разработать только для небольшого набора общих задач восприятия, а производительность оценивается путем сравнения этих показателей с другими моделями с открытым исходным кодом.
Алессио: Я думаю, что одной из целей является быстрый вывод и обучение, поэтому существует компромисс между решением самых сложных задач и быстрым выполнением других задач.
Абхинав: Да. Даже при масштабе данных 7 миллиардов люди попытаются запустить его на ЦП дома или попытаются перенести на свой мобильный телефон, главным образом потому, что небольшие приложения заставят людей принять эту технологию, и это важная тенденция в мире. момент.
Алессио: Какие вещи в ИИ развиваются намного быстрее, чем ожидалось?
Джонатан: Помню, когда GPT-2 выпустили, я не очень обрадовался, но на тот момент в нем уже было 1,5 миллиарда параметров. Поскольку модели увеличиваются в размерах, их производительность не может продолжать улучшаться. Затем вышел GPT-3, и я просто подумал, что он немного лучше генерирует текст, но я снова и снова ошибался. Масштабирование модели может дать очень полезные модели, предсказывая следующий токен.
Справедливости ради, мы почти все ошибаемся в этом, так что мы не можем винить и себя. В противном случае Google, Facebook и Microsoft Research выпустили бы убойные языковые мегамодели задолго до того, как у меня появилась возможность действовать. Я сделал очень странную ставку, которая оказалась верной: диффузионные модели, хотя и несколько глупые, давали потрясающе красивые изображения.
Abhinav: Что касается масштабных чат-ботов, я думаю, что пройдет много времени, прежде чем сотни миллионов людей начнут массовые беседы с моделями ИИ. С таким количеством стартапов и компаний, которые сейчас используют не только ChatGPT, но и другие проекты, такие как создание персонажей, удивительно, как много людей на самом деле создают эмоциональные связи с этими моделями ИИ. Я не думаю, что предсказал бы это в сентябре или октябре прошлого года. Переломный момент, произошедший за последние шесть месяцев, оказался поистине неожиданным.
Swyx: Как вы думаете, для чего они будут использоваться, например для эмоциональной поддержки?
Абхинав: Некоторые из них для эмоциональной поддержки или просто как друзья. Одиночество и проблемы с психическим здоровьем — горячая тема. Если вы зайдете в сабреддиты этих сообществ, люди будут говорить и думать о своих ИИ-друзьях и этих персонажах, это похоже на что-то из научной фантастики, и я никогда не ожидал, что это произойдет.
Swyx: Какая самая интересная нерешенная проблема в области ИИ?
Абхинав: Меня интересует, как далеко мы можем зайти с точки зрения точности и что-то вроде BF16/FP16.
Интересно, становятся ли эти проблемы более решаемыми по мере увеличения размера модели? Связанные статьи показывают, что квантование и обрезка могут стать проще по мере увеличения масштаба. Таким образом, как естественное следствие масштабирования в течение следующих нескольких лет, мы можем перейти к использованию четырехбитных, двухбитных или даже двоичных весов.
Джонатан: Я хотел по-другому посмотреть, насколько маленькой мы можем создать модель и насколько эффективно мы можем разработать модель с эквивалентной производительностью. Это был вопрос, над которым я работал на протяжении всей своей докторской диссертации, а в некотором смысле и в Mosaic. OpenAI показал нам один путь к этой невероятной возможности, а именно масштабирование. Но я надеюсь, что это не единственный способ. Я надеюсь, что есть много других способов добиться этого, с помощью более совершенных методов моделирования, более совершенных алгоритмов и т. д.
Хотя я не фанат нейробиологических клише, в некотором смысле наше существование и наш мозг доказывают, что есть по крайней мере другой способ достичь этой невероятной способности без триллионов или даже астрономических параметров.Капиталовложения. Так что мне действительно любопытно, насколько маленькой модели мы можем достичь? Есть ли другой путь к этим возможностям, который не должен следовать текущему пути? Надеюсь найти ответ в Mosaic, если он существует.
Swyx: Вот именно, меня больше всего интересует тот факт, что человеческий мозг потребляет всего 30 ватт энергии, а модель на порядки отличается от этого.
Abhinav: Я не думаю, что есть способ добиться этого с помощью одного графического процессора или других инструментов.
Алессио: Сейчас поступает много информации, например, что люди должны думать об искусственном интеллекте? На что им следует обратить внимание?
Джонатан: Сохраняй спокойствие. Одни воспринимают шумиху слишком серьезно, другие очень пессимистичны, резко реагируют на нее или в какой-то степени отрицают ее. Сохраняйте спокойствие и знайте, что мы создали очень полезный инструмент.
Но мы еще не построили общий интеллект, и лично мы далеки от этой цели. Так что важно быть мирным и следовать науке, и это то, к чему стремится Mosaic AI. Мы пытаемся сосредоточиться на вещах, полезных для людей, и надеемся, что делаем мир лучше. Мы будем стараться изо всех сил, но главное, будем следовать науке, руководствоваться данными и достигать этой цели за счет реальных результатов, а не риторики.
Абхинав: Я думаю, нет ничего лучше, чем проводить исследования в открытом сообществе. В сообществе не только большое количество людей обращают внимание на вашу модель, но даже высказывают свое мнение о проблемах модели и способах ее улучшения. Такого рода открытые исследования станут шагом вперед как для обеспечения безопасности наших моделей, так и для изучения влияния и последствий этих моделей ИИ в реальном мире.
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Бесконечный контекст для больших моделей и искусство составления наборов данных
Источник | Скрытое пространство
Компиляция OneFlow
Перевод|Цзя Чуань, Ян Тин, Ван Цзилинь
Длина контекста раньше была одним из самых больших ограничений GPT-3. GPT-3 может принимать только до 4000 токенов (3000 слов, 6 страниц), в противном случае будет сообщено об ошибке. Следовательно, чтобы иметь дело с длинными документами и подсказками (), необходимо внедрять другие методы поиска, такие как LangChain. Однако MosaicML (который был приобретен Databricks примерно за 1,3 миллиарда долларов) в начале мая открыл контекст MPT-7B длиной 84 000 токенов (63 000 слов, 126 страниц), что значительно расширило диапазон обрабатываемого текста. , Модель Клода, разработанная Anthronpic, имеет длину контекста, увеличенную до 100 000 токенов.
MosaicML также выпустила три модели MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ на базе базовой MPT-7B для тонкой настройки.
Модель доработана на тележке_hhrlhf. Набор данных Dolly_hhrlhf построен на основе набора данных "Dolly-5k".
Модель точно настроена на наборах данных ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless и Evol-Instruct.
Набор данных тонкой настройки для этой модели представляет собой отфильтрованное подмножество романов в книгах3 с длиной контекста 65 тыс. Хотя объявленный размер составлял 65 тыс. токенов, команда смогла получить ответ в размере 84 тыс. токенов при работе на графическом процессоре A100-80GB одного узла. Ключевой технологией, стоящей за этим, является ALiBi. Первоначально у Великого Гэтсби было всего около 68 тысяч токенов, поэтому команда использовала модель MPT-7B-StoryWriter-65k+, чтобы создать новую концовку романа.
Главный научный сотрудник MosaicML Джонатан Франкл и научный сотрудник Абхинав Венигалла являются руководителями MPT-7B и руководят всем процессом обучения MPT-7B. В последнем подкасте Latent Space главный партнер Swyx и Decibel Partners Алессио обсудил с ними инновации процесса обучения MPT-7B и объяснил, почему объединение наборов данных LLM является важным и загадочным искусством. Кроме того, некоторые традиционные тесты с множественным выбором могут оказаться не очень полезными для разрабатываемой технологии, и они также исследуют причины этого.
(Следующий контент компилируется и публикуется OneFlow после авторизации, источник: https://
Строительство модели МПТ-7Б
**Swyx: Почему вы разработали MPT-7B? **
Абхинав: Проект MPT-7B занял около 6-12 месяцев. Мы начали работать над языковыми моделями прошлым летом и опубликовали запись в блоге, в которой анализировали языковые модели и обнаружили, что стоимость обучения на самом деле может быть намного ниже, чем думают люди. Кроме того, с тех пор, вдохновленные моделью LLaMA, выпущенной Meta AI, и многими другими работами с открытым исходным кодом, мы решили создать действительно хорошую модель с 7 миллиардами параметров, которая является источником MPT.
Алессио: В одном из подкастов вы сказали: Mosaic не планирует создавать и выпускать модели. Но в итоге вы все равно выпустили модель, что заставило вас передумать?
Джонатан: Я думаю, есть несколько факторов: Нам все еще не хватает первоклассной модели. В отличие от OpenAI, где наш бизнес вращается вокруг клиентов, создающих свои собственные модели, мы в первую очередь предоставляем им инструменты, и для того, чтобы эти инструменты были эффективными, мы должны сначала создать свои собственные модели.
Должно быть ясно, что если наши клиенты могут делать великие дела, то и мы можем делать великие дела. У меня было много людей в Твиттере, которые подвергали сомнению достоверность показанных Mosaic цифр, например, Росс Уайтман говорил: «Давайте посмотрим на фактические результаты», на что я отвечал: «Росс, как вы думаете, как это работает? ?» Мы разработали модель за 9,5 дней и обошлись в 200 000 долларов, так что вы тоже можете это сделать.
**Swyx: **Ссылаясь на данные, которые вы опубликовали в прошлом году, первоначально предполагалось, что стоимость обучения GPT-3 составляла менее 450 000 долларов США, а затем она была снижена до 100 000 долларов США; стоимость Stable Diffusion также была снижена со 160 000 долларов США. до менее чем 50 000 долларов США.
Джонатан: Я все еще очень осторожно отношусь к цифре в 100 000 долларов. Этого еще нет, но мы движемся в этом направлении, и это большой вызов для Абхи.
Swyx: Существует три варианта модели MPT-7B, один из которых достигает SOTA с точки зрения длины контекста. Каков процесс обучения этих моделей?
Абхинав: Наша базовая модель — это воссоздание LLaMA-7B с 7 миллиардами параметров и обучающими данными из 1 триллиона токенов, что обеспечивает эффективную отправную точку обучения для точной настройки модели без чрезмерного вмешательства. Тонкая настройка модели также очень интересна, например, MPT-7B-StoryWriter-65k+ может использоваться для написания истории, длина контекстного окна составляет 65 000, а также может продолжать писать на основе известного контента.
Конечно, это только одно из направлений, о которых мы думаем.Вы можете использовать базовую модель MPT-7B для создания пользовательских моделей, отвечающих различным потребностям, таких как модели с длинным контекстным кодом или модели для конкретных языков. Таким образом, на основе базовой модели были построены три варианта: MPT-7B-Instruct, MPT-7B-Chat и MPT-7B-StoryWriter-65k+, которые используются для выполнения коротких инструкций, диалогов в чате и написания историй соответственно.
Алессио: Как вы решаете, сколько токенов и параметров использовать при обучении модели? 7 миллиардов и 3 миллиарда параметров модели кажутся двумя магическими числами, которые сейчас в моде.
Абхинав: Для обучающих моделей закон масштабирования может подсказать, как наиболее эффективно использовать обучающие вычислительные ресурсы. Например, если бюджет составляет 200 000 долларов США, то по закону масштаба можно дать наиболее эффективную программу обучения.
Среди них чаще всего мы следуем закону шиншиллы. Для модели MPT-7B и родственных ей вариантов эти законы строго не соблюдаются, потому что мы хотим убедиться, что модель пригодна для личного использования и имеет хорошую производительность логического вывода, поэтому она переобучается, превышая точку шиншиллы (ссылаясь на данные уровень измеряется в токенах). Некоторые люди в Интернете в шутку называют эти модели Llongboi, потому что время их обучения довольно велико.Взяв модель 7B в качестве примера, Chinchilla Point может составлять 140 миллиардов токенов, но на самом деле мы обучили 1 триллион токенов, поэтому время обучения составляет почти в 7 раз дольше обычного.
**Swyx: Ллонгбой имеет в виду метод обучения? **
Джонатан: Ллонгбой — это просто инсайдерская шутка, относящаяся к методу обучения, в котором используется больше жетонов, чем диктует закон Шиншиллы. Видно, что у Llongboi есть две буквы «L» в начале, которые используются, чтобы отдать дань уважения LLaMA. Наш генеральный директор однажды обнародовал это имя в Твиттере, назвав модель «Llongboi». Иногда мне очень хочется взять его пароль от твиттера, чтобы он не просочился раньше времени, но теперь это имя знает весь мир.
Об архитектуре, ALiBi, контексте
**Алессио:**Flash Attention и Faster Transformer — два основных элемента построения вашей модели. В чем их преимущества?
**Abhinav:**Flash Attention — это более быстрая реализация Full Attention, разработанная Стэнфордской лабораторией Hazy Research. Мы интегрировали Flash Attention в нашу библиотеку в сентябре прошлого года, и это сыграло большую роль в обучении и скорости логического вывода. По сравнению с другими моделями Hugging Face, эта модель очень особенная: она может переключаться между общим вниманием Torch и вниманием вспышки, специально разработанным для графического процессора, что увеличивает скорость обучения модели примерно в 2 раза, а скорость вывода увеличивается на 50. % -100%.
**Swyx: Что побудило вас выбрать позиционное кодирование ALiBi? **
Abhinav: Мы интересным образом объединили позиционное кодирование ALiBi, Flash Attention и стабильность обучения. ALiBi может устранить необходимость в позиционных вложениях в модели. Раньше, если у токена была позиция 1, вам нужно было добавить конкретную позицию и не могли превышать максимальную позицию (обычно 2000). Но с ALiBi эта проблема решена. Нам просто нужно добавить смещение (bias) к карте внимания, что похоже на наклон, и если для вывода требуется более длинный диапазон позиций, он расширит этот наклон на большее количество позиций. Этот подход работает, потому что наклон является непрерывным и может быть интерпретирован.
Интересно, что через Flash Attention модель экономит много памяти и повышает производительность, поэтому мы начали проводить тесты производительности на моделях с очень длинными контекстами (до 65к) еще в прошлом году, и в то же время это очень сложно выполнить стабильное обучение. Позже мы попытались интегрировать ALiBi в модель, и стабильность модели была значительно улучшена. Теперь мы можем стабильно обучать модели написания историй на очень длинных контекстах и гарантировать их эффективное использование.
Джонатан: Длина контекста технически не ограничена. Пока дается достаточно памяти, диалог может продолжаться бесконечно. Мы считаем, что самое длинное число, которое может обработать модель, составляет 84 КБ, что является самой длинной длиной контекста, с которой люди могут комфортно работать на практике. Но мы также пробовали на практике длину контекста, превышающую 84 КБ, и мы можем работать с большей длиной.
**Swyx:**Например, мы можем ввести роман «Великий Гэтсби» в модель, а затем позволить модели продолжить писать роман в соответствии с введенным текстом, и, наконец, модель выведет весьма захватывающий контент.
Джонатан: В Mosaic есть много действительно хороших версий конца истории. Одна из версий описывает похороны Гэтсби, Ник начинает разговаривать с призраком Гэтсби, появляется и отец Гэтсби, а затем они с Томом появляются в полицейском участке. В этой версии большое внимание уделяется сюжету, описывающему то, что происходит дальше. Кроме того, во многих версиях концовка очень похожа на Фитцджеральда, и они прекрасно написаны. Так что приятно видеть, что модель действительно обрабатывает входные данные и производит осмысленные выходные данные. Мы можем многое сделать с этой длиной контекста.
Алессио: Память начинает становиться одним из ограничений модели, так как же выбрать размер параметра и длину контекста?
Джонатан: В последнее время исследования длинных контекстов привлекли большое внимание, и появилась серия связанных статей. Однако эти статьи не совсем точны, и в какой-то степени, особенно в отношении механизмов внимания, они сравнивают неквадратичные механизмы внимания (например, приблизительное, иерархическое внимание) с явным и правильным квадратичным вниманием. . Я оптимистично отношусь к методам аппроксимации, поэтому не могу дождаться, чтобы покопаться в этих статьях.
Написание и чтение статей преподали мне важный урок о том, что нельзя доверять никаким данным, пока вы не сделаете это сами. В Mosaic мы много раз разочаровывались в реализациях, потому что документы, которые сначала выглядели многообещающе, только после внедрения поняли, что документы манипулировали данными. Поэтому я всегда скептически отношусь к данным и не доверяю никаким результатам, пока они не будут повторно реализованы и подтверждены. В целом, практика окупилась, и много раз теории не срабатывали на практике так хорошо, как ожидалось.
Особенности МПТ-7Б
**Swyx: Каковы особенности MPT-7B? **
Абхинав: Я бы разбил это на две части, первая — стабильность тренировки. Этот вопрос можно разделить на три части. Во-первых, модель должна избегать скачков потерь во время обучения, что является нашей первой линией защиты. На мой взгляд, пики потерь не являются большой проблемой при размере обучения в 7 миллиардов параметров. Однако по мере увеличения времени обучения становится все труднее избегать всплесков потерь. Мы потратили много времени на то, чтобы выяснить, как настроить методы инициализации, оптимизаторы, архитектуру и т. д., чтобы предотвратить скачки потерь. Даже во время нашего обучения, если мы внимательно посмотрим, мы все еще можем найти небольшие прерывистые пики, но эти пики вернутся к норме в течение нескольких сотен шагов, что является очень волшебным явлением, которое может естественным образом помочь нам восстановить потерю пика.
Стратегии детерминизма и разумного восстановления — наша вторая линия обороны. В случае катастрофической ошибки мы сможем быстро возобновить обучение, применив некоторое вмешательство в несколько партий перед сбоем. Для возможных проблем мы сделали различные препараты. Однако при обучении МПТ-7Б мы вообще не использовали эти резервные меры, что, надо сказать, своего рода удача.
Правильная тренировочная инфраструктура — третья линия обороны. Если мы попытаемся обучить модель на сотнях графических процессоров, часто возникают аппаратные сбои. Например, при обучении модели в большом кластере с 512 графическими процессорами обучение будет давать сбои почти каждые два дня, причиной сбоя может быть сбой в сети.
Как правило, люди создают дежурные команды, работающие круглосуточно и без выходных, для устранения таких сбоев. При сбое команда пытается проверить кластер, удалить сломанные узлы, перезапустить и т. д., что является очень утомительной задачей. Раньше мы месяцами проверяли ошибки вручную, но теперь создали платформу для автоматизации каждого узла в процессе обучения модели.
Когда возникает проблема с запуском модели, наша автоматизированная система мониторинга останавливает задание, тестирует и проверяет наличие сломанных узлов и перезапускает. Благодаря детерминированным и быстрым возможностям нашего программного обеспечения, модель продолжает работать нормально. В результате мы иногда можем видеть в журналах модели, что после сбоя модели в 2 часа ночи она снова запускается и работает в течение нескольких минут без ручного вмешательства члена команды.
Джонатан: Сделать это действительно непросто. Если бы несколько месяцев назад в модели произошел аппаратный сбой, членам команды пришлось бы вставать в два часа ночи, чтобы проверить причину сбоя. сбой узла и перезапустите задание. Раньше даже при обучающем масштабе в 7 миллиардов параметров мы часто сталкивались с катастрофическими всплесками потерь, и эти проблемы серьезно сказывались на обучении модели.
Теперь мы решили эти проблемы путем постепенных улучшений. Как сказал Абхинав, теперь мы можем сидеть в офисе и обучать несколько моделей, не беспокоясь о том, что модель выйдет из строя и прервет обучение.
Выбор и повторение данных и проблемы оценки LLM
**Swyx: Вы сосредоточены на выборе данных, можете ли вы расширить его? **
Джонатан: Абхи чуть не убил меня, когда я попытался использовать весь GPU для обработки данных вместо обучения модели. Мы знаем, что для обучения модели требуется много данных, но также есть много неопределенностей.
Во-первых, какие виды различных источников данных важны, а во-вторых, важность дублирования. Среди них вопрос о дублировании можно дополнительно разбить на компромиссы качества и количества. Предположим, у меня есть 10 миллиардов лучших лексических данных в мире, лучше ли переобучить их сто раз или лучше использовать 1 триллион некачественных, актуальных лексических данных? Конечно, здесь может быть компромиссный момент, но как определить качественные данные — тоже проблема, и однозначного ответа пока нет. Если бы я сейчас вернулся в академию, я бы определенно написал об этом статью, потому что я еще ничего об этом не знаю.
Swyx: Я пока не видел никаких исследований по этому вопросу.
Джонатан: Центральный вопрос диссертационного исследования — «какую комбинацию наборов данных следует использовать».
В процессе создания модели я вернулся в Джорджтаунскую юридическую школу, где преподавал, и обсудил ее с группой студентов-юристов. Я даю им высококачественный набор данных, как смешивать данные и количество токенов, которые у них есть, и позволяю им создать лучший набор данных для своей модели.
Они ничего не знают о LLM, кроме того, что входные данные влияют на поведение. Я говорю им создать гибрид, который охватывает все различные компромиссы. На первых порах может потребоваться большой объем англоязычного корпуса, который можно получить через Интернет, если вы хотите сделать его многоязычной моделью, то англоязычный корпус будет сильно сокращен, кроме того, следует ли включать код в это.
Некоторые люди думают, что код может заставить модель работать лучше в логических рассуждениях, но я никогда не видел никаких доказательств, подтверждающих эту идею. Хотя мы действительно разработали превосходную модель кода, вопрос о том, может ли модель кода привести к улучшению способности мыслить в цепочке рассуждений, требует дальнейших исследований.
Говорят, что версия GPT-3 обучается из романа "Код да Винчи", поэтому некоторые люди думают, что это может быть полезно, но доказательств нет ;) поможет обучение модели, но есть и отсутствие доказательств.
Поэтому мы экспериментировали со многими различными смесями данных и обнаружили, что некоторые смеси данных работают лучше или хуже, чем другие. Например, «Куча» — это очень стабильный набор данных, но, судя по показателям оценки, есть и другие лучшие наборы данных. Далее я также коснусь вопроса оценки, что очень важно.
Модель T5 изначально была обучена на наборе данных C4, который работал исключительно хорошо. Другие, в том числе Стелла Битерман из EleutherAI, упомянули об этом, когда я написал об этом в Твиттере. В оригинальной статье о модели T5 метод предварительной обработки для набора данных C4 выглядит странно, и авторы удалили из набора данных все, что содержит слово «Java», потому что они не хотели предупреждений, связанных с Java. Кроме того, они убрали включение фигурных скобок, потому что они не хотели включать Java.
Они просмотрели список нецензурных слов и удалили контент, содержащий нецензурные слова. Тем не менее, список плохих слов на самом деле включает в себя некоторые слова, которые на самом деле не являются плохими, например, «гей». Но из-за этого процесса очистки результирующий набор данных кажется непревзойденным. С этого момента мы ничего не знаем о данных.
На самом деле, мы также использовали набор данных под названием MC4, MC4 и C4 имели одинаковую предобработку, но добавили больше веб-вызовов (веб-вызовов), но по сравнению с C4 англоязычная часть MC4 хуже многих, по неизвестным причинам.
Для этого я установил два критерия:
Во-первых, англоязычная часть должна быть как минимум не хуже MC4. По сравнению с другими доступными наборами данных англоязычная часть MC4 лучше. Во-вторых, сделайте все возможное для разнообразия данных и убедитесь, что набор данных включает в себя такие вещи, как код, научные статьи и Википедия, потому что люди будут использовать модель для множества различных задач.
Но я думаю, самое главное, что модель настолько хороша, насколько хороша метрика оценки. Абхи может не согласиться с этим. Мы не знаем, как точно оценивать генеративные модели, когда их просят выполнить определенные задачи. В некоторых случаях мы должны признать, что наши собственные оценки даже не отражают то, что нас действительно волнует, поэтому мы можем делать только разумный выбор.
Swyx: Считаете ли вы, что методы оценки, такие как MMLU (Massive Multitask Language Understanding) и BIG-bench, недостаточно убедительны?
Джонатан: Эти методы, несомненно, решают два типа задач. Одна из них — задача с несколькими вариантами ответов, которая содержит один правильный ответ, что позволяет модели генерировать такие варианты, как A, B, C или D, а затем выбирает ответ, который модель с наибольшей вероятностью выдаст, вычисляя недоумение каждый возможный ответ. Но вместо того, чтобы просить модель задавать вопросы с несколькими вариантами ответов, мы выполняем второй тип открытой генеративной задачи, такой как подведение итогов. Сравнение с использованием таких показателей, как BLEU и ROUGE, недостаточно точно, существует множество отличных бумажных рефератов и открытых методов генерации. Напротив, ручная оценка является более надежным стандартом оценки, но ручная оценка требует очень много времени и труда, и ее нельзя сравнивать с моделью в реальном времени, что может быть возможно в будущем.
Abhinav: У нас есть отличная команда по оценке, которая помогает нам создавать новые показатели.
Джонатан: Но LLM трудно оценить, и я не думаю, что какие-либо из этих показателей действительно отражают то, что мы ожидаем от модели на практике.
Снижение затрат и повышение эффективности обучения моделей
Swyx: Теперь на обучение модели уходит от трех до десяти дней. На сколько вы хотите сократить это время?
Abhinav: Этот год, вероятно, является одним из самых захватывающих с точки зрения повышения эффективности обучения необработанных моделей. В этом году аппаратное и программное обеспечение были соответствующим образом обновлены.Первым является аппаратное обеспечение Nvidia нового поколения H100s, которое само по себе может повысить производительность как минимум в два раза. Во-вторых, появился новый формат чисел с плавающей запятой FP8, который может обеспечить такое же повышение производительности при отдельном использовании.
Несколько лет назад мы начали использовать 32-битную точность, а затем Nvidia представила 16-битную точность. После нескольких лет разработки мы постепенно освоили 16-битные навыки обучения благодаря постоянному совершенствованию требований.
С FP8 в этом году мы можем удвоить пропускную способность, а это значит, что мы можем утроить стоимость. В то же время мы начали профилировать обучение LLM с использованием FP8 на H100, и прогресс был быстрым. Таким образом, просто улучшая аппаратное обеспечение, мы можем значительно снизить стоимость.
Кроме того, существует множество исследований по архитектурным приложениям. Мы изучаем способы ввести некоторую разреженность, но не полностью случайную разреженность. Существует ли механизм ворот или архитектурный способ в стиле МО для достижения этой цели?
Нашей первоначальной целью было снизить стоимость обучения модели GPT-J с 500 000 до 100 000 долларов, и если мы сможем достичь этого к концу года, это будет большим достижением.
Джонатан: Эта идея — не воздушный замок. Хотя этот этап еще не достигнут, эта цель, вероятно, будет достигнута к 2023 году.
Статистические данные о затратах на обучение и выводы скудны. Дэвид Паттерсон из Google опубликовал сообщение в блоге, в котором обсуждается использование энергии Google для машинного обучения. После детального анализа за последние три года Google потратил три пятых своих ресурсов на инференс и две пятых на обучение. Выше приведены данные Google, они предоставляют модели для миллиардов пользователей.
Google, вероятно, является местом с самой большой нагрузкой в мире. И это всего лишь распределение ресурсов для обучения, при этом логический вывод составляет три пятых, а обучение — две пятых. Аппаратное обеспечение может быть более дорогим, а сетевая структура аппаратного обеспечения может быть более сложной, поэтому обучение и рассуждения могут быть разделены пополам. Выше приведен коэффициент распределения Google, но для других компаний обучение может иметь больший вес.
Важность открытости для исследований ИИ
Алессио: Предыдущая стоимость обучения была очень высокой, что мешало нам проводить достаточное количество экспериментов, поэтому было много проблем с выбором наборов данных и так далее.
Джонатан: В аспирантуре я завидовал своим друзьям, потому что у них были графические процессоры, а у меня не было на моем ноутбуке, поэтому я не мог обучать никакие модели. Я мечтал выиграть в лотерею, чтобы иметь графический процессор K80.
В глубине души я все тот же нетерпеливый студент. Я твердо верю, что если мы хотим проводить научные исследования и действительно понимать эти системы, как заставить их работать хорошо, понимать элементы их поведения, безопасности и надежности, мы должны снизить стоимость обучения, чтобы мы действительно могли проводить научные исследования. исследовать. Возьмем, к примеру, биологические эксперименты, когда нам нужно провести несколько клеточных культур и экспериментов, чтобы убедиться, что лекарство работает, необходимо провести множество научных исследований, прежде чем мы действительно что-то поймем.
**Абхинав:**У MosaicML много клиентов, которые пытаются обучать модели, поэтому у компании есть стимул посвятить много ресурсов и времени научным исследованиям. Только по-настоящему поняв, как следует обучать модели, мы сможем помочь большему количеству людей. Поэтому для нас этот процесс агрегации очень важен.
Я помню, что перед исследованием размера партии или чего-то в этом роде была статья от Google. Этот документ, вероятно, стоит миллионы долларов и приносит огромную пользу сообществу в целом. Теперь мы все можем извлечь из этого уроки и сэкономить деньги, не разоряя банк. Поэтому для Mosaic благодаря экспериментальным исследованиям мы получили глубокое понимание данных, архитектуры предварительного обучения и т. д., поэтому клиенты выбирают нас.
Джонатан: Открытость очень важна для сообщества ИИ. В каком-то смысле у нас нет причин для закрытия. Мы получаем доход, помогая клиентам обучать модели. Для нас нет потерь в том, чтобы делиться результатами с сообществом. В конце концов, мы должны получать доход за счет кастомизированных моделей и отличной инфраструктуры. Именно поэтому, объединив эти аспекты, мы назвали нашу компанию MosaicML.
Мы всегда сохраняли открытое отношение и не будем скрывать достигнутых результатов. Но теперь я считаю, что мы стали одной из крупнейших лабораторий с открытым исходным кодом в отрасли, что является печальным фактом, потому что MosaicML не так уж велик с точки зрения отрасли в целом, у нас всего около 15 исследователей, многие другие Лаборатории закрылись и больше не публикуют много контента в открытом доступе. Тем не менее, MosaicML продолжит общение и обмен информацией с сообществом и сделает все возможное, чтобы стать пионером открытых исследований. Хотя наши масштабы и объем исследований не могут сравниться с масштабами большой лаборатории, мы продолжим делиться тем, что узнаем, чтобы создавать ресурсы для сообщества.
Когда я обсуждаю экосистему ИИ с политиками, всегда возникает общее беспокойство: отсутствие открытости будет препятствовать темпам инноваций. Я подчеркивал эту проблему в течение многих лет, но, наконец, это стало реальностью. Я выступаю за открытый исходный код, но не думаю, что все будут делиться своей работой. Когда-то мы воспринимали открытый исходный код как должное, но это уже не так.
Я думаю, что это замедлит наше развитие. Во многих случаях в каждой лаборатории существует монолитная культура, и общение является важной движущей силой научного прогресса. Таким образом, открытый исходный код не только незаменим в сообществе открытого исходного кода и научных кругах, но также имеет решающее значение для развития технологий. Нам нужно активное исследовательское сообщество с открытым исходным кодом.
Будущие тенденции
Swyx: Вы упомянули, что многие вещи недолговечны и легко заменяются, но Transformer никуда не денется.
Джонатан: Трансформеры будут всегда. Сверточные нейронные сети (CNN) все еще используются сегодня, и визуальные преобразователи не заняли их место. Посмотрите на рекуррентную нейронную сеть (RNN), которая существует уже несколько десятилетий, но до сих пор активна во многих областях. В результате внедрение крупных улучшений инфраструктуры затруднено.
Абхинав: Я думаю, что ваша ставка во многом зависит от того, что определяется как внимание. Если такую операцию, как умножение матрицы QK, заменить аналогичным методом, как это повлияет на результат?
Джонатан: В конечном счете, это просто полностью подключенная сеть прямой связи, Трансформатор с простым механизмом внимания. Так что все может измениться, но мы продолжаем использовать Transformer, как Ашиш Васвани (автор Transformer) предполагал шесть лет назад, и, возможно, продолжим делать это в будущем.
Abhinav: Я думаю, что это станет похоже на MLP (Multilayer Perceptron), который является единственным вариантом, который у нас есть на данный момент, потому что теперь архитектура сильно упростилась, остались только некоторые линейные слои, остаточные соединения, Внимание , операция умножения на точку.
Джонатан: Вы предполагаете, что архитектура станет проще, но реальность может быть противоположной, и архитектура может стать более сложной.
Swyx: Что вы думаете о недавних дебатах о «эмерджентных явлениях»?
Abhinav: Я видел похожие статьи, и они, вероятно, являются просто побочными продуктами методов оценки, таких как логарифмическое масштабирование, метрики оценки, и то, что мы делаем сейчас, — это точность построения сетки, которая является строго бинарной оценкой, т.е. классификация результатов как истинных или ложных без учета более мелких последовательных различий.
Но, подобно замечанию Джонатана об оценке, у нас также есть проблема с разнообразием показателей оценки: когда мы выпускаем эти модели, даже модель чата, модель команд, люди часто используют их для множества разных задач. Мы вряд ли можем заранее точно измерить и оценить каждое измерение, и даже в масштабе 7 миллиардов эти модели по-прежнему плохо справляются с некоторыми очень сложными задачами MMLU. Иногда они набирают чуть больше случайного, особенно при решении очень сложных задач.
Следовательно, некоторые из этих проблем могут быть более полезными для нас, поскольку мы ищем модели более высокого качества. Однако мы разрабатывали MPT-7B немного вслепую, потому что не до конца понимали, как в конечном итоге поведет себя модель. Его можно разработать только для небольшого набора общих задач восприятия, а производительность оценивается путем сравнения этих показателей с другими моделями с открытым исходным кодом.
Алессио: Я думаю, что одной из целей является быстрый вывод и обучение, поэтому существует компромисс между решением самых сложных задач и быстрым выполнением других задач.
Абхинав: Да. Даже при масштабе данных 7 миллиардов люди попытаются запустить его на ЦП дома или попытаются перенести на свой мобильный телефон, главным образом потому, что небольшие приложения заставят людей принять эту технологию, и это важная тенденция в мире. момент.
Алессио: Какие вещи в ИИ развиваются намного быстрее, чем ожидалось?
Джонатан: Помню, когда GPT-2 выпустили, я не очень обрадовался, но на тот момент в нем уже было 1,5 миллиарда параметров. Поскольку модели увеличиваются в размерах, их производительность не может продолжать улучшаться. Затем вышел GPT-3, и я просто подумал, что он немного лучше генерирует текст, но я снова и снова ошибался. Масштабирование модели может дать очень полезные модели, предсказывая следующий токен.
Справедливости ради, мы почти все ошибаемся в этом, так что мы не можем винить и себя. В противном случае Google, Facebook и Microsoft Research выпустили бы убойные языковые мегамодели задолго до того, как у меня появилась возможность действовать. Я сделал очень странную ставку, которая оказалась верной: диффузионные модели, хотя и несколько глупые, давали потрясающе красивые изображения.
Abhinav: Что касается масштабных чат-ботов, я думаю, что пройдет много времени, прежде чем сотни миллионов людей начнут массовые беседы с моделями ИИ. С таким количеством стартапов и компаний, которые сейчас используют не только ChatGPT, но и другие проекты, такие как создание персонажей, удивительно, как много людей на самом деле создают эмоциональные связи с этими моделями ИИ. Я не думаю, что предсказал бы это в сентябре или октябре прошлого года. Переломный момент, произошедший за последние шесть месяцев, оказался поистине неожиданным.
Swyx: Как вы думаете, для чего они будут использоваться, например для эмоциональной поддержки?
Абхинав: Некоторые из них для эмоциональной поддержки или просто как друзья. Одиночество и проблемы с психическим здоровьем — горячая тема. Если вы зайдете в сабреддиты этих сообществ, люди будут говорить и думать о своих ИИ-друзьях и этих персонажах, это похоже на что-то из научной фантастики, и я никогда не ожидал, что это произойдет.
Swyx: Какая самая интересная нерешенная проблема в области ИИ?
Абхинав: Меня интересует, как далеко мы можем зайти с точки зрения точности и что-то вроде BF16/FP16.
Интересно, становятся ли эти проблемы более решаемыми по мере увеличения размера модели? Связанные статьи показывают, что квантование и обрезка могут стать проще по мере увеличения масштаба. Таким образом, как естественное следствие масштабирования в течение следующих нескольких лет, мы можем перейти к использованию четырехбитных, двухбитных или даже двоичных весов.
Джонатан: Я хотел по-другому посмотреть, насколько маленькой мы можем создать модель и насколько эффективно мы можем разработать модель с эквивалентной производительностью. Это был вопрос, над которым я работал на протяжении всей своей докторской диссертации, а в некотором смысле и в Mosaic. OpenAI показал нам один путь к этой невероятной возможности, а именно масштабирование. Но я надеюсь, что это не единственный способ. Я надеюсь, что есть много других способов добиться этого, с помощью более совершенных методов моделирования, более совершенных алгоритмов и т. д.
Хотя я не фанат нейробиологических клише, в некотором смысле наше существование и наш мозг доказывают, что есть по крайней мере другой способ достичь этой невероятной способности без триллионов или даже астрономических параметров.Капиталовложения. Так что мне действительно любопытно, насколько маленькой модели мы можем достичь? Есть ли другой путь к этим возможностям, который не должен следовать текущему пути? Надеюсь найти ответ в Mosaic, если он существует.
Swyx: Вот именно, меня больше всего интересует тот факт, что человеческий мозг потребляет всего 30 ватт энергии, а модель на порядки отличается от этого.
Abhinav: Я не думаю, что есть способ добиться этого с помощью одного графического процессора или других инструментов.
Алессио: Сейчас поступает много информации, например, что люди должны думать об искусственном интеллекте? На что им следует обратить внимание?
Джонатан: Сохраняй спокойствие. Одни воспринимают шумиху слишком серьезно, другие очень пессимистичны, резко реагируют на нее или в какой-то степени отрицают ее. Сохраняйте спокойствие и знайте, что мы создали очень полезный инструмент.
Но мы еще не построили общий интеллект, и лично мы далеки от этой цели. Так что важно быть мирным и следовать науке, и это то, к чему стремится Mosaic AI. Мы пытаемся сосредоточиться на вещах, полезных для людей, и надеемся, что делаем мир лучше. Мы будем стараться изо всех сил, но главное, будем следовать науке, руководствоваться данными и достигать этой цели за счет реальных результатов, а не риторики.
Абхинав: Я думаю, нет ничего лучше, чем проводить исследования в открытом сообществе. В сообществе не только большое количество людей обращают внимание на вашу модель, но даже высказывают свое мнение о проблемах модели и способах ее улучшения. Такого рода открытые исследования станут шагом вперед как для обеспечения безопасности наших моделей, так и для изучения влияния и последствий этих моделей ИИ в реальном мире.