Сколько томов занимает обучение больших моделей? Раскройте тайну вычислительной мощности больших моделей

Question

Источник статьи: Titanium MediaАвтор|Цинь ЦунхуэйРедактор|Гай Хонгда> Предпосылка захвата вычислительных мощностей заключается в том, что вычислительная мощность становится новой бизнес-моделью. Бум «алхимии» крупномасштабных моделей пройдет, и поставщикам услуг вычислительных мощностей следует принять меры предосторожности и вовремя развернуться.![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1697530110/Fp_19DUgWHSsTDl4d7Z9v4obhD9N.png) *Источник изображения: Сгенерировано Unbounded AI*Используя глобальные метеорологические данные за 40 лет, предварительное обучение с 200 картами GPU и примерно за 2 месяца была обучена большая метеорологическая модель Пангеи с сотнями миллионов параметров.Это история Би Кайфэна, который за 3 года окончил Университет Цинхуа и обучил крупную модель.Однако с точки зрения стоимости, при нормальных обстоятельствах GPU составляет 7,8 юаней/час, а стоимость обучения метеорологической модели Bikaifeng Pangu может превышать 2 миллиона. Это все-таки вертикальная большая модель в метеорологической сфере, и если она обучена на общей большой модели, стоимость может быть в сто крат.По статистике, в Китае насчитывается более 100 крупных моделей с 1 миллиардом параметров. Тем не менее, крупные модели «Алхимии» сталкиваются с проблемой, которую трудно найти высокопроизводительные графические процессоры. Стоимость вычислительных мощностей высока, а нехватка вычислительных мощностей и средств стала самой интуитивно понятной проблемой, стоящей перед отраслью.  ## **Высокопроизводительный графический процессор, чего не хватает? **  «Нет, конечно, этого не хватает, но что поделаешь». Топ-менеджер крупного завода выпалил, когда его спросили, не хватает ли ему вычислительной мощности.Похоже, это стало нерешенной проблемой, признанной индустрией, цена NVIDIA A100 на пике спекулировала до 200 000 юаней, а ежемесячная стоимость аренды одного сервера A100 также взлетела до 50 000-70 000 / месяц. Но даже в этом случае высокая цена все еще может не позволить получить чип, а некоторые поставщики вычислительной мощности также столкнулись со странными проблемами, с которыми трудно столкнуться раньше, такими как пропуск заявок поставщиков.Чжоу Лицзюнь, руководитель индустрии облачных вычислений, сказал то же самое: «Существует нехватка вычислительных мощностей. У нас есть много клиентов, которым нужны высокопроизводительные графические процессоры, но они пока не могут полностью удовлетворить потребности широкого рынка. "![](https://appserversrc.8btc.cn/Fg9bHJifvdE3KlrsFulrJlWnOap_) *Высокопроизводительный вычислительный кластер поставщика облачных услуг с интерфейсом A100 распродан*Получается, что нехватка высокопроизводительных графических процессоров в отрасли не решена в краткосрочной перспективе. С появлением больших моделей спрос на вычислительные мощности на рынке быстро вырос, но темпы роста предложения далеко не поспевают. Хотя в долгосрочной перспективе предложение вычислительных мощностей однозначно поступит на рынок покупателя с рынка продавца, неизвестно, сколько времени займет это время.Каждая компания подсчитывает, сколько «товаров» (графических процессоров NVIDIA) у нее в руках, и даже использует это для оценки доли рынка. Например, если у вас на руках около 10 000 карт, а на рынке всего 100 000 карт, доля составляет 10%. «К концу года их будет около 40 000, а если рынок будет 200 000, то, вероятно, это будет 20 процентов рынка». Люди, знакомые с этим вопросом, приводили примеры.С одной стороны, карту не купишь, с другой стороны, порог для обучения больших моделей не так просто «начать», как это выпекает индустрия. Как уже было сказано выше, стоимость обучения метеорологической модели Bikaifeng Pangea может превышать 2 миллиона. Однако следует отметить, что метеорологическая модель Бикайфэн Паньгу является вертикальной большой моделью, обученной на основе общей большой модели Паньгу, и ее параметры составляют сотни миллионов. Если вы хотите обучить большую модель общего назначения с параметрами масштаба миллиард или больше, стоимость может быть в десять или сто раз выше.«В настоящее время самый большой масштаб инвестиций приходится на обучение, и без миллиардных капиталовложений трудно продолжать делать большую модель». Цю Юэпэн (Qiu Yuepeng), вице-президент Tencent Group, главный операционный директор бизнес-группы Cloud and Smart Industry и президент Tencent Cloud, рассказал об этом.«Бегите быстро, по крайней мере, до тех пор, пока не закончатся деньги, чтобы получить следующий раунд «финансирования». Один предприниматель так охарактеризовал нынешнюю большую модель «военной ситуации»: «Эта дорога тупиковаяЕсли у вас за спиной нет десятков миллиардов долларов, вам будет трудно уйти. "В этой ситуации в отрасли распространено мнение, что с конкуренцией на крупном модельном рынке рынок также изменится от фанатичного к рациональному, а предприятия также будут контролировать затраты и корректировать стратегии с учетом ожидаемых изменений.  ## **Неразрешимый положительный ответ**  Если условий нет, надо создавать условия – это, похоже, менталитет большинства участников большой модели. А как создать условия для решения реальных проблем, у каждой компании тоже есть множество методов.Из-за нехватки высокопроизводительных GPU-чипов, а также доступного на китайском рынке графического процессора не последнего поколения, производительность обычно ниже, поэтому предприятиям требуется больше времени для обучения больших моделей. Эти компании также ищут инновационные способы восполнить нехватку вычислительных мощностей.Одним из способов сделать это является использование более качественных данных для обучения, что делает обучение более эффективным.Недавно Академия информационно-коммуникационных технологий (CAICT) взяла на себя инициативу по выпуску «Исследовательского отчета по отраслевым стандартным системам больших моделей и архитектуре емкости», в котором упоминается оценка уровня данных больших моделей. В докладе высказывается предположение, что с точки зрения качества данных, поскольку оно будет иметь большое влияние на эффект модели, рекомендуется ввести ручную маркировку и подтверждение, а также отобрать хотя бы определенную долю исходных данных для маркировки, чтобы конструировать и действительно качественные наборы данных.Помимо снижения стоимости больших моделей за счет высококачественных данных, для отрасли, улучшения возможностей инфраструктуры и достижения стабильной работы более 100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000«Как поставщик облачных услуг, мы помогаем клиентам создавать стабильную и надежную инфраструктуру. Поскольку стабильность серверной платы GPU будет низкой, любой сбой прервет обучение, что приведет к увеличению общего времени обучения. Кластеры высокопроизводительных вычислений могут предоставлять клиентам более стабильные услуги, сокращать время обучения и решать некоторые проблемы с вычислительной мощностью. — сказал Чжоу Лицзюнь.В то же время планирование ресурсов карты вычислительной мощности также проверяет технические возможности поставщика услуг. Сюй Вэй (Xu Wei), глава East China Internet Solutions компании Volcano Engine, рассказал Titanium Media, что наличие ресурсов карты вычислительной мощности — это только один из аспектов, а то, как запланировать ресурсы карты и действительно использовать их, является более проверенной основной способностью и инженерными способностями. «Разделение карты на множество маленьких карт и попытка добиться распределенного и точного планирования может еще больше снизить стоимость вычислительной мощности». — сказал Сюй Вэй.Сеть также влияет на скорость и эффективность обучения больших моделей. Обучение больших моделей часто составляет тысячи карт, при подключении сотен серверов GPU требуется скорость сети, чрезвычайно высокая, если сеть немного перегружена, скорость обучения будет очень медленной, на эффективность это сильно влияет. «До тех пор, пока один сервер перегреется и выйдет из строя, весь кластер, возможно, придется остановить, а задачи по обучению придется перезапустить. Для этого требуются очень высокие требования к возможностям эксплуатации и технического обслуживания облачных сервисов, а также к возможностям устранения неполадок. — сказал Цю Юэпэн.Некоторые вендоры нашли другой путь, и переход от архитектуры облачных вычислений к архитектуре суперкомпьютеров также стал способом снижения затрат, то есть в случае удовлетворения потребностей пользователей, задач невысокопроизводительных вычислений и сценариев параллельных задач, суперкомпьютерное облако стоит примерно в два раза дешевле облачного суперкомпьютера, а затем за счет оптимизации производительности использование ресурсов может быть увеличено с 30% до 60%.Кроме того, некоторые производители предпочитают использовать отечественные платформы для обучения и аргументации больших моделей на замену NVIDIA, которую сложно найти с картой. «Мы совместно с Huawei выпустили универсальную машину iFLYTEK Spark, которая очень примечательна тем, что может проводить обучение и рассуждать на отечественной платформе. Мне особенно приятно сообщить вам, что возможности графических процессоров Huawei теперь такие же, как у NVIDIA, и Жэнь Чжэнфэй придает этому большое значение, а три директора Huawei работали в специальном классе iFLYTEK и теперь сделали его сопоставимым с NVIDIA A100. Лю Цинфэн, основатель и председатель iFLYTEK, сказал однажды.Каждый из вышеперечисленных методов является относительно крупным проектом, поэтому обычным предприятиям сложно встретиться с помощью самостоятельно построенных центров обработки данных, и многие команды алгоритмов выбирают для поддержки наиболее профессиональных производителей вычислительных мощностей. Среди них параллельное хранение также является большой затратой, а технические возможности, соответствующие гарантии частоты отказов и т. д. также являются частью стоимости оборудования. Конечно, даже учитывайте затраты на электроэнергию в зоне доступности IDC, эксплуатационные расходы, такие как программное обеспечение, платформу и расходы на персонал.Только кластер графических процессоров на уровне килокард будет иметь эффект масштаба, а выбор поставщика услуг вычислительной мощности равносилен утверждению, что предельные издержки равны нулю.Сунь Нинхуэй, академик Китайской инженерной академии и научный сотрудник Института вычислительных технологий Китайской академии наук, также предположил в своем выступлении, что AIGC вызвала всплеск индустрии искусственного интеллекта, а широкомасштабное применение интеллектуальных технологий имеет типичную проблему long-tail, то есть сильные ведомства с мощными возможностями ИИ (сетевая безопасность, девять институтов девятой академии и метеорологические бюро и т.д.), научно-исследовательские институты и крупные и средние предприятия составляют лишь около 20% основного объема спроса на вычислительные мощности, а остальные 80% составляют малые и средние предприятия. Или ограниченный высокой ценой вычислительных мощностей, трудно получить дивиденды развития на волне эры ИИ.Поэтому для того, чтобы реализовать широкомасштабное применение интеллектуальных технологий, индустрии искусственного интеллекта как «аплодируют», так и «аплодируют», и необходимо большое количество дешевых и простых в использовании интеллектуальных вычислительных мощностей, чтобы малые, средние и микропредприятия также могли удобно и дешево использовать вычислительные мощности.Будь то насущная потребность в вычислительной мощности больших моделей или различные проблемы, которые необходимо решить в процессе применения вычислительных мощностей, новое изменение, на которое необходимо обратить внимание, заключается в том, что вычислительная мощность стала новой моделью обслуживания в процессе рыночного спроса и итерации технологий.  ## **Исследуйте новую модель службы вычислительных мощностей**  Какова вычислительная мощность большой модели, которую мы захватываем? Чтобы ответить на этот вопрос, нам нужно начать со службы вычислительных мощностей.С точки зрения типов, вычислительная мощность делится на общую вычислительную мощность, интеллектуальную вычислительную мощность и суперкомпьютерную мощность, и эти вычислительные мощности стали услугой, что является результатом двойного движения рынка и технологии.Определение услуги вычислительной мощности в «Белой книге по вычислительной мощности 2023 года» (далее – «Белая книга») – это новая область вычислительной энергетики, основанная на диверсифицированных вычислительных мощностях, связанных сетью вычислительных мощностей, и направленная на обеспечение эффективной вычислительной мощности.Суть сервиса вычислительных мощностей заключается в достижении унифицированного вывода гетерогенных вычислительных мощностей с помощью новых вычислительных технологий и перекрестной интеграции с облаком, большими данными, искусственным интеллектом и другими технологиями. В сервисе вычислительной мощности есть не только вычислительная мощность, но и унифицированная инкапсуляция вычислительных мощностей, хранилищ, сетевых и других ресурсов, а предоставление вычислительной мощности осуществляется в виде сервисов (таких как API).Понимая это, вы обнаружите, что при захвате чипов NVIDIA большая часть из них являются поставщиками услуг вычислительной мощности, то есть производителями вычислительной мощности. Отраслевым пользователям, которые фактически вызывают API вычислительной мощности на внешнем интерфейсе, нужно только выдвинуть соответствующие требования к вычислительной мощности.Согласно Titanium Media App, с точки зрения программного обеспечения, вся большая модель, используемая при взаимодействии программного обеспечения, делится на три типа: первый вызов API большой модели, каждое семейство имеет предложение, в соответствии с расчетом цены; Во-вторых, владеть небольшой моделью, самостоятельно приобрести вычислительную мощность или даже развернуть ее самостоятельно; В-третьих, крупные вендоры моделей сотрудничают с облачными вендорами, то есть выделенными облаками, и платят ежемесячно. «Как правило, это три, Kingsoft Office в настоящее время в основном использует вызовы API, а внутренняя небольшая модель создала свою собственную платформу планирования вычислительных мощностей». Яо Донг, вице-президент Kingsoft Office, сказал Titanium Media App.![](https://appserversrc.8btc.cn/FnjR8ARycfmwdqVbGSI1dFjCBI51) Диаграмма структуры отраслевой цепочки хешрейта, источник: Китайская академия информационных и коммуникационных технологийДругими словами, в отраслевой цепочке структуры вычислительной мощности предприятия, занимающиеся разведкой и добычей, в основном осуществляют поставку вспомогательных ресурсов для услуг вычислительной мощности, таких как общая вычислительная мощность, интеллектуальная вычислительная мощность, суперкомпьютерная мощность, хранение данных и сеть. Например, в битве за вычислительные мощности больших моделей NVIDIA принадлежит к поставщикам основных ресурсов вычислительных мощностей для отрасли по поставке чипов, а на рост акций производителей серверов, таких как Inspur Information, также влияет рыночный спрос.Предприятия среднего звена в основном являются поставщиками облачных услуг и новых поставщиков услуг вычислительной мощности, и их роль в основном заключается в реализации производства вычислительной мощности с помощью оркестровки вычислительных мощностей, планирования вычислительных мощностей и технологии торговли вычислительными мощностями, а также в завершении поставки вычислительной мощности через API. Вышеупомянутые поставщики услуг вычислительной мощности, Tencent Cloud и Volcano Engine, находятся по этой ссылке. Чем сильнее сервис-ориентированная способность вычислительных мощностей обслуживать предприятия среднего звена, тем ниже порог для прикладной части и тем больше способствует инклюзивному и повсеместному развитию вычислительных мощностей.Перерабатывающие предприятия полагаются на вычислительные мощности, предоставляемые услугами вычислительной мощности, для создания и производства услуг с добавленной стоимостью, таких как отраслевые пользователи. Этой части пользователя нужно только выдвинуть требование, а производитель вычислительной мощности настраивает соответствующую вычислительную мощность в соответствии со спросом для выполнения «задачи вычислительной мощности», выданной пользователем.Это дает больше финансовых и технических преимуществ, чем первоначальная покупка серверов для создания вычислительной среды большой модели. Обучение Би Кайфэна метеорологической большой модели Pangu должно напрямую вызывать нижележащий уровень модели Pangu, то есть высокопроизводительный вычислительный сервис HUAWEI CLOUD, так будет ли отличаться процесс использования вычислительной мощности или оплаты вычислительной мощности другими крупными модельными предприятиями?  ## **Итерация бизнес-модели вычислительной мощности**  ChatGLM - это первая партия общих больших моделей, запущенных в качестве примера, используя вычислительную мощность ChatGLM Zhipu AI, согласно информации, которая была публично раскрыта, ChatGLM AI использует ряд основных поставщиков услуг вычислительной мощности ИИ в Китае. «По идее, все должно быть полезно». Люди, знакомые с этим вопросом, сообщили, что это также может включать в себя основных отечественных поставщиков услуг вычислительной мощности / поставщиков облачных услуг.Выставление счетов с оплатой по мере использования и ежемесячное выставление счетов являются основными режимами текущей службы вычислительной мощности, и существует примерно два типа требований к использованию, один из которых заключается в выборе соответствующего экземпляра службы вычислительной мощности, а в интерфейсе официального веб-сайта поставщика облачных услуг он может предоставить высокопроизводительные серверы GPU, оснащенные тремя основными видеокартами NVIDIA A800, A100, V100.![](https://appserversrc.8btc.cn/FjyuAMtiFpB6-NSl4kxNzIrgQiAy) *Типы видеокарт с графическими процессорами для высокопроизводительных вычислений, предоставляемые поставщиком вычислительных услуг*Другой способ заключается в том, чтобы выбрать соответствующую сервисную платформу MaaS и выполнить тонкую настройку большой модели на платформе MaaS. Если взять в качестве примера цену публикации платформы Tencent Cloud TI-ONE с оплатой по факту использования, то конфигурация 8C40G V100\*1 составляет 20,32 юаня в час, что может быть использовано для автоматического обучения-зрения, моделирования на основе задач, блокнотного и визуального моделирования.В настоящее время отрасль также продвигает «интеграцию вычислений и сети» служб вычислительных мощностей, и благодаря всесторонней оценке вычислительных задач, состояния вычислительных сетевых ресурсов и другой информации формируется схема оркестровки вычислительной сети, которая может поддерживать планирование между архитектурами, регионами и поставщиками услуг, и завершается развертывание соответствующих ресурсов. Например, если вы накопите определенную сумму денег и внесете ее в сеть вычислительной мощности, разделы в сети вычислительной мощности могут быть вызваны по желаниюВ соответствии с характеристиками приложения выберите наиболее подходящий раздел, самый быстрый раздел и самый экономичный раздел, а затем взимайте плату в соответствии с продолжительностью и вычтите комиссию из предварительно внесенных средств.То же самое относится и к поставщикам облачных услуг, как уникальному продукту облачных сервисов, позволяющему им быстро участвовать в цепочке вычислительной мощности.Согласно данным Министерства промышленности и информационных технологий, общий масштаб вычислительных мощностей Китая достигнет 180 ЭФЛОПС в 2022 году, заняв второе место в мире. По состоянию на 2022 год масштабы вычислительной мощности Китая достигли 1,8 трлн. Вычислительные мощности больших моделей значительно ускорили развитие вычислительной энергетики.Одна из них заключается в том, что нынешняя служба вычислительных мощностей на самом деле является новым типом модели «продажи электроэнергии». Тем не менее, в соответствии с различным разделением труда, некоторым поставщикам вычислительных услуг может потребоваться помощь пользователям в отладке производительности системы, установке программного обеспечения, крупномасштабных рабочих обязанностях и анализе эксплуатационных характеристик, то есть в рамках работ по эксплуатации и техническому обслуживанию «последней мили».С нормализацией спроса на высокопроизводительные вычисления больших моделей сервисы вычислительных мощностей, которые родились из облачных сервисов, быстро вошли в поле зрения общественности, сформировав уникальную промышленную цепочку и бизнес-модель. Просто в начале вспышки вычислительной энергетики из-за больших моделей, дефицит высокопроизводительных графических процессоров, дороговизна вычислительных мощностей и захват «ядер» сформировали уникальный ландшафт, принадлежащий этой эпохе.«На данном этапе объем зависит от того, кто может получить карту в цепочке поставок, NVIDIA в настоящее время является королем всей отрасли, и все рынки контролируются ею, что является статус-кво». Люди, знакомые с этим вопросом, прокомментировали. Это похоже на то, как если бы тот, кто получит карту, мог бы обеспечить бизнес, когда спрос превышает предложение.Но не все хватаются за «карту», ведь дефицит временный, и проблема всегда будет решена. «Человек, который проводит долгосрочные исследования, на самом деле не берется за это, просто ждет, потому что он не умретВ настоящее время есть только группа стартапов, которые хватаются за карты, и они хотят быть уверенными, что смогут дожить до следующего года. — сказал человек.Во многих условиях неопределенности существует определенная тенденция к тому, чтобы вычислительные мощности превращались в услугу, и поставщики услуг вычислительной мощности должны быть готовы принять меры предосторожности, когда большая модель вернется к рациональности, а рыночный ветер быстро изменится.Примечание: По просьбе интервьюируемого Чжоу Лицзюнь является псевдонимом.**(Эта статья впервые опубликована в приложении Titanium Media) **