Движение «похудения стоимости» больших моделей

2023-11-03 02:38:15

Первоисточник: Полярное тело мозга

Источник изображения: Generated by Unbounded AI

При больших данных, больших параметрах и больших вычислительных мощностях будут «всплывать» определенные возможности больших моделей, что широко распространено в технологических кругах.

Основная идея создания большой модели заключается в том, чтобы не говорить, что модель «не работает», если «она еще не работает», то сделайте ее больше.

Поэтому менее чем за год масштаб параметров большой модели увеличился в 100 раз, и сейчас он превысил триллионный уровень, потребление ресурсов огромно, а также это приносило все более высокие и более высокие затраты на хранение, затраты на инференс, затраты на эксплуатацию и обслуживание, затраты на посадку. и социальные издержки.

В настоящее время большая модель все еще находится на заре коммерциализации, и все еще есть много неизвестных и неопределенностей относительно того, как вернуть инвестиции в большую модель, а большая модель становится все больше и стала чрезвычайно прибыльным бизнесом, поддерживаемым открытым искусственным интеллектом Microsoft, который потеряет около 540 миллионов долларов в 2022 году.

Постоянно растущая стоимость – это вексель реальных денег и «соломинка», которая давит на крупные образцовые предприятия. Генеральный директор Anthropic, Дарио Амодей, недавно предсказал, что их модель будет стоить 10 миллиардов долларов в течение следующих двух лет.

Помимо самих предприятий, общество также несет скрытые издержки больших моделей. Компания Google сообщила, что обучение PaLM потребляет около 3,4 кВтч электроэнергии примерно за два месяца, что эквивалентно общему годовому потреблению энергии 300 домохозяйствами. Бремя и издержки высокого энергопотребления для окружающей среды, вызванные большой моделью, в конечном итоге оплачиваются всем обществом.

Очевидно, что как с коммерческой, так и с экологической точки зрения размер модели конкуренции является неустойчивым.

Эпоха слепого стремления к величию прошла.

Вопрос в том, как «снизить нагрузку» на большую модель?

На самом деле, головные производители общих больших моделей активно проводят кампанию по «похудению».

Например, Microsoft объявила на Microsoft Build 2020, что суперкомпьютер с искусственным интеллектом, на котором работает GPT-3, может сделать модели ИИ в 16 раз эффективнее, чем другие платформы, а более быстрое обучение может сократить время и затраты на риски.

Отечественные крупногабаритные модели не являются исключением.

Уже в версии 2.0 в большой модели Pangu была предпринята попытка внедрить разреженную + плотную архитектуру, чтобы снизить затраты на обучение. Через месяц после запуска Вэньсинь Иянь также улучшил производительность логического вывода большой модели почти в 10 раз с помощью технических средств, и стоимость логического вывода была снижена до одной десятой от первоначальной стоимости.

Чтобы избежать раздутости и тяжести, крайне важно стать инструментом, которым сможет пользоваться каждый, и «движение за похудение» больших моделей. Как? Об этом и пойдет речь в данной статье.

Один укус не может сделать толстяка

Какие затраты на большие модели можно оптимизировать, какие затраты нельзя снижать, а какие затраты необходимо дополнительно инвестировать? Прежде чем вы разберетесь в этом, вы сначала должны знать, как растолстеть. Для того, чтобы обеспечить производительность и удобство использования (работоспособность) большой модели, «снижение затрат» может быть осуществлено разумно и точно.

Проще говоря, три элемента ИИ — данные, вычислительные мощности и алгоритмы — по-прежнему являются наиболее важными факторами при определении стоимости больших моделей.

Начнем с данных. ** Мусор на входе, мусор на выходе, по-прежнему применим в эпоху больших моделей.

Качество данных напрямую определяет возможности большой модели. OpenAI наняла ряд докторов наук для обработки профессиональных данных в различных отраслях, а также наняла ряд компаний, занимающихся аннотированием данных, таких как компания-единорог Scale AI, чтобы снабжать GPT-3 крупномасштабными наборами данных. В то же время модель алгоритма будет продолжать итеративно обновляться, а потребность в объеме данных будет сохраняться в течение короткого времени с увеличением использования и оптимизацией производительности.

Одна из основных причин высокой стоимости больших китайских моделей заключается в том, что по-прежнему существует разрыв между объемом и качеством китайских и английских данных, и для обучения китайских больших моделей необходимо собирать и обрабатывать больше данных на китайском языке. С другой стороны, грамматическая структура английского языка проще, чем в китайском, сложность и разнообразие китайских текстов, некоторые китайские слова могут выражать множество значений, богатый контекст, а также множество двусмысленностей и трудностей в понимании контекста, что также увеличивает сложность обучения китайских моделей и требует дополнительных ресурсов для поддержки обучения китайских больших моделей.

Поговорим о вычислительных мощностях. **

Ресурсы должны вычисляться и храниться на протяжении всего процесса обучения, эксплуатации, обслуживания и итерации больших моделей.

Обучение больших моделей ориентировано на «буйную эстетику», и чем больше параметры, тем больше вычислительных ресурсов используется для обучения. GPT-3 использует суперкомпьютер, который содержит 10 000 графических процессоров и 285 000 процессорных ядер. Отечественный Wenxin 4.0 также тренируется в кластере Vanka на базе гребной платформы.

И это еще не все. Большие модели становятся доступными для служб после развертывания, и по мере увеличения использования необходимо выполнять все больше и больше задач вывода. Процесс мышления «мышления» и «вывода» в течение 24 часов также будет продолжать потреблять вычислительные ресурсы, точно так же, как человеческому мозгу необходимо потреблять гликоген при решении большого количества сложных задач, и легко почувствовать голод и необходимость съесть большую порцию пищи, чтобы восполнить энергию. Поэтому стоимость логического вывода больших моделей также очень высока.

Вывод GPT-3 после развертывания 175B требует, по крайней мере, пяти графических процессоров A100, а большие модели, которые открыты для всего общества в Китае, такие как Wenxin Yiyan, как говорят, имеют в 8-10 раз большую стоимость логического вывода, чем предыдущее поколение.

Наконец, поговорим об алгоритме. **

Чтобы уменьшить огромную зависимость больших моделей от вычислительных ресурсов, основным решением является оптимизация модели на основе неизменной производительности с более высокой скоростью вывода, меньшей задержкой и меньшими требованиями к ресурсам, что эквивалентно более высокому коэффициенту окупаемости инвестиций и выходу, а стоимость единицы вычислительных ресурсов, необходимых для обучения и вывода, ниже.

Труда столько, сколько интеллекта, и невозможно сделать большую модель, на которую действительно можно играть без талантов. Разработка, тестирование, итерация, продуктизация алгоритмов и т. д. — все это требует большого количества технических талантов. Будут ли затраты на рабочую силу высокими или нет, зависит от того, является ли бизнес-модель большой модели надежной.

Команда талантов с полной академической квалификацией вполне конкурентоспособна на этапе исследований и разработок. Вопрос в том, как заработать деньги? вызовы API или плата за использование, токен стоит менее одного цента, а окупаемость инвестиций может быть далекой; Платная подписка (профессиональная версия), головная большая модель имеет эффект сифона, все выберут OpenAI или BATH и других крупных производителей, смогут ли их собственная большая модель быть приняты пользователями и готовы ли платить, неизвестно; Чтобы настроить разработку под отраслевых заказчиков, ToB должен обладать глубоким пониманием отрасли, исследований, разработок, тестирования и итераций, чтобы инженеры-алгоритмы с годовой зарплатой в десятки миллионов могли оставаться на строительной площадке в течение нескольких месяцев, а валовая прибыль проекта оценивается как не очень хорошая.

Таким образом, успех большой модели зависит не только от возможностей самого алгоритма, но и от того, является ли бизнес-цикл от разработки до внедрения устойчивым.

Закрой рот и раздвинь ноги

Если сравнивать стоимость большой модели с человеком, который хочет сбросить лишний жир, то эту цель можно разбить на два основных способа:

Один из них заключается в создании «тепловой разницы». Она заключается в том, чтобы держать рот на замке и раздвинуть ноги, контролировать инвестиции, вычитать лишние затраты, ускорить коммерциализацию и увеличить доходы, а также естественно похудеть.

Во-вторых, стать «легко похудеть». Полностью понимать механизм больших моделей, использовать новую архитектуру для решения проблемы механизма внимания Трансформера и иметь телосложение «как бы вы ни ели, вы не можете потолстеть».

Не правда ли, второй вариант звучит очень заманчиво?

Не нужно контролировать расходы, привлекать пользователей, настраивать сервисы и легко ложиться, чтобы заработать деньги, и такое хорошее дело? Правдиво.

В настоящее время все большие языковые модели используют архитектуру Transformer, которая затрудняет обработку длинных текстов и изображений с высоким разрешением, а логические рассуждения и индукция знаний полагаются на «энергичное творение чудес», что обходится дорого. Многие из основных принципов до сих пор неясны, что приводит ко многим существующим проблемам, таким как генерация «галлюцинаций» и ограниченная способность к рассуждению.

Лауреат премии Тьюринга Ян Лекун не раз критиковал техническую парадигму больших языковых моделей, заявляя, что «магистры права имеют очень поверхностное понимание мира», и он хочет построить «модель мира», чтобы узнать, как устроен мир, затем сформировать внутреннюю модель, а затем использовать эту внутреннюю модель для выполнения различных задач. Кроме того, есть много ученых, которые обсуждают общий интеллект AGI из своих соответствующих областей исследований.

Подводя итог, можно сказать, что многие принципы современных больших языковых моделей неясны, а технология все еще меняется. В будущем могут появиться другие технологические парадигмы, которые подорвут нынешнюю модель слепого стремления быть больше, и тогда отпадет необходимость в чрезмерных затратах и болезненном «похудении».

Возможно, вы уже поняли, что исследование основополагающих принципов и поиск более мощной технологии AGI звучит круто, но на самом деле это не подсчет, и пока нет четких сроков. Техническая парадигма этого раунда больших языковых моделей осуществима в инженерной практике, может работать в промышленности и имеет явный эффект повышения качества и эффективности. Использование его в первую очередь и понимание настоящего является главным приоритетом для технологических компаний.

Поэтому крупным образцовым предприятиям остается только держать рот на замке, раздвигать ноги, как можно скорее контролировать затраты, ускорять коммерциализацию и создавать «тепловую разницу» для доброкачественного и устойчивого развития.

Движение «Четыре модернизации» для создания «разницы в калориях»

Итак, как именно создать «тепловую разницу»? ** Основываясь на основных методах, представленных в настоящее время на рынке, мы обобщаем их как «Движение четырех модернизаций»: масштаб данных, сжатие модели, эффективность вычислений и стратификация бизнеса. **

Масштабирование данных предназначено для улучшения предельной выгоды данных и получения наилучшей экономической эффективности за счет эффекта масштабирования. Эффект масштаба в основном достигается тремя путями, один из которых – это масштаб промышленной концентрации, а на национальном уровне четко предложено «ускорить культивирование рынка элементов данных», включая производство, сбор, хранение, обработку, анализ, обслуживание и другие звенья, индустриализация поможет снизить стоимость данных крупных модельных предприятий. Во-вторых, это применение инструментов ИИ, которое сокращает ручное участие во всех аспектах инженерии данных, ускоряет обработку предварительно обученных данных, а также снижает затраты и повышает эффективность обучения моделей. В-третьих, масштаб данных обратной связи. Ожидается, что некоторые крупные модели, которые ранее открыли свои услуги для всего общества, такие как Baidu Wenxin Yiyan, «SenseChat» от SenseTime, «Baichuan Model» от Baichuan Intelligence, «Spark Model» от iFLYTEK и т. д., как ожидается, быстрее достигнут оптимального масштаба данных с маржинальными преимуществами.

Данные имеют незначительную выгоду. OpenAl уже позволяет пользователям решать, разрешать ли им использовать данные чата для обучения, а это означает, что они больше не могут полагаться на данные отзывов пользователей, поэтому затраты на хранение и вычисления данных можно контролировать.

Сжатие модели предназначено для повышения производительности модели, достижения более высокой производительности с меньшими ресурсами и преобразования ресурсоемкой большой модели в более компактную и эффективную версию с помощью технологии сжатия. Подобно превращению жира в мышцы, мышцы становятся плотнее, а вес (производительность) остается прежним, в то время как человек становится тоньше (меньше).

В настоящее время существует три распространенных метода сжатия больших моделей: количественная оценка, обрезка и дистилляция знаний. **

Количественная оценка, эквивалентная липосакции, проста и груба, но эффективна. Чем выше точность модели, тем больше места требуется для хранения. Однако при инференсе нет необходимости фиксировать очень малые изменения градиента в сложных моделях, поэтому квантование может напрямую снизить точность параметров модели и «извлечь» некоторую детальную информацию, тем самым уменьшая занимаемое пространство и не уменьшая возможность вывода. Например, Qualcomm AI Research использует технологию квантования для поддержания точности модели на более низком уровне точности и впервые развернула Stable Diffusion на смартфонах Android. Количественная технология также была применена в отечественных больших моделях, таких как Wenxin и Pangu.

Обрезка, аналогичная «иссечению», напрямую вычитает некоторые боковые ветви, которые мало влияют на эффект, такие как большое количество избыточных структур и нейронов, и эти меньшие веса удаляются, что мало влияет на эффект модели и уменьшает размер модели. Конечно, обрезка — это «ремесленная работа», и чем точнее обрезка, тем меньше потеря точности модели и тем лучше эффект сжатия.

Дистилляция знаний заключается в том, чтобы позволить большой модели «сауна», а модель 100 миллиардов дистиллируется за один проход, чтобы произвести несколько небольших моделей с аналогичными характеристиками и более простой структурой, а стоимость посадки ниже. Сложность заключается в том, что дистилляция модели масштабом 100 миллиардов также потребляет чрезвычайно высокие вычислительные ресурсы, а разрыв в объеме данных от 100 миллиардов до десятков миллионов слишком велик, что легко влияет на эффект дистилляции. Неразрушающая дистилляция является одним из технических пунктов конкуренции крупных производителей.

Поскольку технология сжатия моделей также потребляет вычислительные ресурсы, особенно важно повысить вычислительную эффективность вычислительной инфраструктуры.

Эффективность вычислений является предпосылкой для крупных производителей моделей, чтобы предоставлять услуги моделей с более высокой эффективностью.

Производительность чипов и вычислительных кластеров находится в центре внимания исследований и оптимизации. Microsoft Cloud Azure создала суперкомпьютер для вычислений на основе искусственного интеллекта специально для OpenAI. Отечественные производители, такие как Baidu и Huawei, имеют чипы собственной разработки и фреймворки глубокого обучения, которые могут повысить эффективность вычислений за счет сквозной оптимизации, повысить скорость обучения и скорость вывода больших моделей, а также сократить время и затраты на обучение.

Однако для необщих больших моделей, таких как отраслевые модели и отраслевые модели, эффект масштаба и технология оптимизации оборудования ограничены, а затраты на самостоятельное создание и обслуживание инфраструктуры очень высоки, поэтому использование облачных сервисов для обучения и развертывания сервисов является более экономичным выбором.

В конечном счете, большие модели должны увеличивать коммерческий доход для достижения цели оптимизации окупаемости инвестиций и возмещения затрат. В настоящее время коммерциализация различных крупных моделей отражает очевидные иерархические характеристики.

Проще говоря, это большая модель с разными объемами, разными функциями и разными направлениями, и путь коммерциализации начал проясняться.

Общая модель основана на эффекте масштаба и рынках с высокой добавленной стоимостью. OpenAI имеет огромное количество пользователей, а развитие экономики API имеет эффект масштаба, а первоначальные инвестиции могут быть разделены наравне с ростом объема бизнеса. BATH (Baidu, Alibaba, Tencent, Huawei) и другие имеют собственный облачный бизнес и накопили богатый опыт в сфере отраслевых услуг, особенно возможностей охвата клиентов крупных правительств и предприятий, таких как финансы, горнодобывающая промышленность и правительственные отношения, и имеют большой потенциал для коммерческой трансформации. Высокие требования заказчиков ToB способствуют улучшению опыта и эффекта модели, а также могут обслуживать рынок ToC и дополнительно амортизировать затраты за счет масштабирования.

Крупная отраслевая модель активно ограничивает границы продукта и бизнеса, фокусируется на основном бизнесе и функциях, а также разрабатывает специализированные небольшие модели с меньшими ресурсами, чтобы достичь хорошего баланса ROI между инвестициями и коммерциализацией. Например, в финансовой сфере «Xuanyuan 70B» Ду Сяомана включил в себя большое количество профессиональных финансовых корпусов для улучшения понимания финансовых знаний, удовлетворения особых требований финансовых клиентов с точки зрения контролируемости и безопасности, и был опробован сотнями финансовых учреждений.

В целом, большая модель — это не только универсальная и обобщенная дорога, но и приватизация и персонализированное развертывание тысяч отраслей, которые приведут к таким факторам принятия решений, как цена, конфиденциальность и безопасность, а также принесут большое количество возможностей для сегментации бизнеса. Общая большая модель, отраслевая большая модель и проприетарная малая модель, иерархическая + совместные усилия открывают дорогу к коммерциализации. Гармония и различия проверяют на прочность каждую роль в производственной цепочке.

Для долгосрочных и устойчивых услуг необходимо держать рот на замке и разжимать ноги, и «снижение стоимости» большой модели — единственный выход.

Этот процесс может быть болезненным, но он сплотит ров, чтобы защитить здоровое развитие всей отрасли.

В 40-х годах 20 века, когда компьютеры только рождались, люди поражались огромному корпусу этого «машинного монстра», но затем начался скачок информационной эпохи. Когда смартфоны только появились, производители обычных телефонов относились к этому крайне саркастично, но они не ожидали, что такое инклюзивное подключение, при котором каждый может получить доступ к Интернету, будет способствовать процветанию мобильного Интернета.

По мере того, как большие модели становятся все лучше и ниже, «ИИ для всех» больше не будет далекой мечтой.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
#Gate & WLFI USD1 Points Program
2767 Популярность
#Show My Alpha Points
61537 Популярность
#ETH Whales Accumulate
8667 Популярность
#SOL Futures Reach New High
22021 Популярность
#ETH ETF Sees 12 Weeks of Inflows
6341 Популярность

Закрепить

Карта сайта