Большую часть года бушевал большой модельный шторм, и рынок AIGC снова начал меняться:
На смену крутым техническим демонстрациям приходит полноценный опыт работы с продуктом. **
Например, новейшая модель рисования с искусственным интеллектом от OpenAI DALL· Как только E 3 дебютировал, он объединил усилия с ChatGPT, чтобы стать самым ожидаемым новым инструментом повышения производительности в ChatGPT Plus.
** **###### △ДАЛЛ· E3 точно воспроизводит каждую деталь ввода текста
Например, Copilot от Microsoft на базе GPT-4 полностью обосновался в Windows 11, официально заменив Cortana в качестве нового поколения ИИ-помощников в операционной системе.
** **###### △ Используйте Copilot для краткого обзора записей блога в один клик
Для другого примера, отечественные автомобили, такие как Jiyue 01, имеют официально оборудованные большие модели в кабине, и они полностью автономны...
Если в марте 2023 года «большие модели меняют все» было всего лишь оптимистичным прогнозом пионеров технологий, то сегодня все еще ожесточенная война 100 моделей и прогресс в практическом применении сделали эту точку зрения все более и более резонансной внутри и за пределами отрасли.
Другими словами, от всего метода производства через Интернет до интеллектуальной кабины в каждом автомобиле наступает эра самоинноваций с большими моделями в качестве технической базы и движущей силой тысяч отраслей промышленности.
В соответствии с методом именования паровой и электрической эр ее можно назвать «эпохой модульной силы».
В «эпоху Моли» одним из наиболее тревожных сценариев является умный терминал.
Причина проста: индустрия умных терминалов, представленная смартфонами, ПК, умными автомобилями и даже XR-устройствами, является одной из технологических отраслей, наиболее тесно связанных с жизнью современных людей, и, естественно, стала золотым стандартом для проверки зрелости передовых технологий.
Поэтому, когда первая волна ажиотажа, вызванная технологическим бумом, постепенно утихнет, а якорем станет сценарий «умного терминала», как следует рассматривать и интерпретировать новые возможности и вызовы «эпохи модульной энергетики»?
Теперь пришло время разбить его, размять и вычесать.
Умный терминал, большая модель нового поля битвы
Прежде чем детально разбирать вызовы и возможности, вернемся к главному вопросу: почему генеративный ИИ представлен большими моделями и даже считается «четвертой промышленной революцией»?
В ответ на это явление многие учреждения проводят исследования, чтобы попытаться предсказать или обобщить развитие генеративного ИИ в различных сценариях, таких как «Генеративный ИИ: креативный новый мир» от Sequoia Capital.
Среди них многие ведущие компании отрасли проанализировали сценарии приземления и потенциальные направления изменения генеративного ИИ в конкретных отраслях на основе собственного опыта.
Например, терминальный ИИ представляет игрок Qualcomm, и некоторое время назад выпустил white paper о статусе развития и тенденциях генеративного ИИ «Гибридный ИИ — это будущее ИИ».
Исходя из этого, можно интерпретировать три основные причины, по которым генеративный ИИ популярен в отрасли.
Во-первых, сама технология достаточно жесткая.
Будь то большая модель, возникающая с умом, или картина с искусственным интеллектом, которая генерирует фальшивое качество с фальшивым качеством, все дело в использовании эффектов, чтобы говорить, и это реальная рабочая область, связанная с текстом, изображениями, видео и автоматизацией, демонстрирующая удивительную способность нарушать традиционные рабочие процессы.
Во-вторых, существуют богатые потенциальные сценарии посадки. Прорыв поколений ИИ, принесенный большой моделью, с самого начала дал людям безграничное воображение: самая ранняя группа опытных людей быстро осознала преимущества генеративного ИИ для работы.
Об огромном спросе со стороны пользователей можно судить по темпам роста пользователей репрезентативных приложений, таких как ChatGPT.
** **#### △ChatGPT побил рекорд более 100 миллионов зарегистрированных пользователей популярных приложений, источник Sequoia Capital
От первоначального поиска в Интернете, программирования, офиса, до появления культурного туризма, юриспруденции, медицины, промышленности, транспорта и других приложений, оседлавших ветер генеративного ИИ, гораздо больше, чем компании, которые могут предоставить базовые большие модели, но также процветает и растет большое количество стартапов.
Многие отраслевые эксперты считают, что для предпринимателей прикладной уровень, приносимый большими моделями, имеет большие возможности.
Внизу происходит поколенческий прорыв технологий, а наверху — энергичный взрыв спроса на приложения, и стимулируется экологический эффект.
По прогнозу Bloomberg Intelligence, к 2032 году рынок генеративного ИИ вырастет с $40 млрд до $1,3 трлн**, охватив широкий круг участников экологической цепочки, включая инфраструктуру, базовые модели, инструменты разработчика, прикладные продукты, терминальные продукты и так далее.
Формирование этой экологической цепочки способствовало новым изменениям в отрасли и, как ожидается, приведет к тому, что ИИ станет основным продуктом питания.
Исходя из этого, давайте посмотрим, что происходит в умной индустрии сегодня.
С одной стороны, шторм приложений AIGC, представленный большими моделями, стремительно** перемещается из облака в терминал** в итерационном ритме дней.
ChatGPT - первый, кто обновил мультимодальную функцию «аудиовизуального разговора» на мобильном терминале, и пользователи могут делать фотографии и загружать их, а также они могут общаться с ChatGPT для получения фотоконтента.
Например, «Как отрегулировать высоту велосипедного сиденья»:
** **#### △ и графический диалог GPT-4, дайте 5 предложений за считанные секунды
Qualcomm также быстро реализовала большую модель Stable Diffusion и ControlNet, работающую с более чем миллиардом параметров на стороне терминала, и для генерации высококачественных изображений искусственного интеллекта на мобильных телефонах требуется всего более десятка секунд.
Многие производители мобильных телефонов также объявили о том, что установят «мозг» больших моделей для своих голосовых помощников.
И это касается не только телефонов.
На масштабных выставках в стране и за рубежом, таких как Шанхайский автосалон, Автосалон в Чэнду, Мюнхенский автосалон и т.д., сотрудничество между производителями базовых моделей и автопроизводителей становится все более распространенным явлением, а «сад на машину» больших моделей становится новым конкурентным пунктом в области интеллектуальной кабины.
** **###### △ Одно предложение может заставить модель автомобиля купить ингредиенты в приложении, и вы сможете готовить, когда вернетесь домой
С другой стороны, вспышка ** приложений усугубила ситуацию, когда вычислительных мощностей не хватает. **
Можно предвидеть, что стоимость инференса модели будет увеличиваться с увеличением числа ежедневных активных пользователей и частоты их использования, и полагаться только на мощности облачных вычислений недостаточно для быстрого продвижения масштабов генеративного ИИ.
Это также видно по тому факту, что все слои общества все больше внимания уделяют вычислительной мощности ИИ на стороне терминала.
Например, терминальный ИИ-плеер Qualcomm выпустил новое поколение вычислительной платформы для ПК для повышения производительности чипов ПК, используя процессор Oryon собственной разработки Qualcomm, особенно оснащенный им NPU обеспечит более мощную производительность для генеративного ИИ, который получил название платформы серии Snapdragon X.
Ожидается, что эта новая вычислительная платформа будет представлена на саммите Snapdragon Summit 2023 года.
Очевидно, что как с точки зрения приложения, так и с точки зрения вычислительной мощности, интеллектуальные терминалы стали одним из сценариев с наибольшим потенциалом AIGC.
Риф AIGC под приливом
У вещей часто есть две стороны, как и у больших моделей от быстрой разработки до посадки.
Когда генеративный ИИ взлетел до сегодняшнего дня, появилось настоящее узкое место под огромным потенциалом индустрии интеллектуальных терминалов.
** Одним из самых больших ограничений является самый низкий уровень оборудования. **
Как отметили инвесторы Sequoia Соня Хуанг и Пэт Грейди в своей последней аналитической статье «Второй акт генеративного ИИ», AIGC быстро растет, но ожидаемым узким местом является не потребительский спрос, а вычислительная мощность на стороне предложения.
Вычислительная мощность здесь в основном относится к аппаратным ускорителям ИИ и машинного обучения, которые с точки зрения сценариев развертывания можно разделить на пять категорий:
Системы класса ЦОД, ускорители серверного уровня, ускорители для сценариев вспомогательного вождения и автономного вождения, периферийные вычисления и ускорители со сверхнизким энергопотреблением.
** **###### △5 типов ускорителей ИИ, источник статьи MIT "AI and ML Accelerator Survey and Trends"
С бурным развитием ChatGPT большая модель вытеснила AIGC из круга, в результате чего «** облачные вычислительные мощности**», такие как центры обработки данных и процессоры серверного уровня, получили много внимания в краткосрочной перспективе и даже ситуацию нехватки предложения.
Однако по мере того, как генеративный ИИ вступает во вторую фазу, некоторые вопросы о вычислительной мощности становятся все более и более актуальными.
**Первая и самая большая проблема – это стоимость. ** Как указано в официальном документе Qualcomm «Гибридный ИИ — это будущее ИИ», прошло уже более полугода, по мере того, как большие модели переходят от погони за технологиями к приземлению приложений, базовая модель ** обучения ** каждой компании постепенно устоялась, и большая часть вычислительной мощности упала на ** рассуждения ** больших моделей.
В краткосрочной перспективе затраты на вывод являются приемлемыми, но по мере того, как появляется все больше приложений для больших моделей и все больше и больше сценариев приложений, затраты на вывод на ускорителях, таких как серверы, резко возрастут, что в конечном итоге приведет к тому, что стоимость вызова больших моделей выше, чем обучение самих больших моделей.
Другими словами, после того, как большая модель перейдет во вторую стадию, долгосрочный спрос на вычислительные мощности для логического вывода будет намного выше, чем у одного обучения, и полагаться только на «облачные вычислительные мощности», состоящие из центров обработки данных и процессоров серверного уровня, совершенно недостаточно, чтобы достичь приемлемой для пользователей стоимости.
Согласно статистике Qualcomm в white paper, если взять в качестве примера поисковую систему с большой моделью, стоимость каждого поискового запроса может достигать в 10 раз больше, чем у традиционных методов, а годовая стоимость только в этой области может увеличиться на миллиарды долларов.
Этому суждено стать ключевым препятствием для посадки больших моделей.
**Наряду с этим существуют проблемы с задержкой, конфиденциальностью и персонализацией. ** Qualcomm также упомянула в статье «Hybrid AI is the Future of AI», что большие модели развертываются непосредственно в облаке, в дополнение к недостаточному объему серверных вычислений, вызванному резким ростом числа пользователей, необходимостью «стоять в очереди на использование» и другими ошибками, это также обязательно решит проблемы конфиденциальности и персонализации пользователей.
Если пользователи не хотят выгружать данные в облако, сценарии использования больших моделей, таких как офис и интеллектуальный помощник, будут подвержены множеству ограничений, и большинство этих сценариев распределены на стороне терминала; Если вам нужно добиться более высоких результатов, например настроить большие модели для собственного использования, вам необходимо напрямую использовать личную информацию для обучения больших моделей.
Под влиянием различных факторов «терминальная вычислительная мощность», которая может играть роль в рассуждении, то есть несколько типов процессоров, включая автоматическое вождение и вспомогательное вождение, периферийные вычисления (встроенные) и ускорители со сверхнизким энергопотреблением, начали входить в поле зрения людей.
Терминалы обладают огромными вычислительными мощностями. Согласно прогнозу IDC, к 2025 году количество глобальных IoT-устройств превысит 40 миллиардов, генерируя почти 80 зеттабайт данных, и более половины данных должны полагаться на терминальные или периферийные вычислительные мощности для обработки.
Однако терминал также имеет такие проблемы, как ограниченное энергопотребление и рассеивание тепла, что приводит к ограничению вычислительной мощности.
В этом случае вопрос о том, как использовать огромные вычислительные мощности, скрытые в терминале, чтобы пробиться через узкое место, с которым сталкивается развитие облачных вычислительных мощностей, становится одной из самых распространенных технических проблем в «эпоху модульной энергетики».
** Не говоря уже о том, что в дополнение к вычислительной мощности, реализация больших моделей также сталкивается с такими проблемами, как алгоритмы, данные и рыночная конкуренция. **
Для алгоритма архитектура базовой модели пока неизвестна. ChatGPT добился неплохих результатов, но его технический маршрут не является архитектурным направлением модели следующего поколения.
Что касается данных, то высококачественные данные необходимы другим компаниям для достижения больших результатов модели ChatGPT, но Второй акт генеративного ИИ также указывает, что данные, генерируемые компанией-разработчиком приложения, на самом деле не создают барьера.
Преимущество, создаваемое данными, является хрупким и неустойчивым, и следующее поколение базовых моделей, скорее всего, непосредственно разрушит эту «стену», в отличие от постоянных и стабильных пользователей, которые действительно могут создавать источники данных.
Для рынка на данный момент нет убойных приложений для крупногабаритных модельных изделий, и до сих пор неизвестно, для каких сценариев он подходит.
В нынешнюю эпоху, в каких продуктах он используется и в каких приложениях может проявить наибольшую ценность, рынок еще не дал набора методологий или стандартных ответов, которым можно следовать.
** В ответ на эту серию проблем в настоящее время существует два основных способа решения проблем в отрасли. **
Один из них заключается в том, чтобы улучшить алгоритм самой большой модели, не изменяя «сути» модели, лучше улучшить ее размер и расширить возможности развертывания на большем количестве устройств;
Если взять в качестве примера алгоритм Transformer, то такие модели с большим количеством параметров должны быть скорректированы в структуре, если они хотят работать на торцевой стороне, поэтому за это время родилось много облегченных алгоритмов, таких как MobileViT.
Эти алгоритмы стремятся улучшить структуру и количество параметров, не влияя на выходной эффект, чтобы они могли работать на большем количестве устройств с меньшими моделями.
Во-вторых, повысить вычислительную мощность ИИ самого оборудования, чтобы большие модели могли лучше приземляться на конечную сторону.
К таким методам относится многоядерное проектирование на аппаратных и программных стеках разработки, которые используются для повышения производительности аппаратных вычислений и универсальности моделей на различных устройствах, чтобы повысить вероятность попадания больших моделей на конечную сторону.
Первое можно назвать адаптацией программного обеспечения к железу, а второе заключается в том, что производители оборудования приспосабливаются к смене течения времени. Но в любом случае есть риск быть обойденным только ставками. **
В эпоху «эпохи модульной энергетики» технологии меняются с каждым днем, и с любой стороны программного и аппаратного обеспечения могут появляться новые прорывы, а при отсутствии необходимых технических резервов они могут отстать.
Так должны ли мы слепо следовать за развитием этой технологической волны или просто пропустить ее? Не так.
** Компании, которые обнаружили свою ценность в эпоху Интернета и искусственного интеллекта, также могут изучить третью идею решения в эпоху AIGC, основанную на их собственных сценариях и накоплении технологий. **
Возьмем, к примеру, Qualcomm, компанию, занимающуюся искусственным интеллектом, обладающую как программными, так и аппаратными технологиями.
Столкнувшись с проблемами, связанными с технологиями больших моделей в различных сценариях, Qualcomm перестала быть компанией по производству микросхем и рано приняла волну AIGC.
В дополнение к постоянному совершенствованию вычислительной мощности ИИ терминального чипа, Qualcomm также разрабатывает базовую технологию ИИ, стремясь ускорить скорость всей индустрии интеллектуальных терминалов, чтобы использовать AIGC в качестве перспективного предприятия.
Однако в этом подходе есть и различные предсказуемые трудности:
Как обеспечить производительность для более крупных и сложных моделей ИИ, обеспечив при этом бесперебойную работу на терминале?
В каких случаях следует использовать различные модели для оптимального распределения вычислительной мощности между терминалами и облаками?
Даже если проблема развертывания больших моделей на стороне терминала будет решена, какая часть должна быть развернута в облаке, а какая — на терминале, и как гарантировать, что соединения и функции между различными частями большой модели не будут затронуты?
Если преимущество в производительности на стороне терминала недостаточное, как его решить?
......
Эти проблемы возникают не в единичном случае, а уже существуют в каждой отрасли или сценарии, затронутом AIGC.
Независимо от того, идет ли речь о революционном методе или реальном опыте посадки, ответ может быть найден только в конкретных сценариях и отраслевых кейсах.
AIGC вступила во вторую фазу, большие модели становятся все более популярными, и индустрия начала изучать способы посадки.
** В официальном документе Qualcomm «Гибридный ИИ — это будущее ИИ» упоминается, что на примере смартфонов и ПК было много случаев сценариев приземления AIGC в новой индустрии интеллектуальных терминалов на поле боя. **
Компании уже развертывают меньшие и большие модели на стороне терминала для решения более персонализированных задач, включая поиск сообщений, генерацию ответных сообщений, изменение событий календаря и навигацию одним щелчком мыши.
Например, «забронировать место в любимом ресторане», основываясь на большой модели, в соответствии с анализом пользовательских данных о любимых ресторанах и свободных расписаниях, дать рекомендации по расписанию и добавить результаты в календарь.
Qualcomm считает, что из-за ограниченного количества больших параметров модели, развернутых терминалом, и отсутствия сети при ответе может возникнуть «иллюзия искусственного интеллекта», и тогда она может быть основана на технологии оркестратора, чтобы установить барьеры, когда большой модели не хватает информации для предотвращения вышеуказанных проблем.
Если вы не удовлетворены содержимым, сгенерированным большой моделью, вы также можете отправить вопрос в облако для выполнения одним щелчком мыши, а затем отправить результат создания большой модели с лучшим ответом на сторону терминала.
Таким образом, он может не только снизить нагрузку на вычислительную мощность больших моделей, работающих в облаке, но и обеспечить персонализацию больших моделей, максимально защищая конфиденциальность пользователей.
** Что касается технических узких мест, которые необходимо преодолеть, таких как вычислительная мощность терминала и алгоритмы, некоторые игроки также разработали некоторые «способы сломать игру». **
В «белой книге» Qualcomm представила класс новых технологий, которые широко использовались в «белой книге», такие как спекулятивное декодирование, которое некоторое время назад было пожаром.
Это метод, обнаруженный Google и DeepMind одновременно для ускорения вывода больших моделей, и может применять меньшую большую модель для ускорения генерации больших моделей.
Проще говоря, он заключается в том, чтобы обучить меньшую модель и заранее сгенерировать пакет «слов-кандидатов» для большой модели, вместо того, чтобы позволить большой модели «думать» и генерировать сама, а также непосредственно делать «выбор».
Поскольку скорость генерации малой модели в несколько раз выше, чем у большой, как только большая модель почувствует, что слова, которые уже есть в маленькой модели, доступны, ее можно взять напрямую, не медленно генерируя ее самостоятельно.
Этот метод в основном использует тот факт, что на скорость вывода больших моделей больше влияет пропускная способность памяти, чем увеличение объема вычислений.
Из-за огромного количества параметров и значительного превышения емкости кэша большие модели с большей вероятностью будут ограничены пропускной способностью памяти, чем производительностью вычислительного оборудования во время логического вывода. Например, GPT-3 должен считывать все 175 миллиардов параметров каждый раз, когда он генерирует слово, а вычислительное оборудование часто простаивает в ожидании данных памяти от DRAM.
Другими словами, когда модель выполняет пакетный вывод, разница во времени между обработкой 100 маркеров и одной лексемы за раз невелика.
Таким образом, использование спекулятивной выборки позволяет не только легко запускать большие модели с десятками миллиардов параметров, но и помещать часть вычислительных мощностей на терминальную сторону, обеспечивая скорость вывода при сохранении эффекта генерации больших моделей.
......
Но независимо от того, идет ли речь о сценарии или технологии, в конечном счете, мы должны найти точки адаптации друг друга, чтобы создать существенную прикладную ценность**, точно так же, как отношения между программным и аппаратным обеспечением неразделимы:
Прорывы в области программных алгоритмов, таких как генеративный ИИ, при поиске сценариев «умной» посадки терминалов неизбежно столкнутся с техническими требованиями в сочетании с мобильным оборудованием ИИ, таким как Qualcomm.
Включая смартфоны, ПК, XR, автомобили и Интернет вещей, как различные сегменты индустрии интеллектуальных терминалов могут найти свою собственную игру и ценность на основе точек доступа AIGC?
Как предприятиям воспользоваться этой волной времени, чтобы стимулировать прикладную ценность этого типа технологий и не упустить возможность трансформации производительности во всей отрасли?
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Объем рынка за 10 лет составляет 1,3 триллиона долларов США, и наступила эра модульной энергетики
Первоисточник: Qubits
Большую часть года бушевал большой модельный шторм, и рынок AIGC снова начал меняться:
На смену крутым техническим демонстрациям приходит полноценный опыт работы с продуктом. **
Например, новейшая модель рисования с искусственным интеллектом от OpenAI DALL· Как только E 3 дебютировал, он объединил усилия с ChatGPT, чтобы стать самым ожидаемым новым инструментом повышения производительности в ChatGPT Plus.
**
**###### △ДАЛЛ· E3 точно воспроизводит каждую деталь ввода текста
Например, Copilot от Microsoft на базе GPT-4 полностью обосновался в Windows 11, официально заменив Cortana в качестве нового поколения ИИ-помощников в операционной системе.
**
**###### △ Используйте Copilot для краткого обзора записей блога в один клик
Для другого примера, отечественные автомобили, такие как Jiyue 01, имеют официально оборудованные большие модели в кабине, и они полностью автономны...
Если в марте 2023 года «большие модели меняют все» было всего лишь оптимистичным прогнозом пионеров технологий, то сегодня все еще ожесточенная война 100 моделей и прогресс в практическом применении сделали эту точку зрения все более и более резонансной внутри и за пределами отрасли.
Другими словами, от всего метода производства через Интернет до интеллектуальной кабины в каждом автомобиле наступает эра самоинноваций с большими моделями в качестве технической базы и движущей силой тысяч отраслей промышленности.
В соответствии с методом именования паровой и электрической эр ее можно назвать «эпохой модульной силы».
В «эпоху Моли» одним из наиболее тревожных сценариев является умный терминал.
Причина проста: индустрия умных терминалов, представленная смартфонами, ПК, умными автомобилями и даже XR-устройствами, является одной из технологических отраслей, наиболее тесно связанных с жизнью современных людей, и, естественно, стала золотым стандартом для проверки зрелости передовых технологий.
Поэтому, когда первая волна ажиотажа, вызванная технологическим бумом, постепенно утихнет, а якорем станет сценарий «умного терминала», как следует рассматривать и интерпретировать новые возможности и вызовы «эпохи модульной энергетики»?
Теперь пришло время разбить его, размять и вычесать.
Умный терминал, большая модель нового поля битвы
Прежде чем детально разбирать вызовы и возможности, вернемся к главному вопросу: почему генеративный ИИ представлен большими моделями и даже считается «четвертой промышленной революцией»?
В ответ на это явление многие учреждения проводят исследования, чтобы попытаться предсказать или обобщить развитие генеративного ИИ в различных сценариях, таких как «Генеративный ИИ: креативный новый мир» от Sequoia Capital.
Среди них многие ведущие компании отрасли проанализировали сценарии приземления и потенциальные направления изменения генеративного ИИ в конкретных отраслях на основе собственного опыта.
Например, терминальный ИИ представляет игрок Qualcomm, и некоторое время назад выпустил white paper о статусе развития и тенденциях генеративного ИИ «Гибридный ИИ — это будущее ИИ».
Исходя из этого, можно интерпретировать три основные причины, по которым генеративный ИИ популярен в отрасли.
Во-первых, сама технология достаточно жесткая.
Будь то большая модель, возникающая с умом, или картина с искусственным интеллектом, которая генерирует фальшивое качество с фальшивым качеством, все дело в использовании эффектов, чтобы говорить, и это реальная рабочая область, связанная с текстом, изображениями, видео и автоматизацией, демонстрирующая удивительную способность нарушать традиционные рабочие процессы.
Во-вторых, существуют богатые потенциальные сценарии посадки. Прорыв поколений ИИ, принесенный большой моделью, с самого начала дал людям безграничное воображение: самая ранняя группа опытных людей быстро осознала преимущества генеративного ИИ для работы.
Об огромном спросе со стороны пользователей можно судить по темпам роста пользователей репрезентативных приложений, таких как ChatGPT.
**
**#### △ChatGPT побил рекорд более 100 миллионов зарегистрированных пользователей популярных приложений, источник Sequoia Capital
От первоначального поиска в Интернете, программирования, офиса, до появления культурного туризма, юриспруденции, медицины, промышленности, транспорта и других приложений, оседлавших ветер генеративного ИИ, гораздо больше, чем компании, которые могут предоставить базовые большие модели, но также процветает и растет большое количество стартапов.
Многие отраслевые эксперты считают, что для предпринимателей прикладной уровень, приносимый большими моделями, имеет большие возможности.
Внизу происходит поколенческий прорыв технологий, а наверху — энергичный взрыв спроса на приложения, и стимулируется экологический эффект.
По прогнозу Bloomberg Intelligence, к 2032 году рынок генеративного ИИ вырастет с $40 млрд до $1,3 трлн**, охватив широкий круг участников экологической цепочки, включая инфраструктуру, базовые модели, инструменты разработчика, прикладные продукты, терминальные продукты и так далее.
Исходя из этого, давайте посмотрим, что происходит в умной индустрии сегодня.
С одной стороны, шторм приложений AIGC, представленный большими моделями, стремительно** перемещается из облака в терминал** в итерационном ритме дней.
ChatGPT - первый, кто обновил мультимодальную функцию «аудиовизуального разговора» на мобильном терминале, и пользователи могут делать фотографии и загружать их, а также они могут общаться с ChatGPT для получения фотоконтента.
Например, «Как отрегулировать высоту велосипедного сиденья»:
**
**#### △ и графический диалог GPT-4, дайте 5 предложений за считанные секунды
Qualcomm также быстро реализовала большую модель Stable Diffusion и ControlNet, работающую с более чем миллиардом параметров на стороне терминала, и для генерации высококачественных изображений искусственного интеллекта на мобильных телефонах требуется всего более десятка секунд.
Многие производители мобильных телефонов также объявили о том, что установят «мозг» больших моделей для своих голосовых помощников.
И это касается не только телефонов.
На масштабных выставках в стране и за рубежом, таких как Шанхайский автосалон, Автосалон в Чэнду, Мюнхенский автосалон и т.д., сотрудничество между производителями базовых моделей и автопроизводителей становится все более распространенным явлением, а «сад на машину» больших моделей становится новым конкурентным пунктом в области интеллектуальной кабины.
**
**###### △ Одно предложение может заставить модель автомобиля купить ингредиенты в приложении, и вы сможете готовить, когда вернетесь домой
С другой стороны, вспышка ** приложений усугубила ситуацию, когда вычислительных мощностей не хватает. **
Можно предвидеть, что стоимость инференса модели будет увеличиваться с увеличением числа ежедневных активных пользователей и частоты их использования, и полагаться только на мощности облачных вычислений недостаточно для быстрого продвижения масштабов генеративного ИИ.
Это также видно по тому факту, что все слои общества все больше внимания уделяют вычислительной мощности ИИ на стороне терминала.
Например, терминальный ИИ-плеер Qualcomm выпустил новое поколение вычислительной платформы для ПК для повышения производительности чипов ПК, используя процессор Oryon собственной разработки Qualcomm, особенно оснащенный им NPU обеспечит более мощную производительность для генеративного ИИ, который получил название платформы серии Snapdragon X.
Ожидается, что эта новая вычислительная платформа будет представлена на саммите Snapdragon Summit 2023 года.
Очевидно, что как с точки зрения приложения, так и с точки зрения вычислительной мощности, интеллектуальные терминалы стали одним из сценариев с наибольшим потенциалом AIGC.
Риф AIGC под приливом
У вещей часто есть две стороны, как и у больших моделей от быстрой разработки до посадки.
Когда генеративный ИИ взлетел до сегодняшнего дня, появилось настоящее узкое место под огромным потенциалом индустрии интеллектуальных терминалов.
** Одним из самых больших ограничений является самый низкий уровень оборудования. **
Как отметили инвесторы Sequoia Соня Хуанг и Пэт Грейди в своей последней аналитической статье «Второй акт генеративного ИИ», AIGC быстро растет, но ожидаемым узким местом является не потребительский спрос, а вычислительная мощность на стороне предложения.
Вычислительная мощность здесь в основном относится к аппаратным ускорителям ИИ и машинного обучения, которые с точки зрения сценариев развертывания можно разделить на пять категорий:
Системы класса ЦОД, ускорители серверного уровня, ускорители для сценариев вспомогательного вождения и автономного вождения, периферийные вычисления и ускорители со сверхнизким энергопотреблением.
**
**###### △5 типов ускорителей ИИ, источник статьи MIT "AI and ML Accelerator Survey and Trends"
С бурным развитием ChatGPT большая модель вытеснила AIGC из круга, в результате чего «** облачные вычислительные мощности**», такие как центры обработки данных и процессоры серверного уровня, получили много внимания в краткосрочной перспективе и даже ситуацию нехватки предложения.
Однако по мере того, как генеративный ИИ вступает во вторую фазу, некоторые вопросы о вычислительной мощности становятся все более и более актуальными.
**Первая и самая большая проблема – это стоимость. ** Как указано в официальном документе Qualcomm «Гибридный ИИ — это будущее ИИ», прошло уже более полугода, по мере того, как большие модели переходят от погони за технологиями к приземлению приложений, базовая модель ** обучения ** каждой компании постепенно устоялась, и большая часть вычислительной мощности упала на ** рассуждения ** больших моделей.
В краткосрочной перспективе затраты на вывод являются приемлемыми, но по мере того, как появляется все больше приложений для больших моделей и все больше и больше сценариев приложений, затраты на вывод на ускорителях, таких как серверы, резко возрастут, что в конечном итоге приведет к тому, что стоимость вызова больших моделей выше, чем обучение самих больших моделей.
Другими словами, после того, как большая модель перейдет во вторую стадию, долгосрочный спрос на вычислительные мощности для логического вывода будет намного выше, чем у одного обучения, и полагаться только на «облачные вычислительные мощности», состоящие из центров обработки данных и процессоров серверного уровня, совершенно недостаточно, чтобы достичь приемлемой для пользователей стоимости.
Согласно статистике Qualcomm в white paper, если взять в качестве примера поисковую систему с большой моделью, стоимость каждого поискового запроса может достигать в 10 раз больше, чем у традиционных методов, а годовая стоимость только в этой области может увеличиться на миллиарды долларов.
Этому суждено стать ключевым препятствием для посадки больших моделей.
**Наряду с этим существуют проблемы с задержкой, конфиденциальностью и персонализацией. ** Qualcomm также упомянула в статье «Hybrid AI is the Future of AI», что большие модели развертываются непосредственно в облаке, в дополнение к недостаточному объему серверных вычислений, вызванному резким ростом числа пользователей, необходимостью «стоять в очереди на использование» и другими ошибками, это также обязательно решит проблемы конфиденциальности и персонализации пользователей.
Если пользователи не хотят выгружать данные в облако, сценарии использования больших моделей, таких как офис и интеллектуальный помощник, будут подвержены множеству ограничений, и большинство этих сценариев распределены на стороне терминала; Если вам нужно добиться более высоких результатов, например настроить большие модели для собственного использования, вам необходимо напрямую использовать личную информацию для обучения больших моделей.
Под влиянием различных факторов «терминальная вычислительная мощность», которая может играть роль в рассуждении, то есть несколько типов процессоров, включая автоматическое вождение и вспомогательное вождение, периферийные вычисления (встроенные) и ускорители со сверхнизким энергопотреблением, начали входить в поле зрения людей.
Терминалы обладают огромными вычислительными мощностями. Согласно прогнозу IDC, к 2025 году количество глобальных IoT-устройств превысит 40 миллиардов, генерируя почти 80 зеттабайт данных, и более половины данных должны полагаться на терминальные или периферийные вычислительные мощности для обработки.
Однако терминал также имеет такие проблемы, как ограниченное энергопотребление и рассеивание тепла, что приводит к ограничению вычислительной мощности.
В этом случае вопрос о том, как использовать огромные вычислительные мощности, скрытые в терминале, чтобы пробиться через узкое место, с которым сталкивается развитие облачных вычислительных мощностей, становится одной из самых распространенных технических проблем в «эпоху модульной энергетики».
** Не говоря уже о том, что в дополнение к вычислительной мощности, реализация больших моделей также сталкивается с такими проблемами, как алгоритмы, данные и рыночная конкуренция. **
Для алгоритма архитектура базовой модели пока неизвестна. ChatGPT добился неплохих результатов, но его технический маршрут не является архитектурным направлением модели следующего поколения.
Что касается данных, то высококачественные данные необходимы другим компаниям для достижения больших результатов модели ChatGPT, но Второй акт генеративного ИИ также указывает, что данные, генерируемые компанией-разработчиком приложения, на самом деле не создают барьера.
Преимущество, создаваемое данными, является хрупким и неустойчивым, и следующее поколение базовых моделей, скорее всего, непосредственно разрушит эту «стену», в отличие от постоянных и стабильных пользователей, которые действительно могут создавать источники данных.
Для рынка на данный момент нет убойных приложений для крупногабаритных модельных изделий, и до сих пор неизвестно, для каких сценариев он подходит.
В нынешнюю эпоху, в каких продуктах он используется и в каких приложениях может проявить наибольшую ценность, рынок еще не дал набора методологий или стандартных ответов, которым можно следовать.
Один из них заключается в том, чтобы улучшить алгоритм самой большой модели, не изменяя «сути» модели, лучше улучшить ее размер и расширить возможности развертывания на большем количестве устройств;
Если взять в качестве примера алгоритм Transformer, то такие модели с большим количеством параметров должны быть скорректированы в структуре, если они хотят работать на торцевой стороне, поэтому за это время родилось много облегченных алгоритмов, таких как MobileViT.
Эти алгоритмы стремятся улучшить структуру и количество параметров, не влияя на выходной эффект, чтобы они могли работать на большем количестве устройств с меньшими моделями.
Во-вторых, повысить вычислительную мощность ИИ самого оборудования, чтобы большие модели могли лучше приземляться на конечную сторону.
К таким методам относится многоядерное проектирование на аппаратных и программных стеках разработки, которые используются для повышения производительности аппаратных вычислений и универсальности моделей на различных устройствах, чтобы повысить вероятность попадания больших моделей на конечную сторону.
Первое можно назвать адаптацией программного обеспечения к железу, а второе заключается в том, что производители оборудования приспосабливаются к смене течения времени. Но в любом случае есть риск быть обойденным только ставками. **
В эпоху «эпохи модульной энергетики» технологии меняются с каждым днем, и с любой стороны программного и аппаратного обеспечения могут появляться новые прорывы, а при отсутствии необходимых технических резервов они могут отстать.
Так должны ли мы слепо следовать за развитием этой технологической волны или просто пропустить ее? Не так.
** Компании, которые обнаружили свою ценность в эпоху Интернета и искусственного интеллекта, также могут изучить третью идею решения в эпоху AIGC, основанную на их собственных сценариях и накоплении технологий. **
Возьмем, к примеру, Qualcomm, компанию, занимающуюся искусственным интеллектом, обладающую как программными, так и аппаратными технологиями.
Столкнувшись с проблемами, связанными с технологиями больших моделей в различных сценариях, Qualcomm перестала быть компанией по производству микросхем и рано приняла волну AIGC.
В дополнение к постоянному совершенствованию вычислительной мощности ИИ терминального чипа, Qualcomm также разрабатывает базовую технологию ИИ, стремясь ускорить скорость всей индустрии интеллектуальных терминалов, чтобы использовать AIGC в качестве перспективного предприятия.
Однако в этом подходе есть и различные предсказуемые трудности:
Как обеспечить производительность для более крупных и сложных моделей ИИ, обеспечив при этом бесперебойную работу на терминале?
В каких случаях следует использовать различные модели для оптимального распределения вычислительной мощности между терминалами и облаками?
Даже если проблема развертывания больших моделей на стороне терминала будет решена, какая часть должна быть развернута в облаке, а какая — на терминале, и как гарантировать, что соединения и функции между различными частями большой модели не будут затронуты?
Если преимущество в производительности на стороне терминала недостаточное, как его решить?
......
Эти проблемы возникают не в единичном случае, а уже существуют в каждой отрасли или сценарии, затронутом AIGC.
Независимо от того, идет ли речь о революционном методе или реальном опыте посадки, ответ может быть найден только в конкретных сценариях и отраслевых кейсах.
**Как развеять туман «Эры модульной энергетики»? **
AIGC вступила во вторую фазу, большие модели становятся все более популярными, и индустрия начала изучать способы посадки.
** В официальном документе Qualcomm «Гибридный ИИ — это будущее ИИ» упоминается, что на примере смартфонов и ПК было много случаев сценариев приземления AIGC в новой индустрии интеллектуальных терминалов на поле боя. **
Компании уже развертывают меньшие и большие модели на стороне терминала для решения более персонализированных задач, включая поиск сообщений, генерацию ответных сообщений, изменение событий календаря и навигацию одним щелчком мыши.
Например, «забронировать место в любимом ресторане», основываясь на большой модели, в соответствии с анализом пользовательских данных о любимых ресторанах и свободных расписаниях, дать рекомендации по расписанию и добавить результаты в календарь.
Qualcomm считает, что из-за ограниченного количества больших параметров модели, развернутых терминалом, и отсутствия сети при ответе может возникнуть «иллюзия искусственного интеллекта», и тогда она может быть основана на технологии оркестратора, чтобы установить барьеры, когда большой модели не хватает информации для предотвращения вышеуказанных проблем.
Если вы не удовлетворены содержимым, сгенерированным большой моделью, вы также можете отправить вопрос в облако для выполнения одним щелчком мыши, а затем отправить результат создания большой модели с лучшим ответом на сторону терминала.
Таким образом, он может не только снизить нагрузку на вычислительную мощность больших моделей, работающих в облаке, но и обеспечить персонализацию больших моделей, максимально защищая конфиденциальность пользователей.
В «белой книге» Qualcomm представила класс новых технологий, которые широко использовались в «белой книге», такие как спекулятивное декодирование, которое некоторое время назад было пожаром.
Это метод, обнаруженный Google и DeepMind одновременно для ускорения вывода больших моделей, и может применять меньшую большую модель для ускорения генерации больших моделей.
Проще говоря, он заключается в том, чтобы обучить меньшую модель и заранее сгенерировать пакет «слов-кандидатов» для большой модели, вместо того, чтобы позволить большой модели «думать» и генерировать сама, а также непосредственно делать «выбор».
Поскольку скорость генерации малой модели в несколько раз выше, чем у большой, как только большая модель почувствует, что слова, которые уже есть в маленькой модели, доступны, ее можно взять напрямую, не медленно генерируя ее самостоятельно.
Этот метод в основном использует тот факт, что на скорость вывода больших моделей больше влияет пропускная способность памяти, чем увеличение объема вычислений.
Из-за огромного количества параметров и значительного превышения емкости кэша большие модели с большей вероятностью будут ограничены пропускной способностью памяти, чем производительностью вычислительного оборудования во время логического вывода. Например, GPT-3 должен считывать все 175 миллиардов параметров каждый раз, когда он генерирует слово, а вычислительное оборудование часто простаивает в ожидании данных памяти от DRAM.
Другими словами, когда модель выполняет пакетный вывод, разница во времени между обработкой 100 маркеров и одной лексемы за раз невелика.
Таким образом, использование спекулятивной выборки позволяет не только легко запускать большие модели с десятками миллиардов параметров, но и помещать часть вычислительных мощностей на терминальную сторону, обеспечивая скорость вывода при сохранении эффекта генерации больших моделей.
Но независимо от того, идет ли речь о сценарии или технологии, в конечном счете, мы должны найти точки адаптации друг друга, чтобы создать существенную прикладную ценность**, точно так же, как отношения между программным и аппаратным обеспечением неразделимы:
Прорывы в области программных алгоритмов, таких как генеративный ИИ, при поиске сценариев «умной» посадки терминалов неизбежно столкнутся с техническими требованиями в сочетании с мобильным оборудованием ИИ, таким как Qualcomm.
Включая смартфоны, ПК, XR, автомобили и Интернет вещей, как различные сегменты индустрии интеллектуальных терминалов могут найти свою собственную игру и ценность на основе точек доступа AIGC?
Как предприятиям воспользоваться этой волной времени, чтобы стимулировать прикладную ценность этого типа технологий и не упустить возможность трансформации производительности во всей отрасли?