Источник изображения: создано инструментом Unbounded AI
MediaTek сотрудничает с Lllama 2 LLM от Meta, предназначенным для выполнения задач генеративного ИИ непосредственно на мобильных устройствах без облачной обработки. В этом есть несколько преимуществ, но есть и соответствующие проблемы.
Генеративный искусственный интеллект — одна из самых популярных новых технологий, основанная на системах чата OpenAI ChatGPT и Google Bard, а также системах генерации изображений, таких как Stable Diffusion и DALL-E. Однако он все еще несколько ограничен, поскольку эти инструменты используют сотни графических процессоров в облачных центрах обработки данных для выполнения вычислений, необходимых для каждого запроса.
Но однажды мы сможем запускать задачи, сгенерированные ИИ, непосредственно на мобильных устройствах. Или в подключенном автомобиле, или в гостиной, спальне и на кухне, используя интеллектуальные колонки, такие как Amazon Echo, Google Home или Apple HomePod.
MediaTek считает, что это будущее ближе, чем мы думаем. Сегодня тайваньская полупроводниковая компания объявила о партнерстве с Meta, чтобы объединить Lllama 2 LLM социального гиганта с APU последнего поколения и платформой разработки программного обеспечения NeuroPilot для выполнения генеративных задач искусственного интеллекта на устройстве, не полагаясь на внешнюю обработку.
Конечно, здесь есть проблема: эта комбинация не устранит полностью центры обработки данных. Из-за размера наборов данных LLM (количества содержащихся в них параметров) и требуемой производительности системы хранения нам по-прежнему нужен ЦОД, хотя и в гораздо меньших масштабах.
Например, «маленький» набор данных Llama 2 имеет 7 миллиардов параметров, около 13 ГБ, и подходит для некоторых элементарных генеративных функций ИИ. Однако более крупная версия с 72 миллиардами параметров, даже с использованием передовых методов сжатия данных, потребует пропорционально большого объема памяти, превышающего практические возможности современных смартфонов. В ближайшие несколько лет разрабатываемые LLM легко превысят размер Llama 2 или GPT-4 в 10–100 раз, а требования к хранению будут исчисляться сотнями гигабайт и более.
Это трудно хранить на смартфоне и иметь достаточное количество операций ввода-вывода в секунду для производительности базы данных, но это, конечно, неверно для специализированного устройства кэширования с быстрой флэш-памятью и терабайтами оперативной памяти. Таким образом, благодаря Llama 2 теперь можно разместить устройство, оптимизированное для обслуживания мобильных устройств, в одной стойке без тяжелых вычислений. Это не телефон, но все равно впечатляет!
MediaTek ожидает, что приложения искусственного интеллекта на базе Llama 2 будут запущены на смартфонах с флагманской SoC следующего поколения, которая должна выйти на рынок к концу этого года.
Чтобы генерирующий ИИ на устройстве мог получить доступ к этим наборам данных, операторы мобильной связи должны полагаться на граничные сети с малой задержкой — небольшие центры обработки данных / шкафы для оборудования, которые быстро подключаются к вышкам 5G. Эти центры обработки данных будут расположены непосредственно в сети оператора связи, поэтому LLM, работающий на смартфоне, не должен будет проходить через несколько сетевых «скачков» перед доступом к данным параметров.
В дополнение к запуску рабочих нагрузок ИИ на устройствах со специализированными процессорами, такими как MediaTek, LLM для конкретных доменов также можно смешивать с этими устройствами кэширования в микроцентрах обработки данных в сценарии «ограниченного края устройства». Подойдите ближе к рабочей нагрузке приложения.
Итак, каковы преимущества использования генеративного ИИ на устройстве?
Сокращение задержки: Поскольку данные обрабатываются на устройстве, время отклика значительно сокращается, особенно если для часто используемых частей наборов данных параметров используются методы локализованного кэширования.
Повышение конфиденциальности данных. Благодаря хранению данных на устройстве данные (например, беседы в чате или отправленное пользователем обучение) не передаются через центр обработки данных, а только через данные модели.
Повышение эффективности использования полосы пропускания. Сегодня задачи генеративного ИИ требуют, чтобы все данные в ходе разговора с пользователем передавались туда и обратно в центр обработки данных. При локализованной обработке на устройстве будет храниться большой объем данных.
**Повышение эксплуатационной устойчивости: **Создавая данные на устройстве, система может продолжать работать даже в случае сбоя в работе сети, особенно если устройство имеет достаточно большой кэш параметров.
Энергоэффективность: Центрам обработки данных не требуется столько ресурсоемких вычислительных ресурсов, как не требуется столько энергии для передачи данных с устройств в центр обработки данных.
Однако для реализации этих преимуществ может потребоваться разделение рабочих нагрузок и использование других методов балансировки нагрузки для снятия вычислительных затрат и сетевых издержек с централизованных центров обработки данных.
В дополнение к сохраняющейся потребности в периферийных центрах обработки данных с быстрым подключением (хотя и со значительно сниженными требованиями к вычислительным ресурсам и энергии), возникает еще один вопрос: насколько мощным LLM может работать на современном оборудовании? Хотя данные на устройстве менее опасны для перехвата в сети, при неправильном управлении риск безопасности от проникновения конфиденциальных данных на локальное устройство также возрастет, а обновление данных модели и поддержание данных на большом количестве распределенных устройства с пограничным кэшем. Согласованность также является проблемой.
Наконец, возникает вопрос стоимости: кто будет платить за все эти небольшие периферийные центры обработки данных? Граничные сети в настоящее время используются поставщиками граничных услуг, такими как Equinix, такие службы, как Netflix и iTunes от Apple, требуют граничных сетей, а операторы мобильных сетей, такие как AT&T, T-Mobile или Verizon, традиционно не нуждались в граничных сетях. Поставщики услуг генеративного ИИ, такие как OpenAI/Microsoft, Google и Meta, должны будут принять аналогичные меры.
Генеративный искусственный интеллект на устройстве требует много внимания, но очевидно, что технологические компании думают об этом. Через пять лет умный помощник на вашем устройстве, возможно, будет думать сам за себя. Готовы положить искусственный интеллект в свой карман? Оно грядет, и гораздо раньше, чем многие ожидают.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
MediaTek: наступает эра генеративных ИИ-задач на мобильных устройствах, не полагающихся на облачную обработку
Сценарист: Джейсон Перлоу
Источник: Зднет
Генеративный искусственный интеллект — одна из самых популярных новых технологий, основанная на системах чата OpenAI ChatGPT и Google Bard, а также системах генерации изображений, таких как Stable Diffusion и DALL-E. Однако он все еще несколько ограничен, поскольку эти инструменты используют сотни графических процессоров в облачных центрах обработки данных для выполнения вычислений, необходимых для каждого запроса.
Но однажды мы сможем запускать задачи, сгенерированные ИИ, непосредственно на мобильных устройствах. Или в подключенном автомобиле, или в гостиной, спальне и на кухне, используя интеллектуальные колонки, такие как Amazon Echo, Google Home или Apple HomePod.
MediaTek считает, что это будущее ближе, чем мы думаем. Сегодня тайваньская полупроводниковая компания объявила о партнерстве с Meta, чтобы объединить Lllama 2 LLM социального гиганта с APU последнего поколения и платформой разработки программного обеспечения NeuroPilot для выполнения генеративных задач искусственного интеллекта на устройстве, не полагаясь на внешнюю обработку.
Конечно, здесь есть проблема: эта комбинация не устранит полностью центры обработки данных. Из-за размера наборов данных LLM (количества содержащихся в них параметров) и требуемой производительности системы хранения нам по-прежнему нужен ЦОД, хотя и в гораздо меньших масштабах.
Например, «маленький» набор данных Llama 2 имеет 7 миллиардов параметров, около 13 ГБ, и подходит для некоторых элементарных генеративных функций ИИ. Однако более крупная версия с 72 миллиардами параметров, даже с использованием передовых методов сжатия данных, потребует пропорционально большого объема памяти, превышающего практические возможности современных смартфонов. В ближайшие несколько лет разрабатываемые LLM легко превысят размер Llama 2 или GPT-4 в 10–100 раз, а требования к хранению будут исчисляться сотнями гигабайт и более.
Это трудно хранить на смартфоне и иметь достаточное количество операций ввода-вывода в секунду для производительности базы данных, но это, конечно, неверно для специализированного устройства кэширования с быстрой флэш-памятью и терабайтами оперативной памяти. Таким образом, благодаря Llama 2 теперь можно разместить устройство, оптимизированное для обслуживания мобильных устройств, в одной стойке без тяжелых вычислений. Это не телефон, но все равно впечатляет!
MediaTek ожидает, что приложения искусственного интеллекта на базе Llama 2 будут запущены на смартфонах с флагманской SoC следующего поколения, которая должна выйти на рынок к концу этого года.
Чтобы генерирующий ИИ на устройстве мог получить доступ к этим наборам данных, операторы мобильной связи должны полагаться на граничные сети с малой задержкой — небольшие центры обработки данных / шкафы для оборудования, которые быстро подключаются к вышкам 5G. Эти центры обработки данных будут расположены непосредственно в сети оператора связи, поэтому LLM, работающий на смартфоне, не должен будет проходить через несколько сетевых «скачков» перед доступом к данным параметров.
В дополнение к запуску рабочих нагрузок ИИ на устройствах со специализированными процессорами, такими как MediaTek, LLM для конкретных доменов также можно смешивать с этими устройствами кэширования в микроцентрах обработки данных в сценарии «ограниченного края устройства». Подойдите ближе к рабочей нагрузке приложения.
Итак, каковы преимущества использования генеративного ИИ на устройстве?
Однако для реализации этих преимуществ может потребоваться разделение рабочих нагрузок и использование других методов балансировки нагрузки для снятия вычислительных затрат и сетевых издержек с централизованных центров обработки данных.
В дополнение к сохраняющейся потребности в периферийных центрах обработки данных с быстрым подключением (хотя и со значительно сниженными требованиями к вычислительным ресурсам и энергии), возникает еще один вопрос: насколько мощным LLM может работать на современном оборудовании? Хотя данные на устройстве менее опасны для перехвата в сети, при неправильном управлении риск безопасности от проникновения конфиденциальных данных на локальное устройство также возрастет, а обновление данных модели и поддержание данных на большом количестве распределенных устройства с пограничным кэшем. Согласованность также является проблемой.
Наконец, возникает вопрос стоимости: кто будет платить за все эти небольшие периферийные центры обработки данных? Граничные сети в настоящее время используются поставщиками граничных услуг, такими как Equinix, такие службы, как Netflix и iTunes от Apple, требуют граничных сетей, а операторы мобильных сетей, такие как AT&T, T-Mobile или Verizon, традиционно не нуждались в граничных сетях. Поставщики услуг генеративного ИИ, такие как OpenAI/Microsoft, Google и Meta, должны будут принять аналогичные меры.
Генеративный искусственный интеллект на устройстве требует много внимания, но очевидно, что технологические компании думают об этом. Через пять лет умный помощник на вашем устройстве, возможно, будет думать сам за себя. Готовы положить искусственный интеллект в свой карман? Оно грядет, и гораздо раньше, чем многие ожидают.