Большая модель ИИ совершит революцию в области ИИ

Источник: Экономический обозреватель.

Автор: Шен Иран

Источник изображения: сгенерировано Unbounded AI

В апреле этого года несколько исследователей из ведущей компании, занимающейся искусственным интеллектом, обратили внимание на новую технологию: SAM (Segment Anything Model). Исследователи быстро сообщили об этой технологии начальнику отдела.Эта компания начинала с технологии машинного зрения, и технология, на которой сосредоточились исследователи, также была связана с этим. «С появлением SAM все больше и больше людей, занимающихся ИИ, понимают, что большие модели для них шок», — сказал один из исследователей.

Спустя месяц компания начала выделять ресурсы на разработку большой визуальной модели.

В течение следующих трех месяцев ведущие компании, занимающиеся искусственным интеллектом, обратили внимание на потенциал этой технологии.На данный момент компании, занимающиеся искусственным интеллектом, такие как SenseTime и CloudWalk Technology, а также традиционные компании, занимающиеся безопасностью, начали инвестировать в этот новый технологический конкурс.

SAM — это модель сегментации изображений для обычных сцен. Она была запущена компанией Meta в апреле этого года. Так же, как и при общении с ChatGPT, люди могут использовать некоторые языковые инструкции, чтобы SAM мог самостоятельно различать и думать о содержимом изображения. SAM считается Быть ChatGPT оказался в поле зрения.

Энтузиасты во всем мире используют его, чтобы рисовать картинки, вырезать картинки и отлично проводить время, но китайские исследователи признали силу SAM: если он используется в автоматическом вождении, мониторинге безопасности, для обнаружения людей, автомобилей и дорог, он представляет собой автономную большую модель, которая в корне нарушает традиционный игровой процесс машинного зрения.

Сегментация и распознавание изображений — основная задача машинного зрения. В прошлом каждая задача создания сегментированного изображения требовала обучения алгоритма, аннотирования пакета данных и предоставления машине возможности «видеть» различные объекты на изображении путем наложения небольших моделей. SAM показал некоторые новые возможности: не создавая маленькую модель для каждой конкретной задачи, машина может автономно сегментировать любой объект на любом изображении, даже неизвестную размытую сцену, и операция предельно проста.

Это означает, что SAM имеет более общие функции, и можно использовать эту общую функцию, чтобы значительно снизить стоимость распознавания машинным зрением, тем самым изменив бизнес-модель и схему конкуренции на основе оригинальной технологии.

С 2016 года в Китае, который имеет огромный рынок, появились сотни компаний искусственного интеллекта.С помощью рыночной конкуренции и капитала постепенно сформировалось несколько единорогов ИИ, таких как Shangtang Technology, Cloudwalk Technology, Megvii Technology, Согласно Yitu Technology , эти компании внедрили ИИ в области безопасности, государственных дел и промышленности и построили ров, воспользовавшись сложностью алгоритмов и преимуществами масштаба.

Но теперь, со сменой технологии, мероприятие может быть перезапущено.

Фэн Цзюньлан, главный научный сотрудник China Mobile Group и вице-председатель Китайского альянса по развитию индустрии искусственного интеллекта, заявил журналистам, что большая модель ИИ принесет новую парадигму искусственного интеллекта.Так называемый ров в области ИИ в прошлом в принципе не существует под влиянием большой модели. Появление SAM доказывает осуществимость больших визуальных моделей, подрывая исследовательскую основу, методы взаимодействия и производственного обслуживания машинного зрения.

Луо Сюнь, старший член IEEE, профессор Тяньцзиньского технологического университета и эксперт в области технологий AR/VR, заявил журналистам, что преимущества ИИ-возможностей ведущих компаний ранее будут в определенной степени ослаблены из-за роста универсальные большие модели. Но станут ли сами эти компании слабее, зависит от их трансформации.

Технический маршрут

Как важная ветвь ИИ, цель машинного зрения состоит в том, чтобы позволить компьютерам имитировать зрительную систему человека, чтобы понимать и обрабатывать изображения и видео.

После 2000 года Джеффри Хинтон, Янн ЛеКун и Йошуа Бенжио, известные как основатели искусственного интеллекта, совершили прорыв в технологии глубокого обучения, позволив машинам смутно имитировать человеческий мозг, а также автоматически изучать и извлекать особенности из массивных изображений.

2012 год — важный момент времени.Проект ImageNet, созданный профессором Стэнфордского университета Ли Фейфеем, вывел глубокое обучение в мейнстрим: исследователи могут научить компьютеры распознавать различные объекты, вручную маркируя большое количество изображений, что значительно улучшает машинное зрение.Показатель точности снижает себестоимость и делает возможным его коммерциализацию.

В апреле 2023 года пришли новые изменения, и Meta запустила модель сегментации изображений под названием SAM. Будучи большой моделью, SAM не только снабжает машину глазами для восприятия внешнего мира, но и наделяет машину настоящим мозгом: она учится наблюдать, воспринимать, думать, логически рассуждать и извлекать результаты из изображений, а операция чрезвычайно прост, подобно ChatGPT, использует диалог на человеческом языке, чтобы отдавать машинным командам.

Короче говоря, он легче достигает цели машинного зрения, без необходимости большого количества аннотаций изображений и алгоритмов наложения и потребляет меньше вычислительной мощности. Ученый Nvidia в области искусственного интеллекта Джим Фан сказал, что большая модель SAM — это момент машинного зрения GPT-3.Он уже понимает общую концепцию объектов, даже для неизвестных объектов, незнакомых сцен (например, подводных изображений), а в сегментации изображений — также возможно.

После того, как Meta выпустила SAM, она также открыла исходный код модели и набора данных для обучения, а также представила сценарии применения SAM из AR, VR, создания контента и других областей.

Предприятия и исследователи в Китае быстро оценили возможную коммерческую ценность ЗРК: если его использовать в автономном вождении, мониторинге безопасности, для обнаружения людей, автомобилей и дорог, он может коренным образом сломать традиционное машинное зрение.

Фэн Цзюньлань сказал, что большая модель изменит режим поставки ИИ, значительно снизит сложность стороны предложения, а предельные затраты будут близки к нулю; бизнес-сторона может выражать спрос на более простом естественном языке, и больше не нужно полагаться на него. по профессиональным инструкциям, таким как коды инженеров Общайтесь с машинами и гибко развертывайте различные модели в соответствии с их собственными потребностями, повышая эффективность

Чжу Бинг, директор по продукту Uniview Technology, сказал журналистам: «Раньше работа с ИИ была похожа на переноску коробок. На самом деле, это была относительно низкотехнологичная физическая работа. очень фрагментированы. И индивидуальные, предпродажная эффективность, послепродажная эффективность и эффективность продаж низки, а вверх и вниз по течению в отрасли более болезненны ». Например, Чжу Бин сказал, что инвестиции и стоимость производителей, инвестирующих в разработку, сбор материалов, калибровку и настройку алгоритмов для различных сценариев и регионов, очень велики.Для клиентов плата за разработку по индивидуальному заказу также является значительной статьей расходов.

Сегодня использование большой модели для замены исходного игрового процесса с маленькой моделью не требует алгоритмов стекирования или большого количества размеченных данных и потребляет очень мало вычислительной мощности в процессе.Вы можете использовать более простой человеческий язык, чтобы давать команды машине без использование профессионального языка программирования. Чжу Бин сказал, что большая модель значительно снизила стоимость исследований, разработок и развертывания ИИ.Она создала ряд новых игровых процессов и реструктурировала отраслевой порядок, особенно в отрасли компьютерного зрения.Предыдущие технические барьеры, созданные крупными компаниями, разгладились, все вернулись на исходную линию.

Приток

Вокруг предыдущего поколения технологий машинного зрения в Китае родился ряд компаний, занимающихся искусственным интеллектом, и технологии, предоставляемые этими компаниями, начали широко использоваться для наблюдения за камерами и идентификации инспекций безопасности для общественной безопасности, метро и коммерческих зданий.

«AI Four Tigers» относится к четырем китайским компаниям в области искусственного интеллекта, которые были последовательно созданы в период с 2011 по 2014 год, а именно SenseTime, Cloudwalk Technology, Megvii Technology и Yitu Technology. Их общей чертой является машинное зрение в качестве основной технологии.Прорыв ИИ в пути глубокого обучения обеспечил техническую основу для роста этой группы компаний искусственного интеллекта, а промышленные преимущества Китая предоставили рынок для развития этих компаний. .

После выхода SAM на эту технологию стали нацеливаться одна за другой.

Репортер узнал от многих людей в отрасли, что помимо Yitu Technology, SenseTime, Cloudwalk Technology и Megvii Technology среди «Четырех тигров AI» все разрабатывают крупномасштабные визуальные модели.Kangweishi и Uniview Technology также проводят исследования в области связанных технологий и развитие.

В апреле, всего через несколько дней после того, как Meta запустила SAM, SenseTime выпустила большую модель Daily New. Тянь Фэн, декан Научно-исследовательского института интеллектуальной промышленности SenseTime, сообщил журналистам, что серия «Ri Ri Xin» представляет собой набор нескольких крупных моделей, включая генерацию естественного языка, генерацию изображений и визуальное восприятие, среди которых «Ruying», «Qiongyu». , "Gewu" - большие модели, связанные со зрением.

В мае Yuncong Technology выпустила «спокойную» большую модель, которая представляет собой многомодальную большую модель, включающую видение.Yuncong Technology заявила на недавней встрече с инвесторами, что визуальная большая модель очень важна и будет запущена в будущем. модели. Потому что у компании есть большой резерв в области компьютерного зрения, и потому что ей нужны мультимодальные технологии для решения конкретных задач клиентов.

Megvii и Yitu еще не выпустили большие модели. Megvii сообщила журналистам, что «разрабатывает большую модель, но она еще не запущена и не доставлена клиентам». С точки зрения направления, Megvii выбрала четыре направления исследований: большая модель общего изображения, большая модель понимания видео, большая модель компьютерной фотографии и большая модель восприятия автономного вождения, и добилась определенных прорывов.

Су Ляньцзе, главный аналитик искусственного интеллекта в исследовательском институте Omdia, сообщил журналистам, что под воздействием визуальной крупномасштабной модели «Четыре тигра с ИИ» быстро трансформировались в крупномасштабную модель и развернули мультимодальную крупную модель. масштабная модель, которая фокусируется на зрении относительно разумно.

Hikvision заявила инвесторам в июне этого года: «Мы обратили внимание на модель SAM в начале ее выпуска и провели систематическую оценку». масштабная отраслевая модель, основанная на общей крупномасштабной модели + отраслевая сцена + обучение и настройка. Впервые она была выпущена 9 мая и протестирована первой партией партнеров в июне.

Hikvision и Uniview Technology — традиционные компании по обеспечению безопасности, которые начинали как производители оборудования. Они столкнулись с жесткой конкуренцией после того, как в индустрию безопасности вошли «Четыре тигра с искусственным интеллектом». Они активно осваивают технологии машинного зрения.

В настоящее время компании, занимающиеся искусственным интеллектом, начинают приходить к единому мнению о значении «эпохальных больших моделей».

Тянь Фэн, декан Научно-исследовательского института интеллектуальной промышленности SenseTime, и Яо Чжицян, соучредитель Yuncong Technology, заявили журналистам, что ИИ 1.0 — это эра малых моделей.Предприятия в основном предоставляют собственные небольшие модели и используют многоточечные технологии для решения конкретные потребности сцены. ; AI2.0 - это эпоха больших моделей. Предприятиям необходимо использовать единую крупномасштабную технологическую базовую платформу, то есть создавать мультимодальную базовую модель с общими возможностями восприятия и познания мира, и генерировать на этой основе ряд индустрий.Маленькие модели для удовлетворения потребностей профессиональных сцен и более массовых сцен.

Яо Чжицян считает, что если компания ИИ все еще находится на предыдущем этапе, она может решить многие проблемы сцены, но затраты трудно уменьшить, что делает невозможным показать эффект масштаба; Тянь Фэн считает, что две эпохи сосуществуют для долгое время, и это не тот, кто устраняет другого.Противоположные отношения, два завершены в скоординированном порядке. Например, используя структуру гибридной экспертной модели (MoE), в эпоху AI2.0 несколько моделей объединяются в сервисы, а также могут быть встроены модели 1.0.

В новой конкуренции первоначальное накопление технологий и инвестиции в оборудование по-прежнему будут играть роль.

Тянь Фэн сообщил журналистам, что интеллектуальный вычислительный центр "AI Large Device" обладает мощной вычислительной мощностью ИИ и может обеспечить обучающую вычислительную мощность для 20 больших моделей с сотнями миллиардов параметров.Это ключевое оборудование для разработки и обучения больших моделей. только для личного использования, но также открыт для крупных стартапов и партнеров по исследованиям и разработкам.

Соответствующее лицо, отвечающее за Yunwalk, сообщило журналистам, что операционная система CWOS компании имеет неотъемлемые преимущества в интеграции моделей суперязыка, таких как ChatGPT. В то же время система может передавать данные и информацию в большую модель в соответствии с реальной производственной ситуацией, оптимизировать обучение и настройку модели, а также повышать точность и эффективность модели.

Крупная модель выходит на рынок

«Даже без влияния большой модели «Четыре тигра ИИ» все еще находятся в периоде замешательства в трансформации, и им нужно подумать о собственной ценности и выходе». — сказал Су Ляньцзе.

Группа компаний искусственного интеллекта пользуется спросом у капитала и рынка, среди которых SenseTime и CloudWalk оказались на рынке капитала. С 2018 по 2022 год SenseTime ежегодно инвестировала более 12 миллиардов юаней в исследования и разработки и привлекла более 5 миллиардов юаней в ходе IPO в 2021 году. С 2018 по 2022 год Yuncong ежегодно инвестировала более 2,2 млрд юаней в исследования и разработки и привлечет 1,7 млрд юаней в ходе IPO в 2022 году.

Хорошее взаимодействие между технологиями и капиталом также дало Китаю ведущее преимущество в области визуального распознавания.Примерно в 2018 году Китай уступал только Соединенным Штатам или превосходил Соединенные Штаты по количеству опубликованных работ по искусственному интеллекту и количеству финансирования искусственного интеллекта.Особенно в области визуального распознавания китайские компании искусственного интеллекта неоднократно били рекорды на международных соревнованиях и добивались отличных результатов.

Но вскоре, с продвижением рынка, потенциал оригинальной технологии постепенно достиг своего пика.В 2019 году академик Китайской академии наук Чжан Бо предположил в эксклюзивном интервью Economic Observer, что потенциал промышленных приложений может были затронуты существующий технологический маршрут до потолка.

Что еще более важно, с коммерческой точки зрения, первоначальный технический путь ИИ всегда был трудным для преодоления узкого места в стоимости, так что более традиционные отраслевые клиенты не могли оплатить счет. Чжу Бин сказал: «В течение многих лет мы не видели энергичного нового порядка. Большое количество компаний безжалостно конкурируют на двух направлениях — распознавании людей и номерных знаков. Основная причина заключается в том, что большее количество алгоритмов не может создать эффект масштаба. "

Исследователь ИИ ведущей компании сообщил журналистам, что по традиционному методу компания ИИ обслуживает автомобильный завод и продает набор алгоритмов для выявления блокпостов.В среднем один алгоритм выявления блокпоста стоит более 100 000 юаней и занимает около 2 мес., заказчику необходимо предоставить десятки тысяч изображений для маркировки, но одного алгоритма недостаточно, фактическая дорожная сцена очень сложна, алгоритм, который подходит для небольших автомобилей, может не подойти для больших грузовиков, и это невозможно распознать под другим углом.Также трудно распознать, когда цель обнаружения частично закрыта.

Чтобы повысить интеллект оборудования, компаниям, занимающимся искусственным интеллектом, необходимо наложить несколько алгоритмов друг на друга, что просто означает объединение множества небольших моделей. Согласно финансовому отчету, SenseTime накопила 67 000 небольших коммерческих моделей.Репортер узнал от Yuncong Technology, что у компании также есть тысячи небольших коммерческих моделей.

Но время и стоимость обучения тоже удвоились.

Фэн Цзюньлань сказал журналистам, что многим компаниям, занимающимся искусственным интеллектом, трудно зарабатывать деньги.Одной из важных причин является высокая стоимость услуг искусственного интеллекта, из-за которой компании «зарабатывают один юань и теряют пять юаней», а модель «чем больше полученных заказов, «чем больше компенсация» усложняет жизнь поставщикам. В дальнейшем, стороной спроса могут быть только несколько ключевых отраслей или отраслей с сильными платежными возможностями.

Согласно финансовому отчету, с 2018 по 2022 год Yuncong Technology накопила убытки в размере 3,1 млрд юаней, а SenseTime накопила убытки в размере более 40 млрд юаней.

В целях дальнейшего снижения стоимости ИИ и улучшения рынка стратегия «четырех тигров ИИ» также разошлась. SenseTime выбирает устройства ИИ, Cloudwalk выбирает операционные системы, Megvii выбирает чипы, а YITU выбирает IoT.

С этой точки зрения, большая модель может принести не только вызовы существующим компаниям, но и совершенно новую бизнес-модель и сценарий применения.

Вышеупомянутый исследователь сказал, что компания изо всех сил старалась найти бизнес ИИ на большем количестве рынков.Например, компания однажды беседовала с супермаркетом о мониторинге ИИ, чтобы определить, присутствует ли продавец.Компания отправила пять инженеров-алгоритмов, и только зарплата стоит 300 000 юаней.Общая месячная зарплата десятков продавцов клиента составляет менее 50 000 юаней, он также поговорил с владельцем фабрики о проверке качества ИИ, который определяет, повреждены ли упаковочные коробки на сборочной линии, и другие партия считает, что наем рабочих более экономичен и т. д.

Эти требования в совокупности называются длинными требованиями ИИ: большое количество мелких и средних клиентов со слабыми платежными возможностями не имеют жесткого спроса на ИИ, но имеют некоторые особые потребности в определенных сценариях, которые могут быть используется или нет, и они не хотят платить миллионы долларов. По мнению этого исследователя, в будущем к этим сценариям визуального обнаружения можно применить определенный тип большой модели или набор мультимодальных больших моделей, используя миграцию и общие возможности больших моделей, только небольшое количество Требуются инвестиции в аннотацию данных и алгоритм, а цикл разработки и требования к вычислительной мощности также будут ниже, так что стоимость будет значительно снижена, а клиенты с большей вероятностью будут платить.

Чжу Бин подсчитал, что в прошлом алгоритмы ИИ, основанные на малых моделях, могли удовлетворять менее 10 % требований фрагментации, в будущем вероятность алгоритмов ИИ, основанных на больших моделях, может быть увеличена до более чем 50 %, а эффективность всего алгоритма длинного хвоста можно увеличить в 10 раз, время можно сократить до 1 человека в неделю.

Яо Чжицян сообщил журналистам, что после того, как технология будет платформизирована и стандартизирована, все компании, занимающиеся искусственным интеллектом, смогут быстро адаптироваться к масштабным сценариям и реализовывать масштабные приложения с помощью единой базовой технологической платформы.

Фэн Цзюньлань сказал, что стоимость потребления технологий намного меньше, чем ценность, которую технологии приносят бизнесу.Когда эта формула выполняется, технологии можно масштабировать и мигрировать на более длинные рынки. Это также отвечает фундаментальной логике достижения прибыльности компаний ИИ, а также означает, что у них есть возможность осваивать новые рынки голубого океана.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить