После большой языковой модели, станет ли компьютерное зрение следующей отдушиной?

Источник статьи: Big Model House

Автор:Чжао Сяомань

Источник изображения: Сгенерировано Unbounded AI

В прошлом месяце Open AI выпустила последнюю версию GPT-4V, которая позволяет пользователям инструктировать GPT-4 анализировать новейшие возможности вводимых пользователем изображений, и эта новость привлекла внимание отрасли к тому, что включение других модальностей, таких как ввод изображений, в большие языковые модели (LLM) рассматривается как ключевой рубеж в исследованиях и разработках ИИ, а мультимодальные LLM предлагают возможность расширения влияния чисто языковых систем.

От чат-бота с искусственным интеллектом ChatGPT, выпущенного в конце прошлого года, до текущего GPT-4V, Open AI расширяет большие языковые модели (LLM) мультисенсорными навыками (такими как визуальное понимание) в больших мультимодальных моделях (LMM) для достижения более высокого общего интеллекта.

Вскоре после выпуска GPT-4V Microsoft выпустила 166-страничное сверхподробное руководство пользователя для GPT-4V, от простых режимов ввода до способности к визуальному языку, интерактивных подсказок с людьми, понимания видео, абстрактного визуального мышления и теста эмоционального коэффициента IQ, GPT-4V может не только охватывать интерактивный опыт в повседневной жизни, но даже осуществлять профессиональную диагностическую оценку в промышленности, медицине и других областях.

Источник: Microsoft (веб-перевод только для справки)

В настоящее время беспрецедентная способность GPT-4V обрабатывать произвольные чередующиеся мультимодальные входы и универсальность его функций делают GPT-4V мощной мультимодальной универсальной системой. Кроме того, уникальная способность GPT-4V понимать визуальные маркеры, нарисованные на входных изображениях, может привести к новым методам взаимодействия человека и компьютера, таким как визуальные эталонные подсказки.

Стоит отметить, что предварительное исследование GPT-4V может стимулировать будущие исследования следующего поколения мультимодальных формул задач**, использовать и совершенствовать новые методы LMM для решения реальных задач, а также лучше понимать мультимодальные базовые модели, а также стать новым исследованием направления развития компьютерного зрения.

Большая модель открывает новые возможности для развития компьютерного зрения

Возможно, когда дело доходит до мультимодальных возможностей, многим людям не привыкать, и в Китае есть много крупных моделей, которые уже имеют мультимодальные возможности, когда они запущены, и могут осуществлять распознавание и генерацию изображений, но следует признать, что по сравнению с LLM (большая языковая модель), разработка LMM (большая мультимодальная модель) все еще имеет много лазеек, которые нужно решить. **

Ранее Big Model Home уже сталкивалась с рядом больших моделей с мультимодальными возможностями, взяв в качестве примеров фреймворк искусственного интеллекта MindSpore «Zidong Taichu» версии 2.0 и iFLYTEK Spark, которые необходимо улучшить в возможностях анализа, рассуждения и выражения.

На фото: Цзыдун Тайчу

На фото: iFLYTEK Spark

Стоит отметить, что в апреле этого года Meta предложила модель SAM (Segment Anything Model) для разделения всего, SAM — это подсказка, которая обучила более 1 млрд масок на 11 млн изображений, добившись мощного обобщения с нулевой выборкой, некоторые инсайдеры отрасли говорили, что SAM прорвался через границы сегментации и сильно способствовал развитию базовых моделей компьютерного зрения.

Источник: Meta**

Сам по себе SAM представляет собой семантическую сегментацию изображений, и модель улавливает концепцию «объектов», которые могут генерировать маски для любого объекта на любом изображении или видео, даже если она не видела его при обучении.

Появление моделей ЗРК и GPT-4V может устанавливать большие языковые модели на «глаза», точно так же, как Open AI готовился к развертыванию поколения GPT-4V**, в том числе Be My Eyes, организации, которая строит инструменты для слабовидящих пользователей, накануне генерации моделей можно представить, что большая модель — это говорящий «слепой», но после добавления зрения большие модели с мультимодальными возможностями могут понимать цифры, видео и т.д. Мощь этой функции также подталкивает развитие искусственного интеллекта в новом направлении.

Под волной больших моделей дорога отечественного компьютерного зрения

После использования функций ввода, распознавания и анализа логических выводов большая модель может достичь многопольного расцвета и перейти к «компьютерному зрению GPT».

Источник: Huawei

В промышленности, применяя визуальные большие модели для обнаружения дефектов и других важных шагов для обеспечения качества продукции в производственном процессе, важно иметь возможность своевременно обнаруживать неисправности или дефекты и принимать соответствующие меры для минимизации эксплуатационных расходов и затрат, связанных с качеством. **

Источник: SenseTime

С точки зрения медицинской визуализационной диагностики, в сочетании с профессиональными знаниями когнитивных больших моделей, после добавления визуальных возможностей, он может не только анализировать различные медицинские изображения, но и быстро генерировать полные рентгенологические отчеты, с потенциалом быть помощником ИИ для создания рентгенологических отчетов, в настоящее время SenseTime разработала модель китайского медицинского языка «Большой доктор», основанную на медицинских знаниях и клинических данных, с возможностью обеспечить многоканальный многораундовый разговор, такой как руководство, консультация, консультация по здоровью и принятие решений.

С точки зрения автоматического вождения, информация об изображении, полученная когнитивной большой моделью во время вождения, динамические цели вождения и т. д., может быть объединена для принятия соответствующих решений о вождении и объяснений вождения, а затем большая модель может преобразовать ее на язык автоматического вождения и взаимодействовать с системой автоматического вождения через Drive для достижения интеллектуального вождения.

Источник: Baidu

** Если взять Baidu в качестве примера, то на только что прошедшей Всемирной конференции Baidu 2023 года с точки зрения интеллектуального вождения стек технологий автономного вождения был полностью реконструирован с помощью новых технологий, таких как Transformer и BEV, а способность восприятия улучшалась на протяжении поколений, что ускоряло зрелость и популяризацию решений чистого зрения. ** В настоящее время решение Baidu Apollo для интеллектуального вождения pure vision high-end может быть применено к высокоскоростным, городским, парковочным и другим глобальным сценариям, и достигнет массового производства в четвертом квартале этого года, что также является первым решением в области чистого зрения в Китае, которое будет использоваться в городских условиях. Стоит отметить, что отказ от лидара снижает стоимость всего транспортного средства и повышает конкурентоспособность на рынке.

Big Model House считает, что с благословением общих знаний о больших языковых моделях, компьютерное зрение открыло более четкое направление развития, от раннего компьютерного зрения, полагающегося на повторяющуюся память для практических приложений (таких как распознавание лиц, распознавание объектов), изучение интеграции зрения и языка стало новым направлением больших моделей и компьютерного зрения, от независимой разработки до взаимной интеграции, искусственный интеллект также постоянно исследует сенсорные способности, более близкие к людям, может лучше улавливать детали и особенности на изображениях, а точность больших моделей была улучшена. Он может адаптироваться к большему количеству сцен и распределению данных, полагаться на способность писать и понимать большую модель, интегрировать визуальные возможности и стать более интеллектуальным аватаром.

Конечно, развитие науки и техники должно быть ограничено многими факторами. Большие модели требуют больше вычислительных ресурсов и времени на обучение, что может ограничивать их масштабируемость и в реальном времени, огромные обучающие данные должны быть ограничены вычислительной мощностью, особенно высокопроизводительными графическими процессорами, высокоскоростной памятью и хранилищем, а также технологией распределенного обучения, ** и текущий мировой рынок высокопроизводительных графических процессоров NVIDIA занимает почти 90% доли, Китай хочет занять высокие позиции в этом соревновании ИИ, способствовать качественному развитию китайских интеллектуальных вычислительных мощностей стало главным приоритетом. **

**В целом, большие модели имеют много преимуществ после интеграции визуальных возможностей, но на этом этапе также существуют некоторые ограничения по разработке. ** С постоянным развитием глубокого обучения и вычислительных ресурсов мы можем ожидать появления более совершенных больших моделей и связанных с ними технологий, которые будут способствовать дальнейшему применению и прорыву компьютерного зрения в задачах обработки изображений с высоким разрешением.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить