После большой языковой модели, станет ли компьютерное зрение следующей отдушиной?

Question

*Источник статьи: Big Model House**Автор:Чжао Сяомань*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b333c2d0d-dd1a6f-69ad2a) *Источник изображения: Сгенерировано Unbounded AI*В прошлом месяце Open AI выпустила последнюю версию GPT-4V, которая позволяет пользователям инструктировать GPT-4 анализировать новейшие возможности вводимых пользователем изображений, и эта новость привлекла внимание отрасли к тому, что включение других модальностей, таких как ввод изображений, в большие языковые модели (LLM) рассматривается как ключевой рубеж в исследованиях и разработках ИИ, а мультимодальные LLM предлагают возможность расширения влияния чисто языковых систем.От чат-бота с искусственным интеллектом ChatGPT, выпущенного в конце прошлого года, до текущего GPT-4V, Open AI расширяет большие языковые модели (LLM) мультисенсорными навыками (такими как визуальное понимание) в больших мультимодальных моделях (LMM) для достижения более высокого общего интеллекта.Вскоре после выпуска GPT-4V Microsoft выпустила 166-страничное сверхподробное руководство пользователя для GPT-4V, от простых режимов ввода до способности к визуальному языку, интерактивных подсказок с людьми, понимания видео, абстрактного визуального мышления и теста эмоционального коэффициента IQ, GPT-4V может не только охватывать интерактивный опыт в повседневной жизни, но даже осуществлять профессиональную диагностическую оценку в промышленности, медицине и других областях.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abca433d25-dd1a6f-69ad2a) **Источник: Microsoft (веб-перевод только для справки)**В настоящее время беспрецедентная способность GPT-4V обрабатывать произвольные чередующиеся мультимодальные входы и универсальность его функций делают GPT-4V мощной мультимодальной универсальной системой. Кроме того, уникальная способность GPT-4V понимать визуальные маркеры, нарисованные на входных изображениях, может привести к новым методам взаимодействия человека и компьютера, таким как визуальные эталонные подсказки.Стоит отметить, что предварительное исследование GPT-4V может стимулировать будущие исследования следующего поколения мультимодальных формул задач**, использовать и совершенствовать новые методы LMM для решения реальных задач, а также лучше понимать мультимодальные базовые модели, а также стать новым исследованием направления развития компьютерного зрения.  ## **Большая модель открывает новые возможности для развития компьютерного зрения**  Возможно, когда дело доходит до мультимодальных возможностей, многим людям не привыкать, и в Китае есть много крупных моделей, которые уже имеют мультимодальные возможности, когда они запущены, и могут осуществлять распознавание и генерацию изображений, но следует признать, что по сравнению с LLM (большая языковая модель), разработка LMM (большая мультимодальная модель) все еще имеет много лазеек, которые нужно решить. **Ранее Big Model Home уже сталкивалась с рядом больших моделей с мультимодальными возможностями, взяв в качестве примеров фреймворк искусственного интеллекта MindSpore «Zidong Taichu» версии 2.0 и iFLYTEK Spark, которые необходимо улучшить в возможностях анализа, рассуждения и выражения.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-158366da31-dd1a6f-69ad2a) **На фото: Цзыдун Тайчу**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cd3185c149-dd1a6f-69ad2a) **На фото: iFLYTEK Spark****Стоит отметить, что в апреле этого года Meta предложила модель SAM (Segment Anything Model)** для разделения всего, SAM — это подсказка, которая обучила более 1 млрд масок на 11 млн изображений, добившись мощного обобщения с нулевой выборкой, некоторые инсайдеры отрасли говорили, что SAM прорвался через границы сегментации и сильно способствовал развитию базовых моделей компьютерного зрения.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3364ba847d-dd1a6f-69ad2a) Источник: Meta**Сам по себе SAM представляет собой семантическую сегментацию изображений, и модель улавливает концепцию «объектов», которые могут генерировать маски для любого объекта на любом изображении или видео, даже если она не видела его при обучении.Появление моделей ЗРК и GPT-4V может устанавливать большие языковые модели на «глаза», точно так же, как Open AI готовился к развертыванию поколения GPT-4V**, в том числе Be My Eyes, организации, которая строит инструменты для слабовидящих пользователей, накануне генерации моделей можно представить, что большая модель — это говорящий «слепой», но после добавления зрения большие модели с мультимодальными возможностями могут понимать цифры, видео и т.д. Мощь этой функции также подталкивает развитие искусственного интеллекта в новом направлении.  ## **Под волной больших моделей дорога отечественного компьютерного зрения**  После использования функций ввода, распознавания и анализа логических выводов большая модель может достичь многопольного расцвета и перейти к «компьютерному зрению GPT».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-681f3dc975-dd1a6f-69ad2a) **Источник: Huawei**В промышленности, применяя визуальные большие модели для обнаружения дефектов и других важных шагов для обеспечения качества продукции в производственном процессе, важно иметь возможность своевременно обнаруживать неисправности или дефекты и принимать соответствующие меры для минимизации эксплуатационных расходов и затрат, связанных с качеством. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d46ec6fa14-dd1a6f-69ad2a) **Источник: SenseTime**С точки зрения медицинской визуализационной диагностики, в сочетании с профессиональными знаниями когнитивных больших моделей, после добавления визуальных возможностей, он может не только анализировать различные медицинские изображения, но и быстро генерировать полные рентгенологические отчеты, с потенциалом быть помощником ИИ для создания рентгенологических отчетов, в настоящее время SenseTime разработала модель китайского медицинского языка «Большой доктор», основанную на медицинских знаниях и клинических данных, с возможностью обеспечить многоканальный многораундовый разговор, такой как руководство, консультация, консультация по здоровью и принятие решений.С точки зрения автоматического вождения, информация об изображении, полученная когнитивной большой моделью во время вождения, динамические цели вождения и т. д., может быть объединена для принятия соответствующих решений о вождении и объяснений вождения, а затем большая модель может преобразовать ее на язык автоматического вождения и взаимодействовать с системой автоматического вождения через Drive для достижения интеллектуального вождения.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-df9ed5ee74-dd1a6f-69ad2a) **Источник: Baidu**** Если взять Baidu в качестве примера, то на только что прошедшей Всемирной конференции Baidu 2023 года с точки зрения интеллектуального вождения стек технологий автономного вождения был полностью реконструирован с помощью новых технологий, таких как Transformer и BEV, а способность восприятия улучшалась на протяжении поколений, что ускоряло зрелость и популяризацию решений чистого зрения. ** В настоящее время решение Baidu Apollo для интеллектуального вождения pure vision high-end может быть применено к высокоскоростным, городским, парковочным и другим глобальным сценариям, и достигнет массового производства в четвертом квартале этого года, что также является первым решением в области чистого зрения в Китае, которое будет использоваться в городских условиях. Стоит отметить, что отказ от лидара снижает стоимость всего транспортного средства и повышает конкурентоспособность на рынке.**Big Model House считает, что с благословением общих знаний о больших языковых моделях, компьютерное зрение открыло более четкое направление развития**, от раннего компьютерного зрения, полагающегося на повторяющуюся память для практических приложений (таких как распознавание лиц, распознавание объектов), изучение интеграции зрения и языка стало новым направлением больших моделей и компьютерного зрения, от независимой разработки до взаимной интеграции, искусственный интеллект также постоянно исследует сенсорные способности, более близкие к людям, может лучше улавливать детали и особенности на изображениях, а точность больших моделей была улучшена. Он может адаптироваться к большему количеству сцен и распределению данных, полагаться на способность писать и понимать большую модель, интегрировать визуальные возможности и стать более интеллектуальным аватаром.Конечно, развитие науки и техники должно быть ограничено многими факторами. Большие модели требуют больше вычислительных ресурсов и времени на обучение, что может ограничивать их масштабируемость и в реальном времени, огромные обучающие данные должны быть ограничены вычислительной мощностью, особенно высокопроизводительными графическими процессорами, высокоскоростной памятью и хранилищем, а также технологией распределенного обучения, ** и текущий мировой рынок высокопроизводительных графических процессоров NVIDIA занимает почти 90% доли, Китай хочет занять высокие позиции в этом соревновании ИИ, способствовать качественному развитию китайских интеллектуальных вычислительных мощностей стало главным приоритетом. ****В целом, большие модели имеют много преимуществ после интеграции визуальных возможностей, но на этом этапе также существуют некоторые ограничения по разработке. ** С постоянным развитием глубокого обучения и вычислительных ресурсов мы можем ожидать появления более совершенных больших моделей и связанных с ними технологий, которые будут способствовать дальнейшему применению и прорыву компьютерного зрения в задачах обработки изображений с высоким разрешением.