Після великої мовної моделі, чи є комп'ютерний зір наступним виходом?

Question

*Джерело статті: Big Model House**Автор:Чжао Сяоман*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b333c2d0d-dd1a6f-69ad2a) *Джерело зображення: Створено Unbounded AI*Минулого місяця Open AI випустила останню версію GPT-4V, яка дозволяє користувачам доручати GPT-4 аналізувати новітні можливості вхідних даних зображень, наданих користувачем, і ця новина привернула увагу галузі до того, що включення інших способів, таких як введення зображень, у великі мовні моделі (LLM) розглядається як ключовий рубіж у дослідженнях і розробках ШІ, а мультимодальні LLM пропонують можливість розширення впливу систем чистої мови.Від чат-бота зі штучним інтелектом ChatGPT, випущеного наприкінці минулого року, до нинішнього GPT-4V, Open AI розширює великі мовні моделі (LLM) мультисенсорними навичками (такими як візуальне розуміння) у великих мультимодальних моделях (LMM) для досягнення сильнішого загального інтелекту.Незабаром після випуску GPT-4V Microsoft надала 166-сторінковий наддетальний посібник користувача для GPT-4V, від простих режимів введення до візуальних мовних здібностей, інтерактивних підказок з людьми, до розуміння часу, абстрактного візуального мислення та тесту емоційного коефіцієнта IQ, GPT-4V може не тільки охопити інтерактивний досвід у повсякденному житті, але навіть реалізувати професійну діагностичну оцінку в промисловості, медицині та інших галузях.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abca433d25-dd1a6f-69ad2a) **Джерело: Microsoft (веб-переклад лише для довідки)**В даний час безпрецедентна здатність GPT-4V обробляти довільні мультимодальні входи з чергуванням і універсальність його функцій в сукупності роблять GPT-4V потужною мультимодальною універсальною системою. Крім того, унікальна здатність GPT-4V розуміти візуальні маркери, намальовані на вхідних зображеннях, може призвести до нових методів взаємодії людини з комп'ютером, таких як візуальні еталонні підказки.Варто стверджувати, що попереднє дослідження GPT-4V може стимулювати майбутні дослідження наступного покоління формул мультимодальних завдань**, використовувати та вдосконалювати нові методи LMM для вирішення реальних проблем та краще розуміти мультимодальні базові моделі, а також стати новим дослідженням напрямку розвитку комп'ютерного зору.  ## **Велика модель розширює можливості нового розвитку комп'ютерного зору**  Можливо, коли справа доходить до мультимодальних можливостей, багато людей не чужі, і в Китаї є багато великих моделей, які вже мають мультимодальні можливості, коли вони запускаються, і можуть здійснювати розпізнавання та генерацію зображень, але слід визнати, що порівняно з LLM (великою мовною моделлю), розробка LMM (велика мультимодальна модель) все ще має багато лазівок, які потрібно вирішити. **Раніше Big Model Home випробувала ряд великих моделей з мультимодальними можливостями, взявши за приклад платформу великої моделі AI MindSpore «Zidong Taichu» версії 2.0 і iFLYTEK Spark, які необхідно вдосконалити в можливостях аналізу, міркувань і вираження.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-158366da31-dd1a6f-69ad2a) **На фото: Цзидун Тайчу**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cd3185c149-dd1a6f-69ad2a) **На фото: iFLYTEK Spark****Варто зазначити, що у квітні цього року Meta запропонувала модель SAM (Segment Anything Model) ** щоб розділити все, SAM — це оперативна модель, яка навчила понад 1 мільярд масок на 11 мільйонах зображень, досягнувши потужного узагальнення з нульовою вибіркою, деякі інсайдери галузі заявили, що SAM прорвався через межі сегментації та значно сприяв розробці базових моделей комп'ютерного зору.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3364ba847d-dd1a6f-69ad2a) Джерело: Meta**Сам по собі SAM є семантичною сегментацією зображень, і модель охоплює поняття «об'єкти», які можуть генерувати маски для будь-якого об'єкта на будь-якому зображенні або відео, навіть якщо вона не бачила його на навчанні.Поява моделей SAM та GPT-4V може встановлювати великі мовні моделі на «очі», подібно до того, як Open AI готувався до розгортання покоління GPT-4V**, включаючи Be My Eyes, організацію, яка створює інструменти для користувачів із вадами зору, напередодні генерації моделей можна уявити, що велика модель – це «сліпий», що говорить, але після додавання зору великі моделі з мультимодальними можливостями можуть розуміти цифри, відео тощо. Потужність цієї функції також підштовхує розвиток штучного інтелекту в новому напрямку.  ## **Під хвилею великих моделей дорога вітчизняного комп'ютерного зору**  Після використання функцій введення зображення, розпізнавання та аналізу висновків, велика модель може досягти багатопольового розквіту та перейти до «комп'ютерного зору GPT».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-681f3dc975-dd1a6f-69ad2a) **Джерело: Huawei**У промисловій сфері, застосовуючи візуальні великі моделі для виявлення дефектів та інших важливих кроків для забезпечення якості продукції у виробничому процесі, важливо вміти своєчасно виявляти несправності або дефекти та вживати відповідних заходів для мінімізації операційних витрат та витрат, пов'язаних з якістю. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d46ec6fa14-dd1a6f-69ad2a) **Джерело: SenseTime**З точки зору медичної візуалізаційної діагностики, у поєднанні з професійними знаннями когнітивних великих моделей, після додавання візуальних можливостей, він може не тільки аналізувати різні медичні зображення, але й швидко генерувати повні радіологічні звіти, з потенціалом бути помічником штучного інтелекту для створення звітів про радіологію, наразі SenseTime розробив китайську модель медичної мови «Великий лікар» на основі медичних знань і клінічних даних, з можливістю забезпечити багатосценарну багатораундову розмову, таку як керівництво, консультація, консультація щодо здоров'я та прийняття рішень.З точки зору автоматичного водіння, інформація зображення, отримана когнітивною великою моделлю під час водіння, динамічні цілі водіння тощо, може бути об'єднана для надання відповідних рішень щодо водіння та пояснень водіння, а потім велика модель може перетворити її на мову автоматичного водіння та взаємодіяти з системою автоматичного водіння через Drive для досягнення інтелектуального водіння.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-df9ed5ee74-dd1a6f-69ad2a) **Джерело: Baidu**** На прикладі Baidu на Всесвітній конференції Baidu 2023 року, що щойно відбулася, з точки зору інтелектуального водіння, стек технологій автономного водіння був повністю реконструйований за допомогою нових технологій, таких як Transformer і BEV, а здатність до сприйняття вдосконалювалася протягом поколінь, прискорюючи зрілість і популяризацію рішень для чистого бачення. **В даний час висококласне інтелектуальне рішення для водіння Baidu Apollo може бути застосоване для швидкісних, міських, паркувальних та інших глобальних сценаріїв, і буде запущено в масове виробництво в четвертому кварталі цього року, що також є першим рішенням для чистого бачення в Китаї, яке приземляється в міських сценах. Варто зазначити, що зняття лідара знижує вартість всього транспортного засобу та підвищує конкурентоспроможність на ринку.**Big Model House вважає, що з благословення загальних знань великих мовних моделей, комп'ютерний зір відкрив більш чіткий напрямок розвитку**, починаючи з раннього комп'ютерного зору, покладаючись на повторювану пам'ять для практичних застосувань (таких як розпізнавання облич, розпізнавання об'єктів), дослідження інтеграції зору та мови стало новим напрямком великих моделей та комп'ютерного зору, від незалежної розробки до взаємної інтеграції, штучний інтелект також постійно досліджує сенсорні здібності ближче до людини, може краще фіксувати деталі та особливості на зображеннях, а точність великих моделей була покращена. Він може адаптуватися до більшої кількості сцен і розподілу даних, покладатися на здатність писати і розуміти велику модель, інтегрувати візуальні можливості і ставати більш розумним аватаром.Звичайно, розвиток науки і техніки має бути обмежений багатьма факторами. Великі моделі вимагають більше обчислювальних ресурсів і часу для навчання, що може обмежити їх масштабованість і в реальному часі, величезні навчальні дані повинні бути обмежені обчислювальною потужністю, особливо високопродуктивними графічними процесорами, високошвидкісною пам'яттю та зберіганням, а також розподіленими навчальними технологіями, ** і поточний світовий ринок високопродуктивних графічних процесорів NVIDIA займає майже 90% частки, Китай хоче зайняти високі позиції в цій конкуренції штучного інтелекту, сприяти високоякісному розвитку китайських інтелектуальних обчислювальних потужностей стало головним пріоритетом. ****В цілому, великі моделі мають багато переваг після інтеграції візуальних можливостей, але на даному етапі також є деякі обмеження в розвитку. **З постійним розвитком глибокого навчання та обчислювальних ресурсів ми можемо очікувати появи більш досконалих великих моделей та пов'язаних з ними технологій для подальшого сприяння застосуванню та прориву комп'ютерного зору в завданнях із зображеннями з високою роздільною здатністю.