У квітні цього року кілька дослідників провідної компанії штучного інтелекту звернули увагу на нову технологію: SAM (Segment Anything Model). Дослідники швидко повідомили про цю технологію керівнику відділу.Ця компанія починала з технології машинного зору, і технологія, на якій зосередилися дослідники, також була пов’язана з нею. «З появою SAM все більше і більше людей зі штучним інтелектом розуміють, що великі моделі є для них шоком», — сказав один із дослідників.
Через місяць компанія почала виділяти ресурси для розробки великої візуальної моделі.
Протягом наступних трьох місяців провідні компанії машинного зору AI звернули увагу на потенціал цієї технології.Поки що компанії штучного інтелекту, такі як SenseTime і CloudWalk Technology, а також компанії традиційної безпеки почали інвестувати в цю нову технологічну конкуренцію.
SAM — це модель сегментації зображення для загальних сцен. Її запустила Meta у квітні цього року. Подібно до спілкування з ChatGPT, люди можуть використовувати деякі мовні інструкції, щоб дозволити SAM самостійно розрізняти та думати про вміст зображення. SAM вважається be ChatGPT з'явився в полі зору.
Ентузіасти в усьому світі використовують його, щоб малювати, вирізати зображення та добре проводити час, але китайські дослідники визнали силу SAM: якщо він використовується в автоматичному керуванні автомобілем, моніторингу безпеки, для виявлення людей, автомобілів і доріг, він це автономна велика модель, яка фундаментально порушує традиційний ігровий процес машинного зору.
Сегментація та розпізнавання зображень є основним завданням машинного зору. У минулому кожне завдання створення сегментованого зображення вимагало навчання алгоритму, анотування пакету даних і дозволу машині «бачити» різні об’єкти на зображенні шляхом накладання маленьких моделей. SAM продемонстрував деякі нові функції: без створення маленької моделі для кожного конкретного завдання, машина може автономно сегментувати будь-який об’єкт на будь-якому зображенні, навіть невідому, розмиту сцену, і операція надзвичайно проста.
Це означає, що SAM має більш загальні характеристики, і можна використовувати цю загальну функцію для значного зниження вартості розпізнавання машинного зору, тим самим змінюючи бізнес-модель і модель конкуренції на основі оригінальної технології.
З 2016 року в Китаї, який має величезний ринок, з’явилися сотні компаній зі штучного інтелекту. За допомогою ринкової конкуренції та капіталу поступово сформувалося кілька штучних єдинорогів, таких як Shangtang Technology, Cloudwalk Technology, Megvii Technology, згідно з Yitu Technology , ці компанії запровадили штучний інтелект у галузі безпеки, урядових справ і промисловості та побудували рів, використовуючи переваги складності алгоритмів і переваги масштабу.
Але тепер, зі зміною технології, подія може бути відновлена.
Фен Цзюньлан, головний науковий співробітник China Mobile Group і віце-президент Китайського альянсу розвитку промисловості штучного інтелекту, сказав журналістам, що велика модель штучного інтелекту принесе нову парадигму штучного інтелекту. Так званий рів у сфері штучного інтелекту в минулому в основному не існує під впливом великої моделі. Поява SAM доводить здійсненність великих візуальних моделей, руйнуючи дослідницьку структуру, взаємодію та методи обслуговування виробництва машинного зору.
Луо Сюнь, старший член IEEE, професор Тяньцзіньського технологічного університету та експерт з технологій AR/VR, сказав журналістам, що переваги можливостей ШІ провідних компаній раніше будуть певною мірою ослаблені через зростання великі моделі загального призначення. Але чи стануть ці компанії слабшими, залежить від їх трансформації.
Технічний маршрут
Як важлива галузь штучного інтелекту, мета машинного зору полягає в тому, щоб дозволити комп’ютерам імітувати людську зорову систему для розуміння та обробки зображень і відео.
Після 2000 року Джеффрі Хінтон, Янн ЛеКун і Йошуа Бенгіо, відомі як засновники штучного інтелекту, прорвали технологію глибокого навчання, дозволивши машинам нечітко симулювати людський мозок і автоматично вивчати та витягувати функції з масивних зображень.
2012 рік є важливим часовим вузлом. Проект ImageNet, створений професором Стенфордського університету Лі Фейфеєм, підштовхнув глибоке навчання до мейнстріму: дослідники можуть навчити комп’ютери розпізнавати різні об’єкти, позначаючи вручну велику кількість зображень, що значно покращує машинний зір.Рівень точності знижує собівартість і дає можливість комерціалізувати його.
У квітні 2023 року відбулися нові зміни, і Meta запустила модель сегментації зображення під назвою SAM. Будучи великою моделлю, SAM не тільки оснащує машину очима для сприйняття зовнішнього світу, але й наділяє машину справжнім мозком.Він вчиться спостерігати, сприймати, думати, логічно міркувати та отримувати результати з зображень та операцій. надзвичайно простий, подібний до ChatGPT, використовує діалог людською мовою для надання команд машині.
Коротше кажучи, він легше досягає мети машинного зору, не потребуючи великої кількості анотацій зображень і алгоритмів стекування, і споживає менше обчислювальної потужності. Вчений зі штучного інтелекту Nvidia Джим Фан сказав, що велика модель SAM є моментом машинного зору GPT-3.Вона розуміє загальну концепцію об’єктів, навіть для невідомих об’єктів, незнайомих сцен (наприклад, підводних зображень) і в неоднозначних ситуаціях. також можлива сегментація.
Після того, як Meta випустила SAM, вона також відкрила вихідний код для моделі та набору навчальних даних, що стоїть за нею, і представила сценарії застосування SAM для AR, VR, створення контенту та інших сфер.
Підприємства та дослідники в Китаї швидко оцінили можливу комерційну цінність SAM.Якщо його використовувати для автономного водіння, моніторингу безпеки, для виявлення людей, автомобілів і доріг, він може фундаментально порушити традиційне машинне бачення.
Фен Цзюньлан сказав, що велика модель змінить режим постачання штучного інтелекту, значно зменшить складність постачання, а граничні витрати будуть близькі до нуля; бізнес-сторона може виражати попит простішою природною мовою, і більше не потрібно покладатися за професійними інструкціями, такими як коди інженерів Спілкуйтеся з машинами та гнучко розгортайте різні моделі відповідно до власних потреб, підвищуючи ефективність
Чжу Бін, директор із продуктів Uniview Technology, сказав журналістам: «У минулому робота штучного інтелекту була схожа на перенесення коробок. Насправді це була відносно низькотехнологічна фізична робота. Коли штучний інтелект надає можливості одноточковій сцені, це дуже фрагментовані. І індивідуальні, передпродажна ефективність, ефективність післяпродажної ефективності та ефективність продажів є низькими, а вгору та вниз за течією галузі є більш болючими». Наприклад, Чжу Бін сказав, що інвестиції та витрати виробників, які інвестують у розробку, збір матеріалів, калібрування та налаштування алгоритмів для різних сценаріїв і регіонів, є дуже великими.Для клієнтів плата за індивідуальну розробку також є значними витратами.
Сьогодні використання великої моделі для заміни ігрового процесу початкової маленької моделі не потребує алгоритмів стекування чи великої кількості позначених даних і споживає дуже мало обчислювальної потужності в процесі. Ви можете використовувати простішу людську мову, щоб надавати команди машині без використовуючи професійну мову програмування. Чжу Бін сказав, що велика модель значно знизила вартість досліджень і розробок штучного інтелекту, а також розгортання. Вона створила низку нових ігрових процесів і реструктуризувала галузь, особливо в галузі комп’ютерного зору. Попередні технічні бар’єри, створені великими компаніями, було згладжено. , усі повернулися на ту саму стартову лінію.
Приплив
Навколо попереднього покоління технології машинного зору в Китаї народилася низка компаній зі штучного інтелекту, і технології, надані цими компаніями, почали широко використовуватися в моніторингу за допомогою камер та ідентифікації безпеки для громадської безпеки, метро та комерційних будівель.
«AI Four Tigers» відноситься до чотирьох китайських компаній зі штучного інтелекту, які були послідовно засновані між 2011 і 2014 роками, а саме SenseTime, Cloudwalk Technology, Megvii Technology і Yitu Technology. Їхньою спільною рисою є машинне бачення як основна технологія. Прорив ШІ в напрямку глибокого навчання забезпечив технічну основу для підйому цієї групи компаній зі штучного інтелекту, а промислові переваги Китаю забезпечили ринок для розвитку цих компаній. .
Після появи SAM вони почали націлюватися на цю технологію одна за одною.
Журналіст дізнався від багатьох людей у галузі, що окрім Yitu Technology, SenseTime, Cloudwalk Technology і Megvii Technology серед «Чотирьох тигрів штучного інтелекту» розробляють великомасштабні візуальні моделі. Kangweishi та Uniview Technology також розгортають пов’язані технологічні дослідження. і розвитку.
У квітні, лише через кілька днів після того, як Meta запустила SAM, SenseTime випустила велику модель «Daily New». Тянь Фен, декан науково-дослідного інституту інтелектуальної промисловості SenseTime, сказав журналістам, що серія «Ri Ri Xin» — це набір багатьох великих моделей, включаючи генерацію природної мови, генерацію зображень і візуальне сприйняття. Серед них «Ruying», «Qiongyu» , «Gewu» - великі моделі, пов'язані із зором.
У травні компанія Yuncong Technology випустила «спокійну» велику модель, яка є мультимодальною великою моделлю, включаючи vision.Yuncong Technology заявила на нещодавній зустрічі інвесторів, що візуальна велика модель є дуже важливою та буде запущена в майбутньому. моделі. Тому що компанія має значний резерв у сфері комп’ютерного зору, а також тому, що їй потрібна багатомодальна технологія для вирішення конкретних завдань клієнтів.
Megvii та Yitu ще не випустили великі моделі. Мегвій сказав журналістам, що «розробляє велику модель, але вона ще не була запущена і не доставлена клієнтам». З точки зору напрямку, Мегвій обрав чотири напрямки дослідження: велика модель загального зображення, велика модель для розуміння відео, велика модель обчислювальної фотографії та велика модель автономного сприйняття водіння, і досяг певних проривів.
Су Ляньцзе, головний аналітик штучного інтелекту в дослідницькій установі Omdia, сказав журналістам, що під впливом візуальної великомасштабної моделі «AI Four Tigers» швидко перетворився на великомасштабну модель і розгорнув мультимодальний великий -масштабна модель, яка фокусується на баченні.відносно розумно.
У червні цього року Hikvision повідомила інвесторам: «Ми звернули увагу на модель SAM на початку її випуску та провели систематичну оцінку». Чжу Бін сказав журналістам, що галузева модель AIoT, яку компанія розробляє самостійно «Wutong», є широкомасштабна промислова модель, заснована на загальній великомасштабній моделі + галузева сцена + навчання та налаштування. Вона була вперше випущена 9 травня та була випробувана першою групою партнерів у червні.
Hikvision і Uniview Technology — це традиційні компанії безпеки, які починали як виробники обладнання. Вони зіткнулися з жорсткою конкуренцією після того, як у індустрію безпеки увійшли «Чотири тигри штучного інтелекту». Вони активно використовують технологію машинного бачення. частка ринку.
Зараз компанії, що займаються штучним інтелектом, починають досягати консенсусу щодо значення «епохального масштабу великих моделей».
Тянь Фен, декан Дослідницького інституту інтелектуальної промисловості SenseTime, і Яо Чжицян, співзасновник Yuncong Technology, сказали журналістам, що AI 1.0 — це ера малих моделей. Підприємства в основному пропонують невеликі власні моделі та використовують багатоточкову технологію для вирішення AI2.0 — це ера великих моделей. Підприємствам необхідно використовувати уніфіковану великомасштабну технологічну базову платформу, тобто створити мультимодальну базову модель із загальними можливостями сприйняття та пізнання для світу, а також створіть на цій основі серію галузей.Малі моделі для задоволення потреб професійних сцен і більш масових сцен.
Яо Чжицян вважає, що якщо компанія штучного інтелекту все ще перебуває на попередньому етапі, вона може вирішити багато проблем зі сценою, але витрати важко зменшити, через що ефект масштабу неможливо показати; Тянь Фен вважає, що дві епохи співіснують протягом тривалий час, і це не той, хто усуває іншого. Протилежні відносини, обидва завершуються скоординованим чином. Наприклад, за допомогою гібридної структури експертної моделі (MoE) в епоху AI2.0 кілька моделей об’єднуються в сервіси, а також можна вбудовувати моделі 1.0.
У новому конкурсі накопичення оригінальних технологій та інвестиції в апаратне забезпечення все ще відіграватимуть роль.
Тянь Фенг сказав журналістам, що інтелектуальний обчислювальний центр «Великий пристрій штучного інтелекту» має потужну обчислювальну потужність ШІ та може забезпечити навчальну обчислювальну потужність для 20 великих моделей із сотнями мільярдів параметрів. Це ключове обладнання для розробки та навчання великих моделей. SenseTime Not лише для особистого користування, але також відкритий для великих стартапів і партнерів з досліджень і розробок.
Відповідна особа, відповідальна за Yunwalk, повідомила журналістам, що операційна система CWOS компанії має невід’ємні переваги в інтеграції супермовних моделей, таких як ChatGPT. У той же час система може передавати дані та інформацію у велику модель відповідно до фактичної виробничої ситуації, оптимізувати навчання та налаштування моделі, а також підвищити точність і ефективність моделі.
Велика модель проривається на ринок
«Навіть без впливу великої моделі, «ШІ чотири тигри» все ще перебувають у періоді плутанини в трансформації, і їм потрібно подумати про власну цінність і вихід». Су Ляньцзе сказав.
Капітал і ринок прихилили групу компаній зі штучного інтелекту, серед яких SenseTime і CloudWalk вийшли на ринок капіталу. З 2018 по 2022 рік SenseTime щорічно інвестувала понад 12 мільярдів юанів у дослідження та розробки та залучила більше 5 мільярдів юанів під час IPO у 2021 році. З 2018 по 2022 рік компанія Yuncong щороку інвестувала понад 2,2 мільярда юанів у дослідження та розробки та залучить 1,7 мільярда юанів під час IPO у 2022 році.
Хороша взаємодія між технологіями та капіталом також дала Китаю провідну перевагу у сфері візуального розпізнавання.Приблизно у 2018 році Китай поступався лише Сполученим Штатам або перевершував Сполучені Штати за кількістю опублікованих робіт зі штучного інтелекту та обсягом Особливо у сфері візуального розпізнавання китайські компанії зі штучного інтелекту неодноразово побивали рекорди на міжнародних конкурсах і досягали чудових результатів.
Але незабаром, з просуванням на ринок, потенціал оригінальної технології поступово досяг піку.У 2019 році Чжан Бо, академік Академії наук Китаю, в ексклюзивному інтерв’ю Економічному оглядачу припустив, що потенціал промислового застосування може до стелі.
Що ще важливіше, з комерційної точки зору, початковому технічному шляху штучного інтелекту завжди було важко подолати вузьке місце, тому більш традиційні клієнти галузі не можуть оплатити рахунок. Чжу Бін сказав: «Протягом багатьох років ми не бачили потужного нового порядку. Велика кількість компаній нещадно конкурують у двох напрямках розпізнавання людей і номерних знаків. Основна причина полягає в тому, що більше алгоритмів не можуть створити ефект масштабу. "
Дослідник штучного інтелекту провідної компанії сказав журналістам, що за традиційним методом компанія штучного інтелекту обслуговує автомобільний завод і продає набір алгоритмів для виявлення блокпостів. Середній один алгоритм для ідентифікації блокпостів коштує понад 100 000 юанів і займає близько 2 місяців. , замовнику потрібно надати десятки тисяч зображень для маркування, але лише одного алгоритму недостатньо, фактична дорога дуже складна, алгоритм, який підходить для маленьких автомобілів, може не підходити для великих вантажівок, і це не можна розпізнати під іншим кутом. Також важко розпізнати, коли ціль виявлення частково закрита.
Щоб підвищити інтелектуальність обладнання, компаніям зі штучним інтелектом потрібно накладати кілька алгоритмів, що просто означає накопичення багатьох маленьких моделей. Згідно з фінансовим звітом, SenseTime накопичила 67 000 невеликих комерційних моделей. Журналіст дізнався від Yuncong Technology, що компанія також має тисячі невеликих комерційних моделей.
Але час і вартість навчання теж подвоїлися.
Фен Цзюньлань сказав журналістам, що багатьом компаніям зі штучним інтелектом важко заробляти гроші. Однією з важливих причин є висока вартість послуг штучного інтелекту, через що компанії «заробляють один юань і втрачають п’ять юанів», а модель «чим більше замовлень отримано, тим більша компенсація" ускладнює роботу постачальників. Продовжуючи, сторона попиту може бути лише в кількох ключових галузях або галузях із сильними платіжними можливостями.
Згідно з фінансовим звітом, з 2018 по 2022 рік Yuncong Technology накопичила збитки на 3,1 мільярда юанів, а SenseTime накопичила збитки на суму понад 40 мільярдів юанів.
Щоб ще більше знизити вартість штучного інтелекту та покращити ринок, стратегія «ШІ чотирьох тигрів» також розійшлася. SenseTime обирає пристрої зі штучним інтелектом, Cloudwalk обирає операційні системи, Megvii обирає чіпи, а YITU обирає IoT.
З цієї точки зору велика модель може поставити не лише виклики існуючим компаніям, але й абсолютно нову бізнес-модель і сценарій застосування.
Вищезгаданий дослідник сказав, що компанія доклала зусиль, щоб знайти бізнес ШІ на більшій кількості ринків. Наприклад, одного разу компанія поговорила з супермаркетом про моніторинг ШІ, щоб визначити, чи присутній продавець. Компанія надіслала п’ятьох інженерів-алгоритмів, і лише зарплата коштує 300 000 юанів. Загальна місячна зарплата десятків продавців клієнта становить менше 50 000 юанів; він також поговорив із власником фабрики про інспекцію якості ШІ, яка виявляє, чи пакувальні коробки на конвеєрі пошкоджені, та інші партія оцінює, що економніше наймати працівників тощо.
Ці вимоги разом називають вимогами ШІ з довгим хвостом: велика кількість малих і середніх клієнтів зі слабкими платіжними можливостями не мають жорсткого попиту на ШІ, але мають деякі особливі потреби в певних сценаріях, які можуть бути використовується чи ні, і вони не бажають платити мільйони доларів. На думку цього дослідника, у майбутньому певний тип великої моделі або набір мультимодальних великих моделей можна буде застосувати до цих сценаріїв візуального виявлення, використовуючи міграцію та загальні можливості великих моделей, лише невелику кількість Потрібні анотації даних і інвестиції в алгоритми, а цикл розробки та вимоги до обчислювальної потужності також будуть нижчими, тому вартість буде значно зменшена, а клієнти матимуть більшу ймовірність платити.
Чжу Бін підрахував, що в минулому алгоритми штучного інтелекту, засновані на малих моделях, могли задовольняти менше ніж 10% вимог щодо фрагментації. У майбутньому ймовірність алгоритмів штучного інтелекту, заснованих на великих моделях, може бути збільшена до понад 50%, а ефективність загального алгоритму з довгим хвостом можна збільшити в 10 разів. Час можна скоротити до 1 людини на тиждень.
Яо Чжицян сказав журналістам, що як тільки технологія буде платформизована та стандартизована, усі компанії, які займаються штучним інтелектом, зможуть швидко адаптуватися до масштабних сценаріїв і реалізовувати масштабні програми за допомогою уніфікованої базової технологічної платформи.
Фен Цзюньлань сказав, що витрати на споживання технологій набагато нижчі за цінність, яку технології приносять бізнесу. Коли ця формула виконується, технологію можна розширити та перенести на більш розширені ринки. Це також задовольняє фундаментальну логіку компаній ШІ для досягнення прибутку, а також означає, що вони мають можливість розвивати більше ринків блакитного океану.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Велика модель ШІ зробить революцію в ШІ
Джерело: Економічний оглядач
Автор: Шен Іран
У квітні цього року кілька дослідників провідної компанії штучного інтелекту звернули увагу на нову технологію: SAM (Segment Anything Model). Дослідники швидко повідомили про цю технологію керівнику відділу.Ця компанія починала з технології машинного зору, і технологія, на якій зосередилися дослідники, також була пов’язана з нею. «З появою SAM все більше і більше людей зі штучним інтелектом розуміють, що великі моделі є для них шоком», — сказав один із дослідників.
Через місяць компанія почала виділяти ресурси для розробки великої візуальної моделі.
Протягом наступних трьох місяців провідні компанії машинного зору AI звернули увагу на потенціал цієї технології.Поки що компанії штучного інтелекту, такі як SenseTime і CloudWalk Technology, а також компанії традиційної безпеки почали інвестувати в цю нову технологічну конкуренцію.
SAM — це модель сегментації зображення для загальних сцен. Її запустила Meta у квітні цього року. Подібно до спілкування з ChatGPT, люди можуть використовувати деякі мовні інструкції, щоб дозволити SAM самостійно розрізняти та думати про вміст зображення. SAM вважається be ChatGPT з'явився в полі зору.
Ентузіасти в усьому світі використовують його, щоб малювати, вирізати зображення та добре проводити час, але китайські дослідники визнали силу SAM: якщо він використовується в автоматичному керуванні автомобілем, моніторингу безпеки, для виявлення людей, автомобілів і доріг, він це автономна велика модель, яка фундаментально порушує традиційний ігровий процес машинного зору.
Сегментація та розпізнавання зображень є основним завданням машинного зору. У минулому кожне завдання створення сегментованого зображення вимагало навчання алгоритму, анотування пакету даних і дозволу машині «бачити» різні об’єкти на зображенні шляхом накладання маленьких моделей. SAM продемонстрував деякі нові функції: без створення маленької моделі для кожного конкретного завдання, машина може автономно сегментувати будь-який об’єкт на будь-якому зображенні, навіть невідому, розмиту сцену, і операція надзвичайно проста.
Це означає, що SAM має більш загальні характеристики, і можна використовувати цю загальну функцію для значного зниження вартості розпізнавання машинного зору, тим самим змінюючи бізнес-модель і модель конкуренції на основі оригінальної технології.
З 2016 року в Китаї, який має величезний ринок, з’явилися сотні компаній зі штучного інтелекту. За допомогою ринкової конкуренції та капіталу поступово сформувалося кілька штучних єдинорогів, таких як Shangtang Technology, Cloudwalk Technology, Megvii Technology, згідно з Yitu Technology , ці компанії запровадили штучний інтелект у галузі безпеки, урядових справ і промисловості та побудували рів, використовуючи переваги складності алгоритмів і переваги масштабу.
Але тепер, зі зміною технології, подія може бути відновлена.
Фен Цзюньлан, головний науковий співробітник China Mobile Group і віце-президент Китайського альянсу розвитку промисловості штучного інтелекту, сказав журналістам, що велика модель штучного інтелекту принесе нову парадигму штучного інтелекту. Так званий рів у сфері штучного інтелекту в минулому в основному не існує під впливом великої моделі. Поява SAM доводить здійсненність великих візуальних моделей, руйнуючи дослідницьку структуру, взаємодію та методи обслуговування виробництва машинного зору.
Луо Сюнь, старший член IEEE, професор Тяньцзіньського технологічного університету та експерт з технологій AR/VR, сказав журналістам, що переваги можливостей ШІ провідних компаній раніше будуть певною мірою ослаблені через зростання великі моделі загального призначення. Але чи стануть ці компанії слабшими, залежить від їх трансформації.
Технічний маршрут
Як важлива галузь штучного інтелекту, мета машинного зору полягає в тому, щоб дозволити комп’ютерам імітувати людську зорову систему для розуміння та обробки зображень і відео.
Після 2000 року Джеффрі Хінтон, Янн ЛеКун і Йошуа Бенгіо, відомі як засновники штучного інтелекту, прорвали технологію глибокого навчання, дозволивши машинам нечітко симулювати людський мозок і автоматично вивчати та витягувати функції з масивних зображень.
2012 рік є важливим часовим вузлом. Проект ImageNet, створений професором Стенфордського університету Лі Фейфеєм, підштовхнув глибоке навчання до мейнстріму: дослідники можуть навчити комп’ютери розпізнавати різні об’єкти, позначаючи вручну велику кількість зображень, що значно покращує машинний зір.Рівень точності знижує собівартість і дає можливість комерціалізувати його.
У квітні 2023 року відбулися нові зміни, і Meta запустила модель сегментації зображення під назвою SAM. Будучи великою моделлю, SAM не тільки оснащує машину очима для сприйняття зовнішнього світу, але й наділяє машину справжнім мозком.Він вчиться спостерігати, сприймати, думати, логічно міркувати та отримувати результати з зображень та операцій. надзвичайно простий, подібний до ChatGPT, використовує діалог людською мовою для надання команд машині.
Коротше кажучи, він легше досягає мети машинного зору, не потребуючи великої кількості анотацій зображень і алгоритмів стекування, і споживає менше обчислювальної потужності. Вчений зі штучного інтелекту Nvidia Джим Фан сказав, що велика модель SAM є моментом машинного зору GPT-3.Вона розуміє загальну концепцію об’єктів, навіть для невідомих об’єктів, незнайомих сцен (наприклад, підводних зображень) і в неоднозначних ситуаціях. також можлива сегментація.
Після того, як Meta випустила SAM, вона також відкрила вихідний код для моделі та набору навчальних даних, що стоїть за нею, і представила сценарії застосування SAM для AR, VR, створення контенту та інших сфер.
Підприємства та дослідники в Китаї швидко оцінили можливу комерційну цінність SAM.Якщо його використовувати для автономного водіння, моніторингу безпеки, для виявлення людей, автомобілів і доріг, він може фундаментально порушити традиційне машинне бачення.
Фен Цзюньлан сказав, що велика модель змінить режим постачання штучного інтелекту, значно зменшить складність постачання, а граничні витрати будуть близькі до нуля; бізнес-сторона може виражати попит простішою природною мовою, і більше не потрібно покладатися за професійними інструкціями, такими як коди інженерів Спілкуйтеся з машинами та гнучко розгортайте різні моделі відповідно до власних потреб, підвищуючи ефективність
Чжу Бін, директор із продуктів Uniview Technology, сказав журналістам: «У минулому робота штучного інтелекту була схожа на перенесення коробок. Насправді це була відносно низькотехнологічна фізична робота. Коли штучний інтелект надає можливості одноточковій сцені, це дуже фрагментовані. І індивідуальні, передпродажна ефективність, ефективність післяпродажної ефективності та ефективність продажів є низькими, а вгору та вниз за течією галузі є більш болючими». Наприклад, Чжу Бін сказав, що інвестиції та витрати виробників, які інвестують у розробку, збір матеріалів, калібрування та налаштування алгоритмів для різних сценаріїв і регіонів, є дуже великими.Для клієнтів плата за індивідуальну розробку також є значними витратами.
Сьогодні використання великої моделі для заміни ігрового процесу початкової маленької моделі не потребує алгоритмів стекування чи великої кількості позначених даних і споживає дуже мало обчислювальної потужності в процесі. Ви можете використовувати простішу людську мову, щоб надавати команди машині без використовуючи професійну мову програмування. Чжу Бін сказав, що велика модель значно знизила вартість досліджень і розробок штучного інтелекту, а також розгортання. Вона створила низку нових ігрових процесів і реструктуризувала галузь, особливо в галузі комп’ютерного зору. Попередні технічні бар’єри, створені великими компаніями, було згладжено. , усі повернулися на ту саму стартову лінію.
Приплив
Навколо попереднього покоління технології машинного зору в Китаї народилася низка компаній зі штучного інтелекту, і технології, надані цими компаніями, почали широко використовуватися в моніторингу за допомогою камер та ідентифікації безпеки для громадської безпеки, метро та комерційних будівель.
«AI Four Tigers» відноситься до чотирьох китайських компаній зі штучного інтелекту, які були послідовно засновані між 2011 і 2014 роками, а саме SenseTime, Cloudwalk Technology, Megvii Technology і Yitu Technology. Їхньою спільною рисою є машинне бачення як основна технологія. Прорив ШІ в напрямку глибокого навчання забезпечив технічну основу для підйому цієї групи компаній зі штучного інтелекту, а промислові переваги Китаю забезпечили ринок для розвитку цих компаній. .
Після появи SAM вони почали націлюватися на цю технологію одна за одною.
Журналіст дізнався від багатьох людей у галузі, що окрім Yitu Technology, SenseTime, Cloudwalk Technology і Megvii Technology серед «Чотирьох тигрів штучного інтелекту» розробляють великомасштабні візуальні моделі. Kangweishi та Uniview Technology також розгортають пов’язані технологічні дослідження. і розвитку.
У квітні, лише через кілька днів після того, як Meta запустила SAM, SenseTime випустила велику модель «Daily New». Тянь Фен, декан науково-дослідного інституту інтелектуальної промисловості SenseTime, сказав журналістам, що серія «Ri Ri Xin» — це набір багатьох великих моделей, включаючи генерацію природної мови, генерацію зображень і візуальне сприйняття. Серед них «Ruying», «Qiongyu» , «Gewu» - великі моделі, пов'язані із зором.
У травні компанія Yuncong Technology випустила «спокійну» велику модель, яка є мультимодальною великою моделлю, включаючи vision.Yuncong Technology заявила на нещодавній зустрічі інвесторів, що візуальна велика модель є дуже важливою та буде запущена в майбутньому. моделі. Тому що компанія має значний резерв у сфері комп’ютерного зору, а також тому, що їй потрібна багатомодальна технологія для вирішення конкретних завдань клієнтів.
Megvii та Yitu ще не випустили великі моделі. Мегвій сказав журналістам, що «розробляє велику модель, але вона ще не була запущена і не доставлена клієнтам». З точки зору напрямку, Мегвій обрав чотири напрямки дослідження: велика модель загального зображення, велика модель для розуміння відео, велика модель обчислювальної фотографії та велика модель автономного сприйняття водіння, і досяг певних проривів.
Су Ляньцзе, головний аналітик штучного інтелекту в дослідницькій установі Omdia, сказав журналістам, що під впливом візуальної великомасштабної моделі «AI Four Tigers» швидко перетворився на великомасштабну модель і розгорнув мультимодальний великий -масштабна модель, яка фокусується на баченні.відносно розумно.
У червні цього року Hikvision повідомила інвесторам: «Ми звернули увагу на модель SAM на початку її випуску та провели систематичну оцінку». Чжу Бін сказав журналістам, що галузева модель AIoT, яку компанія розробляє самостійно «Wutong», є широкомасштабна промислова модель, заснована на загальній великомасштабній моделі + галузева сцена + навчання та налаштування. Вона була вперше випущена 9 травня та була випробувана першою групою партнерів у червні.
Hikvision і Uniview Technology — це традиційні компанії безпеки, які починали як виробники обладнання. Вони зіткнулися з жорсткою конкуренцією після того, як у індустрію безпеки увійшли «Чотири тигри штучного інтелекту». Вони активно використовують технологію машинного бачення. частка ринку.
Зараз компанії, що займаються штучним інтелектом, починають досягати консенсусу щодо значення «епохального масштабу великих моделей».
Тянь Фен, декан Дослідницького інституту інтелектуальної промисловості SenseTime, і Яо Чжицян, співзасновник Yuncong Technology, сказали журналістам, що AI 1.0 — це ера малих моделей. Підприємства в основному пропонують невеликі власні моделі та використовують багатоточкову технологію для вирішення AI2.0 — це ера великих моделей. Підприємствам необхідно використовувати уніфіковану великомасштабну технологічну базову платформу, тобто створити мультимодальну базову модель із загальними можливостями сприйняття та пізнання для світу, а також створіть на цій основі серію галузей.Малі моделі для задоволення потреб професійних сцен і більш масових сцен.
Яо Чжицян вважає, що якщо компанія штучного інтелекту все ще перебуває на попередньому етапі, вона може вирішити багато проблем зі сценою, але витрати важко зменшити, через що ефект масштабу неможливо показати; Тянь Фен вважає, що дві епохи співіснують протягом тривалий час, і це не той, хто усуває іншого. Протилежні відносини, обидва завершуються скоординованим чином. Наприклад, за допомогою гібридної структури експертної моделі (MoE) в епоху AI2.0 кілька моделей об’єднуються в сервіси, а також можна вбудовувати моделі 1.0.
У новому конкурсі накопичення оригінальних технологій та інвестиції в апаратне забезпечення все ще відіграватимуть роль.
Тянь Фенг сказав журналістам, що інтелектуальний обчислювальний центр «Великий пристрій штучного інтелекту» має потужну обчислювальну потужність ШІ та може забезпечити навчальну обчислювальну потужність для 20 великих моделей із сотнями мільярдів параметрів. Це ключове обладнання для розробки та навчання великих моделей. SenseTime Not лише для особистого користування, але також відкритий для великих стартапів і партнерів з досліджень і розробок.
Відповідна особа, відповідальна за Yunwalk, повідомила журналістам, що операційна система CWOS компанії має невід’ємні переваги в інтеграції супермовних моделей, таких як ChatGPT. У той же час система може передавати дані та інформацію у велику модель відповідно до фактичної виробничої ситуації, оптимізувати навчання та налаштування моделі, а також підвищити точність і ефективність моделі.
Велика модель проривається на ринок
«Навіть без впливу великої моделі, «ШІ чотири тигри» все ще перебувають у періоді плутанини в трансформації, і їм потрібно подумати про власну цінність і вихід». Су Ляньцзе сказав.
Капітал і ринок прихилили групу компаній зі штучного інтелекту, серед яких SenseTime і CloudWalk вийшли на ринок капіталу. З 2018 по 2022 рік SenseTime щорічно інвестувала понад 12 мільярдів юанів у дослідження та розробки та залучила більше 5 мільярдів юанів під час IPO у 2021 році. З 2018 по 2022 рік компанія Yuncong щороку інвестувала понад 2,2 мільярда юанів у дослідження та розробки та залучить 1,7 мільярда юанів під час IPO у 2022 році.
Хороша взаємодія між технологіями та капіталом також дала Китаю провідну перевагу у сфері візуального розпізнавання.Приблизно у 2018 році Китай поступався лише Сполученим Штатам або перевершував Сполучені Штати за кількістю опублікованих робіт зі штучного інтелекту та обсягом Особливо у сфері візуального розпізнавання китайські компанії зі штучного інтелекту неодноразово побивали рекорди на міжнародних конкурсах і досягали чудових результатів.
Але незабаром, з просуванням на ринок, потенціал оригінальної технології поступово досяг піку.У 2019 році Чжан Бо, академік Академії наук Китаю, в ексклюзивному інтерв’ю Економічному оглядачу припустив, що потенціал промислового застосування може до стелі.
Що ще важливіше, з комерційної точки зору, початковому технічному шляху штучного інтелекту завжди було важко подолати вузьке місце, тому більш традиційні клієнти галузі не можуть оплатити рахунок. Чжу Бін сказав: «Протягом багатьох років ми не бачили потужного нового порядку. Велика кількість компаній нещадно конкурують у двох напрямках розпізнавання людей і номерних знаків. Основна причина полягає в тому, що більше алгоритмів не можуть створити ефект масштабу. "
Дослідник штучного інтелекту провідної компанії сказав журналістам, що за традиційним методом компанія штучного інтелекту обслуговує автомобільний завод і продає набір алгоритмів для виявлення блокпостів. Середній один алгоритм для ідентифікації блокпостів коштує понад 100 000 юанів і займає близько 2 місяців. , замовнику потрібно надати десятки тисяч зображень для маркування, але лише одного алгоритму недостатньо, фактична дорога дуже складна, алгоритм, який підходить для маленьких автомобілів, може не підходити для великих вантажівок, і це не можна розпізнати під іншим кутом. Також важко розпізнати, коли ціль виявлення частково закрита.
Щоб підвищити інтелектуальність обладнання, компаніям зі штучним інтелектом потрібно накладати кілька алгоритмів, що просто означає накопичення багатьох маленьких моделей. Згідно з фінансовим звітом, SenseTime накопичила 67 000 невеликих комерційних моделей. Журналіст дізнався від Yuncong Technology, що компанія також має тисячі невеликих комерційних моделей.
Але час і вартість навчання теж подвоїлися.
Фен Цзюньлань сказав журналістам, що багатьом компаніям зі штучним інтелектом важко заробляти гроші. Однією з важливих причин є висока вартість послуг штучного інтелекту, через що компанії «заробляють один юань і втрачають п’ять юанів», а модель «чим більше замовлень отримано, тим більша компенсація" ускладнює роботу постачальників. Продовжуючи, сторона попиту може бути лише в кількох ключових галузях або галузях із сильними платіжними можливостями.
Згідно з фінансовим звітом, з 2018 по 2022 рік Yuncong Technology накопичила збитки на 3,1 мільярда юанів, а SenseTime накопичила збитки на суму понад 40 мільярдів юанів.
Щоб ще більше знизити вартість штучного інтелекту та покращити ринок, стратегія «ШІ чотирьох тигрів» також розійшлася. SenseTime обирає пристрої зі штучним інтелектом, Cloudwalk обирає операційні системи, Megvii обирає чіпи, а YITU обирає IoT.
З цієї точки зору велика модель може поставити не лише виклики існуючим компаніям, але й абсолютно нову бізнес-модель і сценарій застосування.
Вищезгаданий дослідник сказав, що компанія доклала зусиль, щоб знайти бізнес ШІ на більшій кількості ринків. Наприклад, одного разу компанія поговорила з супермаркетом про моніторинг ШІ, щоб визначити, чи присутній продавець. Компанія надіслала п’ятьох інженерів-алгоритмів, і лише зарплата коштує 300 000 юанів. Загальна місячна зарплата десятків продавців клієнта становить менше 50 000 юанів; він також поговорив із власником фабрики про інспекцію якості ШІ, яка виявляє, чи пакувальні коробки на конвеєрі пошкоджені, та інші партія оцінює, що економніше наймати працівників тощо.
Ці вимоги разом називають вимогами ШІ з довгим хвостом: велика кількість малих і середніх клієнтів зі слабкими платіжними можливостями не мають жорсткого попиту на ШІ, але мають деякі особливі потреби в певних сценаріях, які можуть бути використовується чи ні, і вони не бажають платити мільйони доларів. На думку цього дослідника, у майбутньому певний тип великої моделі або набір мультимодальних великих моделей можна буде застосувати до цих сценаріїв візуального виявлення, використовуючи міграцію та загальні можливості великих моделей, лише невелику кількість Потрібні анотації даних і інвестиції в алгоритми, а цикл розробки та вимоги до обчислювальної потужності також будуть нижчими, тому вартість буде значно зменшена, а клієнти матимуть більшу ймовірність платити.
Чжу Бін підрахував, що в минулому алгоритми штучного інтелекту, засновані на малих моделях, могли задовольняти менше ніж 10% вимог щодо фрагментації. У майбутньому ймовірність алгоритмів штучного інтелекту, заснованих на великих моделях, може бути збільшена до понад 50%, а ефективність загального алгоритму з довгим хвостом можна збільшити в 10 разів. Час можна скоротити до 1 людини на тиждень.
Яо Чжицян сказав журналістам, що як тільки технологія буде платформизована та стандартизована, усі компанії, які займаються штучним інтелектом, зможуть швидко адаптуватися до масштабних сценаріїв і реалізовувати масштабні програми за допомогою уніфікованої базової технологічної платформи.
Фен Цзюньлань сказав, що витрати на споживання технологій набагато нижчі за цінність, яку технології приносять бізнесу. Коли ця формула виконується, технологію можна розширити та перенести на більш розширені ринки. Це також задовольняє фундаментальну логіку компаній ШІ для досягнення прибутку, а також означає, що вони мають можливість розвивати більше ринків блакитного океану.