Чи змінився тренд ШІ «Війни сотень моделей»? 360, Мейту послідовно запускав рухи, а візуальна масштабна модель влаштувала «казковий бій»

Question

Джерело: China Times![](https://img.gateio.im/social/moments-bab2147faf-e3e634b33e-dd1a6f-62a40f) Джерело зображення: створено Unbounded AI‌Оскільки розвиток і застосування великих моделей штучного інтелекту продовжує зростати, репортер помітив, що гравці на треку почали зміщувати свою увагу з великих мовних моделей на великі візуальні моделі. Нещодавно Adobe, Meta, 360, Meitu та багато інших провідних інтернет-компаній у країні та за кордоном опублікували масштабні результати моделювання, додавши вогонь і без того надзвичайно гарячому ринку ШІ.«Застосування штучного інтелекту у сфері відео привертає все більше уваги». Ву Гаобінь, віце-голова Комітету з інтеграції індустріалізації та індустріалізації Китайської асоціації промисловості зв’язку, сказав репортеру «China Times», що випуск цих великих моделі штучного інтелекту створили нову конкуренцію для підприємств. Конкуренція між підприємствами сприятиме технологічним інноваціям і прогресу, а також принесе кращі продукти та послуги. Конкуренція також сприятиме співпраці та спільному використанню ресурсів між підприємствами, щоб краще відповідати вимогам ринку.## **Візуальна великомасштабна модель вдома та за кордоном "Казковий бій"**Після появи ряду за рядом великомасштабних мовних моделей і мультимодальних великомасштабних моделей, «візуальні великомасштабні моделі» стали ще одним полем битви для військових стратегів. Кілька днів тому Meitu випустила MiracleVision, широкомасштабну модель бачення штучного інтелекту разом із сімома продуктами, включаючи інструмент створення бачення штучного інтелекту WHEE, цифровий інструмент штучного інтелекту для створення людини DreamAvatar і помічник Meitu AI RoboNeo.Згідно з повідомленнями, MiracleVision має потужну візуальну експресію та креативність і може повернути назад технологічну еволюцію візуальних сцен, таких як живопис, дизайн, кіно та телебачення, фотографія, ігри, 3D та анімація. На відміну від інших великих моделей на ринку, він особливо хороший у створенні таких напрямків, як азіатська портретна фотографія, національний стиль і мода, комерційний дизайн.Ву Сіньхун, засновник, голова правління та генеральний директор Meitu, сказав в інтерв’ю журналісту China Times: "Основна перевага великої моделі Meitu полягає в розумінні естетики. База кінцевих користувачів C досить велика. Вартість Залучення клієнтів низьке. Meitu наразі має 243 мільйони активних користувачів щомісяця та 7,19 мільйонів VIP-членів у всьому світі, які можуть переконатися в успіху продукту за короткий час. На відміну від інших виробників, велика модель Meitu зосереджена на естетиці (малюнки на екрані, якісний дизайн тощо). .), надалі, якщо доведеться конкурувати, то будемо «котити» на естетиці».За збігом обставин, кілька днів тому 360 також офіційно випустив «360 Smart Brain-Vision Large Model». Чжоу Хуні, засновник 360, сказав, що велика мовна модель є основою для побудови великої візуальної моделі, а ядром покращення мультимодальних можливостей є можливості пізнання, міркування та прийняття рішень великої мовної моделі. У той же час велика візуальна модель також є важливим компонентом можливостей «360 Smart Brain», який у майбутньому може розуміти зображення, відео та звуки.Закордонні компанії також почали створювати візуальні моделі. Кілька днів тому гігант соціальних мереж Meta оголосив, що відкриє дослідникам деякі компоненти «гуманоїдної» моделі штучного інтелекту під назвою I-JEPA, яка може аналізувати та завершувати незавершені зображення точніше, ніж існуючі моделі, а не просто створювати висновки на основі сусідніх пікселів, як це роблять інші генеративні моделі ШІ.Ян Лікун, головний науковець зі штучного інтелекту Meta, одного разу публічно зазначив, що поточна авторегресійна модель GPT не має здатності планувати та міркувати, і від майбутньої системи GPT можна відмовитися, і дав, на його думку, правильну відповідь - світ модель. Кажуть, що I-JEPA є першою моделлю штучного інтелекту, заснованою на ключових компонентах її бачення, яка аналізує та завершує незавершені зображення точніше, ніж існуючі моделі.Крім того, Meta також випустила модель штучного інтелекту для генерування мовлення «Voicebox», яка підтримує генерування мовлення з тексту, може зіставляти аудіостилі на основі зразків тривалістю лише дві секунди та перетворює зразки тексту на іншу мову. зразки голосу та можливість читати перекладений текстовий вміст оригінальним голосом мовця, наразі підтримуються шість мов: англійська, французька, німецька, іспанська, польська та португальська.Ще в квітні цього року Adobe інтегрувала свою функцію Adobe Firefly (продукти, схожі на ChatGPT) у матрицю аудіо- та відеопродуктів, таких як Premiere Pro, After Effects, Audition, Remix тощо, забезпечуючи користувачам генерацію вмісту в один клік. , редагування, підбір кольорів, зміна музики та інші функції.## **Від «мовної моделі» до «моделі бачення»**«Звіт про дослідження великомасштабних карт штучного інтелекту Китаю» показує, що з точки зору кількості та розподілу великомасштабних моделей, опублікованих у всьому світі, Китай і Сполучені Штати лідирують із великим відривом, на них припадає понад 80% світового масштабу. всього У той же час все більше команд дослідників у Європі, Росії, Ізраїлі тощо також інвестують у розробку великих моделей. Але варто зазначити, що в моїй країні все ще мало великих моделей у сфері комп’ютерного зору та інших областях.Досліджуючи причину, Янь Шуйчен, запрошений головний науковий співробітник Пекінського науково-дослідного інституту Чжиюань, сказав репортеру «China Times»: «Основна причина, чому розробка візуальних моделей трохи відстає, полягає в тому, що великі візуальні моделі споживають набагато більше обчислювальної потужності. ніж текст, тож я також сподіваюся на швидшу розробку чіпів, і навіть можливо інтегрувати інші чіпи без графічного процесора. Моделі, які ви зараз бачите, загалом мають кілокальний рівень, але деякі люди можуть використовувати рівень карток 10 000 зробити їх наступного року».За словами Хуан Тіцзюня, президента Пекінського науково-дослідного інституту штучного інтелекту Чжиюань, візуальне поле є фокусом наступної хвилі у сфері великих моделей. Він зазначив, що методи мислення та основні маршрути, що стоять за великою візуальною моделлю та великою мовною моделлю, однакові, але вхідними даними стали зображення та відео, а навчена модель має певну загальну візуальну мовну здатність. Одна з передумов: AIGC (Artificial Intelligence Automatic Genered Content) може генерувати зображення та твори мистецтва. «Існує також більш базова здатність, тобто після того, як ви побачили світ, ви повинні спочатку вміти розрізняти світ (усе)».Щодо розробки великомасштабних візуальних моделей багато організацій також висловили оптимістичні настрої. Відповідно до дослідницького звіту, опублікованого CICC Research, очікується, що в майбутньому комп’ютерний зір досягне вищого ступеня автоматизації, високої точності та низького енергоспоживання, що ще більше збагатить екологію контенту Метавсесвіту та знизить бар’єри для входу. Розвиток комп’ютерного зору призвів до швидкого розвитку технології 3D-реконструкції та захоплення руху, а також до поступового накопичення технологічного прогресу у відповідних галузях. Очікується, що в майбутньому комп’ютерний зір приведе до вищого рівня автоматизації, вищої точності та нижчого енергоспоживання. Воно поступово досягне кращих візуальних ефектів на мобільних терміналах, застосовуватиметься у великій кількості галузей промисловості та поступово розвиватиметься до з’єднання фізичного та цифрового світу. Довгострокове бачення світу.CITIC Securities Research також заявив, що в області дизайну великі моделі ведуть цифровий дизайн до інтелектуального дизайну, а пов’язане програмне забезпечення промислового дизайну в поєднанні з GPT та іншими технологіями може бути застосовано для таких сценаріїв, як планування дизайну, оптимізація компонування, плагіни помічників, Завдяки загальній тенденції вдосконалення штучного інтелекту розпочинається новий виток революції продуктивності.