Еволюція «Консультації 2.0», що стоїть перед великою макетом моделі SenseTime

Ми переживаємо масову хвилю нової інфраструктури ШІ.

За півроку великомасштабна модель швидко поширилася з маломасштабного консенсусу. Відповідно до звіту, опублікованого CITIC, кількість великомасштабних моделей із понад 1 мільярдом параметричних моделей, які були опубліковані на даний момент, наближається до 80, половина з яких походить від підприємств, а половина від науково-дослідних установ.

У процесі поступового формування вітчизняної великомасштабної модельної екології вона також почала відмовлятися від гонитви за OpenAI і поступово знаходила власний шлях. Стандарт для вимірювання успіху великих моделей також змінився від змагання за параметрами жорстких мостів і жорстких коней до справжнього вирішення проблем.

У квітні цього року компанія SenseTime вперше анонсувала систему великомасштабної моделі «SenseNova» та випустила низку масштабних моделей штучного інтелекту та додатків, включаючи власно розроблену китайську широкомасштабну мовну модель «SenseChat». Нещодавно на Всесвітній конференції зі штучного інтелекту компанія SenseTime оголосила про першу велику ітерацію системи «Daily New SenseNova Large Model». Велику мовну модель «переговорів» оновлено до версії 2.0.

Воно сильніше. У всій системі макета великомасштабної моделі SenseTime його роль стає все більш очевидною.

Потужніше "Переговори 2.0"

Як візуально відобразити вдосконалення можливостей «Консультації 2.0»? Сюй Лі, голова правління та генеральний директор SenseTime, продемонстрував неіснуючий діалог між Лао Цзи та Конфуцієм.

Відповідь на «Консультацію 2.0» крутиться навколо «Дао». — запитав Конфуцій Лао-Цзи. Хоча Лао-Цзи просвітився, він не міг поговорити з Конфуцієм, тому просто пішов геть. Діалог, що виконується в цій сцені, плавний і плавний. «Дискусія 2.0» навіть додала до тексту жарт:

Конфуцій сказав: «Я чув ім'я Учителя, і це справді велике щастя зустріти вас сьогодні!»

Лао-цзи сказав з усмішкою: «Ні, я йду тією ж дорогою, що й ти, чому «три життя»?»

І відповідно до запитання весь діалог з’являється класичною китайською мовою. І щоб уникнути плутанини, у першому реченні відповіді «Консультація 2.0» також висловила передумову «це лише вигадка і не повинна розглядатися як справжній запис історії».

Коли «Консультація 1.0» була вперше запущена, демонстрація на місці продемонструвала його чудовий багатораундовий діалог і можливості спільного створення людей і машин. Через три місяці «Консультація 2.0» значно покращила точність інформації про знання, здатність до логічного судження, здатність розуміти контекст і креативність.

Наприклад, використовуйте «Консультацію 2.0», щоб спланувати подорож, і скажіть йому створити таблицю:

Або перевірте те, що «подруги мають рацію»:

Ви не тільки можете зрозуміти подружок, але й «Дискусія 2.0» може прочитати трохи іронії чи тону інь-ян:

Що, власне, сталося з «Консультацією 2.0» за останні три місяці, просто подивіться на результати кількох іспитів. За результатами оцінки трьох авторитетних тестів оцінки великих мовних моделей (MMLU, AGI, C-) у всьому світі продуктивність «Консультації 2.0» перевищила ChatGPT.

Крім того, деякі люди, можливо, помітили на демонстраційних фотографіях діалогу між Лао-цзи та Конфуцієм, що «Shangshang 2.0» має розділену екранну демонстрацію версій XL та S. Є багато великих моделей з різними параметрами та розмірами для клієнтів вибрати, а версія моделі з найменшими параметрами може працювати навіть на мобільних терміналах.

Що стосується мови, «Консультація 2.0» додала нові мови, такі як арабська та кантонська. Підтримка взаємодії між спрощеною китайською, традиційною китайською, англійською та іншими мовами. Підтримку «Консультації 2.0» для наддовгих текстів також було збільшено з 2 Кб до 32 Кб, що дозволяє краще розуміти контекст.

Для орієнтованих на ToB виробників великомасштабних моделей, таких як SenseTime, якість самої великомасштабної моделі є лише відправною точкою. Як корпоративні клієнти можуть визначити конкретний контур для великомасштабної моделі на основі власних потреб і як чи може останній досягти стабільного ітераційного процесу та підходити до нього крок за кроком?Справжня болюча точка полягає в тому, де буде визначено переможця.

Відкриті можливості злиття бази знань

Після того, як SenseTime навчив «Консультацію 2.0» із суперрозумінням, діалогом, аргументацією та іншими здібностями, корпоративні клієнти також можуть використати свої накопичені корпоративні знання, щоб перетворити велику модель на «професійного таланту», який може добре служити їхнім власним компаніям.

Дуже важливо, як ефективно вирішити ці інженерні проблеми.

«Консультація 2.0», запущена компанією SenseTime, додала інтерфейс інтеграції бази знань, що дозволяє підприємствам швидко отримувати професійні знання та можливості, не чекаючи ітераційних оновлень базової великої моделі. Після інтеграції бази знань здатність моделі оновлювати та розуміти знання можна покращити, а також покращити швидке розуміння та отримання знань.В той же час вартість моделей навчання клієнтів буде значно зменшена.

Ван Сяоган, співзасновник і головний науковий співробітник SenseTime, сказав: «Завдяки базі знань відносно просто та зручно узагальнювати відповідні знання в цій галузі, не входячи в саму нашу модель», а оскільки інформація точніша, також вирішив проблему галюцинацій.

Цифрова людина як інструмент продуктивності

Водночас із комплексним оновленням «Consultation 2.0» можливості платформи AIGC у системі «SenseNova Large Model» постійно прориваються, і після інтеграції можливостей великої моделі мови було досягнуто кардинального покращення.

Наприклад, згадану вище платформу для створення Wenshengtu «Miaohua» на цей раз було оновлено до версії 3.0, параметри моделі збільшено до 7 мільярдів, а деталізація згенерованих знімків досягла рівня професійної фотографії. Що стосується головного болю слів-підказок, «Обговорення 2.0» надає «Miahua 3.0» можливість автоматичного розширення слів-підказок. Це означає, що користувачам потрібно лише кілька простих слів підказки, щоб отримати детальне зображення.

У сфері цифрових людей платформа для створення цифрового людського відео "Ruying" від SenseTime також була оновлена до версії 2.0. Річність голосу та рота "Ruying 2.0" зросла більш ніж на 30%, і можна реалізувати відео 4K. Ефект . На прес-конференції з’явилися цифрові людські зображення економіста Рен Цзепіна, Майстра Янцана та Сю Лі, і ефект був досить реалістичним.

У сцені приземлення великої моделі цифрова людина є дуже важливим способом перенесення. Останнім часом дуже популярна цифрова людина в прямому ефірі є типовою сценою. Пряма трансляція, включаючи короткі відео, також є однією з найбільш зосереджених сцен для клієнтів під час тримісячного внутрішнього та публічного тестування "Ruying 2.0".

Луань Цін, генеральний менеджер відділу цифрових розваг SenseTime, сказав, що в рамках AIGC «Дискусія 2.0» може займатися копірайтингом і створенням сценаріїв для коротких відеотрансляцій у прямому ефірі. І те, наскільки «Ронін 2.0» зможе йти в ногу з тенденцією в спілкуванні, також залежить від здатності великої мовної моделі «Консультації 2.0» вивчати найновіший короткий відеокорпус.

На додаток до коротких відео та прямих трансляцій, «Ронін 2.0» прискорює своє проникнення у всі сфери життя.

Наприклад, у страховій галузі кожен фахівець зі страхування потребує просування нових продуктів або іншого персоналізованого контенту, орієнтованого на послуги, для клієнтів. «Ruying 2.0» може замінити спеціалістів зі страхування на дні народження клієнтів або коли виходять певні продукти управління капіталом. Персоналізований контент і послуги; в індустрії освіти «Roning 2.0» почав допомагати вчителям на найкращих вітчизняних платформах професійної освіти створювати навчальні матеріали для задоволення внутрішніх потреб у виробництві відео.

«Цифрова людина є типовим інструментом підвищення ефективності на підприємстві», — сказав Луан Цін.

Будучи платформою для створення AIGC, Ronin продовжуватиме поглиблюватись у сфері генерації відео в майбутньому. Луан Цін вважає, що це тому, що створення контенту зазнає масштабних змін від тексту, зображень до відео.

До мультимодального транспорту

Оскільки зображення та відеоінформація становлять величезну частку в реальному світі, значно перевищуючи мовну інформацію, потреба в розумінні реального світу змусить майбутнє основної великомасштабної моделі рухатися до мультимодальності, яка була помічена вперше через «Консультацію 2.0» Clue.

Окрім тексту, «Консультація 2.0» має можливість аналізувати зображення та відеоконтент.

Наприклад, як показано на малюнку вище, «Консультація 2.0» може ідентифікувати конкретні об’єкти на фотографії безладного робочого столу та комбінувати характеристики кожного об’єкта, щоб відповісти на запитання «що ти робиш, коли тобі жарко?» Це близько до планування процесу відкриті запитання або після перегляду фотографії меню, допоможіть користувачам надати варіанти по меню в обмеженому ціновому діапазоні.

Компанія SenseTime, яка спочатку увійшла в сферу штучного інтелекту завдяки дослідженням комп’ютерного зору та перетнула хвилю штучного інтелекту, більше переконана, що ця хвиля великих моделей стане справжньою можливістю.

Сучасне широкомасштабне дослідження моделі базується на архітектурі трансформаторної мережі. «SenseTime бере участь у широкомасштабних дослідженнях моделей з 2019 року. Тоді це був шлях до бачення.» За словами Ван Сяогана, співзасновника та головного наукового співробітника SenseTime, деякі візуальні стандарти та стандарти природної мови поступово змінюються. конвергенція сьогодні. , «Коли ми розвиваємось у мультимодальному напрямку, мова та бачення починають глибше інтегруватися, що відображає відносно сильне накопичення та здібності в цій сфері».

Багато прикладних сценаріїв, з якими ми стикаємося в реальному житті, наприклад у ряді галузей, таких як автономне водіння та робототехніка, повинні бути застосовані до мультимодальності. «Однак мультимодальні дані та деякі завдання часто непросто отримати та вимагають глибокого накопичення галузі. Це також є перевагою SenseTime», — представив Ван Сяоган.

Через три місяці після свого першого публічного виступу на цьогорічній Всесвітній конференції зі штучного інтелекту система SenseTime «Daily New SenseNova Large Model» була повністю оновлена та відкрита для корпоративних користувачів. У той же час багато людей не помітили, що Shangtang також випустила мультимодальну великомасштабну модель учених спільно з Шанхайською лабораторією штучного інтелекту. У майбутньому варто з нетерпінням чекати, чи зможе SenseTime взяти на себе ініціативу у пошуку ключа до мультимодальної дороги.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити