Эволюция «Консультации 2.0», стоящая перед макетом большой модели SenseTime.

2023-07-10 08:05:29

Мы переживаем массовую волну новой инфраструктуры ИИ.

В течение полугода крупномасштабная модель быстро распространилась из мелкомасштабного консенсуса. Согласно отчету, опубликованному CITIC, количество выпущенных крупномасштабных моделей с более чем 1 миллиардом параметров приближается к 80, половина из которых поступает от предприятий, а половина - от научно-исследовательских учреждений.

В процессе постепенного формирования отечественной крупномасштабной модельной экологии она также начала отказываться от погони за OpenAI и постепенно находить свой собственный путь. Стандарт измерения успеха больших моделей также изменился с соревнования параметров жестких мостов и жестких лошадей на реальное решение проблем.

SenseTime впервые анонсировала крупномасштабную модельную систему «SenseNova» в апреле этого года и выпустила ряд крупномасштабных моделей и приложений ИИ, включая крупномасштабную китайскую языковую модель собственной разработки «SenseChat». Недавно на Всемирной конференции по искусственному интеллекту компания SenseTime объявила о первой крупной версии системы «Daily New SenseNova Large Model». Большая языковая модель «переговоры» была обновлена до версии 2.0.

Это сильнее. Во всей системе компоновки крупномасштабных моделей SenseTime ее роль становится все более очевидной.

Сильнее "Переговоры 2.0"

Как интуитивно отразить улучшение способности «Консультации 2.0»? Сюй Ли, председатель и главный исполнительный директор SenseTime, продемонстрировал несуществующий диалог между Лао-Цзы и Конфуцием.

Ответ на «Консультацию 2.0» вращается вокруг «Дао». — спросил Конфуций Лао-цзы.Хотя Лао-цзы был просветленным, он не мог говорить с Конфуцием, поэтому просто ушел. Диалог в этой сцене плавный и плавный. «Дискуссия 2.0» даже добавила в текст шутку:

Конфуций сказал: «Я слышал имя Учителя, и это действительно большая удача встретиться с вами сегодня!»

Лао-цзы сказал с улыбкой: «Нет, я иду по тому же пути, что и вы, откуда взялись «три жизни»?»

И согласно вопросу, весь диалог появляется на классическом китайском языке. И во избежание путаницы «Консультация 2.0» также заявила в первом предложении ответа, что «это всего лишь вымысел, и его не следует рассматривать как правдивую запись истории».

Когда «Консультация 1.0» была впервые запущена, демонстрация на месте продемонстрировала превосходный многораундовый диалог и возможности совместного творчества человека и машины. Три месяца спустя «Консультация 2.0» внесла дополнительные улучшения в точность информации о знаниях, способности к логическому суждению, способности к пониманию контекста и творчеству.

Например, используйте «Консультацию 2.0», чтобы спланировать поездку, и скажите ему составить таблицу:

Или проверим, что «подружки правы»:

Вы можете не только понять подруг, но и «Обсуждение 2.0» также может прочитать немного иронии или инь-янского тона:

Что произошло с «Консультацией 2.0» за последние три месяца, на самом деле достаточно посмотреть на результаты нескольких экзаменов. По результатам оценки трех авторитетных эталонов оценки моделей больших языков (MMLU, AGI, C-) по всему миру производительность «Consultation 2.0» превзошла ChatGPT.

Кроме того, некоторые люди могли заметить на демонстрационном фото диалога Лао-Цзы и Конфуция, что в «Шаншан 2.0» есть демонстрация разделенного экрана версий XL и S. Есть много крупных моделей с разными параметрами и размерами для покупателей. выбрать, а версия модели с наименьшими параметрами сможет работать даже на мобильных терминалах.

Что касается языка, «Консультация 2.0» добавила новые языки, такие как арабский и кантонский. Поддержка взаимодействия между упрощенным китайским, традиционным китайским, английским и другими языками. Кроме того, в «Консультации 2.0» увеличена поддержка сверхдлинных текстов с 2 КБ до 32 КБ, что позволяет лучше понимать контекст.

Для производителей крупномасштабных моделей, ориентированных на ToB, таких как SenseTime, качество самой крупномасштабной модели является лишь отправной точкой. может ли последний достичь стабильного итеративного процесса и приближаться к нему шаг за шагом?Настоящая проблема заключается в том, где будет определен победитель.

Возможности объединения открытой базы знаний

После того, как SenseTime обучил «Консультанта 2.0» с суперпониманием, диалогом, рассуждениями и другими способностями, корпоративные клиенты также могут использовать свои накопленные корпоративные знания, чтобы превратить большую модель в «профессионального таланта», который может хорошо служить своим компаниям.

Очень важно, как эффективно решить эти инженерные проблемы.

«Консультация 2.0», запущенная SenseTime, добавила интерфейс интеграции базы знаний, позволяющий предприятиям быстро приобретать профессиональные знания и возможности, не дожидаясь итеративных обновлений базовой большой модели. После интеграции базы знаний способность модели обновлять и понимать знания может быть улучшена, а быстрое понимание и приобретение знаний могут быть усилены.В то же время стоимость моделей обучения клиентов будет значительно снижена.

Ван Сяоган, соучредитель и главный научный сотрудник SenseTime, сказал: «С базой знаний относительно просто и удобно обобщать соответствующие знания в этой области, не вдаваясь в саму нашу модель», и поскольку информация является более точной, также решил проблему галлюцинаций.

Цифровой человек как инструмент повышения производительности

В то же время, как комплексное обновление «Консультация 2.0», возможности платформы AIGC в системе «Большая модель SenseNova» постоянно прорываются, и после интеграции возможностей языковой большой модели было достигнуто скачкообразное улучшение.

Например, упомянутая выше платформа создания Wenshengtu «Miaohua» на этот раз была обновлена до версии 3.0, параметры модели были увеличены до порядка 7 миллиардов, а детализация сгенерированных снимков достигла уровня профессиональной фотографии. Что касается головной боли слов-подсказок, «Обсуждение 2.0» предоставляет «Miahua 3.0» возможность автоматически расширять слова-подсказки. Это означает, что пользователям нужно всего несколько простых слов-подсказок, чтобы получить детализированное изображение.

Что касается цифровых людей, платформа SenseTime для создания цифрового человеческого видео "Ruying" также была обновлена до версии 2.0. Беглость голоса и рта "Ruying 2.0" увеличилась более чем на 30%, и теперь можно реализовать видео 4K. . На пресс-конференции появились цифровые человеческие образы экономиста Жэнь Цзепина, Мастера Янцана и Сюй Ли, и эффект был достаточно реалистичным.

В сцене приземления большой модели цифровой человек является очень важным методом переноски.В последнее время очень популярная прямая трансляция цифрового человека является типичной сценой. Прямая трансляция, включая короткие видеоролики, также является одной из самых популярных сцен для клиентов во время трехмесячного внутреннего и публичного тестирования «Ruying 2.0».

Луан Цин, генеральный менеджер подразделения цифровых развлечений SenseTime, сказал, что в рамках AIGC «Дискуссия 2.0» может заниматься копирайтингом и созданием сценариев для коротких видеотрансляций в прямом эфире. И то, как «Ронин 2.0» сможет идти в ногу с тенденциями в общении, также зависит от способности большой языковой модели «Консультации 2.0» изучать новейший корпус коротких видео.

В дополнение к коротким видео и сценам прямой трансляции, «Ронин 2.0» ускоряет свое проникновение во все сферы жизни.

Например, в страховой отрасли каждому специалисту по страхованию необходимо продвигать новые продукты или другой персонализированный сервисно-ориентированный контент для клиентов. «Ruying 2.0» может заменить специалистов по страхованию в дни рождения клиентов или при выпуске определенных продуктов по управлению активами. Персонализированный контент и услуги; в сфере образования «Ронинг 2.0» начал помогать учителям на ведущих отечественных платформах профессионального образования создавать учебные материалы для удовлетворения внутренних потребностей в видеопроизводстве.

«Цифровой человек — это типичный инструмент повышения эффективности на предприятии», — сказал Луан Цин.

Как платформа для создания AIGC, Ronin продолжит углубляться в области создания видео в будущем.Луан Цин считает, что это связано с тем, что создание контента претерпевает изменения размеров от текста, изображений до видео.

На пути к мультимодальным перевозкам

Поскольку изображения и видеоинформация составляют огромную долю в реальном мире, намного превышающую языковую информацию, потребность в понимании реального мира заставит будущее базовой крупномасштабной модели двигаться в направлении мультимодальности, которая была замечена впервые. через «Консультацию 2.0» Подсказка.

Помимо текста, «Консультация 2.0» имеет возможность анализировать изображения и видеоконтент.

Например, как показано на рисунке выше, «Консультация 2.0» может идентифицировать определенные объекты на грязной фотографии стола и комбинировать характеристики каждого объекта, чтобы ответить на вопрос «Что вы делаете, когда вам жарко?» Это близко к процессу планирования. открытые вопросы или, увидев фото меню, помочь пользователям предложить варианты а ля карт в ограниченном ценовом диапазоне.

SenseTime, которая изначально вошла в область ИИ из исследований компьютерного зрения и пересекла волну ИИ, более убеждена, что эта волна больших моделей будет реальной возможностью.

Текущее крупномасштабное модельное исследование основано на архитектуре трансформаторной сети. «SenseTime занимается крупномасштабными исследованиями моделей с 2019 года. В то время это был путь к зрению.» По словам Ван Сяогана, соучредителя и главного научного сотрудника SenseTime, некоторые визуальные стандарты и стандарты естественного языка постепенно сходится сегодня. , «Когда мы развиваемся в мультимодальном направлении, язык и видение начинают иметь более глубокую интеграцию, что отражает относительно сильное накопление и способности в этой области».

Многие сценарии приложений, с которыми мы сталкиваемся в реальной жизни, например, в ряде областей, таких как автономное вождение и робототехника, должны применяться к мультимодальности. "Однако мультимодальные данные и некоторые задачи часто бывает нелегко получить и требуют глубокого накопления в отрасли. Это также является преимуществом SenseTime", - представил Ван Сяоган.

Через три месяца после своего первого публичного выступления на Всемирной конференции по искусственному интеллекту в этом году система SenseTime «Daily New SenseNova Large Model» была полностью обновлена и открыта для корпоративных пользователей. В то же время многие не заметили, что Shangtang также выпустила мультимодальную крупномасштабную модель ученых совместно с Шанхайской лабораторией искусственного интеллекта. В будущем стоит ожидать, сможет ли SenseTime взять на себя инициативу в поиске ключа к мультимодальной дороге.

Посмотреть Оригинал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
Pump.Fun Debuts on Gate
22 Популярность
Join Gate VIP to Win MacBook
29k Популярность
Trump Tariff Hikes
14k Популярность
4HK Stablecoin Rules
2k Популярность
5Truth Social Crypto ETF
917 Популярность
6Gate Square Writing Contest Phase 1
5k Популярность
7Altcoin ETF Watch
4k Популярность
8Gate Alpha Trading Share
11k Популярность
9Dr.Han Joins Gate Square
45k Популярность
10Gate Square Creator Spark Program
136k Популярность

Закрепить

Карта сайта