Шанхайська лабораторія штучного інтелекту випускає 3D-модель реальної сцени Shusheng·Tianji LandMark

Джерело: The Paper

Репортер Ву Тяньї Стажер Чень Сяоруй

Джерело зображення: створено інструментом Unbounded AI

·Перша у світі реальна великомасштабна модель NeRF 3D зі 100 мільярдами параметрів ·Sky LandMark підтримує кілька функцій редагування міста. У демонстрації Wukang Building може використовувати технологію NeRF для зміни стилю та ефектів світла й тіні відповідно до різних періодів часу; Палац культури Китаю може здійснювати загальне обертання або обертання різних шарів.

· Шанхайська лабораторія штучного інтелекту запустила загальну систему великомасштабних моделей для науковців, включаючи три базові моделі мультимодальності, Puyu та Tianji. Водночас вона запустила першу повну ланцюжкову систему з відкритим кодом для великомасштабних моделей розробки та застосування.

6 липня на пленарному засіданні Всесвітньої конференції штучного інтелекту (WAIC) Frontiers of Science 2023 Лінь Дахуа, експерт із глибинного навчання та інформатики, професор Шанхайської лабораторії штучного інтелекту та професор Китайського університету Гонконгу Компанія Kong випустила велику 3D-модель Shusheng Tianji LandMark у реальному масштабі, представлено її технічний принцип і функціональне застосування.

Лін Дахуа сказав, що Shusheng·Tianji LandMark є першою у світі реальною великою моделлю NeRF 3D зі 100 мільярдами параметрів, яка була спільно розроблена Шанхайською лабораторією штучного інтелекту, Китайським університетом Гонконгу та Шанхайським інститутом геодезії та картографування.) моделювання світлового поля поширюється від рівня об'єкта до рівня міста. Лін Дахуа сказав, що випуск Shusheng·Tianji LandMark є інноваційним застосуванням великих моделей, яке «надає нам технічну можливість реалізувати AIGC (контент, створений штучним інтелектом) на рівні міста в майбутньому».

«Загальна модельна система Shusheng» (надалі «велика модель Shusheng») також була вперше представлена на конференції, включаючи три основні моделі Shusheng·Multimodal, Shusheng·Puyu та Shusheng·Tianji, а також перша широкомасштабна модельно-орієнтована повноцінна система з відкритим вихідним кодом для досліджень і розробок і застосування.

Від яблука до цілого міста

«На додаток до створення тексту, велика модель також може дати нам більш образний світ.» Лін Дахуа сказав, що вчений Tianji LandMark використовує технологію NeRF, щоб надати більше можливостей для застосування технології великих моделей.

NeRF — це новий тип технології 3D-моделювання світлового поля, який вперше був запропонований дослідницькою групою Google у березні 2020 року. Спочатку він застосовувався для 3D-моделювання та обмежувався рівнем невеликих об’єктів (розміром з яблуко). . «Але ми вважаємо, що технологія NeRF — це щось більше, — сказав Лін Дахуа, — 10 грудня 2021 року наша команда вперше запропонувала розширити можливості моделювання світлового поля NeRF із рівня об’єкта маленького яблука до рівня міста. Він сказав, що після того, як їх дослідницька група деякий час запропонувала NeRF на рівні міста, Університет Карнегі-Меллона та Google випустили відповідні технології NeRF на рівні міста. .

10 грудня 2021 року команда Ліна Дахуа вперше запропонувала розширити можливості моделювання світлового поля NeRF з рівня об’єкта маленького яблука до рівня міста.

«Грунтуючись на основній технології NeRF міського рівня, ми постійно вдосконалюємо її масштабованість і можливості.» Лін Дахуа представив, що 3D реальна велика модель Shusheng·Tianji LandMark базується на технології та алгоритмі CT NeRF другого покоління. дослідницької групи та підтримує повний спектр високоточної візуалізації в реальному часі, включаючи 200 мільярдів параметрів, охоплюючи 100 квадратних кілометрів, кожна деталь реальної сцени підтримує роздільну здатність високої чіткості 4K.

Real 3D — це цифровий простір, який відображає та виражає реальні, тривимірні та послідовні в часі людські виробничі, життєві та екологічні простори в певному діапазоні. Згідно з повідомленнями, Shusheng·Tianji LandMark інтегрує алгоритми, операторів і обчислювальні системи, а також пропонує нове представлення 3D-моделі реального світу та парадигму навчання на рівні моделі.Ефективно навчаючись, він може точно представляти великомасштабні 3D-сцени міст, і досягти високоякісних ефектів нейронної візуалізації. Він лідирує в чотирьох аспектах: високоточне моделювання, високоточне відтворення, функціональна масштабованість та інтеграція навчання та взаємодії.

Shusheng·Tianji LandMark також може підтримувати такі функції, як редагування на рівні міста та перетворення стилів. У демонстрації Wukang Building може використовувати технологію NeRF для зміни стилю та ефектів світла й тіні відповідно до різних періодів часу; Палац культури Китаю може здійснювати загальне обертання або обертання різних шарів. «Це надає технічну можливість для нашого AIGC на міському рівні в майбутньому», — сказав Лін Дахуа.

Різні частини Палацу китайської культури можна «обертати».

Лінь Дахуа сказав: «Я сподіваюся, що за допомогою нової технології генерації реальних 3D-сцен ми зможемо впровадити нову уяву та інноваційний простір у наш майбутній міський простір. У майбутньому Shanghai AI Lab розширить сферу моделювання та функції Shusheng Tianji, а також Алгоритми, оператори та системи Shusheng Tianji є відкритими».

Перша загальна великомасштабна модельна система для вчених

На зустрічі Лінь Дахуа також представив загальну систему великомасштабної моделі для науковців, включаючи три базові моделі мультимодальної, Puyu та Tianji.В той же час він запустив першу повну систему з відкритим кодом для великих розробка та застосування масштабної моделі. Серед них мультимодальна велика модель має 20 мільярдів параметрів, підтримує 3,5 мільйона семантичних тегів і лідирує у світі в 80+ завданнях; велика модель мови Pu є першою великою моделлю, офіційно випущеною в Китаї, зі 100 мільярдами параметрів, яка підтримує кілька мови.

«Scholar Puyu перевершив LLaMA-7B (модель мови штучного інтелекту, розроблену командою FAIR Meta AI) за всіма параметрами.» Лін Дахуа сказав, що Shusheng Puyu, як велика модель із сотнями мільярдів параметрів, досягла того, що обидва перевершують найкращі існуючі моделі з відкритим кодом у Китаї.

7 червня цього року Shanghai AI Lab і SenseTime спільно з Китайським університетом Гонконгу, Фуданьським університетом і Шанхайським університетом Цзяотун випустили масштабну мовну модель «Scholar·Puyu». Модель має 104 мільярди параметрів і є однією з сучасних великих мовних моделей із сотнями мільярдів параметрів. Вона навчається на основі багатомовного високоякісного набору даних, що містить 1,6 трильйона токенів.

Згідно з повідомленнями, з моменту офіційного дебюту в червні Scholar·Puyu протягом одного місяця було оновлено, включаючи п’ять аспектів. По-перше, довжину контекстного вікна було збільшено з 2 Кб до 8 Кб, що дає змогу розуміти тривалий вхідний текст, розвивати складні міркування та здійснювати багаторазові довгострокові раунди діалогу; по-друге, багатомовні та структуровані можливості висловлювання були додатково розширені. Нова версія моделі підтримує понад 20 мов, а також може узагальнювати та представляти складну інформацію за допомогою таблиць і діаграм; по-третє, багатовимірні можливості були значно покращені, а продуктивність 42 стандартних наборів оцінювання значно підвищилася. покращено, і продуктивність 35 із них перевершила ChatGPT; По-четверте, здатність математичної логіки значно покращилася, а такі математичні здібності, як числові обчислення, операції з функціями та розв’язування рівнянь, значно покращилися. Продуктивність набору для оцінювання математики GSM8K зріс з 62,9 до 73,2. У питаннях з вибором відповідей під час вступного іспиту до коледжу 2023 року рівень точності зріс більш ніж на 70%; По-п’яте, можливості безпеки та вирівнювання були значно покращені. Завдяки більш ефективній тонкій настройці інструкцій, включаючи навчання з підкріпленням на основі зворотного зв’язку людини (RLHF), нова версія моделі може більш надійно виконувати вказівки людини, і безпека також очевидна. покращити.

«Основна цінність усіх великих моделей все ще полягає у створенні цінності для життя та виробництва. Шанхайська лабораторія штучного інтелекту не тільки досягає технологічних проривів завдяки інноваціям, але також прагне сприяти впровадженню цих технологій у певних галузях», — сказав Лінь Дахуа. на зустрічі.

Лінь Дахуа сказав, що окрім самої великої моделі, команда також відкрила вихідний код для всього ланцюга інструментальних систем, що охоплює п’ять основних ланок даних, попереднього навчання, тонкого налаштування, розгортання та оцінки під час розробки великого «Завдяки системі інструментів з відкритим кодом модель може бути повністю використана. Я вважаю, що відкритий код дійсно може допомогти розробникам розвивати та впроваджувати інновації на основі великих моделей».

Згідно з повідомленнями, офіційна версія з відкритим вихідним кодом — це легкий InternLM-7B із 7 мільярдами параметрів, який демонструє чудову та збалансовану продуктивність у повномірній оцінці, включаючи 40 наборів оцінки, що випереджає існуючі моделі з відкритим кодом.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити