Shanghai Artificial Intelligence Lab merilis model pemandangan nyata 3D dari Shusheng·Tianji LandMark

Sumber: Makalah

Reporter Magang Wu Tianyi Chen Xiaorui

Sumber gambar: Dihasilkan oleh alat AI Tak Terbatas

· Model skala besar kehidupan nyata NeRF 3D pertama di dunia dengan 100 miliar parameter · Sky LandMark dapat mendukung beberapa fungsi pengeditan kota. Dalam demonstrasi, Gedung Wukang dapat menggunakan teknologi NeRF untuk mengubah gaya dan efek cahaya dan bayangannya sesuai dengan periode waktu yang berbeda; Istana Kebudayaan Tiongkok dapat melakukan rotasi keseluruhan atau rotasi lapisan yang berbeda.

· Laboratorium Kecerdasan Buatan Shanghai meluncurkan sistem model skala besar umum untuk para sarjana, termasuk tiga model dasar multi-modalitas, Puyu, dan Tianji. Pada saat yang sama, meluncurkan sistem sumber terbuka rantai penuh pertama untuk model skala besar pengembangan dan aplikasi.

Pada tanggal 6 Juli, pada pertemuan pleno Frontiers of Science Konferensi Kecerdasan Buatan Dunia (WAIC) 2023, Lin Dahua, seorang ahli dalam pembelajaran mendalam dan ilmu komputer, seorang profesor di Laboratorium Kecerdasan Buatan Shanghai, dan seorang profesor di Chinese University of Hong Kong, merilis model adegan nyata 3D besar dari Shusheng Tianji LandMark, Dan prinsip teknis serta aplikasi fungsionalnya diperkenalkan.

Lin Dahua mengatakan bahwa Shusheng·Tianji LandMark adalah model besar kehidupan nyata NeRF 3D 100 miliar parameter pertama di dunia, yang dikembangkan bersama oleh Shanghai Artificial Intelligence Laboratory, Chinese University of Hong Kong dan Shanghai Surveying and Mapping Institute. ) Kemampuan pemodelan bidang cahaya meluas dari tingkat objek ke tingkat kota. Lin Dahua mengatakan bahwa peluncuran Shusheng·Tianji LandMark adalah aplikasi inovatif model besar, yang "memberikan kemungkinan teknis bagi kami untuk mewujudkan AIGC (Artificial Intelligence Generated Content) tingkat kota di masa mendatang."

"Sistem Model Umum Shusheng" (selanjutnya disebut sebagai "Model Besar Shusheng") juga dirilis untuk pertama kalinya pada konferensi, termasuk tiga model dasar Shusheng·Multimodal, Shusheng·Puyu dan Shusheng·Tianji, serta berorientasi model skala besar pertama Sistem open source rantai penuh untuk R&D dan aplikasi.

Dari sebuah apel ke seluruh kota

"Selain menghasilkan teks, model besar juga dapat memberi kita dunia yang lebih imajinatif." Lin Dahua mengatakan bahwa sarjana Tianji LandMark menggunakan teknologi NeRF untuk memberikan lebih banyak kemungkinan penerapan teknologi model besar.

NeRF adalah jenis baru teknologi pemodelan bidang cahaya 3D, yang pertama kali diusulkan oleh tim riset Google pada Maret 2020. Ini awalnya diterapkan pada pemodelan 3D, dan terbatas pada level objek kecil (seukuran apel) . “Tapi menurut kami teknologi NeRF lebih dari itu.” Lin Dahua berkata, “Pada 10 Desember 2021, tim kami pertama kali mengusulkan untuk memperluas kemampuan pemodelan bidang cahaya NeRF dari tingkat objek apel kecil ke tingkat kota. Ini adalah global Ini adalah pertama kalinya untuk memperluas kemampuan teknologi NeRF dari objek ke kota.Dia mengatakan bahwa setelah tim peneliti mereka mengusulkan NeRF tingkat kota untuk sementara waktu, Universitas Carnegie Mellon dan Google merilis teknologi NeRF tingkat kota masing-masing .

Pada 10 Desember 2021, tim Lin Dahua pertama kali mengusulkan untuk memperluas kemampuan pemodelan bidang cahaya NeRF dari tingkat objek apel kecil ke tingkat kota.

"Berdasarkan teknologi inti NeRF tingkat kota, kami terus meningkatkan skalabilitas dan kemampuannya." Lin Dahua memperkenalkan bahwa model 3D real-life besar Shusheng·Tianji LandMark didasarkan pada teknologi dan algoritme CT NeRF generasi kedua dari tim peneliti, dan mendukung rangkaian lengkap rendering real-time presisi tinggi, termasuk 200 miliar parameter, mencakup 100 kilometer persegi, setiap detail dalam pemandangan nyata mendukung resolusi definisi tinggi 4K.

Real 3D adalah ruang digital yang mencerminkan dan mengekspresikan ruang produksi, kehidupan, dan ekologi manusia yang nyata, tiga dimensi, dan berurutan waktu dalam rentang tertentu. Menurut laporan, Shusheng·Tianji LandMark mengintegrasikan algoritme, operator, dan sistem komputasi, dan mengusulkan representasi model 3D dunia nyata baru dan paradigma pelatihan di tingkat model. Saat melatih secara efisien, ia dapat secara akurat mewakili pemandangan perkotaan 3D berskala besar, dan Mencapai efek rendering saraf berkualitas tinggi. Ini memimpin dalam empat aspek: pemodelan presisi tinggi, rendering presisi tinggi, skalabilitas fungsional, dan integrasi pelatihan dan interaksi.

Shusheng·Tianji LandMark juga dapat mendukung fungsi seperti pengeditan tingkat kota dan konversi gaya. Dalam demonstrasi, Gedung Wukang dapat menggunakan teknologi NeRF untuk mengubah gaya dan efek cahaya dan bayangannya sesuai dengan periode waktu yang berbeda; Istana Kebudayaan Tiongkok dapat melakukan rotasi keseluruhan atau rotasi lapisan yang berbeda. "Ini memberikan kemungkinan teknis untuk AIGC tingkat kota kami di masa depan," kata Lin Dahua.

Berbagai bagian dari Istana Kebudayaan Tionghoa dapat "diputar".

Lin Dahua berkata, "Saya berharap bahwa melalui teknologi pembuatan pemandangan nyata 3D yang baru, kita dapat menyuntikkan ruang imajinasi dan inovasi baru ke dalam ruang perkotaan masa depan kita. Di masa mendatang, Shanghai AI Lab akan memperluas ruang lingkup pemodelan dan fungsi Shusheng Tianji, dan Algoritme, operator, dan sistem Shusheng Tianji semuanya open source.”

Sistem model skala besar umum pertama untuk para sarjana

Pada pertemuan tersebut, Lin Dahua juga memperkenalkan sistem model skala besar umum untuk para sarjana, termasuk tiga model dasar multi-modal, Puyu, dan Tianji.Pada saat yang sama, ia meluncurkan sistem sumber terbuka rantai penuh pertama untuk skala besar. pengembangan model skala dan aplikasi. Diantaranya, model besar multi-modal memiliki 20 miliar parameter, mendukung 3,5 juta tag semantik, dan memimpin dunia dalam 80+ tugas; model besar bahasa Pu adalah model besar pertama yang secara resmi dirilis di China dengan 100 miliar parameter yang mendukung banyak bahasa.

"Scholar Puyu telah melampaui LLaMA-7B (model bahasa kecerdasan buatan yang dikembangkan oleh tim FAIR Meta AI) di semua dimensi." Lin Dahua mengatakan bahwa Shusheng Puyu, sebagai model besar dengan ratusan miliar parameter, telah mencapai Keduanya melampaui yang terbaik model open source yang ada di Cina.

Pada tanggal 7 Juni tahun ini, Shanghai AI Lab dan SenseTime bersama-sama merilis model bahasa skala besar "Scholar·Puyu" bersama dengan Chinese University of Hong Kong, Fudan University dan Shanghai Jiaotong University. Model ini memiliki 104 miliar parameter dan merupakan salah satu model bahasa besar saat ini dengan ratusan miliar parameter. Model ini dilatih berdasarkan kumpulan data berkualitas tinggi multibahasa yang berisi 1,6 triliun Token.

Menurut laporan, sejak debut resminya pada bulan Juni, Scholar·Puyu telah menjalani peningkatan menyeluruh dalam satu bulan, termasuk lima aspek. Pertama, panjang jendela konteks telah ditingkatkan dari 2K menjadi 8K, yang memungkinkannya untuk memahami input yang panjang, mengembangkan penalaran yang kompleks, dan melakukan beberapa putaran dialog jangka panjang; kedua, kemampuan ekspresi multibahasa dan terstruktur telah ditingkatkan. diperkuat, Versi baru dari model ini mendukung lebih dari 20 bahasa, dan juga dapat meringkas dan menyajikan informasi yang kompleks melalui tabel dan bagan; ketiga, kemampuan multi-dimensi telah ditingkatkan secara komprehensif, dan kinerja pada 42 set evaluasi arus utama telah meningkat secara signifikan ditingkatkan, dan kinerja pada 35 di antaranya Melampaui ChatGPT; Keempat, kemampuan logika matematika telah meningkat secara signifikan, dan kemampuan matematika seperti perhitungan numerik, operasi fungsi, dan penyelesaian persamaan telah meningkat pesat. Kinerja perangkat evaluasi matematika GSM8K telah meningkat dari 62,9 menjadi 73,2. Pada pertanyaan pilihan ganda ujian masuk perguruan tinggi tahun 2023, Tingkat akurasi telah meningkat lebih dari 70%; Kelima, kemampuan keselamatan dan penyelarasan telah ditingkatkan secara signifikan. Melalui penyetelan instruksi yang lebih efektif, termasuk pembelajaran penguatan berdasarkan umpan balik manusia (RLHF), model versi baru dapat mengikuti instruksi manusia dengan lebih andal, dan keamanannya juga jelas.

"Nilai akhir dari semua model besar masih untuk menciptakan nilai bagi kehidupan dan produksi. Laboratorium Kecerdasan Buatan Shanghai tidak hanya mencapai terobosan teknologi melalui inovasi, tetapi juga berkomitmen untuk mempromosikan penerapan teknologi ini di industri tertentu," kata Lin Dahua Di rapat.

Lin Dahua mengatakan bahwa selain model besar itu sendiri, tim juga membuka sumber seluruh rantai sistem alat, yang mencakup lima tautan utama data, pra-pelatihan, penyempurnaan, penerapan, dan evaluasi selama pengembangan model besar model. "Melalui sistem alat sumber terbuka, model dapat Nilai telah dimanfaatkan sepenuhnya. Saya percaya bahwa sumber terbuka benar-benar dapat membantu pengembang mengembangkan dan berinovasi berdasarkan model besar."

Menurut laporan, versi open-source resmi adalah InternLM-7B yang ringan dengan 7 miliar parameter, yang menunjukkan kinerja yang sangat baik dan seimbang dalam evaluasi dimensi penuh termasuk 40 set evaluasi, yang lebih unggul dari model open-source yang ada.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)