Tata letak model skala besar multi-modal: Tim Universitas Tsinghua menyelesaikan hampir 100 juta yuan dalam pendanaan putaran malaikat, dipimpin oleh Ant

Pengarang: Makalah

Reporter Shao Wen

Teknologi Shengshu didirikan pada Maret 2023. Anggota inti sebagian besar berasal dari Sekolah Kecerdasan Buatan Universitas Tsinghua.Ini adalah salah satu tim paling awal di Tiongkok yang menerapkan model skala besar umum multi-modal. Putaran pembiayaan ini dipimpin oleh Ant Group, diikuti oleh Baidu Ventures dan Zhuoyuan Capital dengan valuasi saat ini US$100 juta.

Ada tren baru dalam pengembangan model skala besar multi-moda domestik. Pada 19 Juni, sebuah tim baru yang dipimpin oleh Zhu Jun, seorang profesor ilmu komputer di Universitas Tsinghua dan wakil presiden Institute of Artificial Intelligence, menyelesaikan putaran pembiayaan hampir 100 juta yuan.

Teknologi Pengpai (Saya mengetahui bahwa perusahaan rintisan model skala besar multi-modal bernama Beijing Shengshu Technology Co., Ltd. (selanjutnya disebut sebagai "Teknologi Shengshu") mengumumkan penyelesaian putaran malaikat pembiayaan hampir 100 juta yuan. Investasi tersebut dipimpin oleh Ant Group. Diikuti oleh Baidu Ventures dan Zhuoyuan Capital, penilaian saat ini adalah 100 juta dolar AS. Putaran pembiayaan ini terutama akan digunakan untuk pembangunan tim R&D inti dan mempercepat pengembangan multi-modal besar -model skala dan produk aplikasi.

Model besar multimodal mengacu pada model yang menggabungkan informasi multimodal seperti teks, gambar, video, dan audio untuk pelatihan. Sebelumnya, salah satu pendiri OpenAI Ilya Sutskever (Ilya Sutskever) mengatakan, "Tujuan jangka panjang kecerdasan buatan adalah untuk membangun jaringan saraf multimodal, yaitu AI dapat mempelajari konsep antara modalitas yang berbeda, sehingga dapat lebih memahami dunia" .​​​

Pembuatan gambar didukung oleh model Shengshu.

Shengshu Technology didirikan pada Maret 2023. Diinkubasi bersama oleh Beijing Ruilai Smart Technology Co., Ltd., Ant Group, dan Baidu Venture Capital. Tang Jiayu, mantan wakil presiden Ruilai Smart dan lulusan Departemen Komputer Universitas Tsinghua, melayani sebagai CEO. Ini digunakan untuk membuat model besar tujuan umum multi-modal yang dapat dikontrol. Dilaporkan bahwa ini adalah pertama kalinya Ant Group berinvestasi di perusahaan model berskala besar setelah popularitas ChatGPT, dan ini juga merupakan usaha kedua Zhu Jun setelah Ruilai Wisdom. Ruilai Wisdom adalah penyedia infrastruktur dan solusi kecerdasan buatan.

Anggota inti tim Teknologi Shengshu berasal dari Institut Kecerdasan Buatan Universitas Tsinghua, terutama kelompok penelitian yang dipimpin oleh Zhu Jun. Kelompok riset berkomitmen pada teori dasar dan penelitian algoritme efisien dari pembelajaran mesin Bayesian, dan merupakan salah satu tim paling awal di dunia yang mempelajari model generatif probabilistik yang mendalam. Pada Januari 2022, kerangka kerja penalaran non-pelatihan Analytic-DPM yang diusulkan oleh tim diterapkan ke strategi pemrosesan model DALL E 2 oleh OpenAI. Setelah itu, algoritma pengambilan sampel DPM-Solver diusulkan, yang sekarang menjadi pembuatan gambar tercepat di dunia algoritma oleh Difusi Stabil dan sejumlah besar lainnya Diadopsi oleh proyek sumber terbuka.

Ubah elemen layar dalam video (permintaan: angsa kristal Swarovski sedang berenang di sungai), video asli di paling kiri, efek teknologi digital di tengah, dan efek Runway di paling kanan.

Menurut laporan, Shengshu Technology adalah salah satu tim paling awal di China yang merancang model skala besar tujuan umum multi-modal. Ini membuka sumber model UniDiffuser skala besar difusi multi-modal berbasis Transformer pertama di dunia pada awal 2023. Selesaikan berbagai tugas pembuatan seperti pembuatan teks berbasis gambar, pembuatan gabungan gambar-teks, dan penulisan ulang gambar-teks.

Model Transformer diluncurkan oleh sebuah tim di Google pada tahun 2017. Ini adalah model pembelajaran mendalam yang dapat memberikan bobot berbeda sesuai dengan pentingnya setiap bagian data masukan. Model ini terutama digunakan di bidang pemrosesan bahasa alami (NLP) dan visi komputer (CV). Saat ini, model besar seperti GPT dikembangkan berdasarkan Transformer.

“Secara keseluruhan, ide saat ini untuk membuat model pembuatan gambar skala besar di industri adalah sama, dan semuanya didasarkan pada model difusi. Inovasi kami terletak pada memodifikasi jaringan utama yang mendasarinya. pertama yang menggunakan Transformer dalam teknologi Model Difusi untuk mencapai sikap multi-mode," kata Tang Jiayu dalam sebuah wawancara dengan media baru-baru ini.

Tang Jiayu percaya bahwa model dan produk yang ada di pasaran pada tahap ini hanya menyelesaikan masalah pembangkitan pada tahap awal, tetapi hasil yang dihasilkan masih memiliki banyak ketidakpastian dan tidak dapat dikendalikan.Masih ada kekurangan besar, misalnya sulit untuk akurat mengontrol posisi dan detail elemen dalam gambar yang dihasilkan, dan model 3D yang dihasilkan masih relatif rendah dalam hal kehalusan permukaan dan akurasi warna, cahaya, dan bayangan.

Pembuatan konten 3D (petunjuk: foto DSLR burung blue jay berdiri di atas sekeranjang besar macarons pelangi).

Teknologi Shengshu memperkenalkan Teknologi Pengpai bahwa dalam hal pembuatan konten 3D, telah mengembangkan teknologi pertama di industri untuk menghasilkan konten 3D secara otomatis berdasarkan tiga tampilan, dan teknologi konten 3D Wensheng yang tidak memerlukan data pelatihan 3D, dan efeknya dapat detail halus, dapat mendekati aplikasi tingkat industri, "Model besar yang dilatih telah melampaui versi terbaru dari model dasar Stable Diffusion dalam hal pembuatan gambar, dan diperkirakan akan menyusul versi terbaru Midjourney dalam tahun ini ."

Stable Diffusion adalah model pembuatan teks-ke-gambar yang dikembangkan oleh startup StabilityAI, CompVis, dan Runway. Ini dirilis pada tahun 2022 dan sekarang menjadi open source. Midjourney adalah alat pembuatan teks-ke-gambar yang diluncurkan pada Maret 2022. Alat ini telah melalui beberapa iterasi dan memasuki tahap beta publik. Efeknya yang realistis telah memicu diskusi hangat di Internet China. Stable Diffusion dan Midjourney adalah alat AI terkemuka di industri dan berperingkat tinggi di seluruh dunia.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)