Jika data habis untuk model berukuran besar, apakah kita masih akan melihat kecerdasan buatan secara umum?

Question

Sumber asli: Paruh kedua dari mengemudi otonom

Sumber gambar: Dihasilkan oleh AI Tanpa Batas‌

Kita sedang berada pada masa kecerdasan buatan secara umum. Meskipun ChatGPT telah menginspirasi antusiasme di seluruh dunia, hal ini juga memicu persaingan untuk model AI besar. Google meluncurkan Bard sebagai benchmark, Amazon juga bergabung dalam medan perang, dan Meta, yang sangat bertaruh pada metaverse, tidak mau kalah dan meluncurkan LLaMa dan SAM. Di sisi lain lautan, BAT, yang diakui memiliki sumber daya paling besar, kembali bertemu dengan model generatif. Mengikuti tren model-model besar, kecerdasan yang diwujudkan tampaknya membawa perubahan besar.

Segalanya tampak kembali ke sepuluh tahun yang lalu, dengan munculnya ledakan kewirausahaan. **Hanya kali ini, singularitas kecerdasan buatan umum dibuka oleh model besar, dan data secara resmi menjadi pusat perhatian. **

01. Apa saja elemen kunci dalam mengembangkan model besar

Kekuatan komputasi membuat model besar menjadi permainan kekayaan

Model besar, dalam istilah awam, adalah model dengan jumlah parameter yang banyak. Dibandingkan dengan model kecil sebelumnya yang dapat dijalankan dengan satu GPU, model ini hanya dapat diselesaikan dengan mengandalkan sejumlah besar daya komputasi yang dikumpulkan oleh perusahaan besar. Misalnya, OpenAI ChatGPT saat ini memerlukan biaya hingga satu juta dolar AS per pelatihan. Kemungkinan laboratorium kecil untuk berpartisipasi dalam gelombang kecerdasan buatan secara langsung diakhiri oleh model besar, dan hanya perusahaan dengan akumulasi yang kuat yang dapat menyelesaikannya.

Oleh karena itu, satu-satunya pahlawan yang muncul dalam gelombang kewirausahaan model besar secara umum adalah mereka yang memiliki kisah indah dalam gelombang kewirausahaan Internet, seperti Wang Huiwen dari Meituan, Kai-fu Lee dari Sinovation Ventures, dan Wang Xiaochuan dari Sogou. Model Hukum Moore telah muncul, dan model yang lebih besar telah membawa pemahaman dunia dan kemampuan penalaran yang lebih baik. Dengan tren seperti itu, tidak ada waktu untuk berhenti dan ragu.

1. Model pengembangan yang berpusat pada model algoritma telah berakhir

Saat ini, model pengembangan perusahaan kecerdasan buatan pada umumnya masih merupakan model pengembangan "tradisional" yang berpusat pada model, yaitu memperbaiki kumpulan data dan kemudian mengulangi model tersebut. Insinyur algoritma biasanya fokus pada beberapa kumpulan data benchmark dan kemudian merancang berbagai model untuk meningkatkan akurasi prediksi.

Meskipun model-model besar bermunculan seperti jamur setelah hujan, faktanya algoritma di balik sebagian besar model cenderung konsisten, dan tidak ada perubahan model besar yang terjadi. Penumpukan volume data membuat model yang dilatih berperforma jauh lebih baik dibandingkan model dengan perubahan kecil. Misalnya, beberapa bulan lalu, pionir kecerdasan buatan Yann LeCun menerbitkan artikel yang menyatakan bahwa ChatGPT secara teknis bukanlah hal baru, namun telah mencapai kinerja yang sangat baik. Perubahan algoritme yang hati-hati mungkin tidak memberikan hasil yang lebih baik daripada menambahkan dan mengulangi data. Dibandingkan dengan performa model yang dilatih pada satu kumpulan data, performa model yang dihasilkan oleh sejumlah besar data berkualitas tinggi merupakan pukulan telak bagi pengurangan dimensi. **

1. Data menjadi elemen inti dalam pengembangan model besar

Keberhasilan model besar OpenAI berasal dari keyakinan Ilya bahwa perubahan kuantitatif pada data besar dan model besar akan membawa perubahan kualitatif. Misalnya, ChatGPT menggunakan setidaknya 40T data berskala besar untuk pelatihan, dan jika jumlah data efektif terus meningkat, kinerjanya dapat lebih baik. Menurut penelitian Google tentang Kemampuan Muncul Model Bahasa Besar, pada titik kritis tertentu dari parameter model, model tersebut tiba-tiba memperoleh kemampuan yang tidak terduga.

Untuk memastikan bahwa begitu banyak parameter dapat dilatih secara wajar, data berkualitas tinggi telah menjadi kuncinya. Mengambil contoh pengembangan ChatGPT, GPT-1 hanya menggunakan 4629 MB data teks, sedangkan GPT-2 menggunakan 40 GB teks yang dirayapi dan difilter dari Reddit, dan GPT-3 menggunakan setidaknya 45 TB teks biasa. proses pelatihan -4 belum diungkapkan, namun mengingat kecepatan inferensi GPT-4 jauh lebih lambat dibandingkan GPT-3, dapat disimpulkan bahwa jumlah parameter model juga meningkat, dan pelatihan terkait data jelas membutuhkan lebih banyak. Data berkualitas tinggi ini merupakan alasan penting mengapa ChatGPT pertama kali muncul di dunia bahasa Inggris. Teks pelatihan bahasa Inggris lebih terstandarisasi dan lebih kaya daripada teks pelatihan bahasa Mandarin.

Yang Dong, dekan Institut Sains Interdisipliner di Universitas Renmin Tiongkok, juga percaya bahwa alasan mendasar keberhasilan ChatGPT bukan hanya teknologinya sendiri, tetapi juga masalah serius dari ketidakterbukaan data dan monopoli data di Tiongkok. Sedangkan untuk model segmentasi semantik yang baru-baru ini dirilis, Segment Anything Model by Meta, keseluruhan model yang diawasi tidak memiliki inovasi yang jelas, namun penggunaan data yang sangat besar di bidang segmentasi semantik membuat performa model tersebut luar biasa. Puluhan juta gambar dan milyaran topeng segmentasi belum pernah terlihat di bidang segmentasi semantik gambar.

**Model pengembangan AI berubah dari berpusat pada model menjadi berpusat pada data. **Dari mana Anda mendapatkan data? Apakah data di dunia cukup besar untuk model?

02. Data nyata akan habis oleh model besar

Di dunia ini, aktivitas manusia terjadi setiap saat, jadi bukankah jejak data yang tertinggal harusnya terus bertambah? Kenapa habis?

Data berkualitas tinggi langka

Tidak semua jejak yang dihasilkan oleh aktivitas manusia dapat digunakan untuk pelatihan model.Hanya data berkualitas tinggi yang masuk ke pelatihan model yang dapat memberikan hasil terbaik.

Di bidang pemrosesan bahasa alami, data berkualitas tinggi adalah buku dan makalah ilmiah yang didigitalkan secara alami. Memiliki hubungan logis yang baik juga dapat memastikan keakuratan relatif. Data berkualitas rendah, seperti rekaman obrolan, panggilan telepon, dll., memiliki efek yang relatif terbatas pada pelatihan karena kontinuitas data yang buruk. Disebutkan dalam dokumentasi pengembangan ChatGPT 3 bahwa setelah pemfilteran data dilakukan pemfilteran kualitas pada teks biasa 45TB, diperoleh teks 570GB, hanya menggunakan 1,27% data efektif.

Di bidang mengemudi otonom, data berkualitas tinggi dihasilkan dari sejumlah besar skenario berbeda. Misalnya, jalan dengan kelengkungan yang relatif kecil mungkin sangat sering muncul, namun kenyataannya, semakin sering hal tersebut terjadi, semakin kurang penting. Sebaliknya, untuk beberapa skenario yang tidak konvensional (yaitu Kasus Sudut), kualitas datanya lebih tinggi, dan adaptasi skenario perlu dilakukan secara terpisah. Namun, sampel yang relatif kecil ini hampir tidak ada gunanya jika dihadapkan pada persyaratan parameter model besar.

Batasan yang disebabkan oleh keamanan data dan privasi

Perkembangan AI Generatif disertai dengan kontroversi mengenai keamanan data. Setelah Stable Diffusion tersedia, hal ini menimbulkan ketidakpuasan di antara banyak seniman.Di bawah tekanan, Stability AI mengumumkan bahwa mereka akan mengizinkan seniman untuk menghapus karya mereka dengan cara yang ditargetkan dan mencegah mereka memasuki set pelatihan.

Dalam beberapa kasus, data yang tersedia untuk umum mungkin berisi informasi sensitif seperti informasi identitas pribadi, informasi keuangan, atau catatan medis. Di banyak industri dan wilayah, data yang berisi informasi sensitif sangat sulit diperoleh, sehingga meningkatkan kesulitan pengumpulan data dan mengurangi laju pertumbuhan kumpulan data terkait. Hal ini menjadi kendala bagi model industri besar. Misalnya, di bidang medis, karena kekhususan dan privasi bidang tersebut, tidak mungkin memperoleh jumlah data yang dapat digunakan untuk pelatihan model besar di bawah perlindungan privasi yang ketat dan batasan peraturan.

Data nyata berkualitas tinggi mungkin tidak cukup untuk mendukung pelatihan model besar

Makalah "Apakah kita akan kehabisan data? Analisis batas penskalaan kumpulan data dalam Pembelajaran Mesin" mengeksplorasi kemungkinan kekurangan data (jumlah data tidak cukup untuk memenuhi kebutuhan pelatihan model yang besar). tingkat pertumbuhan model,* Pada sekitar tahun 2026, data NLP berkualitas tinggi tidak akan cukup untuk mendukung pelatihan*. Stok data untuk model bahasa dan visi tumbuh jauh lebih lambat dibandingkan ukuran kumpulan data pelatihan, sehingga jika tren saat ini terus berlanjut, kumpulan data pada akhirnya akan berhenti berkembang karena kehabisan data.

Dengan bertambahnya jumlah data, sebagian besar data yang dikumpulkan dengan metode pengumpulan data yang tidak terkendali menjadi tidak ada artinya. Misalnya, dalam skenario mengemudi otonom, kendaraan terus-menerus mengumpulkan data baru di jalan, namun hanya sedikit yang benar-benar dapat digunakan. Oleh karena itu, dalam perbincangan baru-baru ini antara CEO Nvidia Jensen Huang dan Ilya Sutskever, mereka juga membahas kemungkinan kehabisan data.

03. Data sintetis dapat memenuhi kebutuhan data yang sangat besar pada model besar

Model pembangunan yang berpusat pada data menjadikan data sebagai bagian terpenting. Algoritme pelatihan memerlukan data, tetapi data berkualitas tinggi sulit diperoleh. Bagaimana cara memenuhi kebutuhan data yang sangat besar pada model besar?

Sama seperti daging sintetis dalam makanan, bisakah data disintesis secara artifisial? Data sintetis adalah data yang dibuat di dunia digital. Pengendalian data sintetik lebih baik dibandingkan data nyata, dapat mencerminkan properti data nyata dalam arti matematis dan fisik, dan dapat menghasilkan data secara terarah untuk memastikan keseimbangan data saat melatih model.

Data sintetis memiliki delta informasi

Pelajari distribusi data dalam data nyata dan hasilkan lebih banyak data berdasarkan distribusi ini untuk memastikan bahwa terdapat cukup data untuk melatih model besar dalam beragam skenario. Kombinasi elemen yang berbeda menghadirkan pemandangan yang berbeda, dan perubahan pemandangan juga membawa peningkatan informasi, sehingga menjamin efektivitas data yang disintesis.

Menurut penelitian OpenAI dan UC Berkeley pada tahun 2017, berdasarkan pemandangan sebenarnya, posisi kamera, warna objek, bentuk, pencahayaan, dll. digeneralisasikan, dan sejumlah besar data sintetis dihasilkan untuk pelatihan model deteksi objek. Karena tidak menggunakan data nyata sama sekali, kesalahan 3D model deteksi dijaga dalam jarak 1,5 cm, dan memiliki ketahanan yang sangat baik.

Misalnya, dalam bidang mengemudi otonom, gambaran nyata mobil di depan dapat direproduksi melalui cuaca dan pencahayaan umum menggunakan data sintetis. Setelah data yang dihasilkan digunakan untuk melatih model, model akan memiliki performa yang lebih kuat dalam kondisi cuaca dan pencahayaan yang berbeda. Menurut penelitian Nvidia tahun 2018, dengan menggunakan data sintetik yang dihasilkan dengan posisi dan tekstur kendaraan yang diacak untuk melatih model, performa model deteksi telah meningkat secara signifikan. Hal ini disebabkan oleh distribusi lokasi kendaraan data sintetik yang lebih merata dan distribusi data yang dihasilkan lebih luas.

Pengendalian data sintetik lebih baik dibandingkan data nyata, dapat mencerminkan properti data nyata dalam arti matematis dan fisik, dan dapat menghasilkan data secara terarah untuk memastikan keseimbangan data saat melatih model. Saat menghasilkan data secara terarah, ada kemungkinan untuk menyesuaikan karakteristik model besar, misalnya model bahasa besar diharapkan bias ketika menjawab pertanyaan tertentu, dan memiliki gaya dan elemen khusus saat menghasilkan gambar tertentu. . Ini semua dapat dicapai melalui data sintetis khusus.

Berdasarkan data nyata, namun berbeda dengan data sebenarnya. Karakteristik data sintetik inilah yang membuatnya semakin banyak digunakan, tidak hanya digunakan untuk pengujian saja, tetapi juga dapat digunakan sebagai data pelatihan agar model menjadi lebih kuat.

Keuntungan biaya dari data sintetis sangat besar

Biaya data berasal dari pengumpulan dan pelabelan, pada kedua bagian tersebut, data sintetis memiliki keuntungan yang signifikan.

Dibandingkan dengan pengumpulan data nyata yang tidak efisien, data sintetis dapat menghasilkan skenario dengan cara yang ditargetkan, sehingga membuat setiap byte data menjadi berharga. Tidak diperlukan tim pengumpulan data yang besar, atau sistem pengembalian data berskala besar dan sistem pemfilteran data.Data sintetis didasarkan pada kebutuhan pelatihan model sejak awal produksi, dan sebagian besar keluaran dapat digunakan secara langsung, yang mengurangi biaya data.Biaya pengumpulan.

Pada saat yang sama, biaya pelabelan data sintetis memiliki keunggulan besar dibandingkan data nyata.Menurut perkiraan dari platform layanan data Diffgram, harga rata-rata kotak anotasi untuk anotasi gambar mengemudi otonom adalah sekitar US$0,03, dan biaya keseluruhan untuk membuat anotasi penuh pada suatu gambar adalah sekitar $0,03,5,79 dolar AS, dan untuk data sintetis, harga anotasi pada dasarnya mendekati nol, dan ada pula yang hanya biaya penghitungan data, yang hanya berharga sekitar 6 sen. Singkatnya, data sintetis dapat digunakan untuk melatih model besar dengan cara yang lebih terkendali, efisien, dan berbiaya rendah.

**Jika pengumpulan data riil masih dalam era pertanian tebang bakar dan peternakan, maka produksi data sintetik telah memasuki era industri yang efisien dan otomatis, menghasilkan produk berskala besar dan berkualitas tinggi. biaya rendah. **Menurut "MIT Technology Review", data sintetis terdaftar sebagai salah satu dari sepuluh teknologi terobosan teratas di dunia pada tahun 2022. Data sintetis diyakini dapat mengatasi lambatnya perkembangan kecerdasan buatan di bidang dengan sumber daya data yang tidak mencukupi.

04. Industri mana yang membutuhkan data sintetis

**Faktanya, data sintetis sudah banyak digunakan di luar negeri.Di bidang robotika, mengemudi otonom, pemrosesan bahasa alami, keuangan, perawatan medis, dll., kita semua bisa melihat data sintetis. **

Pada awal tahun 2018, OpenAI menggunakan lingkungan simulasi untuk melatih pengontrol robot. Proses pelatihan akan mengacak dinamika lingkungan, dan kemudian menerapkan pengontrol langsung ke robot fisik. Dengan cara ini, robot dapat menangani tugas-tugas sederhana saat melakukan tugas-tugas sederhana. Tak terduga perubahan lingkungan eksternal.

Menurut laporan JPMorgan Chase pada tahun 2019, mereka menggunakan data sintetis untuk melatih model deteksi penipuan keuangan guna mengatasi masalah data penipuan keuangan yang sangat sedikit.

Universitas Stanford juga baru-baru ini merilis model percakapan skala besar Alpaca dengan 7 miliar parameter. Yang menarik adalah bahwa kumpulan data yang terlibat dalam penelitian ini dihasilkan oleh tim menggunakan API OpenAI. Dengan kata lain, seluruh kumpulan data pelatihan adalah sepenuhnya disintesis Komposisi data, dan efek akhirnya sebanding dengan GPT-3.5.

Mengambil contoh mengemudi otonom lagi, sebagai aplikasi penting dari visi komputer, industri mengemudi otonom telah berkembang pesat dalam penggunaan data sintetis. Untuk mengurangi biaya pengujian dan meningkatkan efisiensi iterasi, mesin simulasi banyak digunakan di industri untuk menguji dan memverifikasi algoritma mengemudi otonom.

Fungsi mengemudi otonom berbasis visi perlu mengumpulkan sejumlah besar data pemandangan nyata untuk melatih model pembelajaran mendalam guna melengkapi persepsi dunia. Namun, data jangka panjang yang diproduksi secara massal seringkali sulit atau tidak mungkin dikumpulkan di dunia nyata. Pada saat yang sama, bahkan penampakan objek yang sama dapat sangat bervariasi pada waktu dan kondisi cuaca yang berbeda, sehingga memberikan tantangan besar pada persepsi visual.

Dibandingkan dengan pengumpulan data nyata, biaya data sintetis dapat dikontrol dan tidak memerlukan anotasi manual, sehingga sangat mengurangi kesalahan manusia yang disebabkan oleh pengumpulan data dan proses aliran yang tidak konsisten serta standar manusia. Oleh karena itu, data sintetis dianggap oleh industri sebagai salah satu cara efektif untuk menyelesaikan masalah jangka panjang.

Namun, untuk melatih sistem penggerak otonom dengan lebih baik, kualitas sebagian besar data simulasi masih jauh dari cukup karena tidak dapat mencerminkan dunia nyata dan hanya merupakan abstraksi tingkat tinggi dari dunia nyata. Oleh karena itu, banyak perusahaan di industri ini telah banyak berinvestasi dalam meningkatkan realisme data. Misalnya, perangkat lunak simulasi mengemudi otonom Nvidia, DriveSim, menggunakan teknologi rendering fisik canggih untuk meningkatkan realisme data sintetis.

Cruise dan Waymo menggunakan teknologi terkait NeRF untuk menghasilkan dunia kembar digital dan kemudian menghasilkan data sintetis.Nvidia juga mengusulkan NGP Instan pada tahun 2022, yang sangat meningkatkan efisiensi pelatihan NeRF.

Pada awal AIDay 2021, Telsa melatih sistem persepsi menggunakan adegan sebuah keluarga berlarian di jalan raya dan kerumunan yang sulit diberi label, yang sangat mengesankan.

Pada saat yang sama, banyak perusahaan data sintetis mulai bermunculan di Silicon Valley sebagai yang terdepan dalam industri ini.Parallel Domain and Applied Intuition, yang melayani pengemudian otonom, Datagen, yang melayani industri visi mesin umum, dan Gretel AI, yang merupakan berakar pada pemrosesan bahasa alami. Di belakang perusahaan-perusahaan ini berdiri raksasa industri terkemuka.

Gartner memperkirakan bahwa pada tahun 2024, 60% data pelatihan akan digantikan oleh data dewasa, dan pada tahun 2030, data sintetis akan sepenuhnya menggantikan data nyata dan menjadi sumber data utama untuk pelatihan AI.

Namun, di Tiongkok, penerapan data sintetis sebenarnya relatif sedikit. Saat ini, sebagian besar perusahaan masih menggunakan data nyata untuk menyelesaikan pelatihan model.

05. Keterbatasan data sintetis

Masalah apa yang masih perlu diselesaikan dengan data sintetis sebelum dapat sepenuhnya menggantikan data asli? Di sini kami mengambil mengemudi otonom sebagai contoh untuk melakukan diskusi.

Kebenaran

Dari segi persepsi, keaslian memang menjadi indeks penilaian pertama. Sebelum kumpulan data ini memasuki sistem pelatihan, dapatkah kumpulan data tersebut lolos inspeksi visual manusia untuk memastikan bahwa kumpulan data tersebut terlihat nyata?

Mengenai kelemahan realisme, realitas yang terlihat dengan mata telanjang tidak mewakili keefektifan data yang sebenarnya. Mengejar realisme visual gambar secara membabi buta mungkin tidak memiliki signifikansi praktis yang dapat diukur. Standar kuantitatif untuk mengevaluasi keaslian data sintetik perlu didasarkan pada peningkatan kumpulan data sintetik dibandingkan kumpulan data nyata untuk algoritme yang dilatih pada kumpulan data sintetik. Saat ini, dalam industri mengemudi otonom, yang memiliki persyaratan tertinggi untuk keaslian data sintetis, sudah terdapat contoh dari Cruise, Nvidia, Waymo, Tesla, dll. yang telah secara efektif dan signifikan meningkatkan kinerja algoritme di jalan nyata berdasarkan pada data sintetis. Tentu saja, seiring dengan peningkatan algoritma, persyaratan keaslian data sintetis juga akan meningkat. Terobosan berkelanjutan baru-baru ini dalam AI generatif telah memberi kita arahan praktis yang baik untuk meningkatkan realisme data sintetik.

Keberagaman adegan

Konstruksi model dunia data sintetis, seperti konstruksi skenario mengemudi otonom. Kita perlu menciptakan dunia virtual dan mensimulasikan pengoperasian dunia nyata, sehingga data sintetik mengalir keluar seperti mata air. Metode tradisional didasarkan pada pemodelan algoritme buatan. Misalnya, metode konstruksi penghasil data sintetik tradisional murni didasarkan pada mesin fisika, yang menentukan kecepatan konstruksi pemandangan. Seluruh dunia fisik memerlukan insinyur aset 3D untuk membangunnya secara manual. A bangunan dan rambu jalan perlu dibangun secara manual Penempatannya, yang membatasi kecepatan konstruksi pemandangan dan sangat membatasi keragaman pemandangan. AI generatif seperti Diffusion Model dan Nerf memberikan kemungkinan pemodelan otomatis yang berpusat pada data untuk lini produksi data sintetis.

Adegan yang dibuat secara artifisial sangat membatasi generalisasi data sintetis, dan kami berharap algoritme yang dilatih cukup kuat untuk bekerja dengan cukup baik di dunia nyata.

Jelas sekali, konstruksi buatan tidak dapat mencakup setiap adegan di dunia nyata. Untuk menghasilkan data yang cukup untuk mencakup seluruh dunia nyata, kita perlu mempelajari ekspresi implisit dari dunia nyata dan kemudian menghasilkan adegan yang cukup beragam. Ini harus bergantung pada AI generatif.

Produktifitas

Untuk menyediakan data dalam jumlah besar yang dapat digeneralisasikan dengan cepat, produksi paralel berskala besar di cloud adalah prioritas pertama.Mendukung produksi data yang cepat dengan daya komputasi yang tinggi memungkinkan data disintesis dengan kecepatan yang tak tertandingi di dunia nyata.

06. AI generatif memungkinkan data sintetis menggantikan data nyata dalam skala besar

NVidia Huang Renxun percaya bahwa refleksi dan mimpi manusia adalah bagian dari data sintetis, yang setara dengan AI yang menghasilkan data untuk melatih AI. Untuk memenuhi kebutuhan data yang sangat besar pada model besar, kita perlu sepenuhnya mengotomatiskan tautan produksi data sintetis agar AI dapat melatih AI.

Berkat perkembangan pesat Model Difusi dan NeRF baru-baru ini, data sintetis AI berkualitas tinggi bukan lagi sebuah fantasi. Proses matematis Model Difusi yang canggih berdasarkan rantai Markov memungkinkan pembuatan model pembangkitan gambar yang lebih besar dan lebih stabil, dan juga mengatasi masalah pelatihan yang terlalu sulit untuk jaringan pembangkitan permusuhan. Model Difusi Stabil menggunakan koleksi gambar yang sangat banyak agar orang dapat melihat kemungkinan Model Difusi yang tak terbatas, dan pengenalan jaringan terkait ControlNet juga membuat adaptasi di bidang tertentu menjadi lebih nyaman.

NeRF (Neural Radiance Fields) mengubah konstruksi dunia 3D menjadi proses pembelajaran jaringan saraf, yang secara efektif menggabungkan bidang saraf (Neural Field) dan rendering voxel untuk merekonstruksi dunia 3D dengan sangat realistis, dan sangat menjanjikan untuk menggantikan proses yang rumit. Proses pembangunan mesin fisika. Waymo mengembangkan BlockNeRF berdasarkan teknologi ini untuk merekonstruksi San Francisco secara efisien dan menghasilkan data sintetis di sana. Makalah CVPR Highlight baru-baru ini, UniSim, telah mendorong penerapan NeRF ke sebuah langkah maju yang besar.

Berdasarkan teknologi tersebut, unicorn AIGC mulai bermunculan. Setelah StabilityAI (Diffsion Model), Midjourney (Diffusion Model), dan LumaLab AI (NeRF) dilatih dengan sejumlah besar data, keaslian gambar tidak dapat lagi dipertanyakan, dan efek artistik yang dihasilkan serta ekspresi data baru memungkinkan kita untuk lihat Inilah masa depan cerah dari generalisasi pada data sintetis.

07, ditulis di akhir

ChatGPT hanyalah titik awal, dan model besar di bidang bahasa alami hanyalah permulaan. Meskipun ChatGPT telah memiliki kemampuan dasar kecerdasan buatan yang diperoleh dengan mempelajari data bahasa alami manusia, nyatanya pemikiran kognitif manusia tentang dunia tentunya tidak terbatas pada bahasa dan teks, melainkan multi-modal.(Gambar, teks, suara, cahaya, listrik, film...). Tidak sulit untuk menyimpulkan bahwa AGI yang sebenarnya harus mampu memproses semua informasi modal di dunia secara instan, efisien, akurat dan logis seperti manusia, serta menyelesaikan berbagai tugas lintas modal atau multimodal. Kegilaan baru-baru ini terhadap kecerdasan yang diwujudkan juga menantikan munculnya metode interaksi multi-modal baru.

Hal ini juga memerlukan data multimodal, yang semakin meningkatkan kesulitan memperoleh data riil, dan data riil multimodal bahkan semakin langka.

Misalnya, dibandingkan dengan data teks dan data gambar yang dapat ditemukan di mana saja, hanya ada sedikit kumpulan data 3D berkualitas tinggi yang sesuai. Kumpulan data gambar penelitian ilmiah yang umum digunakan biasanya berisi ratusan juta atau lebih gambar, sementara banyak kumpulan data 3D berkualitas lebih tinggi yang dapat digunakan untuk penelitian ilmiah hanya memiliki ribuan atau puluhan ribu model 3D. Jika kita ingin kecerdasan buatan memahami dunia 3D, kita memerlukan data multimodal dalam jumlah besar yang berisi model 3D. Ini mungkin juga memerlukan data sintetis untuk menyelesaikannya.

Mengotomatiskan konstruksi model dunia, memungkinkan AI menghasilkan data multimodal secara terkendali, dan melatih model besar yang lebih cerdas adalah jalan yang benar menuju kecerdasan buatan secara umum.

Beberapa referensi:

Lihat Asli