Pengamatan｜Gelombang model besar akan menghabiskan seluruh dunia teks. Dari mana datangnya data berkualitas tinggi?

Question

Sumber: MakalahPengarang: Shao WenBot bertenaga AI seperti ChatGPT dapat segera "kehabisan teks di alam semesta," para ahli memperingatkan. Pada saat yang sama, menggunakan data yang dihasilkan oleh AI untuk "mengumpan balik" AI atau menyebabkan model runtuh. Data berkualitas tinggi yang digunakan untuk pelatihan model di masa depan mungkin menjadi semakin mahal, dan jaringan akan menjadi terfragmentasi dan tertutup.“Ketika pengembangan model skala besar semakin dalam, seperti model industri skala besar, data yang dibutuhkan tidak gratis dan data terbuka di Internet. Untuk melatih model dengan presisi yang sangat tinggi, yang dibutuhkan adalah keahlian industri atau bahkan rahasia komersial Pengetahuan Agar setiap orang dapat berkontribusi pada korpus semacam itu, harus ada mekanisme untuk distribusi hak dan kepentingan.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c63d3da287-dd1a6f-7649e1) Sumber gambar: Dihasilkan oleh AI Tak TerbatasSebagai salah satu "troika" infrastruktur kecerdasan buatan, pentingnya data selalu terbukti dengan sendirinya. Saat ledakan model bahasa besar memasuki periode puncaknya, industri lebih memperhatikan data daripada sebelumnya.Pada awal Juli, Stuart Russell, seorang profesor ilmu komputer di University of California, Berkeley dan penulis "Artificial Intelligence—A Modern Approach", memperingatkan bahwa bot bertenaga AI seperti ChatGPT dapat segera "kehabisan teks di alam semesta ." ", dan teknik melatih bot dengan mengumpulkan teks dalam jumlah besar "mulai mengalami kesulitan". Firma riset Epoch memperkirakan bahwa kumpulan data pembelajaran mesin dapat menghabiskan semua "data bahasa berkualitas tinggi" pada tahun 2026.“Kualitas data dan volume data akan menjadi kunci munculnya kemampuan model skala besar di tahap selanjutnya.” Wu Chao, direktur komite ahli CITIC Think Tank dan direktur Securities Research Institute of China Securities, berbagi pidato di Konferensi Kecerdasan Buatan Dunia (WAIC) 2023 Diperkirakan bahwa "20% kualitas model di masa depan akan ditentukan oleh algoritme, dan 80% akan ditentukan oleh kualitas data. Selanjutnya, tinggi -kualitas data akan menjadi kunci untuk meningkatkan performa model."Namun, dari mana datangnya data berkualitas tinggi? Saat ini, industri data masih menghadapi banyak masalah mendesak, seperti apa standar kualitas data, bagaimana mempromosikan pembagian dan sirkulasi data, serta bagaimana merancang sistem harga dan pendapatan distribusi.## **Data berkualitas tinggi mendesak**Wei Zhilin, wakil manajer umum Shanghai Data Exchange, mengatakan dalam wawancara dengan The Paper (termasuk media) pada 8 Juli bahwa dalam "troika" data, daya komputasi, dan algoritme, data adalah inti, terpanjang, dan elemen paling dasar.Model bahasa berskala besar (LLM) memiliki kinerja yang luar biasa saat ini, dan mekanisme di baliknya diringkas sebagai "kemunculan cerdas". Dalam istilah sederhana, keterampilan AI yang belum pernah diajarkan sebelumnya kini dapat dipelajari. Dan sejumlah besar kumpulan data merupakan dasar penting untuk "kemunculan intelijen".Model bahasa besar adalah jaringan saraf yang dalam dengan miliaran hingga triliunan parameter, yang "dilatih sebelumnya" pada korpus bahasa alami yang sangat besar berukuran beberapa terabyte (Terabyte, 1TB=1024MB), termasuk data terstruktur, buku online, dan konten lainnya. Shan Haijun, wakil presiden China Electronics Jinxin Research Institute, mengatakan kepada Peng Mei Technology selama Konferensi Kecerdasan Buatan Dunia 2023 bahwa model besar pada dasarnya adalah model generasi probabilistik, dan sorotan utamanya terletak pada kemampuan untuk memahami (pembelajaran cepat konteks) dan penalaran ( rantai pemikiran) dan Has Values (Human Feedback Reinforcement Learning). Terobosan terbesar ChatGPT adalah saat GPT-3 muncul, dengan sekitar 175 miliar parameter dan volume data 45 TB.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb60d6123-dd1a6f-7649e1) Tampilan komprehensif semua kumpulan data dari GPT-1 hingga model bahasa pilihan Gopher dari 2018 hingga awal 2022. Ukuran tanpa bobot, dalam GB. Kredit: Alan D. Thompson"OpenAI selalu bekerja untuk mencari lebih banyak data berkualitas tinggi dan menganalisis secara mendalam data yang ada, untuk membuat kemampuannya semakin kuat." Pada 12 Juli, Profesor Universitas Fudan, Direktur Laboratorium Utama Ilmu Data Shanghai, Xiao Yanghua mengatakan kepada The Paper, "Memperoleh data berskala besar, berkualitas tinggi, dan beragam, dan analisis mendalam dari data ini mungkin menjadi salah satu ide penting untuk mempromosikan pengembangan model besar."Namun, data berkualitas tinggi tidak banyak tersedia.Sebuah studi November lalu oleh Epoch, sekelompok peneliti kecerdasan buatan, memperkirakan bahwa kumpulan data pembelajaran mesin dapat menghabiskan semua "data bahasa berkualitas tinggi" pada tahun 2026. Dan ketika studi tersebut diterbitkan, ledakan global dalam model-model besar bahkan belum terjadi. Menurut penelitian, data bahasa dalam rangkaian "berkualitas tinggi" berasal dari "buku, artikel berita, makalah ilmiah, Wikipedia, dan konten web yang difilter".Pada saat yang sama, praktik pengumpulan data organisasi pengembangan AI generatif seperti OpenAI untuk melatih model bahasa besar menjadi semakin kontroversial. Pada akhir Juni, OpenAI terkena gugatan class action, dituduh mencuri "sejumlah besar data pribadi" untuk melatih ChatGPT. Media sosial, termasuk Reddit dan Twitter, menyatakan ketidakpuasannya dengan penggunaan data secara acak di platform mereka.Pada 1 Juli, Musk memberlakukan batasan sementara jumlah tweet yang dibaca karena alasan ini.Dalam sebuah wawancara dengan orang dalam media teknologi dan keuangan pada 12 Juli, Russell mengatakan bahwa banyak laporan, meskipun belum dikonfirmasi, merinci bahwa OpenAI membeli kumpulan data teks dari sumber pribadi. Meskipun ada berbagai kemungkinan penjelasan untuk pembelian ini, "kesimpulan alaminya adalah tidak ada cukup data publik berkualitas tinggi."Beberapa ahli menyarankan bahwa mungkin solusi baru akan muncul sebelum data habis. Misalnya, model besar dapat secara terus-menerus menghasilkan data baru dengan sendirinya, lalu menjalani beberapa penyaringan kualitas, yang pada gilirannya dapat digunakan untuk melatih model. Ini disebut pembelajaran mandiri atau "umpan balik". Namun, menurut makalah yang diterbitkan pada platform pracetak arXiv oleh para peneliti dari Universitas Oxford, Universitas Cambridge, dan Imperial College London pada Mei tahun ini, pelatihan AI dengan data yang dihasilkan AI akan menyebabkan cacat permanen pada model AI. itu Model Runtuh. Ini berarti bahwa data berkualitas tinggi yang digunakan untuk pelatihan model di masa mendatang akan menjadi semakin mahal, jaringan akan menjadi terfragmentasi dan tertutup, dan pembuat konten akan melakukan yang terbaik untuk mencegah konten mereka dirayapi secara gratis.Tidak sulit untuk melihat bahwa perolehan data berkualitas tinggi akan menjadi semakin sulit. "Sebagian besar data kami sekarang berasal dari Internet. Dari mana data itu berasal pada paruh kedua tahun ini? Saya pikir ini sangat penting. Pada akhirnya, semua orang akan berbagi data pribadi, atau Anda memiliki data yang saya tidak punya." t punya." Ilmuwan muda dari Laboratorium Kecerdasan Buatan Shanghai, yang bertanggung jawab atas OpenDataLab He Conghui membicarakannya di Konferensi Kecerdasan Buatan Dunia 2023.Wu Chao juga memberi tahu The Paper bahwa siapa pun yang memiliki data berkualitas lebih tinggi selanjutnya, atau yang dapat menghasilkan aliran data berkualitas tinggi yang stabil, akan menjadi kunci untuk meningkatkan kinerja.## **Masalah "Data-sentris"**He Conghui percaya bahwa paradigma seluruh pengembangan model secara bertahap akan berubah dari "model-sentris" menjadi "data-sentris". Namun ada masalah dengan data-sentrisitas-kurangnya standar, dan kekritisan kualitas data sering disebutkan, namun nyatanya saat ini sulit bagi siapa pun untuk mengatakan dengan jelas apa kualitas data yang baik dan apa standarnya.Dalam proses latihan, He Conghui juga menghadapi masalah seperti itu, "Latihan kami dalam proses ini adalah memecah data, dan membuatnya lebih detail. Dengan setiap bidang subdivisi dan topik subdivisi, standar kualitas data secara bertahap menjadi lebih kecil dan lebih kecil. Telah diusulkan. Pada saat yang sama, tidak cukup hanya melihat data saja, tetapi juga melihat ke belakang data. Kami akan menggabungkan data dan peningkatan kinerja model sesuai dengan maksud dari data, dan merumuskan satu set mekanisme iterasi kualitas data bersama-sama.Tahun lalu, Laboratorium Kecerdasan Buatan Shanghai tempat He Conghui bekerja merilis platform data terbuka OpenDataLab untuk kecerdasan buatan, menyediakan lebih dari 5.500 kumpulan data berkualitas tinggi, "tetapi ini hanya pada tingkat kumpulan data publik. Kami berharap data tersebut pertukaran akan dibentuk dua hari lalu. Aliansi data korpus berskala besar dapat memberikan metode sirkulasi data yang lebih baik kepada lembaga penelitian dan perusahaan."Pada tanggal 6 Juli, pada Konferensi Kecerdasan Buatan Dunia 2023, Laboratorium Kecerdasan Buatan Shanghai, Institut Informasi Ilmiah dan Teknologi China, Grup Data Shanghai, Asosiasi Bisnis Digital Shanghai, Pusat Meteorologi Nasional, Radio dan Televisi Pusat China, Grup Industri Pers Shanghai Besar model aliansi data korpus bersama-sama diprakarsai oleh unit lain mengumumkan pembentukan formal.Pada tanggal 7 Juli, situs web resmi Shanghai Data Exchange secara resmi meluncurkan korpus, dan total hampir 30 produk data korpus telah didaftarkan, termasuk teks, audio, gambar, dan multi-modalitas lainnya, yang mencakup bidang keuangan, transportasi, dan medis.Tapi konstruksi korpus seperti itu bukanlah hal yang biasa. "Bisakah ada korpus berkualitas tinggi yang dibutuhkan oleh perusahaan skala besar? Akankah audiens target bersedia membuka data?" Tang Qifeng, manajer umum Pertukaran Data Shanghai, mengatakan pada Konferensi Kecerdasan Buatan Dunia 2023 bahwa kesulitannya terutama terletak pada tingkat keterbukaan dan kualitas data Dua cara.Wei Zhilin berbagi bahwa pasokan data kini menghadapi banyak tantangan. Pabrikan terkemuka enggan membuka data. Pada saat yang sama, semua orang juga mengkhawatirkan mekanisme keamanan dalam proses berbagi data. Isu penting lainnya adalah masih ada keraguan tentang mekanisme distribusi pendapatan untuk sirkulasi data yang terbuka.Secara khusus, berbagi data perlu memecahkan tiga masalah. Lin Le, pendiri dan CEO Shanghai Lingshu Technology Co., Ltd. menjelaskan kepada Pengpai Technology bahwa, pertama, data mudah dipalsukan, dan perlu dipastikan bahwa data tersebut asli dan kredibel. Kedua, data mudah disalin, artinya hubungan kepemilikan tidak jelas, dan blockchain diperlukan untuk konfirmasi dan penggunaan resmi. Yang ketiga adalah mudah membocorkan privasi, Blockchain dapat dikombinasikan dengan teknologi komputasi privasi untuk membuat data tersedia dan tidak terlihat.## **Cara mengatasi distribusi pendapatan**Tang Qifeng menunjukkan bahwa untuk pemasok dengan kualitas data tinggi tetapi keterbukaan rendah, masalah kepercayaan sirkulasi data korpus dapat diselesaikan secara efektif melalui rantai transaksi data. "Salah satu intinya terletak pada masalah hak milik dan distribusi keuntungan setelah berpartisipasi dalam model berskala besar."Lin Changle, wakil presiden eksekutif Institut Riset Teknologi Inti Informasi Interdisipliner Universitas Tsinghua, sedang merancang sistem teoretis tentang cara menentukan harga data dan mendistribusikan manfaat."Sampai batas tertentu, banyak pengetahuan manusia seperti ChatGPT dapat digunakan secara gratis dalam beberapa bulan. Kami melihat bahwa model besar dapat mempelajari beberapa artikel penulis, menulis gaya artikel yang sama, atau menghasilkan lukisan Van Gogh, tetapi itu tidak perlu Pembayaran ini, subjek dari sumber data ini tidak mendapat manfaat darinya." Kata Lin Changle pada Konferensi Kecerdasan Buatan Dunia 2023, jadi mungkin ada sudut pandang yang lebih radikal: hak kekayaan intelektual di era model besar tidak ada, atau Dikatakan bahwa perlindungan kekayaan intelektual tradisional tidak ada.Namun, Lin Changle percaya bahwa setelah era model berskala besar, perlindungan hak kekayaan intelektual akan berkembang menjadi konfirmasi hak data, harga, dan transaksi. “Ketika pengembangan model skala besar semakin dalam, seperti model industri skala besar, data yang dibutuhkan tidak bebas dan data terbuka di Internet. Untuk melatih model dengan presisi yang sangat tinggi, yang dibutuhkan adalah keahlian industri atau bahkan komersial rahasia Pengetahuan Agar setiap orang berkontribusi pada korpus semacam itu, harus ada mekanisme untuk distribusi hak dan kepentingan."Peta aset data" yang sedang dikerjakan Lin Changle sekarang adalah menggunakan matematika untuk membuktikan seperangkat mekanisme distribusi pendapatan untuk mendistribusikan hak data secara adil.**Cara mengatasi sirkulasi data**Liu Quan, wakil kepala insinyur dari CCID Research Institute dari Kementerian Perindustrian dan Teknologi Informasi dan seorang akademisi asing dari Akademi Ilmu Pengetahuan Alam Rusia, menyebutkan di WAIC "Integrasi Angka dan Realitas, Kecerdasan Memimpin Masa Depan" Ekologi Blockchain Industri Forum bahwa baru-baru ini versi Beijing dari "Dua Puluh Artikel Data" telah muncul di industri, respon yang sangat besar, memecahkan masalah inti dalam proses sirkulasi data. Yang paling jelas, pertanyaan tentang siapa yang memiliki data pemerintah menjadi jelas—data publik adalah milik pemerintah. Bagaimana dengan data perusahaan dan data pribadi? "Pertukaran Data Kota Beijing dapat dipercaya untuk melakukan operasi yang dipercayakan."Pada tanggal 5 Juli, Komite Kota Beijing dari Partai Komunis Tiongkok dan Pemerintah Rakyat Kota Beijing mengeluarkan pemberitahuan tentang "Opini Implementasi tentang Memainkan Peran Elemen Data dengan Lebih Baik dan Mempercepat Pengembangan Ekonomi Digital". "Pendapat Implementasi" dibagi menjadi sembilan bagian, membangun sistem data dasar dari aspek hak milik data, transaksi sirkulasi, distribusi pendapatan, dan tata kelola keamanan, mengusulkan total 23 persyaratan khusus, yang disebut versi Beijing dari "Dua Puluh Artikel Data" di industri.“Dari sudut pandang domestik, menurut statistik, 80% sumber data terkonsentrasi di lembaga publik dan pemerintah. Kami ingin menyelesaikan pasokan data, sebagian besar, kami berharap didasarkan pada 20 Pasal Data ( "Komite Pusat Partai Komunis Tiongkok dan Dewan Negara untuk Membangun Sistem Dasar Data Opini tentang Memainkan Peran Elemen Data dengan Lebih Baik") Berbagi data publik secara terbuka dapat membentuk seperangkat mekanisme dan paradigma yang dapat ditiru untuk mempromosikan data yang terbentuk dalam utilitas publik dan kemudian melayani publik," kata Wei Zhilin.Wei Zhilin mengatakan bahwa menurut statistik saat ini, stok sumber daya data di China secara keseluruhan menempati urutan kedua di dunia, namun data tersebut tersebar di berbagai tempat. Menurut Zhan Yubao, wakil direktur Institut Penelitian Digital China dari Pusat Informasi Negara, pada Konferensi Kecerdasan Buatan Dunia 2023 pada 7 Juli, sistem sirkulasi data nasional China saat ini meliputi: Ada dua pertukaran data, satu adalah Shanghai Data Exchange One adalah Pertukaran Data Shenzhen; ada 17 pusat pertukaran data di Cina, termasuk Pusat Pertukaran Data Beijing.