Xiaoyan, yang bekerja sebagai data annotator di sebuah perusahaan Internet besar, sering kali merasa terisolasi di perusahaan tersebut.
Tempat kerja Xiaoyan berada di sebelah tempat kerja manajer produk dan pemrogram. Mereka dapat menikmati manfaat yang sama: lencana kerja yang sama, komputer Apple; mereka dapat pergi ke gym atau pergi ke kapsul luar angkasa untuk tidur kapan saja.
Namun Xiaoyan dapat menyadari bahwa sebagai anotator data, dia dan rekan-rekannya berada di "dua dunia".
Meskipun kami satu tim, tidak ada yang akan memanggil anotator pada pertemuan pagi setiap hari, jadi Xiaoyan hanya bisa menonton secara diam-diam di luar pintu. Suatu ketika, seseorang membawa sekeranjang lampu meja yang merupakan prototipe produk AI yang sedang dikerjakan oleh tim.Para programmer berkumpul di sekitarnya, sangat bersemangat, dan mengambilnya untuk dimainkan. Para anotator duduk di tempat kerja mereka dan menjalankan bisnis mereka sendiri tanpa insiden apa pun. “Mereka tidak tahu bahwa produk tersebut dibuat berdasarkan data yang diberi label.”
Ketika Xiaoyan bergabung dengan perusahaan, perusahaan Xiaoyan sedang mengembangkan produk AI pendidikan, yang memerlukan pelabelan data dalam jumlah besar untuk melatih AI. Perusahaan membeli segunung buku soal pelajaran untuk sekolah dasar dan menengah.Tugas Xiaoyan adalah memotret setiap soal, lalu menggambar kotak dan menandai soal-soal tersebut di komputer.
Juga bekerja untuk AI, pemrogram dengan jelas menyadari nilai pekerjaan mereka dan menikmati kesenangan yang dibawa oleh kemajuan algoritma yang berkelanjutan, namun hanya sedikit anotator yang merasa bahwa kerja mereka sendirilah yang menciptakan AI.
Kemajuan kecerdasan buatan tidak terlepas dari anotasi data. Perkembangan kendaraan otonom dalam beberapa tahun terakhir telah mendorong pasar anotasi data. Menurut laporan Deloitte, permintaan pelabelan di bidang kendaraan otonom akan mencapai 38% dari seluruh aplikasi hilir AI pada tahun 2022, dan diperkirakan proporsinya akan meningkat menjadi 52% pada tahun 2027.
Munculnya model besar tahun ini telah menambah bahan bakar bagi industri anotasi data. Sejumlah besar pesanan berdasarkan skenario pelatihan model besar mengalir ke perusahaan anotasi data. Tampaknya bisnis anotasi data yang membosankan sekali lagi telah disuntikkan dengan vitalitas .
Beberapa perusahaan teknologi sudah lebih maju dan mencoba menggunakan AI untuk mensintesis data secara otomatis untuk pelatihan AI. Data sintetis didasarkan pada sejumlah kecil data nyata, dihasilkan secara tak terbatas oleh AI dan tidak memerlukan pelabelan, melainkan mengandalkan pelabelan manual. Di bidang mengemudi otonom, data sintetik dapat mencakup beberapa kondisi jalan ekstrem, seperti pejalan kaki yang tiba-tiba menerobos jalan.
Dalam imajinasi mereka, data sintetis akan menggantikan anotasi manual di masa depan. Pelabelan pada perusahaan yang tidak memiliki teknologi dan hanya mengandalkan tenaga kerja akan dihilangkan secara bertahap. Sebuah data menunjukkan bahwa 70% data dasar yang digunakan untuk kecerdasan buatan di luar negeri adalah data sintetis, dan jalur ini sedang diverifikasi.
Hal di atas bukanlah kabar baik bagi sejumlah besar anotator data. Namun, beberapa anotator yang dihubungi oleh 36Kr masih belum mengetahui apa itu ChatGPT, dan mereka bereaksi seolah-olah baru pertama kali mendengar istilah tersebut.
Xiaoyan mengatakan bahwa tagger adalah ekor yang dapat dipotong kapan saja. Satu-satunya ketegangan adalah ketika pisaunya akan jatuh sepenuhnya.
Annotator yang melatih mesin terasa lebih seperti mesin
Xiaohe mengambil jurusan bahasa Inggris dan magang di sebuah pabrik besar selama tahun terakhirnya. Pada hari pertamanya bekerja, kantornya berada di gedung perkantoran yang luas dan bersih, sesuai dengan imajinasinya tentang sebuah perusahaan Internet. Tidak butuh waktu lama baginya untuk menyadari bahwa konten pekerjaan yang dia pelajari selama wawancara - "mengatur dan mengklasifikasikan data suara perusahaan" - sebenarnya adalah anotasi data.
Belakangan, Xiaohe mengakui bahwa jika dia tahu bahwa ini adalah awal bekerja untuk AI, dia akan segera pergi.
Ada 6 orang peserta magang dalam kelompok tersebut, semuanya merupakan mahasiswa dari jurusan bahasa asing di sebuah universitas bergengsi. Seorang pemimpin tim wanita memberikan tugas setiap hari. Kadang-kadang itu adalah sekumpulan simbol fonetik bahasa Inggris, dan tugas Xiaohe adalah membedakan pengucapan Inggris dari pengucapan Amerika; kadang-kadang itu adalah Excel, klik, dan Anda akan melihat data di mana-mana. Jika Anda gulir ke bawah, ada lebih dari 10.000 item .
“Rasanya seperti mendaki gunung,” kata Xiaohe.
“Proyek” yang paling sering saya lakukan adalah anotasi lisan untuk siswa sekolah menengah. Anotator terbiasa membicarakan pekerjaan sebagai proyek, proyek demi proyek. Xiaohe mendengarkan 200 rekaman dengan aksen yang kuat setiap hari, masing-masing berdurasi dua menit. Jika Anda mendengar pertanyaan umum, skor 1; jika Anda mendengar pertanyaan khusus, skor 2; jika Anda tidak mendengar keduanya, skor 0. Untuk mencegah kebocoran, dia hanya bisa menggunakan headphone berkabel di kantor, telinga Xiaohe sakit dan dia merasa "mudah tersinggung".
Dia sering mendengar kata-kata makian digunakan dalam rekaman. Beberapa anak tidak mengucapkan sepatah kata pun sebelum mereka mulai mengumpat. Di lain waktu selama proyek navigasi peta, seseorang mau tidak mau mengutuk rekaman tersebut. "Saya tidak tahu mengapa ada orang yang begitu marah."
Xiaohe berkata bahwa kamu tidak boleh menganggapnya terlalu serius, kamu hanya dapat menandai rekaman ini sebagai "tidak berarti", lalu membalik halaman dan melanjutkan mendengarkan yang berikutnya.
**"Seperti mesin", hampir setiap anotator akan mendeskripsikan dirinya seperti ini. **Anotasi sangatlah mudah. Seorang anotator Shandong mengatakan bahwa proyek tersulit yang pernah dia lakukan adalah anotasi sidik jari. Dia mendapat banyak sidik jari dari seseorang yang tidak dia kenal (beberapa di antaranya masih buram), dan dia perlu menarik bingkai di sepanjang tepi sidik jarinya sedikit demi sedikit. “Setelah saya sampai di rumah hari itu, saya dapat melihat sidik jari di seluruh mata saya ketika saya menutup mata.”
Banyak proyek mengharuskan anotator untuk menjaga kerahasiaan dengan ketat, namun anotator tidak peduli untuk apa proyek tersebut. Selama bekerja, pemberi tag diharuskan menyerahkan ponselnya dan meletakkannya di tas gantung di dinding. Mereka hanya diperbolehkan mengambil ponselnya jika menerima panggilan.
Sebagian besar anotator telah mengalami proses dari ketidaktahuan menjadi mahir, dari hal baru hingga membosankan. Tahap awal proyek adalah yang paling menarik, saat itu aturan pelabelan belum lengkap, sering dijumpai daerah-daerah kontroversial, bahkan saling berdiskusi atau bahkan berdebat, dan suasananya meriah. Pada tahap pertengahan dan akhir, peraturan hampir selesai, hanya tersisa kerja berulang dan mekanis, dan masyarakat akan merasa tidak ada artinya.
**Seorang anotator mengatakan ini adalah "pekerjaan yang tidak masuk akal". **
Di Fuzhou, Jiangxi, siswa sekolah kejuruan setempat sedang melakukan anotasi data; Sumber: foto IC
Jia Wenjuan, seorang profesor di Universitas Shanghai, telah melakukan penelitian lapangan tentang anotasi data. Dia percaya bahwa anotasi data bukanlah kerja mental atau kerja fisik, tetapi kerja kognitif. "Apa yang dijual orang adalah kognisi mereka sendiri." Humor gelapnya adalah kita ingin mesin menjadi lebih mirip manusia, namun pada saat yang sama kita membuat manusia lebih mirip mesin. Dengan kata lain, kesampingkan akal sehat dan berpikirlah seperti robot. **
Dan begitu anotator mulai berpikir "Mengapa saya harus melakukan ini", itu berarti dia akan segera mengundurkan diri.
Zheng Wei adalah bos sebuah perusahaan anotasi data, dan dia dengan blak-blakan mengatakan bahwa dia tidak dapat mempertahankan orang. Yang terbaik, perusahaan memiliki kurang dari 20 orang. Karyawan baru seringkali hanya bertahan setengah bulan, banyak orang yang masuk kerja di hari pertama dan pulang keesokan harinya. Dia tidak punya pilihan selain terus menurunkan persyaratan rekrutmennya, dan pada akhirnya dia merasa bahwa "Saya tidak memilih orang, tetapi orang lain memilih saya."
Dia tidak tahu bagaimana mempertahankan mereka yang pergi. "Akan menjadi lebih baik jika Anda tetap di sini. Saya sendiri sebenarnya tidak percaya ini," kata Komisaris Zheng kepada 36 Krypton. Pengurangan karyawan akhirnya membuat perusahaan kewalahan, dan ketika hanya tersisa dua anotator, dia memutuskan untuk membubarkan tim. Tidak lama kemudian, ChatGPT meluncurkan gelombang AI baru.
Munculnya model besar tidak hanya baik untuk anotasi data, tetapi juga mengintensifkan involusi tim ** anotasi. **
Mengenai penerimaan pekerjaan, Xiaodai mengatakan bahwa 80-90% proyek penandaan di pasar sekarang memiliki harga satuan yang sangat rendah, "karena ada terlalu banyak subkontraktor di tengah" dan "semua ingin mendapat untung dari harga tersebut." perbedaan, dan tidak ingin benar-benar melakukan pekerjaan itu." . Dia bekerja sebagai anotator di platform crowdsourcing selama dua tahun dan memulai bisnisnya sendiri tahun ini untuk membentuk tim anotasinya sendiri.
Anotasi data tidak terlalu menguntungkan. Mengambil gambar bingkai 2D mengemudi otonom sebagai contoh, harga pengiriman pesanan sebuah perusahaan besar adalah 10 sen, dan tim pelabelan yang mengambil alih pekerjaan tersebut masing-masing berharga 8 sen. “Sekarang turun menjadi 5 atau 6 poin,” kata Xiaodai. Dia menghitung sebuah akun, dan jika kurang dari 8 poin, dia hanya bisa kehilangan uang.
Untuk bertahan hidup, Xiao Dai menghabiskan sebagian besar waktunya mencari proyek dan nongkrong di berbagai platform dan bar pos. Proyeknya asli dan palsu, kebanyakan tidak bisa diandalkan, Agen mengalami kerugian, ada proyek yang uangnya belum sampai setelah menunggu 8 bulan.
Kemudian, dia pertama kali bekerja sebagai anotator paruh waktu, dan hanya setelah tidak ada masalah dengan penawaran percobaan dan penyelesaian, dia membiarkan tim mengambil alih pekerjaan tersebut. Saya pernah mendengar bahwa platform tersebut akan merilis sejumlah proyek pada jam 3 tengah malam, jadi dia menyetel alarm terlebih dahulu untuk mengambil pesanan.
**Kehilangan staf, harga unit yang rendah, dan pengumpulan pembayaran yang tidak stabil seperti tumor, yang menyeret sebagian besar perusahaan kecil di industri ini. **
Tidak ada anotator yang tidak meremehkan pekerjaan ini, mereka tidak dapat menghasilkan uang, tidak dapat melihat ruang promosi dan peluang pengembangan, dan mereka terjerumus ke dalam depresi dan kehilangan yang berkepanjangan.
Saat menulis artikel ini, sebagian besar anotator yang dihubungi oleh 36Kr mengundurkan diri. Seorang gadis berkata bahwa dia telah bekerja selama dua bulan dan gajinya kurang dari 3.000 yuan.
Anotator internal: Tingkat gelar sarjana 100%
Di masa lalu, ambang batas anotasi data rendah. Di Shandong, Shanxi, Henan, Guizhou dan tempat lain, banyak perusahaan anotasi data telah merekrut sejumlah besar tenaga kerja murah. Yang paling umum adalah ibu-ibu, penyandang disabilitas, dan siswa SMK, selama mereka menguasai dasar-dasar pengoperasian komputer, mereka bisa memasuki industri ini.
Di era model besar, pengocokan dan penghapusan anotasi data diam-diam terjadi di antara para kandidat.
Peneliti menemukan bahwa kualitas data pelatihan memiliki dampak yang sangat besar terhadap performa model. Dibandingkan dengan jumlah data, dengan kualitas data yang lebih tinggi, efek peningkatan model menjadi lebih jelas. Untuk mengontrol kualitas data, beberapa perusahaan AI telah membentuk tim pelabelan mereka sendiri.Langkah pertama adalah menaikkan ambang batas untuk masuk ke industri ini.
Hal yang paling jelas adalah kualifikasi akademis para anotator mulai meningkat.
Pada bulan April tahun ini, produsen model skala besar terkemuka mendirikan basis anotasi data, dan angkatan pertama anotator yang direkrut ** memiliki tingkat gelar sarjana 100%. **Penanggung jawab perusahaan menjelaskan bahwa data model besar melibatkan berbagai pengetahuan dan kriteria evaluasi yang kompleks, yang sangat menguji pemahaman bahasa anotator dan kemampuan penalaran logis.
Xiao Wang baru saja lulus kuliah dan ketika dia kembali ke kampung halamannya untuk mencari pekerjaan, dia secara tidak sengaja menemukan perekrutan basis pelabelan data ini. Jadi dia mengambil bagian dalam wawancara dan berhasil lulus. Pangkalan mengiriminya materi pelatihan sepanjang 300.000 kata.Hanya dengan lulus ujian pelatihan dia dapat secara resmi mengambil posisi tersebut.
Anotator mengerjakan pertanyaan setiap hari. Pendatang baru ditanyai 40 pertanyaan sehari, sedangkan pekerja berpengalaman ditanyai 70-80 pertanyaan. Sistem backend mendistribusikan pertanyaan kepada semua orang, yang sebagian besar merupakan rekaman percakapan antara pengguna sebenarnya dan model besar. Pertanyaan pengguna berkisar dari seluruh dunia dan bahkan lebih aneh lagi: Manakah dari ketiga ponsel berikut yang lebih baik? Telur mana yang lebih baik, atau gashapon? Apa kriteria orang sukses? Mengapa Lin Daiyu melawan Bone Demon?
Model besar akan memiliki banyak jawaban, dan tugas Xiao Wang adalah membaca setiap jawaban, memilih kesalahan, dan menilainya satu per satu sesuai kualitas.5 poin adalah skor sempurna, 1 poin adalah yang terendah, dan jawaban di bawah 3 poin perlu dibagi menjadi jenis kesalahan. . Jika jawaban tidak sesuai dengan yang ditanyakan maka akan langsung diberikan skor terendah, jika terdapat pertanyaan sensitif tidak akan diberikan skor dan akan dinilai sebagai "lainnya".
Menyortir, menilai, dan mengevaluasi, langkah-langkah anotasi yang sedikit rumit inilah yang disebut dengan RLHF (Reinforcement Learning from Human Feedback, yaitu pembelajaran penguatan dari umpan balik manusia), tujuannya adalah untuk terus menyelaraskan model besar dengan nilai-nilai dan cara-cara kemanusiaan. berpikir Lebih bermanfaat. OpenAI menggunakan RLHF dalam proses pelatihan ChatGPT dan mencapai hasil yang luar biasa.
Dibandingkan dengan pelabelan data sebelumnya, aturan pelabelan untuk model besar lebih subjektif. Ketika seorang insinyur algoritme mewawancarai seorang anotator, dia akan menanyakan pertanyaan berikut kepada orang lain: "Jika Anda adalah seorang pemimpin bisnis dan dihadapkan dengan empat jenis karyawan: Sun Wukong, Zhu Bajie, Biksu Tang, dan Sha Seng, siapa yang akan Anda pilih? mempekerjakan?"
Tidak ada jawaban standar, katanya. **Jenis pertanyaan ini untuk menguji apakah anotator memiliki kemampuan berpikir logis. **
Permintaan industri akan talenta menjadi semakin mendesak. Sebuah perusahaan start-up bernama Kaiwang Data bekerja sama dengan universitas untuk melatih sejumlah besar anotator mahasiswa. CEO Yu Xu mengatakan bahwa perusahaannya membangun "Kaywang Data Academy" tahun lalu dan telah melatih lebih dari 1.500 siswa di 50 sekolah untuk terlibat dalam anotasi data.
Ketika Xiao Wang menilai jawaban model besar, dia sering kali perlu melakukan pengecekan fakta, dan beban kerjanya sepenuhnya bergantung pada keberuntungan. Suatu ketika saya menemukan pertanyaan: Mana yang lebih baik, BMW Seri 3 atau Mercedes-Benz C Series? Model besar mencantumkan 40 parameter dari dua mobil masing-masing, dan setiap parameter perlu diperiksa oleh Xiao Wang. Pertanyaan itu memakan waktu setengah jam.
Setelah melakukan anotasi beberapa saat, Xiao Wang menemukan bahwa skornya jarang melebihi 3 poin, "Respon AI tidak cukup untuk membuat saya merasa sangat puas atau luar biasa." Dia ingat salah satu pertanyaannya adalah "Jika headset Bluetooth rusak, haruskah saya pergi ke dokter gigi atau produsen headset?" Itu jelas merupakan pertanyaan yang memancing, tetapi jawaban AI membuat matanya berbinar. "Dikatakan untuk pergi ke dokter gigi untuk diperbaiki, bukan ke rumah sakit."
Xiao Wang puas dengan pekerjaan ini. Gaji pokok bulanannya 1.800 yuan, bonus kehadiran sempurna 200 yuan, dan subsidi perumahan 200 yuan.Dengan mempertimbangkan kinerja, dia bisa mendapatkan 4.000 yuan sebulan. Ia mengatakan, pendapatan daerah setempat dinilai di atas rata-rata. Dia juga menarik rambutnya, dan keduanya duduk di tempat kerja yang berdekatan.
Ada sekitar 20 mahasiswa yang berlatih bersamaan dengan Xiao Wang, dalam dua hari, mereka hampir semuanya pergi, dan hanya tersisa dua atau tiga orang.
Tapi kita tidak perlu khawatir dengan perusahaan, disini tidak akan pernah kekurangan mahasiswa. Seorang CTO mengungkapkan kebenaran kepada 36Kr: Pergi dan lihatlah situasi pekerjaan mahasiswa saat ini.
Yang paling ingin saya hilangkan adalah anotasi manusia, bukan AI
Harus diakui bahwa banyak pemberitaan tentang anotasi data, konsensus masyarakat antara lain bahwa pekerjaan ini adalah “jalur perakitan Internet”, yang sulit dilakukan dalam jangka waktu lama, dan anotasi manual pada akhirnya akan digantikan oleh AI.
Dalam sebulan terakhir, kami menghabiskan banyak waktu berkomunikasi dengan insinyur algoritme dan perusahaan AI. Meskipun konsensus di atas belum diperbarui, samar-samar dapat dirasakan bahwa hal yang paling ingin menghilangkan tenaga kerja manusia mungkin bukanlah AI. Sebelum AI benar-benar dapat mengambil tindakan, mereka yang telah menguasai teknologi tercanggih telah mengangkat sabitnya.
Dalam dunia teknologi, pentingnya data tidak bisa dilebih-lebihkan. Insinyur algoritma Xiao Duan mengatakan bahwa jika bisnis AI tidak memiliki data berlabel, tidak peduli seberapa bagus algoritma yang mereka tulis, data tersebut akan terpecah-pecah. Semakin banyak data yang diberi label, semakin baik. Mengumpulkan wol semua pemberi tag adalah bisnis yang pasti menghasilkan keuntungan.
Terkadang, algoritme dapat menyelesaikan data yang memerlukan waktu empat atau lima hari untuk diselesaikan oleh anotator dalam satu jam. Xiao Duan bekerja di sebuah perusahaan Internet besar, departemen ini memiliki anggaran yang cukup dan memiliki beberapa anotator penuh waktu. "Kami berusaha untuk tidak membiarkan para anotator menganggur," katanya, "Para pemimpin akan membaca laporan mingguan. Jika mereka merasa tugasnya tidak banyak, mari kita berikan lebih banyak tugas kepada mereka."
Seorang anotator mengatakan kepada 36Kr bahwa meskipun pemrogram yang bekerja dengannya mengatakan bahwa setiap jenis pekerjaan memiliki nilai, mereka masih secara tidak sengaja mengungkapkan sedikit rasa jijik. “Tentu saja, kelompok orang ini sendiri berorientasi pada teknologi,” anotator itu menghibur dirinya sendiri.
Teknologi berkembang jauh lebih cepat dari perkiraan semua orang.Di era model berukuran besar, kualitas data akan secara langsung mempengaruhi performa model. **Memahami hal ini, beberapa perusahaan AI mengucapkan selamat tinggal kepada agen outsourcing anotasi data tanpa ragu-ragu.
“Kualitas data yang kami dapatkan sangat buruk sehingga pada dasarnya tidak ada gunanya,” kata CTO sebuah perusahaan AI. Bisnis inti mereka adalah video yang dihasilkan AI, dan mereka telah mengembangkan model yang dikembangkan sendiri yang dapat menghasilkan video produk e-niaga dalam jumlah tak terbatas. Untuk melatih model tersebut, mereka secara khusus merekrut 50 mahasiswa untuk melakukan anotasi data.
Mahasiswa juga sulit dipercaya dalam bidang profesional seperti perawatan medis, keuangan, dan komputer. Selain membangun basis pelabelannya sendiri, sebuah perusahaan Internet besar dalam negeri juga membayar para profesional untuk memberi label. Meskipun proporsi profesional di industri anotasi masih kecil, peran mereka cukup jelas. Misalnya saja, akan lebih meyakinkan untuk menyerahkan pertanyaan tentang penangguhan pembayaran jaminan sosial kepada para profesional yang memahami dokumen-dokumen pemerintah.
Rahasia umum adalah jauh sebelum ChatGPT menjadi populer, OpenAI mengorganisir lebih dari selusin mahasiswa doktoral untuk "menandai". Dalam delapan tahun, OpenAI menghabiskan US$1 miliar hanya untuk melatih model tersebut.
Pada bulan Mei tahun ini, sebuah perusahaan data AS mulai merekrut profesional di bidang tertentu. Kompensasi bagi para anotator senior ini sudah tidak bisa ditawar lagi, misalnya upah per jam untuk pelabelan data legal adalah US$45, dan upah per jam untuk puisi adalah US$25.
Namun, di mata beberapa perusahaan AI, baik mereka pekerja kerah biru maupun pekerja kerah putih, mereka ingin menghemat biaya. Saat berkomunikasi dengan perusahaan-perusahaan ini, 36 Krypton sering mendengar satu kata: mengurangi biaya dan meningkatkan efisiensi.
Metode yang paling umum adalah menggunakan AI untuk anotasi otomatis. Sebuah perusahaan data menyatakan bahwa proporsi anotasi otomatis telah mencapai lebih dari 70%.
Insinyur algoritma Xiao Li dan rekan-rekannya melakukan upaya yang lebih mutakhir: ** Selama sebagian kecil dari data nyata digunakan sebagai model, melalui teknologi AI generatif dan serangkaian algoritma, data pelatihan berkualitas tinggi dapat diperoleh. disintesis. Dengan kata lain, tidak ada yang dibutuhkan sama sekali. **
“Harga data sintetik kami sedikit lebih murah dibandingkan harga anotasi manual,” kata Xiao Li.
Data sintetis saat ini terutama digunakan di bidang mengemudi otonom dan robotika. Xiao Li mengatakan bahwa ketika ChatGPT keluar, dia menyadari bahwa data yang dianotasi mungkin tidak berfungsi, dan pada akhirnya data sintetis harus digunakan. Pendiri OpenAI Sam Altman juga memiliki pandangan serupa: "Data sintetis adalah cara paling efektif untuk mengatasi kekurangan data model berukuran besar."
Perusahaan rintisan Light Wheel Intelligence terutama memproduksi data sintetis di bidang mengemudi otonom dan robotika. “Hasil akhir dari pelabelan otomatis adalah tidak adanya pelabelan,” kata CEO Xie Chen. “Sebagian besar perusahaan pelabelan tidak melihat hal tersebut dalam jangka panjang.”
Xie Chen menyebutkan kepada 36Kr bahwa seorang rekan di tim sebelumnya telah melakukan anotasi otomatis di OEM dan telah menguasai anotasi 4D-BEV yang lebih kompleks. Ini adalah alat anotasi terkemuka di industri yang menggunakan waktu sebagai garis lintang keempat untuk anotasi dalam ruang 3D guna meningkatkan kinerja sistem mengemudi otonom. Tahun ini dia memutuskan untuk menghentikan anotasi otomatis, berinisiatif mencari Xie Chen, dan akhirnya bergabung dengan Nimbus Intelligence.
Rekan ini adalah Xiao Li. Ia mengatakan kemunculan AI generatif pernah membuatnya sangat cemas, namun setelah melihat data sintetik, ia kembali bersemangat.
Salah satu tujuan pekerjaannya adalah untuk "mengganti (memberi label) orang-orang di industri ini," tapi dia malu untuk mengatakan dengan pasti, "Mungkin dalam jangka pendek, mungkin satu atau dua tahun."
Terakhir, mari kembali ke dunia anotator. Kegelisahan akibat pesatnya perkembangan teknologi hampir tidak terlihat di sini. Yang ada hanyalah gangguan sepele, berulang-ulang, dan beberapa fantasi naif.
Mahasiswa Xiao Wang masih melatih model-model besar di kampung halamannya. Saat kami ngobrol baru-baru ini, dia mengatakan bahwa pekerjaan ini adalah peluang untuk memasuki bidang kecerdasan buatan. Jalur promosi yang ditetapkan perusahaan untuk mereka adalah dari anotator menjadi pemeriksa kualitas, pelatih, supervisor, dan terakhir manajer proyek. Tujuan Xiao Wang adalah menjadi supervisor dan kemudian berganti pekerjaan ke posisi yang lebih dekat dengan AI. Apa sebenarnya itu, dia belum tahu.
Dibandingkan dengan Xiao Wang yang ambisius, sebagian besar anotator kurang tertarik pada AI. Seorang gadis menjelaskan, “Saya tidak terlalu memperhatikan teknologi tinggi.” Dia telah melakukan penilaian selama dua tahun dan sudah menjadi karyawan senior. Dia baru-baru ini dipromosikan menjadi inspektur kualitas. Baginya, pekerjaan anotasinya sederhana dan stabil, “tanpa gesekan mental” dan dia kadang-kadang bisa menangkap ikan. Di tahun ketika AI menggemparkan dunia teknologi, hidupnya setenang air.
Salah satu dari sedikit perubahan adalah penambahan bot percakapan ke alat anotasi yang disediakan oleh perusahaan. Perusahaan memberi tahu semua orang bahwa jika Anda menemukan pertanyaan yang tidak Anda pahami selama anotasi, tanyakan langsung pada robot untuk menghemat waktu. Efisiensi meningkat pesat. Dia mengatakan kepada 36 Krypton bahwa sebelumnya, dia dapat memproduksi hingga lima atau enam ratus kotak sehari, tetapi sekarang dia dapat memproduksi lebih dari tujuh ratus.
“Berkat robotnya,” katanya. Belum ada yang memberitahunya bahwa itu disebut ChatGPT.
(Atas permintaan orang yang diwawancarai, beberapa karakter dalam artikel tersebut memiliki nama samaran. Penulis 36Kr Anita Deng juga berkontribusi pada artikel tersebut.)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Anotator data, terjebak dalam model besar
Teks asli: 36氪
Xiaoyan, yang bekerja sebagai data annotator di sebuah perusahaan Internet besar, sering kali merasa terisolasi di perusahaan tersebut.
Tempat kerja Xiaoyan berada di sebelah tempat kerja manajer produk dan pemrogram. Mereka dapat menikmati manfaat yang sama: lencana kerja yang sama, komputer Apple; mereka dapat pergi ke gym atau pergi ke kapsul luar angkasa untuk tidur kapan saja.
Namun Xiaoyan dapat menyadari bahwa sebagai anotator data, dia dan rekan-rekannya berada di "dua dunia".
Meskipun kami satu tim, tidak ada yang akan memanggil anotator pada pertemuan pagi setiap hari, jadi Xiaoyan hanya bisa menonton secara diam-diam di luar pintu. Suatu ketika, seseorang membawa sekeranjang lampu meja yang merupakan prototipe produk AI yang sedang dikerjakan oleh tim.Para programmer berkumpul di sekitarnya, sangat bersemangat, dan mengambilnya untuk dimainkan. Para anotator duduk di tempat kerja mereka dan menjalankan bisnis mereka sendiri tanpa insiden apa pun. “Mereka tidak tahu bahwa produk tersebut dibuat berdasarkan data yang diberi label.”
Ketika Xiaoyan bergabung dengan perusahaan, perusahaan Xiaoyan sedang mengembangkan produk AI pendidikan, yang memerlukan pelabelan data dalam jumlah besar untuk melatih AI. Perusahaan membeli segunung buku soal pelajaran untuk sekolah dasar dan menengah.Tugas Xiaoyan adalah memotret setiap soal, lalu menggambar kotak dan menandai soal-soal tersebut di komputer.
Juga bekerja untuk AI, pemrogram dengan jelas menyadari nilai pekerjaan mereka dan menikmati kesenangan yang dibawa oleh kemajuan algoritma yang berkelanjutan, namun hanya sedikit anotator yang merasa bahwa kerja mereka sendirilah yang menciptakan AI.
Kemajuan kecerdasan buatan tidak terlepas dari anotasi data. Perkembangan kendaraan otonom dalam beberapa tahun terakhir telah mendorong pasar anotasi data. Menurut laporan Deloitte, permintaan pelabelan di bidang kendaraan otonom akan mencapai 38% dari seluruh aplikasi hilir AI pada tahun 2022, dan diperkirakan proporsinya akan meningkat menjadi 52% pada tahun 2027.
Munculnya model besar tahun ini telah menambah bahan bakar bagi industri anotasi data. Sejumlah besar pesanan berdasarkan skenario pelatihan model besar mengalir ke perusahaan anotasi data. Tampaknya bisnis anotasi data yang membosankan sekali lagi telah disuntikkan dengan vitalitas .
Beberapa perusahaan teknologi sudah lebih maju dan mencoba menggunakan AI untuk mensintesis data secara otomatis untuk pelatihan AI. Data sintetis didasarkan pada sejumlah kecil data nyata, dihasilkan secara tak terbatas oleh AI dan tidak memerlukan pelabelan, melainkan mengandalkan pelabelan manual. Di bidang mengemudi otonom, data sintetik dapat mencakup beberapa kondisi jalan ekstrem, seperti pejalan kaki yang tiba-tiba menerobos jalan.
Dalam imajinasi mereka, data sintetis akan menggantikan anotasi manual di masa depan. Pelabelan pada perusahaan yang tidak memiliki teknologi dan hanya mengandalkan tenaga kerja akan dihilangkan secara bertahap. Sebuah data menunjukkan bahwa 70% data dasar yang digunakan untuk kecerdasan buatan di luar negeri adalah data sintetis, dan jalur ini sedang diverifikasi.
Hal di atas bukanlah kabar baik bagi sejumlah besar anotator data. Namun, beberapa anotator yang dihubungi oleh 36Kr masih belum mengetahui apa itu ChatGPT, dan mereka bereaksi seolah-olah baru pertama kali mendengar istilah tersebut.
Xiaoyan mengatakan bahwa tagger adalah ekor yang dapat dipotong kapan saja. Satu-satunya ketegangan adalah ketika pisaunya akan jatuh sepenuhnya.
Annotator yang melatih mesin terasa lebih seperti mesin
Xiaohe mengambil jurusan bahasa Inggris dan magang di sebuah pabrik besar selama tahun terakhirnya. Pada hari pertamanya bekerja, kantornya berada di gedung perkantoran yang luas dan bersih, sesuai dengan imajinasinya tentang sebuah perusahaan Internet. Tidak butuh waktu lama baginya untuk menyadari bahwa konten pekerjaan yang dia pelajari selama wawancara - "mengatur dan mengklasifikasikan data suara perusahaan" - sebenarnya adalah anotasi data.
Belakangan, Xiaohe mengakui bahwa jika dia tahu bahwa ini adalah awal bekerja untuk AI, dia akan segera pergi.
Ada 6 orang peserta magang dalam kelompok tersebut, semuanya merupakan mahasiswa dari jurusan bahasa asing di sebuah universitas bergengsi. Seorang pemimpin tim wanita memberikan tugas setiap hari. Kadang-kadang itu adalah sekumpulan simbol fonetik bahasa Inggris, dan tugas Xiaohe adalah membedakan pengucapan Inggris dari pengucapan Amerika; kadang-kadang itu adalah Excel, klik, dan Anda akan melihat data di mana-mana. Jika Anda gulir ke bawah, ada lebih dari 10.000 item .
“Rasanya seperti mendaki gunung,” kata Xiaohe.
“Proyek” yang paling sering saya lakukan adalah anotasi lisan untuk siswa sekolah menengah. Anotator terbiasa membicarakan pekerjaan sebagai proyek, proyek demi proyek. Xiaohe mendengarkan 200 rekaman dengan aksen yang kuat setiap hari, masing-masing berdurasi dua menit. Jika Anda mendengar pertanyaan umum, skor 1; jika Anda mendengar pertanyaan khusus, skor 2; jika Anda tidak mendengar keduanya, skor 0. Untuk mencegah kebocoran, dia hanya bisa menggunakan headphone berkabel di kantor, telinga Xiaohe sakit dan dia merasa "mudah tersinggung".
Dia sering mendengar kata-kata makian digunakan dalam rekaman. Beberapa anak tidak mengucapkan sepatah kata pun sebelum mereka mulai mengumpat. Di lain waktu selama proyek navigasi peta, seseorang mau tidak mau mengutuk rekaman tersebut. "Saya tidak tahu mengapa ada orang yang begitu marah."
Xiaohe berkata bahwa kamu tidak boleh menganggapnya terlalu serius, kamu hanya dapat menandai rekaman ini sebagai "tidak berarti", lalu membalik halaman dan melanjutkan mendengarkan yang berikutnya.
**"Seperti mesin", hampir setiap anotator akan mendeskripsikan dirinya seperti ini. **Anotasi sangatlah mudah. Seorang anotator Shandong mengatakan bahwa proyek tersulit yang pernah dia lakukan adalah anotasi sidik jari. Dia mendapat banyak sidik jari dari seseorang yang tidak dia kenal (beberapa di antaranya masih buram), dan dia perlu menarik bingkai di sepanjang tepi sidik jarinya sedikit demi sedikit. “Setelah saya sampai di rumah hari itu, saya dapat melihat sidik jari di seluruh mata saya ketika saya menutup mata.”
Banyak proyek mengharuskan anotator untuk menjaga kerahasiaan dengan ketat, namun anotator tidak peduli untuk apa proyek tersebut. Selama bekerja, pemberi tag diharuskan menyerahkan ponselnya dan meletakkannya di tas gantung di dinding. Mereka hanya diperbolehkan mengambil ponselnya jika menerima panggilan.
Sebagian besar anotator telah mengalami proses dari ketidaktahuan menjadi mahir, dari hal baru hingga membosankan. Tahap awal proyek adalah yang paling menarik, saat itu aturan pelabelan belum lengkap, sering dijumpai daerah-daerah kontroversial, bahkan saling berdiskusi atau bahkan berdebat, dan suasananya meriah. Pada tahap pertengahan dan akhir, peraturan hampir selesai, hanya tersisa kerja berulang dan mekanis, dan masyarakat akan merasa tidak ada artinya.
**Seorang anotator mengatakan ini adalah "pekerjaan yang tidak masuk akal". **
Jia Wenjuan, seorang profesor di Universitas Shanghai, telah melakukan penelitian lapangan tentang anotasi data. Dia percaya bahwa anotasi data bukanlah kerja mental atau kerja fisik, tetapi kerja kognitif. "Apa yang dijual orang adalah kognisi mereka sendiri." Humor gelapnya adalah kita ingin mesin menjadi lebih mirip manusia, namun pada saat yang sama kita membuat manusia lebih mirip mesin. Dengan kata lain, kesampingkan akal sehat dan berpikirlah seperti robot. **
Dan begitu anotator mulai berpikir "Mengapa saya harus melakukan ini", itu berarti dia akan segera mengundurkan diri.
Zheng Wei adalah bos sebuah perusahaan anotasi data, dan dia dengan blak-blakan mengatakan bahwa dia tidak dapat mempertahankan orang. Yang terbaik, perusahaan memiliki kurang dari 20 orang. Karyawan baru seringkali hanya bertahan setengah bulan, banyak orang yang masuk kerja di hari pertama dan pulang keesokan harinya. Dia tidak punya pilihan selain terus menurunkan persyaratan rekrutmennya, dan pada akhirnya dia merasa bahwa "Saya tidak memilih orang, tetapi orang lain memilih saya."
Dia tidak tahu bagaimana mempertahankan mereka yang pergi. "Akan menjadi lebih baik jika Anda tetap di sini. Saya sendiri sebenarnya tidak percaya ini," kata Komisaris Zheng kepada 36 Krypton. Pengurangan karyawan akhirnya membuat perusahaan kewalahan, dan ketika hanya tersisa dua anotator, dia memutuskan untuk membubarkan tim. Tidak lama kemudian, ChatGPT meluncurkan gelombang AI baru.
Munculnya model besar tidak hanya baik untuk anotasi data, tetapi juga mengintensifkan involusi tim ** anotasi. **
Mengenai penerimaan pekerjaan, Xiaodai mengatakan bahwa 80-90% proyek penandaan di pasar sekarang memiliki harga satuan yang sangat rendah, "karena ada terlalu banyak subkontraktor di tengah" dan "semua ingin mendapat untung dari harga tersebut." perbedaan, dan tidak ingin benar-benar melakukan pekerjaan itu." . Dia bekerja sebagai anotator di platform crowdsourcing selama dua tahun dan memulai bisnisnya sendiri tahun ini untuk membentuk tim anotasinya sendiri.
Anotasi data tidak terlalu menguntungkan. Mengambil gambar bingkai 2D mengemudi otonom sebagai contoh, harga pengiriman pesanan sebuah perusahaan besar adalah 10 sen, dan tim pelabelan yang mengambil alih pekerjaan tersebut masing-masing berharga 8 sen. “Sekarang turun menjadi 5 atau 6 poin,” kata Xiaodai. Dia menghitung sebuah akun, dan jika kurang dari 8 poin, dia hanya bisa kehilangan uang.
Untuk bertahan hidup, Xiao Dai menghabiskan sebagian besar waktunya mencari proyek dan nongkrong di berbagai platform dan bar pos. Proyeknya asli dan palsu, kebanyakan tidak bisa diandalkan, Agen mengalami kerugian, ada proyek yang uangnya belum sampai setelah menunggu 8 bulan.
Kemudian, dia pertama kali bekerja sebagai anotator paruh waktu, dan hanya setelah tidak ada masalah dengan penawaran percobaan dan penyelesaian, dia membiarkan tim mengambil alih pekerjaan tersebut. Saya pernah mendengar bahwa platform tersebut akan merilis sejumlah proyek pada jam 3 tengah malam, jadi dia menyetel alarm terlebih dahulu untuk mengambil pesanan.
**Kehilangan staf, harga unit yang rendah, dan pengumpulan pembayaran yang tidak stabil seperti tumor, yang menyeret sebagian besar perusahaan kecil di industri ini. **
Tidak ada anotator yang tidak meremehkan pekerjaan ini, mereka tidak dapat menghasilkan uang, tidak dapat melihat ruang promosi dan peluang pengembangan, dan mereka terjerumus ke dalam depresi dan kehilangan yang berkepanjangan.
Saat menulis artikel ini, sebagian besar anotator yang dihubungi oleh 36Kr mengundurkan diri. Seorang gadis berkata bahwa dia telah bekerja selama dua bulan dan gajinya kurang dari 3.000 yuan.
Anotator internal: Tingkat gelar sarjana 100%
Di masa lalu, ambang batas anotasi data rendah. Di Shandong, Shanxi, Henan, Guizhou dan tempat lain, banyak perusahaan anotasi data telah merekrut sejumlah besar tenaga kerja murah. Yang paling umum adalah ibu-ibu, penyandang disabilitas, dan siswa SMK, selama mereka menguasai dasar-dasar pengoperasian komputer, mereka bisa memasuki industri ini.
Di era model besar, pengocokan dan penghapusan anotasi data diam-diam terjadi di antara para kandidat.
Peneliti menemukan bahwa kualitas data pelatihan memiliki dampak yang sangat besar terhadap performa model. Dibandingkan dengan jumlah data, dengan kualitas data yang lebih tinggi, efek peningkatan model menjadi lebih jelas. Untuk mengontrol kualitas data, beberapa perusahaan AI telah membentuk tim pelabelan mereka sendiri.Langkah pertama adalah menaikkan ambang batas untuk masuk ke industri ini.
Hal yang paling jelas adalah kualifikasi akademis para anotator mulai meningkat.
Pada bulan April tahun ini, produsen model skala besar terkemuka mendirikan basis anotasi data, dan angkatan pertama anotator yang direkrut ** memiliki tingkat gelar sarjana 100%. **Penanggung jawab perusahaan menjelaskan bahwa data model besar melibatkan berbagai pengetahuan dan kriteria evaluasi yang kompleks, yang sangat menguji pemahaman bahasa anotator dan kemampuan penalaran logis.
Xiao Wang baru saja lulus kuliah dan ketika dia kembali ke kampung halamannya untuk mencari pekerjaan, dia secara tidak sengaja menemukan perekrutan basis pelabelan data ini. Jadi dia mengambil bagian dalam wawancara dan berhasil lulus. Pangkalan mengiriminya materi pelatihan sepanjang 300.000 kata.Hanya dengan lulus ujian pelatihan dia dapat secara resmi mengambil posisi tersebut.
Anotator mengerjakan pertanyaan setiap hari. Pendatang baru ditanyai 40 pertanyaan sehari, sedangkan pekerja berpengalaman ditanyai 70-80 pertanyaan. Sistem backend mendistribusikan pertanyaan kepada semua orang, yang sebagian besar merupakan rekaman percakapan antara pengguna sebenarnya dan model besar. Pertanyaan pengguna berkisar dari seluruh dunia dan bahkan lebih aneh lagi: Manakah dari ketiga ponsel berikut yang lebih baik? Telur mana yang lebih baik, atau gashapon? Apa kriteria orang sukses? Mengapa Lin Daiyu melawan Bone Demon?
Model besar akan memiliki banyak jawaban, dan tugas Xiao Wang adalah membaca setiap jawaban, memilih kesalahan, dan menilainya satu per satu sesuai kualitas.5 poin adalah skor sempurna, 1 poin adalah yang terendah, dan jawaban di bawah 3 poin perlu dibagi menjadi jenis kesalahan. . Jika jawaban tidak sesuai dengan yang ditanyakan maka akan langsung diberikan skor terendah, jika terdapat pertanyaan sensitif tidak akan diberikan skor dan akan dinilai sebagai "lainnya".
Menyortir, menilai, dan mengevaluasi, langkah-langkah anotasi yang sedikit rumit inilah yang disebut dengan RLHF (Reinforcement Learning from Human Feedback, yaitu pembelajaran penguatan dari umpan balik manusia), tujuannya adalah untuk terus menyelaraskan model besar dengan nilai-nilai dan cara-cara kemanusiaan. berpikir Lebih bermanfaat. OpenAI menggunakan RLHF dalam proses pelatihan ChatGPT dan mencapai hasil yang luar biasa.
Dibandingkan dengan pelabelan data sebelumnya, aturan pelabelan untuk model besar lebih subjektif. Ketika seorang insinyur algoritme mewawancarai seorang anotator, dia akan menanyakan pertanyaan berikut kepada orang lain: "Jika Anda adalah seorang pemimpin bisnis dan dihadapkan dengan empat jenis karyawan: Sun Wukong, Zhu Bajie, Biksu Tang, dan Sha Seng, siapa yang akan Anda pilih? mempekerjakan?"
Tidak ada jawaban standar, katanya. **Jenis pertanyaan ini untuk menguji apakah anotator memiliki kemampuan berpikir logis. **
Permintaan industri akan talenta menjadi semakin mendesak. Sebuah perusahaan start-up bernama Kaiwang Data bekerja sama dengan universitas untuk melatih sejumlah besar anotator mahasiswa. CEO Yu Xu mengatakan bahwa perusahaannya membangun "Kaywang Data Academy" tahun lalu dan telah melatih lebih dari 1.500 siswa di 50 sekolah untuk terlibat dalam anotasi data.
Ketika Xiao Wang menilai jawaban model besar, dia sering kali perlu melakukan pengecekan fakta, dan beban kerjanya sepenuhnya bergantung pada keberuntungan. Suatu ketika saya menemukan pertanyaan: Mana yang lebih baik, BMW Seri 3 atau Mercedes-Benz C Series? Model besar mencantumkan 40 parameter dari dua mobil masing-masing, dan setiap parameter perlu diperiksa oleh Xiao Wang. Pertanyaan itu memakan waktu setengah jam.
Setelah melakukan anotasi beberapa saat, Xiao Wang menemukan bahwa skornya jarang melebihi 3 poin, "Respon AI tidak cukup untuk membuat saya merasa sangat puas atau luar biasa." Dia ingat salah satu pertanyaannya adalah "Jika headset Bluetooth rusak, haruskah saya pergi ke dokter gigi atau produsen headset?" Itu jelas merupakan pertanyaan yang memancing, tetapi jawaban AI membuat matanya berbinar. "Dikatakan untuk pergi ke dokter gigi untuk diperbaiki, bukan ke rumah sakit."
Xiao Wang puas dengan pekerjaan ini. Gaji pokok bulanannya 1.800 yuan, bonus kehadiran sempurna 200 yuan, dan subsidi perumahan 200 yuan.Dengan mempertimbangkan kinerja, dia bisa mendapatkan 4.000 yuan sebulan. Ia mengatakan, pendapatan daerah setempat dinilai di atas rata-rata. Dia juga menarik rambutnya, dan keduanya duduk di tempat kerja yang berdekatan.
Ada sekitar 20 mahasiswa yang berlatih bersamaan dengan Xiao Wang, dalam dua hari, mereka hampir semuanya pergi, dan hanya tersisa dua atau tiga orang.
Tapi kita tidak perlu khawatir dengan perusahaan, disini tidak akan pernah kekurangan mahasiswa. Seorang CTO mengungkapkan kebenaran kepada 36Kr: Pergi dan lihatlah situasi pekerjaan mahasiswa saat ini.
Yang paling ingin saya hilangkan adalah anotasi manusia, bukan AI
Harus diakui bahwa banyak pemberitaan tentang anotasi data, konsensus masyarakat antara lain bahwa pekerjaan ini adalah “jalur perakitan Internet”, yang sulit dilakukan dalam jangka waktu lama, dan anotasi manual pada akhirnya akan digantikan oleh AI.
Dalam sebulan terakhir, kami menghabiskan banyak waktu berkomunikasi dengan insinyur algoritme dan perusahaan AI. Meskipun konsensus di atas belum diperbarui, samar-samar dapat dirasakan bahwa hal yang paling ingin menghilangkan tenaga kerja manusia mungkin bukanlah AI. Sebelum AI benar-benar dapat mengambil tindakan, mereka yang telah menguasai teknologi tercanggih telah mengangkat sabitnya.
Dalam dunia teknologi, pentingnya data tidak bisa dilebih-lebihkan. Insinyur algoritma Xiao Duan mengatakan bahwa jika bisnis AI tidak memiliki data berlabel, tidak peduli seberapa bagus algoritma yang mereka tulis, data tersebut akan terpecah-pecah. Semakin banyak data yang diberi label, semakin baik. Mengumpulkan wol semua pemberi tag adalah bisnis yang pasti menghasilkan keuntungan.
Terkadang, algoritme dapat menyelesaikan data yang memerlukan waktu empat atau lima hari untuk diselesaikan oleh anotator dalam satu jam. Xiao Duan bekerja di sebuah perusahaan Internet besar, departemen ini memiliki anggaran yang cukup dan memiliki beberapa anotator penuh waktu. "Kami berusaha untuk tidak membiarkan para anotator menganggur," katanya, "Para pemimpin akan membaca laporan mingguan. Jika mereka merasa tugasnya tidak banyak, mari kita berikan lebih banyak tugas kepada mereka."
Seorang anotator mengatakan kepada 36Kr bahwa meskipun pemrogram yang bekerja dengannya mengatakan bahwa setiap jenis pekerjaan memiliki nilai, mereka masih secara tidak sengaja mengungkapkan sedikit rasa jijik. “Tentu saja, kelompok orang ini sendiri berorientasi pada teknologi,” anotator itu menghibur dirinya sendiri.
Teknologi berkembang jauh lebih cepat dari perkiraan semua orang.Di era model berukuran besar, kualitas data akan secara langsung mempengaruhi performa model. **Memahami hal ini, beberapa perusahaan AI mengucapkan selamat tinggal kepada agen outsourcing anotasi data tanpa ragu-ragu.
“Kualitas data yang kami dapatkan sangat buruk sehingga pada dasarnya tidak ada gunanya,” kata CTO sebuah perusahaan AI. Bisnis inti mereka adalah video yang dihasilkan AI, dan mereka telah mengembangkan model yang dikembangkan sendiri yang dapat menghasilkan video produk e-niaga dalam jumlah tak terbatas. Untuk melatih model tersebut, mereka secara khusus merekrut 50 mahasiswa untuk melakukan anotasi data.
Mahasiswa juga sulit dipercaya dalam bidang profesional seperti perawatan medis, keuangan, dan komputer. Selain membangun basis pelabelannya sendiri, sebuah perusahaan Internet besar dalam negeri juga membayar para profesional untuk memberi label. Meskipun proporsi profesional di industri anotasi masih kecil, peran mereka cukup jelas. Misalnya saja, akan lebih meyakinkan untuk menyerahkan pertanyaan tentang penangguhan pembayaran jaminan sosial kepada para profesional yang memahami dokumen-dokumen pemerintah.
Rahasia umum adalah jauh sebelum ChatGPT menjadi populer, OpenAI mengorganisir lebih dari selusin mahasiswa doktoral untuk "menandai". Dalam delapan tahun, OpenAI menghabiskan US$1 miliar hanya untuk melatih model tersebut.
Pada bulan Mei tahun ini, sebuah perusahaan data AS mulai merekrut profesional di bidang tertentu. Kompensasi bagi para anotator senior ini sudah tidak bisa ditawar lagi, misalnya upah per jam untuk pelabelan data legal adalah US$45, dan upah per jam untuk puisi adalah US$25.
Namun, di mata beberapa perusahaan AI, baik mereka pekerja kerah biru maupun pekerja kerah putih, mereka ingin menghemat biaya. Saat berkomunikasi dengan perusahaan-perusahaan ini, 36 Krypton sering mendengar satu kata: mengurangi biaya dan meningkatkan efisiensi.
Metode yang paling umum adalah menggunakan AI untuk anotasi otomatis. Sebuah perusahaan data menyatakan bahwa proporsi anotasi otomatis telah mencapai lebih dari 70%.
Insinyur algoritma Xiao Li dan rekan-rekannya melakukan upaya yang lebih mutakhir: ** Selama sebagian kecil dari data nyata digunakan sebagai model, melalui teknologi AI generatif dan serangkaian algoritma, data pelatihan berkualitas tinggi dapat diperoleh. disintesis. Dengan kata lain, tidak ada yang dibutuhkan sama sekali. **
“Harga data sintetik kami sedikit lebih murah dibandingkan harga anotasi manual,” kata Xiao Li.
Data sintetis saat ini terutama digunakan di bidang mengemudi otonom dan robotika. Xiao Li mengatakan bahwa ketika ChatGPT keluar, dia menyadari bahwa data yang dianotasi mungkin tidak berfungsi, dan pada akhirnya data sintetis harus digunakan. Pendiri OpenAI Sam Altman juga memiliki pandangan serupa: "Data sintetis adalah cara paling efektif untuk mengatasi kekurangan data model berukuran besar."
Perusahaan rintisan Light Wheel Intelligence terutama memproduksi data sintetis di bidang mengemudi otonom dan robotika. “Hasil akhir dari pelabelan otomatis adalah tidak adanya pelabelan,” kata CEO Xie Chen. “Sebagian besar perusahaan pelabelan tidak melihat hal tersebut dalam jangka panjang.”
Xie Chen menyebutkan kepada 36Kr bahwa seorang rekan di tim sebelumnya telah melakukan anotasi otomatis di OEM dan telah menguasai anotasi 4D-BEV yang lebih kompleks. Ini adalah alat anotasi terkemuka di industri yang menggunakan waktu sebagai garis lintang keempat untuk anotasi dalam ruang 3D guna meningkatkan kinerja sistem mengemudi otonom. Tahun ini dia memutuskan untuk menghentikan anotasi otomatis, berinisiatif mencari Xie Chen, dan akhirnya bergabung dengan Nimbus Intelligence.
Rekan ini adalah Xiao Li. Ia mengatakan kemunculan AI generatif pernah membuatnya sangat cemas, namun setelah melihat data sintetik, ia kembali bersemangat.
Salah satu tujuan pekerjaannya adalah untuk "mengganti (memberi label) orang-orang di industri ini," tapi dia malu untuk mengatakan dengan pasti, "Mungkin dalam jangka pendek, mungkin satu atau dua tahun."
Terakhir, mari kembali ke dunia anotator. Kegelisahan akibat pesatnya perkembangan teknologi hampir tidak terlihat di sini. Yang ada hanyalah gangguan sepele, berulang-ulang, dan beberapa fantasi naif.
Mahasiswa Xiao Wang masih melatih model-model besar di kampung halamannya. Saat kami ngobrol baru-baru ini, dia mengatakan bahwa pekerjaan ini adalah peluang untuk memasuki bidang kecerdasan buatan. Jalur promosi yang ditetapkan perusahaan untuk mereka adalah dari anotator menjadi pemeriksa kualitas, pelatih, supervisor, dan terakhir manajer proyek. Tujuan Xiao Wang adalah menjadi supervisor dan kemudian berganti pekerjaan ke posisi yang lebih dekat dengan AI. Apa sebenarnya itu, dia belum tahu.
Dibandingkan dengan Xiao Wang yang ambisius, sebagian besar anotator kurang tertarik pada AI. Seorang gadis menjelaskan, “Saya tidak terlalu memperhatikan teknologi tinggi.” Dia telah melakukan penilaian selama dua tahun dan sudah menjadi karyawan senior. Dia baru-baru ini dipromosikan menjadi inspektur kualitas. Baginya, pekerjaan anotasinya sederhana dan stabil, “tanpa gesekan mental” dan dia kadang-kadang bisa menangkap ikan. Di tahun ketika AI menggemparkan dunia teknologi, hidupnya setenang air.
Salah satu dari sedikit perubahan adalah penambahan bot percakapan ke alat anotasi yang disediakan oleh perusahaan. Perusahaan memberi tahu semua orang bahwa jika Anda menemukan pertanyaan yang tidak Anda pahami selama anotasi, tanyakan langsung pada robot untuk menghemat waktu. Efisiensi meningkat pesat. Dia mengatakan kepada 36 Krypton bahwa sebelumnya, dia dapat memproduksi hingga lima atau enam ratus kotak sehari, tetapi sekarang dia dapat memproduksi lebih dari tujuh ratus.
“Berkat robotnya,” katanya. Belum ada yang memberitahunya bahwa itu disebut ChatGPT.
(Atas permintaan orang yang diwawancarai, beberapa karakter dalam artikel tersebut memiliki nama samaran. Penulis 36Kr Anita Deng juga berkontribusi pada artikel tersebut.)