Pada hari pertama magang resmi, Chen Xi merasa bahwa dia mungkin telah "ditipu".
Chen Xi, calon mahasiswa pascasarjana yang baru saja menyelesaikan skripsi kelulusan sekolahnya, siap mencari sesuatu untuk dilakukan sendiri. Setelah mengirimkan beberapa resume, dia segera diundang ke posisi penyuntingan kecerdasan buatan (arah penerjemahan) di sebuah perusahaan Internet besar dalam negeri.
Deskripsi pekerjaannya berbunyi:
Menyediakan korpus berkualitas tinggi untuk pembelajaran mesin kecerdasan buatan dan mereplikasi iterasi pelatihan model;
Berkomunikasi dengan tim teknis mengenai persyaratan, mengirimkan data berkualitas tinggi dan berkualitas tepat waktu, dan bertanggung jawab atas kualitas hasil pengeditan.
Bagi Chen Xi, yang tidak tahu banyak tentang pelatihan model, ini sepertinya magang yang cukup bagus.
Wawancara Chenxi di bidang penerjemahan sangat sesuai dengan jurusan bahasa Inggrisnya, di awal tahun ChatGPT menjadi populer di China, dan Chenxi memiliki kebiasaan menggunakan produk AI setiap hari, hal ini sejalan dengan minatnya. Selain itu, dia akan memiliki kesempatan untuk berpartisipasi dalam teknologi yang sedang berkembang. Perkembangan industri jarang terjadi pada mahasiswa seni liberal; tentu saja, daya tarik terbesar datang dari perusahaan Internet besar ini. Dalam beberapa tahun terakhir, perusahaan telah berhasil menarik banyak pelajar muda. Dari sudut pandang tertentu, nama perusahaan besar di resume sudah cukup menjadi simbol kemampuan diri.
Namun, selain deskripsi pekerjaan sederhana di halaman rekrutmen, Chen Xi tidak mendapatkan informasi lebih lanjut tentang magang ini dari pewawancara.
“Alasan saya merasa ditipu saat itu adalah karena HR pada dasarnya fokus pada masalah terkait penerjemahan selama wawancara.” Setelah menjawab beberapa pertanyaan penerjemahan selama wawancara, Chen Xi berhasil mendapatkan tawaran tersebut. Sampai dia mulai bekerja, dia mengira itu adalah pekerjaan sebagai penerjemah.
Chen Xi bukan satu-satunya yang merasa "ditipu".
Sebagai salah satu editor kecerdasan buatan yang paling awal magang, Yang Xiaoyun juga datang ke pabrik besar ini pada akhir Februari. Pewawancara mengatakan bahwa ini adalah pekerjaan yang membutuhkan kemampuan tinggi seperti menangkap informasi, meringkas bahasa dan mengedit teks.
Setelah benar-benar memulai, dia menyadari: "Pekerjaan yang dijelaskan oleh HR dan pekerjaan sebenarnya adalah dua hal yang berbeda. Betapapun glamornya, itu sebenarnya adalah pekerjaan 'penandaan'."
Saat ini, kegilaan kecerdasan buatan telah menyebabkan chatbots terlihat seperti manusia nyata dan perangkat lunak menggambar yang dapat menghasilkan gambar dengan perintah sederhana. Kemunculan model besar di tingkat fenomena telah menarik banyak perhatian sebagai dasar untuk melatih model besar.Anotasi data adalah bagian tak terpisahkan dari tautan data.
Pada tahun 2007, Li Feifei, yang saat itu menjabat sebagai asisten profesor di Departemen Ilmu Komputer di Universitas Princeton, memulai sebuah proyek bernama ImageNet, dengan harapan dapat memperluas data yang dapat digunakan untuk melatih algoritma AI.
Untuk memberikan sebanyak mungkin contoh visual untuk setiap kata, hampir 50.000 pekerja di platform crowdsourcing Amazon, Mechanical Turk, menghabiskan dua setengah tahun untuk memberi label pada objek dalam gambar, seperti balon, stroberi, dll., dengan total 3,2 juta gambar. . Para pekerja ini berasal dari 167 negara di seluruh dunia dan sebagian besar berlokasi di wilayah dengan upah tenaga kerja rendah.
Investigasi yang dilakukan majalah Time menemukan bahwa untuk mengurangi kekerasan, seksisme, dan rasisme dalam kumpulan data ChatGPT, OpenAI menggunakan pekerja Kenya yang berpenghasilan kurang dari $2 per jam. "Bloomberg" melaporkan bahwa chatbot AI Google Bard dilatih oleh ribuan pekerja kontrak, yang hanya memiliki waktu 3 menit untuk meninjau dan memberi anotasi pada jawaban Bard.
Di masa lalu, anotasi data tidak memerlukan persyaratan kognitif yang tinggi untuk bahasa dan pengenalan gambar. Di era model besar, anotasi data telah beralih dari gambar ke bahasa, yang lebih menuntut dan vertikal, memerlukan pengetahuan profesional di bidang tertentu dan kemampuan bahasa yang fasih.
Namun bagi pembuat anotasi data biasa, ini masih merupakan pekerjaan berteknologi rendah yang terus-menerus diulang.
Seperti halnya siswa-siswa yang “tertipu” dari sekolah-sekolah bergengsi yang memasuki pabrik-pabrik besar untuk magang, mereka tidak dapat menjelaskan dengan jelas apa tujuan pekerjaan mereka dan apa nilainya. Mereka seringkali hanya memiliki pemahaman yang samar-samar untuk "melatih model besar".
Magang penyuntingan kecerdasan buatan yang diwakili oleh Chen Xi dan Yang Xiaoyun lahir dari kebutuhan untuk melatih model besar. Model skala besar yang populer ini memungkinkan pekerja magang untuk masuk dengan rasa ingin tahu dan kerinduan, dan pada saat yang sama, mereka juga merasakan kekacauan nyata dan kurangnya nilai di belakang mereka.
1. Saat mahasiswa membanjiri anotasi data model besar
**Orang-orang biasanya berpikir bahwa anotator data adalah sekelompok orang yang berpendidikan rendah dan lanjut usia yang tinggal di kota-kota tingkat ketiga dan keempat. Faktanya, ini memang situasi yang terjadi pada para anotator data dalam negeri sebelumnya. **
Menurut “Standar Keterampilan Kejuruan Nasional Pelatih Kecerdasan Buatan” yang dirilis Kementerian Sumber Daya Manusia dan Jaminan Sosial pada tahun 2021, tingkat pendidikan umum pelatih kecerdasan buatan adalah lulusan sekolah menengah pertama (atau pendidikan sederajat). Mereka mungkin tersebar di wilayah dimana perusahaan tradisional padat karya berada, seperti Hebei, Henan, Shandong, dan Shanxi, atau bahkan di daerah pegunungan yang lebih terpencil dimana anotasi data merupakan proyek percontohan untuk pengentasan kemiskinan.
**Tetapi perubahan telah terjadi dengan munculnya model-model besar. **
Yang membuat Yang Xiaoyun bosan sebenarnya adalah pekerjaan anotasi data yang dilakukan untuk melatih model besar.
Setelah pelatihan dan penilaian sederhana, Yang Xiaoyun ditugaskan ke tim penyunting salinan. **Pekerjaannya sehari-hari adalah menjawab soal di bank soal, tujuannya untuk mengoptimalkan proses pelatihan model besar dengan menulis jawaban secara manual oleh anotator. **
**Langkah-langkah untuk menjawab pertanyaan dikontrol dengan ketat. **Ambil contoh game "Genshin Impact", Jika Anda menerima pertanyaan "Apa itu peninggalan suci Yelan?", Yang Xiaoyun perlu membagi jawabannya menjadi beberapa paragraf: Pertama, apa itu Yelan? Kedua, apa saja relik suci itu? Pada akhirnya, apa yang cocok dengan relik suci Yelan?
Kumpulkan informasi di mesin pencari yang ditunjuk, selesaikan pengeditan jawaban, dan terakhir kirimkan dalam bentuk Markdown.
Selain pertanyaan sederhana dan mudah dijawab, Yang Xiaoyun menghabiskan sebagian besar waktunya di bidang profesional yang sama sekali tidak ia kenal, seperti zona ekonomi, zona hukum, dll.
Tentu saja, ini sangat berbeda dari pekerjaan anotasi data sebelumnya. **
Sebelum munculnya model besar, skenario anotasi data biasanya dibuat oleh pabrik dengan ratusan orang, setiap orang memiliki komputer, dan yang ada hanya suara mouse dan keyboard. Dan selama 8 jam sehari mereka bekerja, mereka hanya melakukan satu hal yang sederhana dan berulang-ulang: membingkai kendaraan bermotor, kendaraan tidak bermotor, pejalan kaki, dan lampu lalu lintas (pendeteksi sasaran) pada gambar yang berbeda; atau menggarisbawahi subjek suatu paragraf, Predikat, objek (segmentasi semantik).
Kotak gambar untuk gambar dan video serta segmentasi semantik teks ini semuanya merupakan pemrosesan data yang ada, dan anotator data itu sendiri tidak perlu memberikan "kesimpulan kreatif". Namun hal ini tidak berlaku untuk anotasi data model besar. Selain mengolah data yang ada, data annotator juga perlu menjawab pertanyaan dan memberikan kesimpulan yang benar. **
Menurut "Laporan Penelitian Analisis Mendalam dan Tren Investasi tentang Situasi Saat Ini Industri Anotasi Data Tiongkok (2023-2030)" yang dirilis oleh Pusat Data Guanyan Tianxia pada tahun 2023, sebelum rilis ChatGPT, anotasi data pelatihan AI terutama didasarkan pada pada suara dan visi komputer, dan bahasa alami Permintaan pemrosesan (NLP) kurang dari 15%.
Ketika chatbot ChatGPT menjadi aplikasi AIGC yang fenomenal, terdapat peningkatan permintaan untuk tugas anotasi teks berkualitas tinggi seperti penilaian emosional, kemampuan pemahaman, dan bahkan kemampuan penalaran.
“Kompleksitas proyek (model besar) menjadi lebih tinggi dari sebelumnya, dan persyaratan personel relatif berbeda.” Orang yang bertanggung jawab di Departemen Produk Data Stardust mengatakan kepada “Tahun Cahaya Jiazi”, “Pengenalan dan anotasi informasi visual parsial untuk mengemudi otonom, yang lebih merupakan pekerjaan fisik, memerlukan beberapa pelatihan bagi karyawan. Setelah mereka mempelajari cara menarik kotak, menguasai tombol pintas, dan menguasai beberapa keterampilan, mereka dapat dengan cepat menjadi kompeten. ** Namun yang dibutuhkan model besar adalah yang lengkap dan terstruktur, sistem data yang terdiversifikasi dan mencakup semua yang memerlukan empat lapisan data untuk mendukung konstruksi dan peningkatan model. Data ini melibatkan pra-pelatihan, SFT (Supervised Fine-Tuning), RLHF (Reinforcement Learning berdasarkan umpan balik manusia, Penguatan Pembelajaran dari Umpan Balik Manusia), penerapan yang diprivatisasi, dll. Menanggapi kebutuhan berbagai industri, kami telah merilis solusi piramida data model besar COSMO; untuk anotator data model besar, memberi label pada data COSMO bukanlah pertanyaan pilihan ganda, juga bukan pertanyaan pilihan ganda. apakah sederhana Daripada memahami bacaan dan mengedit teks, ini memungkinkan Anda membuat pertanyaan dan jawaban serta membuat konten.**”
Jia Yuhang, manajer umum data pengukuran cloud, membagi data pelatihan model terbesar menjadi tiga tahap: data dasar, data pemandangan, dan pengoptimalan data pemandangan. **Ia menganalogikan ketiga tahapan tersebut dengan proses belajar.
“Anotasi data dasar seperti menggambar kotak relatif sederhana, dan Anda dapat menguasai pengoperasian komputer segera setelah Anda mempelajarinya; data pemandangan adalah data dalam bidang tertentu yang diperlukan untuk penelitian dan pengembangan yang ditargetkan di tautan tertentu, dan Anda perlu mempelajarinya secara relevan. pengetahuan domain untuk mencapai persyaratan anotasi; pada tahap ketiga, berdasarkan iterasi dan pengoptimalan berkelanjutan selama penggunaan, persyaratan keterampilan dan pengetahuan domain akan lebih disempurnakan." kata Jia Yuhang.
Di bawah permintaan pekerjaan seperti ini, semakin banyak perusahaan model besar yang memiliki permintaan akan anotator data, yang juga telah berubah dari yang berpendidikan rendah menjadi berpendidikan tinggi di masa lalu, dan permintaan ini semakin meningkat.
Di platform pencarian kerja arus utama domestik, banyak posisi anotasi data untuk model besar sedang direkrut. Posisi ini mengharuskan anotator memiliki gelar sarjana atau lebih tinggi. Baidu sebelumnya menyatakan bahwa basis anotasi data model besar di Haikou memiliki ratusan anotator data, dan tingkat sarjana telah mencapai 100%.
Sumber gambar: BOSS Zhipin & Maimai
2. Anotasi data model besar yang kasar
Secara umum, melatih model besar memerlukan tiga langkah berikut:
Sumber: OpenAI "Memperkenalkan ChatGPT"
Di balik tugas yang berulang-ulang ini sebenarnya adalah mewujudkan teknologi "Pembelajaran Penguatan dari Umpan Balik Manusia". Peningkatan terbesar GPT-3.5 datang dari sini. Kuncinya adalah partisipasi manusia (Labeler), yaitu para anotator data ini.
Dari ketiga langkah RLHF di atas, langkah pertama dan kedua relatif lebih penting, karena menentukan tingkat kualitas data yang diperlukan untuk melatih model reward. Magang anotasi data dalam dua langkah ini juga dibagi menjadi dua kelompok inti: "grup pengeditan" dan "grup pengurutan". **
Tugas tim penyunting adalah menjawab pertanyaan-pertanyaan di bank soal; sedangkan tugas tim pemilah adalah memberi peringkat pada jawaban-jawaban yang dihasilkan (termasuk model dan jawaban-jawaban yang dibuat secara artifisial).
Ding Xiaoyu bergabung dengan copy editor pada bulan Juli. Ding Xiaoyu, yang juga mengambil jurusan bahasa Inggris, dan Chen Xi, sangat menantikan pekerjaan penerjemahan yang dapat meningkatkan tingkat profesional mereka, namun pekerjaannya sebenarnya tidak berhubungan dengan bahasa Inggris.
Dibandingkan dengan ketika Yang Xiaoyun magang pada bulan Februari, tim penyuntingan salinan yang dihadapi oleh Ding Xiaoyu menjadi lebih terbagi.Setiap peserta magang harus memilih arah vertikal, seperti hiburan, fisika, politik, dll., dan persyaratan jawaban menjadi lebih banyak. terperinci.
Untuk soal pilihan ganda tentang puisi kuno, sebaiknya Anda tidak sekadar menjelaskan jawabannya saja, namun terlebih dahulu memperkenalkan jenis soal, kemudian terjemahan dan latar belakang puisi tersebut, dan terakhir analisis apakah setiap pilihan benar atau tidak. Hal ini untuk melakukan benchmark terhadap GPT-4 Maret yang dirilis oleh OpenAI pada tanggal 14.
“Anda harus merujuk pada jawabannya, tetapi jawabannya tidak bisa sama dengan jawabannya, dan itu harus lebih baik daripada jawabannya.” Ding Xiaoyu tidak berdaya.
Chenxi ditugaskan ke kelompok penyortiran, di mana beberapa jawaban atas pertanyaan diurutkan setiap hari untuk menentukan pro dan kontra dari jawaban yang berbeda.
Hasil pemeringkatan perlu diukur dengan jelas. Dia perlu menilai jawaban dari sudut pandang berbeda seperti kegunaan, keaslian, relevansi, keamanan, dll. dan menuliskan alasannya. Hal ini memungkinkan mesin untuk semakin mendekati jawaban yang diharapkan manusia.
**Chen Xi terkadang harus memilih di antara beberapa jawaban yang buruk. Dan ketika semua jawabannya buruk, dia diminta untuk menulis sendiri jawaban yang lebih baik. **
Ding Xiaoyu dari tim editorial menghadapi persyaratan yang lebih menuntut. Setiap jawaban akan menghadapi dua putaran peninjauan sebelum memenuhi syarat untuk dikirimkan. Yang pertama datang dari ketua tim: "Setelah menyelesaikan beberapa pertanyaan, kami akan mengadakan pertemuan peninjauan untuk menemukan kesalahan kami sampai ketua tim puas dengan perubahannya." Yang kedua datang dari kantor pusat, dan ternyata tidak. sampai kantor pusat lulus peninjauan.
Suatu ketika, karena kesalahan format, sebagian besar jawaban Ding Xiaoyu dinilai salah sepenuhnya. "Mungkin cukup menyesuaikan urutannya, tapi mereka tidak peduli apakah isi jawabanmu salah atau ada masalah dengan formatnya. Hanya saja semuanya salah."
Yang membuat Ding Xiaoyu semakin terpukul adalah ketua tim secara langsung menyatakan bahwa jika dia melakukan banyak kesalahan lagi, dia mungkin akan dipecat.
**Anotasi data untuk model besar adalah pekerjaan yang benar-benar berorientasi pada hasil. Tidak peduli seberapa besar usaha yang Anda lakukan dalam prosesnya, selama hasilnya tidak bagus, semua usaha sebelumnya akan ditiadakan sepenuhnya. **
Namun masalahnya apakah itu keluaran jawaban dari kelompok penyunting atau penyortiran jawaban oleh kelompok penyortir, itu adalah tugas yang sangat subyektif. Sulit bagi peserta magang anotasi data untuk mengontrol apakah suatu jawaban baik atau buruk; peserta magang yang berbeda sering kali memberikan jawaban berbeda untuk pertanyaan yang sama.
**Untuk mengatasi masalah ini, salah satu tugas yang harus dilakukan oleh tim anotasi data model besar setiap hari adalah mengadakan "pertemuan peninjauan" - yang dikenal sebagai "Racing Meeting" di dalam perusahaan. Tujuannya adalah untuk menyelaraskan standar jawaban dan menyelaraskan jawaban, semua orang memahami dan semua saran selaras. **
Namun, mencapai keselarasan yang sebenarnya cukup sulit. Seperti halnya penilaian ujian masuk perguruan tinggi, orang yang berbeda akan diberikan soal yang sama, jika nilainya tidak konsisten harus terus disesuaikan hingga diperoleh skor yang seragam.
Dalam kesan Chen Xi, dua atau tiga jam dihabiskan dalam rapat setiap hari. Pada akhir pertemuan, solusi paling sederhana dan paling kasar sering kali diselesaikan, dengan minoritas mematuhi mayoritas. Dia menggambarkannya sebagai “menciptakan nilai tanpa nilai.”
Namun, dibandingkan dengan semua orang yang duduk bersama untuk menyelaraskan standar jawaban secara "buatan", masalah yang lebih menyusahkan adalah: standar ** tidak diselaraskan secara artifisial untuk selamanya, tetapi harus terus disesuaikan berdasarkan umpan balik dari keluaran model. **
Hal pertama ketika berangkat kerja setiap hari, Yang Xiaoyun perlu memastikan apakah standar anotasi baru telah dikeluarkan hari itu, mulai dari kerangka jawaban, pemisahan paragraf, hingga pemilihan mesin pencari, format seperti spasi dan tanda baca. Namun ** standar terus berubah. **Setelah ditemukan bahwa data yang dimasukkan tidak berfungsi pada mesin, standar perlu dirumuskan ulang, dan semua masalah akan dibatalkan dan ditulis ulang.
"Ini seperti menenun. Haruskah kita menenun butiran horizontal atau vertikal? Haruskah kita menenun kancing wijen atau kancing gandum? Tapi tidak peduli kancing apa itu, itu hanya bisa dimasukkan ke dalam program dan dijalankan. Jika ternyata tidak bisa berjalan keluar, Anda harus mengubah metode." Yang Xiaoyun menjelaskan kepada "Jiazi Guangnian". Di balik metafora ini adalah jika jawaban yang diberikan oleh anotasi data mungkin tidak mencapai efek yang diharapkan selama proses pelatihan model penghargaan, standarnya harus disesuaikan.
Perubahan standar berarti kesimpulan pertemuan penyelarasan terakhir tidak sah dan standar harus diselaraskan kembali.
“Mubazir dan efisien, berbicara omong kosong dengan sangat efisien setiap hari,” keluh Yang Xiaoyun.
3. Siswa berprestasi yang dieksploitasi oleh pabrik besar
Di satu sisi, pertemuan pertemuan yang tiada habisnya diadakan setiap hari, dan di sisi lain, terdapat standar data yang dapat berubah sewaktu-waktu. Banyak siswa berprestasi, seperti Chen Xi, yang tertarik dengan tanda-tanda cerah dan cemerlang dari pabrik-pabrik besar, kehilangan semangat aslinya karena perselisihan internal dan akhirnya memilih untuk keluar.
**Karakteristik umum dari pekerja magang ini adalah tingkat pendidikan yang tinggi. Persyaratan perekrutan adalah gelar sarjana atau lebih tinggi, tetapi banyak pekerja magang yang memiliki gelar master. **
Banyak dari mereka yang mengenyam pendidikan di universitas ternama di China bahkan dunia. Yang Xiaoyun dikelilingi oleh mahasiswa dari Universitas Peking dan Imperial College London, dan pekerja magang di sebelah tempat kerja Chenxi berasal dari Universitas Nankai dan Universitas Sains dan Teknologi Elektronik Tiongkok; Ding Xiaoyu diberi tahu dengan jelas selama pelatihan bahwa kualifikasi akademik pekerja magang disaring. “Dia (pewawancara) mengatakan bahwa mahasiswa berpendidikan tinggi seperti kami dapat mempelajari banyak hal dengan cepat dan memulai dengan mudah.”
**Mengelola sekelompok orang pintar tidak pernah mudah. Karena orang-orang ini dapat dengan mudah menemukan esensi pekerjaannya dari tindakan yang berulang-ulang, dan kemudian mempertanyakan apakah pekerjaan tersebut benar-benar berharga untuk masa depan mereka. **
Ding Xiaoyu menggambarkan karyanya sebagai "bernilai kecil dan sangat menguras tenaga dalam".
Ketika dia datang ke tempat kerjanya setiap pagi, dia membuka layar tampilan dan buku catatan, dan menggunakan buku catatan untuk memeriksa peraturan sambil menulis jawaban di layar tampilan.Ding Xiaoyu dapat dengan jelas merasakan bahwa aturan dan prosedur yang terperinci membuatnya secara bertahap kehilangan ruang. untuk berpikir, dan dia Disiplin menjadi sebuah mesin. “Jika Anda tidak mempelajari sesuatu, dan tidak memiliki tenaga untuk mempelajari hal lain, perlahan-lahan Anda akan kehilangan motivasi untuk belajar dan semangat untuk melakukan hal lain.”
Ding Xiaoyu juga pernah bekerja di tim desensitisasi, tetapi pekerjaan sebenarnya tidak memiliki hubungan mendasar dengan kata "desensitisasi." Dia hanya menggunakan chatbot yang berbeda dan produk beta internal perusahaan untuk menjawab pertanyaan yang sama, dan membandingkan serta menilai jawabannya. Baru bekerja beberapa hari, ia dipindahkan ke tim proofreading teks, yang harus ia lakukan adalah memperbaiki kesalahan yang terjadi saat mengkonversi format PDF ke format Word, terutama kesalahan ketik dan tanda baca. Dalam proses yang dia gambarkan sebagai "hampir rusak", dia menyelesaikan 25 halaman tugas koreksi kesalahan terkait medis setiap hari.
Selama proses wawancara, pewawancara bertanya kepada Ding Xiaoyu apakah dia dapat menerima pekerjaan yang membosankan dan berulang-ulang. "Jawaban saya waktu itu bisa diterima. Menurut saya semua jawaban calon harus bisa diterima. "Karena dia hanya punya satu pengalaman magang sebagai sarjana, dan dengan harapan bisa mengumpulkan lebih banyak magang dan merasakan pengalaman di perusahaan besar, bahkan dengan ragu, Ding Xiaoyu tetap memilih untuk bergabung dengan perusahaan.
Hanya dalam dua bulan, Ding Xiaoyu telah dianggap sebagai orang yang bertahan sampai akhir di antara pekerja magang pada periode yang sama. Dia menyaksikan banyak pekerja magang datang dengan ambisi tinggi dan kemudian pergi dengan kepala tertunduk.
Antropolog David Graeber mendefinisikan pekerjaan omong kosong sebagai pekerjaan yang tidak memiliki arti atau tujuan. Pekerjaan yang harus dihilangkan dengan otomatisasi mesin tetap ada karena alasan untuk menyenangkan atasan, dan untuk mengisi celah sistem. . Anotasi data ibarat variasi pekerjaan omong kosong yang sering dianggap telah digantikan oleh mesin, namun tetap membutuhkan manusia untuk melakukannya.
Ketika kegilaan terhadap kecerdasan buatan tiba, orang sering mendengar harapan bahwa AI dapat menggantikan manusia dalam menyelesaikan tugas-tugas yang berulang dan membosankan, sehingga memungkinkan manusia memiliki lebih banyak waktu dan energi untuk melakukan pekerjaan yang lebih kreatif dan memuaskan.
Namun ada kemungkinan juga bahwa kecerdasan buatan, seperti teknologi hemat tenaga kerja di masa lalu, seperti telepon dan mesin tik, mengatasi kesulitan dalam transmisi informasi dan tulisan tangan, namun juga menciptakan sejumlah besar komunikasi dan dokumen yang memerlukan kecerdasan buatan baru untuk melaksanakannya. dia Manajemen, seperti meja depan, petugas. AI mungkin tidak menggantikan manusia, namun akan menciptakan lapangan kerja yang lebih membosankan, membosankan, dan terisolasi.
**Selain tidak bisa mendapatkan pengakuan atas nilai pekerjaan mereka, gaji yang mereka terima mungkin tidak memungkinkan siswa terbaik ini untuk mencapai "pengakuan harga". **
Menurut "Jiazi Guangnian", data ini menunjukkan bahwa gaji pekerja magang tidak tinggi. Jika mereka berlokasi di kota tingkat pertama, gaji sebagian besar pekerja magang kecerdasan buatan adalah 150 yuan/hari, dengan tunjangan kamar dan kantin gratis; jika mereka berlokasi di kota tingkat kedua, hanya tersisa 100 yuan/hari, dan tunjangan kamar juga dikurangi sepertiganya 2. Suplemen makanan sebesar 20 yuan menggantikan makanan gratis.
Seperti magang Ding Xiaoyu di kota lapis kedua, karena kantornya terletak di pusat kota dan daerahnya makmur, makanan yang dibawa pulang dapat dengan mudah melebihi standar subsidi makanan 20 yuan, dan pada dasarnya memerlukan pembayaran kembali gaji magang.
Karena kebanyakan dari mereka hanyalah anotator dasar untuk melatih model besar, mereka mungkin ditugaskan secara seragam ke posisi yang tidak ada hubungannya dengan profesi mereka. Mereka juga dapat dipindahkan ke departemen berbeda kapan saja dan diminta untuk memulai dengan cepat setelah beberapa saat. pelatihan.
**Ding Xiaoyu menggambarkan mereka sebagai sekelompok pekerja magang yang dimanfaatkan oleh pabrik-pabrik besar. **
Chen Xi jelas merasa bahwa dia bukanlah satu-satunya yang merasakan kesenjangan antara ekspektasi dan pekerjaan sebenarnya. Terus terang, saya merasa pekerjaan ini tidak cocok untuk saya. Kadang-kadang ketika ngobrol, saya menemukan bahwa pekerja magang lain mungkin memiliki 985 gelar sarjana, dan beberapa telah kembali dari luar negeri dengan gelar master. Kesenjangan di antara mereka juga sangat besar. , sangat besar."
Yang Xiaoyun mengungkapkannya secara lebih langsung: "Ini mungkin metafora yang tidak tepat. Ibu saya bersekolah di sekolah menengah, jadi dia bisa melakukan pekerjaan ini."
**4. "Kami sebenarnya adalah pekerja jalur perakitan" **
Faktanya, pemerintah merekrut siswa terbaik untuk melakukan pekerjaan berteknologi rendah dan membayar biaya gaji yang sangat rendah.Ini juga merupakan cerminan obyektif dari kekacauan pasar pada tahap awal pengembangan anotasi data model besar. **Untuk perusahaan anotasi data, pada tahap pengembangan model besar saat ini, anotasi data belum membentuk standar terpadu, dan tidak ada persyaratan khusus untuk anotator.
Penanggung jawab Departemen Produk Data Stardust mengatakan: "Saat kemampuan dasar model besar selesai dan proses pengembangan mulai menjadi lebih vertikal dan kompleks, tugas-tugas akan berubah secara bertahap, memerlukan alat dan personel untuk diperbarui dan diulang. oleh karena itu. Namun, model Besar masih dalam tahap awal pengembangan, dan permintaan pasar akan anotator bervariasi tergantung tugasnya. Dibandingkan dengan proyek CV (Computer Vision), anotator NLP (Natural Language Processing) memiliki persyaratan kemampuan pemahaman yang lebih tinggi, persyaratan untuk terminologi profesional dan pengetahuan domain lebih tinggi, dan korpus yang akurat dan andal harus disediakan.”
Penanggung jawab mengatakan bahwa masalah yang ditimbulkan oleh model besar pada anotasi data lebih tercermin pada desain tingkat atas. Untuk setiap tugas anotasi data, bagaimana memahami permintaan skenario aplikasi pelanggan, merancang serangkaian solusi seperti pemilihan data, desain distribusi data, dan desain saluran yang dapat diterapkan secara efisien dan berbiaya rendah, serta cara meningkatkan efisiensi dan kemampuan alat platform adalah kuncinya. Tantangan yang lebih besar.
Hal ini bergantung pada partisipasi pakar domain vertikal sebagai anotator senior, memasukkan keahlian dan pengalaman domain ke dalam desain solusi, dan bahkan berpartisipasi dalam proses iterasi pemeriksaan kualitas data.
Zhang Ziqian, kepala operasi di penyedia solusi data Besai Technology, mengatakan secara blak-blakan bahwa saat ini, dalam hal pelatihan model skala besar, tidak ada perbedaan yang jelas dalam kesulitan kerja dan upah per jam antara anotator dasar dan anotator yang sebelumnya terlibat dalam pemilihan bingkai. . **Saat menyempurnakan model besar dan menciptakan solusi di bidang vertikal untuk pelanggan, masalah terbesarnya adalah bagaimana membangun kumpulan data berkualitas tinggi, yang memerlukan pelabelan ahli di bidang profesional seperti TI, kedokteran, dan keuangan. Kelangkaan.
OpenAI menginvestasikan puluhan mahasiswa doktoral dalam bimbingan dan peninjauan anotasi data, dan melakukan outsourcing anotasi data dasar ke perusahaan anotasi data, yang tersebar di wilayah berpenghasilan rendah seperti Afrika dan India. **Yang benar-benar membuat perbedaan adalah para anotator senior, yang hanya menyumbang sebagian kecil. **
Dengan membandingkan deskripsi tugas dari anotator yang direkrut oleh Baidu di kantor pusatnya di Beijing dan basis anotasi data Haikou, kita dapat melihat bahwa mereka juga digunakan untuk melatih model-model besar. Yang pertama adalah anotator senior yang bertanggung jawab atas panduan, pelatihan, dan peninjauan, sedangkan yang kedua adalah seorang anotator data dasar. , keduanya memiliki tingkat gaji yang sangat berbeda.
Sumber gambar: Rekrutmen langsung BOSS
**Dengan kata lain, anotator senior tingkat tinggi tersebut sebenarnya adalah talenta utama untuk pelatihan model besar. Pekerjaan mereka lebih teknis dan bernilai, dan biaya tenaga kerja juga lebih tinggi. **
**Sebaliknya, meskipun peserta magang dari sekolah bergengsi ini datang untuk melatih model besar, pada tahap ini, mereka pada dasarnya sama dengan anotator data di masa lalu. **
**Pekerja magang sering bercanda di antara mereka sendiri bahwa mereka tidak bekerja di pabrik besar, tetapi di Internet Foxconn, dan mereka adalah pekerja di jalur perakitan. Mereka tidak dapat melihat ke mana hasil kerja mereka pada akhirnya akan mengarah, dan mereka juga tidak dapat menciptakan rantai makna horizontal dengan orang-orang di sekitar mereka. **
Lelucon "Internet Foxconn" ini tidak hanya mengacu pada pekerjaan para pekerja magang ini, tetapi juga pada beban kerja dan model manajemen, yang hampir setara dengan jalur perakitan pabrik.
Jumlah pekerjaan yang harus diselesaikan oleh pekerja magang setiap hari memiliki garis merah efisiensi manusia yang ditentukan. Untuk Yang Xiaoyun, dia perlu menandai 32 pertanyaan sehari, jika garis merah tidak terpenuhi, dia harus melaporkan alasannya atau bekerja lembur untuk menyelesaikannya. Prasyarat untuk menyelesaikan pekerjaan ini adalah standar Asosiasi Lazi yang terus berubah dan pengumpulan informasi yang berkelanjutan.
Untuk menyelesaikan pelatihan model secepat mungkin, tim anotasi menghadapi manajemen tekanan tinggi. Kelompok Yang Xiaoyun tidak diperbolehkan berbicara selama jam kerja. Harga beberapa obrolan ringan dapat ditambahkan ke beban kerja. Jika Anda gagal menyelesaikan pekerjaan, Anda akan dengan panik diingatkan dalam kelompok. Bahkan jika Anda sakit dan bertanya untuk cuti, Anda mungkin terganggu oleh panggilan mendesak dari karyawan tetap Anda.
Selain itu, untuk memastikan data tidak bocor, pertukaran anotasi data antar kelompok dilarang secara tegas. Sekalipun peserta magang dari kelompok berbeda ditempatkan berdekatan, mereka tidak dapat mendiskusikan konten pekerjaan. Tak satu pun dari pekerja magang ini mengetahui berapa banyak kelompok yang terbagi dalam pelabelan data perusahaan dan berapa banyak pekerja magang yang ada. Sebuah grup mungkin terdiri dari 10, 40, 50, 60 orang, atau ratusan orang di setiap lantai.
Di bawah garis merah efisiensi manusia yang bertekanan tinggi, Yang Xiaoyun hanya bisa "bahagia" untuk sementara ketika menghadapi pertanyaan terlarang. Sebab, konten yang mengandung kekerasan, pornografi, dan gore harus langsung dihapus, namun tetap bisa dihitung sebagai item karya pribadi. “Ini sama dengan mengencangkan sekrup yang rusak. Anda hanya akan senang karena Anda tidak perlu mengencangkan sekrup tersebut.” Saat pembagian kerja di pagi hari, para pekerja magang bahkan saling berlomba-lomba mendapatkan barang terlarang.
Setelah Yang Xiaoyun meninggalkan pekerjaannya lebih awal, ia sering mengunjungi Momen para pekerja magang yang masih rapat di perusahaan pada jam 10 malam, atau bahkan pada jam 12 malam. Ada juga pekerja magang yang mengirimkan pesan suaranya sambil menangis, namun karena sudah menyewa rumah dan tidak bisa keluar, jika tidak bisa bertahan berarti semua uang sewanya akan terbuang percuma.
5. Tidak akan pernah ada kekurangan orang di sini
Namun bukan mereka yang tidak bertahan.
Li Zhuxi adalah salah satu pekerja magang langka yang memiliki pengalaman anotasi data. Ia mempelajari linguistik kognitif, ia menjelaskan bahwa arah penggabungan linguistik dengan neurologi, pengamatan pencitraan otak, termasuk membangun antarmuka otak-komputer, memiliki hubungan tertentu dengan kecerdasan buatan.
Sebelum datang ke pabrik besar ini, dia telah melakukan anotasi data untuk model bahasa besar di pabrik besar lainnya, dan itu sebelum ChatGPT dirilis. Dalam kesan Li Zhuxi, setelah ChatGPT keluar dari lingkaran, magang anotasi data serupa bermunculan seperti jamur setelah hujan.
Dia berhasil menyelesaikan magang selama tiga bulan, meskipun dia menggambarkannya sebagai pekerjaan yang "relatif mekanis dan tidak terlalu sulit". Li Zhuxi menggambarkan bahwa dia lebih memperhatikan pengalaman, "Saya tidak berharap pekerjaan ini menarik. Masih menyenangkan untuk mengalaminya. Saya tidak hanya mendapatkan pengalaman magang di pabrik besar, tetapi juga merasakan budaya perusahaan yang unik di sini. "
Bagi Zhao Shuo, seorang siswa seni liberal dari sebuah sekolah di Shuangfei, posisi magang penyuntingan kecerdasan buatan di sebuah pabrik besar telah menjadi pilihan tingkat atasnya.
Saat mencari magang musim panas, dia sebenarnya lebih memilih posisi operasional di lembaga penelitian. Lembaga penelitian adalah lembaga publik dan memiliki staf, yang sangat menarik bagi Zhao Shuo. "Pada saat itu, saya sangat menantikannya. umpan balik yang bisa diberikannya kepada saya." . Namun pada akhirnya, institut tersebut tidak memilih Zhao Shuo, yang merupakan mahasiswa pascasarjana tahun pertama, dan merekrut siswa kelas atas.
Ada orang yang lebih "keriting".
Di mata Zhao Shuo, beberapa pekerja magang akan bekerja sangat keras dan mengambil lebih banyak tugas untuk mencari peluang menjadi karyawan tetap. Sikap yang serius dan rajin akan memenangkan hati karyawan tetap. "Para pemimpin sering kali melakukan pertukaran tertentu dengan mereka dan juga akan memberi mereka otorisasi manajemen untuk mengelola pekerja magang."
Perusahaan bahkan memilih pekerja magang dengan kinerja luar biasa setiap minggu dan memposting foto mereka di dinding sebagai pengakuan, tetapi belum tentu ada insentif bonus, dan tidak ada insentif bonus di lini bisnis Zhao Shuo.
Jia Yuhang, manajer umum Yunmei Data, mengatakan kepada Jiaziguangnian bahwa ada dua jalur promosi utama untuk anotator data: satu adalah jalur ahli. Setelah menguasai keterampilan yang relevan di bidang vertikal tertentu, anotator junior secara bertahap dapat menjadi pakar anotasi senior. ;Yang lainnya adalah rute manajemen, menjadi manajer proyek.
Tapi Zhao Shuo tidak memilih untuk tinggal. Setelah satu tahun lulus sekolah, Zhao Shuo dengan jelas menyadari bahwa ekspektasinya terhadap pekerjaan di masa depan telah menurun. Merasakan meningkatnya perubahan dalam lingkungan umum dan mengamati ketidakpuasan siswa yang memilih pekerjaan setelah lulus, pekerjaan yang sebelumnya diharapkan oleh Zhao Shuo sebagai "kelas atas, canggih" dan "tak tergantikan" secara bertahap digantikan oleh pekerjaan yang stabil. Sebagai seorang mahasiswa seni liberal, dia cemas karena dia belum menguasai keterampilan yang tak tergantikan, dan berharap mendapatkan pekerjaan yang dikelola di perusahaan tersebut.
Saat mengobrol, para pekerja magang akan saling mengeluh bahwa pekerjaan yang mereka lakukan akan segera digantikan oleh mesin, dan pemberian data secara manual tidak lagi diperlukan.
Bagi Jia Yuhang, general manager Cloud Measurement Data, kekhawatiran serupa tidak ada. Dengan produksi massal algoritma dan peningkatan kemampuan loop tertutup data, jumlah keseluruhan data berlabel dan jumlah pelabelan data manual terus meningkat dari tahun ke tahun. Dulunya 100% anotasi manual, namun sekarang terdapat proporsi tertentu dari anotasi manual, anotasi otomatis, dan verifikasi manual. Di masa depan, proporsi pelabelan otomatis mungkin akan semakin besar. Namun, meskipun proporsi anotasi manual semakin berkurang, seiring dengan perkembangan bertahap industri kecerdasan buatan dan meningkatnya jumlah data, jumlah anotasi manual akan terus meningkat.
Setelah meninggalkan pekerjaannya lebih awal, Yang Xiaoyun menemukan magang perencanaan permainan yang dia sukai. Suasana kerja di sana santai dan dia merasa lebih bermanfaat. Pengeditan kecerdasan buatan adalah pengalaman magang yang "tidak beruntung" baginya. Bagi Ding Xiaoyu, itu adalah proses kekecewaan. Bahkan jika dia magang di pabrik besar yang dia nanti-nantikan, dia masih akan menghadapi pekerjaan membosankan yang tak terhitung jumlahnya. Dia merasa ini mungkin karena kemampuannya tidak kuat cukup atau terlalu sedikit kesempatan untuk mendapatkan pengalaman. .
Tapi tidak akan pernah ada kekurangan orang di sana.
Yang Xiaoyun mendengar bahwa setelah dia pergi, timnya berkembang dari puluhan menjadi ratusan dalam waktu satu bulan. Ding Xiaoyu menemukan bahwa setiap 10 hari, sekelompok pekerja magang baru akan datang, setiap kelompok terdiri dari dua puluh atau tiga puluh orang.
“Anda mungkin akan terus mengutuk dan mengatakan kepada dunia betapa buruknya pekerjaan Anda, namun akan ada banyak orang baru yang datang untuk menggantikan posisi Anda.”
*Atas permintaan narasumber, karakter Chen Xi, Yang Xiaoyun, Ding Xiaoyu, Li Zhuxi, dan Zhao Shuo dalam artikel tersebut adalah nama samaran.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Magang di bawah kegilaan model besar: 985 per kapita? Tapi "memberi label" di pabrik besar
Sumber: Jiazi Guangnian
Penulis: Zhu Yue
Pada hari pertama magang resmi, Chen Xi merasa bahwa dia mungkin telah "ditipu".
Chen Xi, calon mahasiswa pascasarjana yang baru saja menyelesaikan skripsi kelulusan sekolahnya, siap mencari sesuatu untuk dilakukan sendiri. Setelah mengirimkan beberapa resume, dia segera diundang ke posisi penyuntingan kecerdasan buatan (arah penerjemahan) di sebuah perusahaan Internet besar dalam negeri.
Deskripsi pekerjaannya berbunyi:
Bagi Chen Xi, yang tidak tahu banyak tentang pelatihan model, ini sepertinya magang yang cukup bagus.
Wawancara Chenxi di bidang penerjemahan sangat sesuai dengan jurusan bahasa Inggrisnya, di awal tahun ChatGPT menjadi populer di China, dan Chenxi memiliki kebiasaan menggunakan produk AI setiap hari, hal ini sejalan dengan minatnya. Selain itu, dia akan memiliki kesempatan untuk berpartisipasi dalam teknologi yang sedang berkembang. Perkembangan industri jarang terjadi pada mahasiswa seni liberal; tentu saja, daya tarik terbesar datang dari perusahaan Internet besar ini. Dalam beberapa tahun terakhir, perusahaan telah berhasil menarik banyak pelajar muda. Dari sudut pandang tertentu, nama perusahaan besar di resume sudah cukup menjadi simbol kemampuan diri.
Namun, selain deskripsi pekerjaan sederhana di halaman rekrutmen, Chen Xi tidak mendapatkan informasi lebih lanjut tentang magang ini dari pewawancara.
“Alasan saya merasa ditipu saat itu adalah karena HR pada dasarnya fokus pada masalah terkait penerjemahan selama wawancara.” Setelah menjawab beberapa pertanyaan penerjemahan selama wawancara, Chen Xi berhasil mendapatkan tawaran tersebut. Sampai dia mulai bekerja, dia mengira itu adalah pekerjaan sebagai penerjemah.
Chen Xi bukan satu-satunya yang merasa "ditipu".
Sebagai salah satu editor kecerdasan buatan yang paling awal magang, Yang Xiaoyun juga datang ke pabrik besar ini pada akhir Februari. Pewawancara mengatakan bahwa ini adalah pekerjaan yang membutuhkan kemampuan tinggi seperti menangkap informasi, meringkas bahasa dan mengedit teks.
Setelah benar-benar memulai, dia menyadari: "Pekerjaan yang dijelaskan oleh HR dan pekerjaan sebenarnya adalah dua hal yang berbeda. Betapapun glamornya, itu sebenarnya adalah pekerjaan 'penandaan'."
Saat ini, kegilaan kecerdasan buatan telah menyebabkan chatbots terlihat seperti manusia nyata dan perangkat lunak menggambar yang dapat menghasilkan gambar dengan perintah sederhana. Kemunculan model besar di tingkat fenomena telah menarik banyak perhatian sebagai dasar untuk melatih model besar.Anotasi data adalah bagian tak terpisahkan dari tautan data.
Pada tahun 2007, Li Feifei, yang saat itu menjabat sebagai asisten profesor di Departemen Ilmu Komputer di Universitas Princeton, memulai sebuah proyek bernama ImageNet, dengan harapan dapat memperluas data yang dapat digunakan untuk melatih algoritma AI.
Untuk memberikan sebanyak mungkin contoh visual untuk setiap kata, hampir 50.000 pekerja di platform crowdsourcing Amazon, Mechanical Turk, menghabiskan dua setengah tahun untuk memberi label pada objek dalam gambar, seperti balon, stroberi, dll., dengan total 3,2 juta gambar. . Para pekerja ini berasal dari 167 negara di seluruh dunia dan sebagian besar berlokasi di wilayah dengan upah tenaga kerja rendah.
Investigasi yang dilakukan majalah Time menemukan bahwa untuk mengurangi kekerasan, seksisme, dan rasisme dalam kumpulan data ChatGPT, OpenAI menggunakan pekerja Kenya yang berpenghasilan kurang dari $2 per jam. "Bloomberg" melaporkan bahwa chatbot AI Google Bard dilatih oleh ribuan pekerja kontrak, yang hanya memiliki waktu 3 menit untuk meninjau dan memberi anotasi pada jawaban Bard.
Di masa lalu, anotasi data tidak memerlukan persyaratan kognitif yang tinggi untuk bahasa dan pengenalan gambar. Di era model besar, anotasi data telah beralih dari gambar ke bahasa, yang lebih menuntut dan vertikal, memerlukan pengetahuan profesional di bidang tertentu dan kemampuan bahasa yang fasih.
Namun bagi pembuat anotasi data biasa, ini masih merupakan pekerjaan berteknologi rendah yang terus-menerus diulang.
Seperti halnya siswa-siswa yang “tertipu” dari sekolah-sekolah bergengsi yang memasuki pabrik-pabrik besar untuk magang, mereka tidak dapat menjelaskan dengan jelas apa tujuan pekerjaan mereka dan apa nilainya. Mereka seringkali hanya memiliki pemahaman yang samar-samar untuk "melatih model besar".
Magang penyuntingan kecerdasan buatan yang diwakili oleh Chen Xi dan Yang Xiaoyun lahir dari kebutuhan untuk melatih model besar. Model skala besar yang populer ini memungkinkan pekerja magang untuk masuk dengan rasa ingin tahu dan kerinduan, dan pada saat yang sama, mereka juga merasakan kekacauan nyata dan kurangnya nilai di belakang mereka.
1. Saat mahasiswa membanjiri anotasi data model besar
Menurut “Standar Keterampilan Kejuruan Nasional Pelatih Kecerdasan Buatan” yang dirilis Kementerian Sumber Daya Manusia dan Jaminan Sosial pada tahun 2021, tingkat pendidikan umum pelatih kecerdasan buatan adalah lulusan sekolah menengah pertama (atau pendidikan sederajat). Mereka mungkin tersebar di wilayah dimana perusahaan tradisional padat karya berada, seperti Hebei, Henan, Shandong, dan Shanxi, atau bahkan di daerah pegunungan yang lebih terpencil dimana anotasi data merupakan proyek percontohan untuk pengentasan kemiskinan.
**Tetapi perubahan telah terjadi dengan munculnya model-model besar. **
Yang membuat Yang Xiaoyun bosan sebenarnya adalah pekerjaan anotasi data yang dilakukan untuk melatih model besar.
Setelah pelatihan dan penilaian sederhana, Yang Xiaoyun ditugaskan ke tim penyunting salinan. **Pekerjaannya sehari-hari adalah menjawab soal di bank soal, tujuannya untuk mengoptimalkan proses pelatihan model besar dengan menulis jawaban secara manual oleh anotator. **
**Langkah-langkah untuk menjawab pertanyaan dikontrol dengan ketat. **Ambil contoh game "Genshin Impact", Jika Anda menerima pertanyaan "Apa itu peninggalan suci Yelan?", Yang Xiaoyun perlu membagi jawabannya menjadi beberapa paragraf: Pertama, apa itu Yelan? Kedua, apa saja relik suci itu? Pada akhirnya, apa yang cocok dengan relik suci Yelan?
Kumpulkan informasi di mesin pencari yang ditunjuk, selesaikan pengeditan jawaban, dan terakhir kirimkan dalam bentuk Markdown.
Selain pertanyaan sederhana dan mudah dijawab, Yang Xiaoyun menghabiskan sebagian besar waktunya di bidang profesional yang sama sekali tidak ia kenal, seperti zona ekonomi, zona hukum, dll.
Tentu saja, ini sangat berbeda dari pekerjaan anotasi data sebelumnya. **
Sebelum munculnya model besar, skenario anotasi data biasanya dibuat oleh pabrik dengan ratusan orang, setiap orang memiliki komputer, dan yang ada hanya suara mouse dan keyboard. Dan selama 8 jam sehari mereka bekerja, mereka hanya melakukan satu hal yang sederhana dan berulang-ulang: membingkai kendaraan bermotor, kendaraan tidak bermotor, pejalan kaki, dan lampu lalu lintas (pendeteksi sasaran) pada gambar yang berbeda; atau menggarisbawahi subjek suatu paragraf, Predikat, objek (segmentasi semantik).
Kotak gambar untuk gambar dan video serta segmentasi semantik teks ini semuanya merupakan pemrosesan data yang ada, dan anotator data itu sendiri tidak perlu memberikan "kesimpulan kreatif". Namun hal ini tidak berlaku untuk anotasi data model besar. Selain mengolah data yang ada, data annotator juga perlu menjawab pertanyaan dan memberikan kesimpulan yang benar. **
Menurut "Laporan Penelitian Analisis Mendalam dan Tren Investasi tentang Situasi Saat Ini Industri Anotasi Data Tiongkok (2023-2030)" yang dirilis oleh Pusat Data Guanyan Tianxia pada tahun 2023, sebelum rilis ChatGPT, anotasi data pelatihan AI terutama didasarkan pada pada suara dan visi komputer, dan bahasa alami Permintaan pemrosesan (NLP) kurang dari 15%.
Ketika chatbot ChatGPT menjadi aplikasi AIGC yang fenomenal, terdapat peningkatan permintaan untuk tugas anotasi teks berkualitas tinggi seperti penilaian emosional, kemampuan pemahaman, dan bahkan kemampuan penalaran.
“Kompleksitas proyek (model besar) menjadi lebih tinggi dari sebelumnya, dan persyaratan personel relatif berbeda.” Orang yang bertanggung jawab di Departemen Produk Data Stardust mengatakan kepada “Tahun Cahaya Jiazi”, “Pengenalan dan anotasi informasi visual parsial untuk mengemudi otonom, yang lebih merupakan pekerjaan fisik, memerlukan beberapa pelatihan bagi karyawan. Setelah mereka mempelajari cara menarik kotak, menguasai tombol pintas, dan menguasai beberapa keterampilan, mereka dapat dengan cepat menjadi kompeten. ** Namun yang dibutuhkan model besar adalah yang lengkap dan terstruktur, sistem data yang terdiversifikasi dan mencakup semua yang memerlukan empat lapisan data untuk mendukung konstruksi dan peningkatan model. Data ini melibatkan pra-pelatihan, SFT (Supervised Fine-Tuning), RLHF (Reinforcement Learning berdasarkan umpan balik manusia, Penguatan Pembelajaran dari Umpan Balik Manusia), penerapan yang diprivatisasi, dll. Menanggapi kebutuhan berbagai industri, kami telah merilis solusi piramida data model besar COSMO; untuk anotator data model besar, memberi label pada data COSMO bukanlah pertanyaan pilihan ganda, juga bukan pertanyaan pilihan ganda. apakah sederhana Daripada memahami bacaan dan mengedit teks, ini memungkinkan Anda membuat pertanyaan dan jawaban serta membuat konten.**”
Jia Yuhang, manajer umum data pengukuran cloud, membagi data pelatihan model terbesar menjadi tiga tahap: data dasar, data pemandangan, dan pengoptimalan data pemandangan. **Ia menganalogikan ketiga tahapan tersebut dengan proses belajar.
“Anotasi data dasar seperti menggambar kotak relatif sederhana, dan Anda dapat menguasai pengoperasian komputer segera setelah Anda mempelajarinya; data pemandangan adalah data dalam bidang tertentu yang diperlukan untuk penelitian dan pengembangan yang ditargetkan di tautan tertentu, dan Anda perlu mempelajarinya secara relevan. pengetahuan domain untuk mencapai persyaratan anotasi; pada tahap ketiga, berdasarkan iterasi dan pengoptimalan berkelanjutan selama penggunaan, persyaratan keterampilan dan pengetahuan domain akan lebih disempurnakan." kata Jia Yuhang.
Di bawah permintaan pekerjaan seperti ini, semakin banyak perusahaan model besar yang memiliki permintaan akan anotator data, yang juga telah berubah dari yang berpendidikan rendah menjadi berpendidikan tinggi di masa lalu, dan permintaan ini semakin meningkat.
Di platform pencarian kerja arus utama domestik, banyak posisi anotasi data untuk model besar sedang direkrut. Posisi ini mengharuskan anotator memiliki gelar sarjana atau lebih tinggi. Baidu sebelumnya menyatakan bahwa basis anotasi data model besar di Haikou memiliki ratusan anotator data, dan tingkat sarjana telah mencapai 100%.
2. Anotasi data model besar yang kasar
Di balik tugas yang berulang-ulang ini sebenarnya adalah mewujudkan teknologi "Pembelajaran Penguatan dari Umpan Balik Manusia". Peningkatan terbesar GPT-3.5 datang dari sini. Kuncinya adalah partisipasi manusia (Labeler), yaitu para anotator data ini.
Dari ketiga langkah RLHF di atas, langkah pertama dan kedua relatif lebih penting, karena menentukan tingkat kualitas data yang diperlukan untuk melatih model reward. Magang anotasi data dalam dua langkah ini juga dibagi menjadi dua kelompok inti: "grup pengeditan" dan "grup pengurutan". **
Tugas tim penyunting adalah menjawab pertanyaan-pertanyaan di bank soal; sedangkan tugas tim pemilah adalah memberi peringkat pada jawaban-jawaban yang dihasilkan (termasuk model dan jawaban-jawaban yang dibuat secara artifisial).
Ding Xiaoyu bergabung dengan copy editor pada bulan Juli. Ding Xiaoyu, yang juga mengambil jurusan bahasa Inggris, dan Chen Xi, sangat menantikan pekerjaan penerjemahan yang dapat meningkatkan tingkat profesional mereka, namun pekerjaannya sebenarnya tidak berhubungan dengan bahasa Inggris.
Dibandingkan dengan ketika Yang Xiaoyun magang pada bulan Februari, tim penyuntingan salinan yang dihadapi oleh Ding Xiaoyu menjadi lebih terbagi.Setiap peserta magang harus memilih arah vertikal, seperti hiburan, fisika, politik, dll., dan persyaratan jawaban menjadi lebih banyak. terperinci.
Untuk soal pilihan ganda tentang puisi kuno, sebaiknya Anda tidak sekadar menjelaskan jawabannya saja, namun terlebih dahulu memperkenalkan jenis soal, kemudian terjemahan dan latar belakang puisi tersebut, dan terakhir analisis apakah setiap pilihan benar atau tidak. Hal ini untuk melakukan benchmark terhadap GPT-4 Maret yang dirilis oleh OpenAI pada tanggal 14.
“Anda harus merujuk pada jawabannya, tetapi jawabannya tidak bisa sama dengan jawabannya, dan itu harus lebih baik daripada jawabannya.” Ding Xiaoyu tidak berdaya.
Chenxi ditugaskan ke kelompok penyortiran, di mana beberapa jawaban atas pertanyaan diurutkan setiap hari untuk menentukan pro dan kontra dari jawaban yang berbeda.
Hasil pemeringkatan perlu diukur dengan jelas. Dia perlu menilai jawaban dari sudut pandang berbeda seperti kegunaan, keaslian, relevansi, keamanan, dll. dan menuliskan alasannya. Hal ini memungkinkan mesin untuk semakin mendekati jawaban yang diharapkan manusia.
**Chen Xi terkadang harus memilih di antara beberapa jawaban yang buruk. Dan ketika semua jawabannya buruk, dia diminta untuk menulis sendiri jawaban yang lebih baik. **
Ding Xiaoyu dari tim editorial menghadapi persyaratan yang lebih menuntut. Setiap jawaban akan menghadapi dua putaran peninjauan sebelum memenuhi syarat untuk dikirimkan. Yang pertama datang dari ketua tim: "Setelah menyelesaikan beberapa pertanyaan, kami akan mengadakan pertemuan peninjauan untuk menemukan kesalahan kami sampai ketua tim puas dengan perubahannya." Yang kedua datang dari kantor pusat, dan ternyata tidak. sampai kantor pusat lulus peninjauan.
Suatu ketika, karena kesalahan format, sebagian besar jawaban Ding Xiaoyu dinilai salah sepenuhnya. "Mungkin cukup menyesuaikan urutannya, tapi mereka tidak peduli apakah isi jawabanmu salah atau ada masalah dengan formatnya. Hanya saja semuanya salah."
Yang membuat Ding Xiaoyu semakin terpukul adalah ketua tim secara langsung menyatakan bahwa jika dia melakukan banyak kesalahan lagi, dia mungkin akan dipecat.
**Anotasi data untuk model besar adalah pekerjaan yang benar-benar berorientasi pada hasil. Tidak peduli seberapa besar usaha yang Anda lakukan dalam prosesnya, selama hasilnya tidak bagus, semua usaha sebelumnya akan ditiadakan sepenuhnya. **
Namun masalahnya apakah itu keluaran jawaban dari kelompok penyunting atau penyortiran jawaban oleh kelompok penyortir, itu adalah tugas yang sangat subyektif. Sulit bagi peserta magang anotasi data untuk mengontrol apakah suatu jawaban baik atau buruk; peserta magang yang berbeda sering kali memberikan jawaban berbeda untuk pertanyaan yang sama.
**Untuk mengatasi masalah ini, salah satu tugas yang harus dilakukan oleh tim anotasi data model besar setiap hari adalah mengadakan "pertemuan peninjauan" - yang dikenal sebagai "Racing Meeting" di dalam perusahaan. Tujuannya adalah untuk menyelaraskan standar jawaban dan menyelaraskan jawaban, semua orang memahami dan semua saran selaras. **
Namun, mencapai keselarasan yang sebenarnya cukup sulit. Seperti halnya penilaian ujian masuk perguruan tinggi, orang yang berbeda akan diberikan soal yang sama, jika nilainya tidak konsisten harus terus disesuaikan hingga diperoleh skor yang seragam.
Dalam kesan Chen Xi, dua atau tiga jam dihabiskan dalam rapat setiap hari. Pada akhir pertemuan, solusi paling sederhana dan paling kasar sering kali diselesaikan, dengan minoritas mematuhi mayoritas. Dia menggambarkannya sebagai “menciptakan nilai tanpa nilai.”
Namun, dibandingkan dengan semua orang yang duduk bersama untuk menyelaraskan standar jawaban secara "buatan", masalah yang lebih menyusahkan adalah: standar ** tidak diselaraskan secara artifisial untuk selamanya, tetapi harus terus disesuaikan berdasarkan umpan balik dari keluaran model. **
Hal pertama ketika berangkat kerja setiap hari, Yang Xiaoyun perlu memastikan apakah standar anotasi baru telah dikeluarkan hari itu, mulai dari kerangka jawaban, pemisahan paragraf, hingga pemilihan mesin pencari, format seperti spasi dan tanda baca. Namun ** standar terus berubah. **Setelah ditemukan bahwa data yang dimasukkan tidak berfungsi pada mesin, standar perlu dirumuskan ulang, dan semua masalah akan dibatalkan dan ditulis ulang.
"Ini seperti menenun. Haruskah kita menenun butiran horizontal atau vertikal? Haruskah kita menenun kancing wijen atau kancing gandum? Tapi tidak peduli kancing apa itu, itu hanya bisa dimasukkan ke dalam program dan dijalankan. Jika ternyata tidak bisa berjalan keluar, Anda harus mengubah metode." Yang Xiaoyun menjelaskan kepada "Jiazi Guangnian". Di balik metafora ini adalah jika jawaban yang diberikan oleh anotasi data mungkin tidak mencapai efek yang diharapkan selama proses pelatihan model penghargaan, standarnya harus disesuaikan.
Perubahan standar berarti kesimpulan pertemuan penyelarasan terakhir tidak sah dan standar harus diselaraskan kembali.
“Mubazir dan efisien, berbicara omong kosong dengan sangat efisien setiap hari,” keluh Yang Xiaoyun.
3. Siswa berprestasi yang dieksploitasi oleh pabrik besar
**Karakteristik umum dari pekerja magang ini adalah tingkat pendidikan yang tinggi. Persyaratan perekrutan adalah gelar sarjana atau lebih tinggi, tetapi banyak pekerja magang yang memiliki gelar master. **
Banyak dari mereka yang mengenyam pendidikan di universitas ternama di China bahkan dunia. Yang Xiaoyun dikelilingi oleh mahasiswa dari Universitas Peking dan Imperial College London, dan pekerja magang di sebelah tempat kerja Chenxi berasal dari Universitas Nankai dan Universitas Sains dan Teknologi Elektronik Tiongkok; Ding Xiaoyu diberi tahu dengan jelas selama pelatihan bahwa kualifikasi akademik pekerja magang disaring. “Dia (pewawancara) mengatakan bahwa mahasiswa berpendidikan tinggi seperti kami dapat mempelajari banyak hal dengan cepat dan memulai dengan mudah.”
**Mengelola sekelompok orang pintar tidak pernah mudah. Karena orang-orang ini dapat dengan mudah menemukan esensi pekerjaannya dari tindakan yang berulang-ulang, dan kemudian mempertanyakan apakah pekerjaan tersebut benar-benar berharga untuk masa depan mereka. **
Ding Xiaoyu menggambarkan karyanya sebagai "bernilai kecil dan sangat menguras tenaga dalam".
Ketika dia datang ke tempat kerjanya setiap pagi, dia membuka layar tampilan dan buku catatan, dan menggunakan buku catatan untuk memeriksa peraturan sambil menulis jawaban di layar tampilan.Ding Xiaoyu dapat dengan jelas merasakan bahwa aturan dan prosedur yang terperinci membuatnya secara bertahap kehilangan ruang. untuk berpikir, dan dia Disiplin menjadi sebuah mesin. “Jika Anda tidak mempelajari sesuatu, dan tidak memiliki tenaga untuk mempelajari hal lain, perlahan-lahan Anda akan kehilangan motivasi untuk belajar dan semangat untuk melakukan hal lain.”
Ding Xiaoyu juga pernah bekerja di tim desensitisasi, tetapi pekerjaan sebenarnya tidak memiliki hubungan mendasar dengan kata "desensitisasi." Dia hanya menggunakan chatbot yang berbeda dan produk beta internal perusahaan untuk menjawab pertanyaan yang sama, dan membandingkan serta menilai jawabannya. Baru bekerja beberapa hari, ia dipindahkan ke tim proofreading teks, yang harus ia lakukan adalah memperbaiki kesalahan yang terjadi saat mengkonversi format PDF ke format Word, terutama kesalahan ketik dan tanda baca. Dalam proses yang dia gambarkan sebagai "hampir rusak", dia menyelesaikan 25 halaman tugas koreksi kesalahan terkait medis setiap hari.
Selama proses wawancara, pewawancara bertanya kepada Ding Xiaoyu apakah dia dapat menerima pekerjaan yang membosankan dan berulang-ulang. "Jawaban saya waktu itu bisa diterima. Menurut saya semua jawaban calon harus bisa diterima. "Karena dia hanya punya satu pengalaman magang sebagai sarjana, dan dengan harapan bisa mengumpulkan lebih banyak magang dan merasakan pengalaman di perusahaan besar, bahkan dengan ragu, Ding Xiaoyu tetap memilih untuk bergabung dengan perusahaan.
Hanya dalam dua bulan, Ding Xiaoyu telah dianggap sebagai orang yang bertahan sampai akhir di antara pekerja magang pada periode yang sama. Dia menyaksikan banyak pekerja magang datang dengan ambisi tinggi dan kemudian pergi dengan kepala tertunduk.
Antropolog David Graeber mendefinisikan pekerjaan omong kosong sebagai pekerjaan yang tidak memiliki arti atau tujuan. Pekerjaan yang harus dihilangkan dengan otomatisasi mesin tetap ada karena alasan untuk menyenangkan atasan, dan untuk mengisi celah sistem. . Anotasi data ibarat variasi pekerjaan omong kosong yang sering dianggap telah digantikan oleh mesin, namun tetap membutuhkan manusia untuk melakukannya.
Ketika kegilaan terhadap kecerdasan buatan tiba, orang sering mendengar harapan bahwa AI dapat menggantikan manusia dalam menyelesaikan tugas-tugas yang berulang dan membosankan, sehingga memungkinkan manusia memiliki lebih banyak waktu dan energi untuk melakukan pekerjaan yang lebih kreatif dan memuaskan.
Namun ada kemungkinan juga bahwa kecerdasan buatan, seperti teknologi hemat tenaga kerja di masa lalu, seperti telepon dan mesin tik, mengatasi kesulitan dalam transmisi informasi dan tulisan tangan, namun juga menciptakan sejumlah besar komunikasi dan dokumen yang memerlukan kecerdasan buatan baru untuk melaksanakannya. dia Manajemen, seperti meja depan, petugas. AI mungkin tidak menggantikan manusia, namun akan menciptakan lapangan kerja yang lebih membosankan, membosankan, dan terisolasi.
**Selain tidak bisa mendapatkan pengakuan atas nilai pekerjaan mereka, gaji yang mereka terima mungkin tidak memungkinkan siswa terbaik ini untuk mencapai "pengakuan harga". **
Menurut "Jiazi Guangnian", data ini menunjukkan bahwa gaji pekerja magang tidak tinggi. Jika mereka berlokasi di kota tingkat pertama, gaji sebagian besar pekerja magang kecerdasan buatan adalah 150 yuan/hari, dengan tunjangan kamar dan kantin gratis; jika mereka berlokasi di kota tingkat kedua, hanya tersisa 100 yuan/hari, dan tunjangan kamar juga dikurangi sepertiganya 2. Suplemen makanan sebesar 20 yuan menggantikan makanan gratis.
Seperti magang Ding Xiaoyu di kota lapis kedua, karena kantornya terletak di pusat kota dan daerahnya makmur, makanan yang dibawa pulang dapat dengan mudah melebihi standar subsidi makanan 20 yuan, dan pada dasarnya memerlukan pembayaran kembali gaji magang.
Karena kebanyakan dari mereka hanyalah anotator dasar untuk melatih model besar, mereka mungkin ditugaskan secara seragam ke posisi yang tidak ada hubungannya dengan profesi mereka. Mereka juga dapat dipindahkan ke departemen berbeda kapan saja dan diminta untuk memulai dengan cepat setelah beberapa saat. pelatihan.
**Ding Xiaoyu menggambarkan mereka sebagai sekelompok pekerja magang yang dimanfaatkan oleh pabrik-pabrik besar. **
Chen Xi jelas merasa bahwa dia bukanlah satu-satunya yang merasakan kesenjangan antara ekspektasi dan pekerjaan sebenarnya. Terus terang, saya merasa pekerjaan ini tidak cocok untuk saya. Kadang-kadang ketika ngobrol, saya menemukan bahwa pekerja magang lain mungkin memiliki 985 gelar sarjana, dan beberapa telah kembali dari luar negeri dengan gelar master. Kesenjangan di antara mereka juga sangat besar. , sangat besar."
Yang Xiaoyun mengungkapkannya secara lebih langsung: "Ini mungkin metafora yang tidak tepat. Ibu saya bersekolah di sekolah menengah, jadi dia bisa melakukan pekerjaan ini."
**4. "Kami sebenarnya adalah pekerja jalur perakitan" **
Penanggung jawab Departemen Produk Data Stardust mengatakan: "Saat kemampuan dasar model besar selesai dan proses pengembangan mulai menjadi lebih vertikal dan kompleks, tugas-tugas akan berubah secara bertahap, memerlukan alat dan personel untuk diperbarui dan diulang. oleh karena itu. Namun, model Besar masih dalam tahap awal pengembangan, dan permintaan pasar akan anotator bervariasi tergantung tugasnya. Dibandingkan dengan proyek CV (Computer Vision), anotator NLP (Natural Language Processing) memiliki persyaratan kemampuan pemahaman yang lebih tinggi, persyaratan untuk terminologi profesional dan pengetahuan domain lebih tinggi, dan korpus yang akurat dan andal harus disediakan.”
Penanggung jawab mengatakan bahwa masalah yang ditimbulkan oleh model besar pada anotasi data lebih tercermin pada desain tingkat atas. Untuk setiap tugas anotasi data, bagaimana memahami permintaan skenario aplikasi pelanggan, merancang serangkaian solusi seperti pemilihan data, desain distribusi data, dan desain saluran yang dapat diterapkan secara efisien dan berbiaya rendah, serta cara meningkatkan efisiensi dan kemampuan alat platform adalah kuncinya. Tantangan yang lebih besar.
Hal ini bergantung pada partisipasi pakar domain vertikal sebagai anotator senior, memasukkan keahlian dan pengalaman domain ke dalam desain solusi, dan bahkan berpartisipasi dalam proses iterasi pemeriksaan kualitas data.
Zhang Ziqian, kepala operasi di penyedia solusi data Besai Technology, mengatakan secara blak-blakan bahwa saat ini, dalam hal pelatihan model skala besar, tidak ada perbedaan yang jelas dalam kesulitan kerja dan upah per jam antara anotator dasar dan anotator yang sebelumnya terlibat dalam pemilihan bingkai. . **Saat menyempurnakan model besar dan menciptakan solusi di bidang vertikal untuk pelanggan, masalah terbesarnya adalah bagaimana membangun kumpulan data berkualitas tinggi, yang memerlukan pelabelan ahli di bidang profesional seperti TI, kedokteran, dan keuangan. Kelangkaan.
OpenAI menginvestasikan puluhan mahasiswa doktoral dalam bimbingan dan peninjauan anotasi data, dan melakukan outsourcing anotasi data dasar ke perusahaan anotasi data, yang tersebar di wilayah berpenghasilan rendah seperti Afrika dan India. **Yang benar-benar membuat perbedaan adalah para anotator senior, yang hanya menyumbang sebagian kecil. **
Dengan membandingkan deskripsi tugas dari anotator yang direkrut oleh Baidu di kantor pusatnya di Beijing dan basis anotasi data Haikou, kita dapat melihat bahwa mereka juga digunakan untuk melatih model-model besar. Yang pertama adalah anotator senior yang bertanggung jawab atas panduan, pelatihan, dan peninjauan, sedangkan yang kedua adalah seorang anotator data dasar. , keduanya memiliki tingkat gaji yang sangat berbeda.
**Dengan kata lain, anotator senior tingkat tinggi tersebut sebenarnya adalah talenta utama untuk pelatihan model besar. Pekerjaan mereka lebih teknis dan bernilai, dan biaya tenaga kerja juga lebih tinggi. **
**Sebaliknya, meskipun peserta magang dari sekolah bergengsi ini datang untuk melatih model besar, pada tahap ini, mereka pada dasarnya sama dengan anotator data di masa lalu. **
**Pekerja magang sering bercanda di antara mereka sendiri bahwa mereka tidak bekerja di pabrik besar, tetapi di Internet Foxconn, dan mereka adalah pekerja di jalur perakitan. Mereka tidak dapat melihat ke mana hasil kerja mereka pada akhirnya akan mengarah, dan mereka juga tidak dapat menciptakan rantai makna horizontal dengan orang-orang di sekitar mereka. **
Lelucon "Internet Foxconn" ini tidak hanya mengacu pada pekerjaan para pekerja magang ini, tetapi juga pada beban kerja dan model manajemen, yang hampir setara dengan jalur perakitan pabrik.
Jumlah pekerjaan yang harus diselesaikan oleh pekerja magang setiap hari memiliki garis merah efisiensi manusia yang ditentukan. Untuk Yang Xiaoyun, dia perlu menandai 32 pertanyaan sehari, jika garis merah tidak terpenuhi, dia harus melaporkan alasannya atau bekerja lembur untuk menyelesaikannya. Prasyarat untuk menyelesaikan pekerjaan ini adalah standar Asosiasi Lazi yang terus berubah dan pengumpulan informasi yang berkelanjutan.
Untuk menyelesaikan pelatihan model secepat mungkin, tim anotasi menghadapi manajemen tekanan tinggi. Kelompok Yang Xiaoyun tidak diperbolehkan berbicara selama jam kerja. Harga beberapa obrolan ringan dapat ditambahkan ke beban kerja. Jika Anda gagal menyelesaikan pekerjaan, Anda akan dengan panik diingatkan dalam kelompok. Bahkan jika Anda sakit dan bertanya untuk cuti, Anda mungkin terganggu oleh panggilan mendesak dari karyawan tetap Anda.
Selain itu, untuk memastikan data tidak bocor, pertukaran anotasi data antar kelompok dilarang secara tegas. Sekalipun peserta magang dari kelompok berbeda ditempatkan berdekatan, mereka tidak dapat mendiskusikan konten pekerjaan. Tak satu pun dari pekerja magang ini mengetahui berapa banyak kelompok yang terbagi dalam pelabelan data perusahaan dan berapa banyak pekerja magang yang ada. Sebuah grup mungkin terdiri dari 10, 40, 50, 60 orang, atau ratusan orang di setiap lantai.
Di bawah garis merah efisiensi manusia yang bertekanan tinggi, Yang Xiaoyun hanya bisa "bahagia" untuk sementara ketika menghadapi pertanyaan terlarang. Sebab, konten yang mengandung kekerasan, pornografi, dan gore harus langsung dihapus, namun tetap bisa dihitung sebagai item karya pribadi. “Ini sama dengan mengencangkan sekrup yang rusak. Anda hanya akan senang karena Anda tidak perlu mengencangkan sekrup tersebut.” Saat pembagian kerja di pagi hari, para pekerja magang bahkan saling berlomba-lomba mendapatkan barang terlarang.
Setelah Yang Xiaoyun meninggalkan pekerjaannya lebih awal, ia sering mengunjungi Momen para pekerja magang yang masih rapat di perusahaan pada jam 10 malam, atau bahkan pada jam 12 malam. Ada juga pekerja magang yang mengirimkan pesan suaranya sambil menangis, namun karena sudah menyewa rumah dan tidak bisa keluar, jika tidak bisa bertahan berarti semua uang sewanya akan terbuang percuma.
5. Tidak akan pernah ada kekurangan orang di sini
Li Zhuxi adalah salah satu pekerja magang langka yang memiliki pengalaman anotasi data. Ia mempelajari linguistik kognitif, ia menjelaskan bahwa arah penggabungan linguistik dengan neurologi, pengamatan pencitraan otak, termasuk membangun antarmuka otak-komputer, memiliki hubungan tertentu dengan kecerdasan buatan.
Sebelum datang ke pabrik besar ini, dia telah melakukan anotasi data untuk model bahasa besar di pabrik besar lainnya, dan itu sebelum ChatGPT dirilis. Dalam kesan Li Zhuxi, setelah ChatGPT keluar dari lingkaran, magang anotasi data serupa bermunculan seperti jamur setelah hujan.
Dia berhasil menyelesaikan magang selama tiga bulan, meskipun dia menggambarkannya sebagai pekerjaan yang "relatif mekanis dan tidak terlalu sulit". Li Zhuxi menggambarkan bahwa dia lebih memperhatikan pengalaman, "Saya tidak berharap pekerjaan ini menarik. Masih menyenangkan untuk mengalaminya. Saya tidak hanya mendapatkan pengalaman magang di pabrik besar, tetapi juga merasakan budaya perusahaan yang unik di sini. "
Bagi Zhao Shuo, seorang siswa seni liberal dari sebuah sekolah di Shuangfei, posisi magang penyuntingan kecerdasan buatan di sebuah pabrik besar telah menjadi pilihan tingkat atasnya.
Saat mencari magang musim panas, dia sebenarnya lebih memilih posisi operasional di lembaga penelitian. Lembaga penelitian adalah lembaga publik dan memiliki staf, yang sangat menarik bagi Zhao Shuo. "Pada saat itu, saya sangat menantikannya. umpan balik yang bisa diberikannya kepada saya." . Namun pada akhirnya, institut tersebut tidak memilih Zhao Shuo, yang merupakan mahasiswa pascasarjana tahun pertama, dan merekrut siswa kelas atas.
Ada orang yang lebih "keriting".
Di mata Zhao Shuo, beberapa pekerja magang akan bekerja sangat keras dan mengambil lebih banyak tugas untuk mencari peluang menjadi karyawan tetap. Sikap yang serius dan rajin akan memenangkan hati karyawan tetap. "Para pemimpin sering kali melakukan pertukaran tertentu dengan mereka dan juga akan memberi mereka otorisasi manajemen untuk mengelola pekerja magang."
Perusahaan bahkan memilih pekerja magang dengan kinerja luar biasa setiap minggu dan memposting foto mereka di dinding sebagai pengakuan, tetapi belum tentu ada insentif bonus, dan tidak ada insentif bonus di lini bisnis Zhao Shuo.
Jia Yuhang, manajer umum Yunmei Data, mengatakan kepada Jiaziguangnian bahwa ada dua jalur promosi utama untuk anotator data: satu adalah jalur ahli. Setelah menguasai keterampilan yang relevan di bidang vertikal tertentu, anotator junior secara bertahap dapat menjadi pakar anotasi senior. ;Yang lainnya adalah rute manajemen, menjadi manajer proyek.
Tapi Zhao Shuo tidak memilih untuk tinggal. Setelah satu tahun lulus sekolah, Zhao Shuo dengan jelas menyadari bahwa ekspektasinya terhadap pekerjaan di masa depan telah menurun. Merasakan meningkatnya perubahan dalam lingkungan umum dan mengamati ketidakpuasan siswa yang memilih pekerjaan setelah lulus, pekerjaan yang sebelumnya diharapkan oleh Zhao Shuo sebagai "kelas atas, canggih" dan "tak tergantikan" secara bertahap digantikan oleh pekerjaan yang stabil. Sebagai seorang mahasiswa seni liberal, dia cemas karena dia belum menguasai keterampilan yang tak tergantikan, dan berharap mendapatkan pekerjaan yang dikelola di perusahaan tersebut.
Saat mengobrol, para pekerja magang akan saling mengeluh bahwa pekerjaan yang mereka lakukan akan segera digantikan oleh mesin, dan pemberian data secara manual tidak lagi diperlukan.
Bagi Jia Yuhang, general manager Cloud Measurement Data, kekhawatiran serupa tidak ada. Dengan produksi massal algoritma dan peningkatan kemampuan loop tertutup data, jumlah keseluruhan data berlabel dan jumlah pelabelan data manual terus meningkat dari tahun ke tahun. Dulunya 100% anotasi manual, namun sekarang terdapat proporsi tertentu dari anotasi manual, anotasi otomatis, dan verifikasi manual. Di masa depan, proporsi pelabelan otomatis mungkin akan semakin besar. Namun, meskipun proporsi anotasi manual semakin berkurang, seiring dengan perkembangan bertahap industri kecerdasan buatan dan meningkatnya jumlah data, jumlah anotasi manual akan terus meningkat.
Setelah meninggalkan pekerjaannya lebih awal, Yang Xiaoyun menemukan magang perencanaan permainan yang dia sukai. Suasana kerja di sana santai dan dia merasa lebih bermanfaat. Pengeditan kecerdasan buatan adalah pengalaman magang yang "tidak beruntung" baginya. Bagi Ding Xiaoyu, itu adalah proses kekecewaan. Bahkan jika dia magang di pabrik besar yang dia nanti-nantikan, dia masih akan menghadapi pekerjaan membosankan yang tak terhitung jumlahnya. Dia merasa ini mungkin karena kemampuannya tidak kuat cukup atau terlalu sedikit kesempatan untuk mendapatkan pengalaman. .
Tapi tidak akan pernah ada kekurangan orang di sana.
Yang Xiaoyun mendengar bahwa setelah dia pergi, timnya berkembang dari puluhan menjadi ratusan dalam waktu satu bulan. Ding Xiaoyu menemukan bahwa setiap 10 hari, sekelompok pekerja magang baru akan datang, setiap kelompok terdiri dari dua puluh atau tiga puluh orang.
“Anda mungkin akan terus mengutuk dan mengatakan kepada dunia betapa buruknya pekerjaan Anda, namun akan ada banyak orang baru yang datang untuk menggantikan posisi Anda.”
*Atas permintaan narasumber, karakter Chen Xi, Yang Xiaoyun, Ding Xiaoyu, Li Zhuxi, dan Zhao Shuo dalam artikel tersebut adalah nama samaran.