Lipatan model besar AI: Data menunjukkan bahwa pendapatan bulanan "pekerja migran" tidak lebih dari 5.000, dan harga satuan turun dari 5 sen menjadi 4 sen
Zheng Wen masih ingat sore itu beberapa bulan yang lalu, pada hari itu, dia menghasilkan 20 sen per jam. Dia lulus dari perguruan tinggi junior di Hunan dan merupakan anotator data model besar. Pekerjaan sehari-harinya tidak rumit - menambahkan label ke data mentah (seperti gambar, video, teks, dll.) yang dia terima.
Namun, model besar memiliki persyaratan kualitas data yang sangat tinggi. Pada hari itu, gambar direvisi delapan kali sebelum disetujui. Seluruh proses revisi memakan waktu satu jam. Dengan kata lain, dia hanya menghasilkan 2 sen per jam, sedangkan dalam keadaan normal dia dapat memperoleh 12 yuan dan menarik 600 kotak. “Uang tidak mudah didapat,” dia berulang kali menekankan.
Ini adalah konsensus dari hampir semua praktisi anotasi data. Salah satu ujung anotasi data memuat gaji bulanan para praktisi, yang kurang dari 5.000 yuan, mereka membangun landasan model besar seperti pasukan semut. Di sisi lain adalah impian AI dari perusahaan Internet besar, yang mereka harap dapat melampaui Chat GPT 4.
Anotasi data menggunakan sistem upah per satuan yang paling primitif untuk menghitung upah, dan tidak ada intrik di tempat kerja. Satu-satunya masalah adalah pekerjaan yang membosankan ini menyulitkan sebagian besar dari mereka untuk bertahan selama tiga bulan. Dan, hampir semua orang mengatakan kepada Planet Tech, sebaiknya Anda tidak pergi.
Namun yang tidak mereka ketahui adalah bahwa sebagian besar dari mereka mungkin akan segera kehilangan pekerjaan yang membosankan. Karena anotasi data sederhana tersebut akan digantikan oleh AI.
Dari 5 sen menjadi 4 sen, harganya anjlok
Lin Shuang menghasilkan banyak "uang cepat" pada tahun 2017: lebih dari 6.000 yuan dalam 15 hari. Bagi Lin Shuang yang merupakan lulusan SMP, penghasilannya memang lumayan besar. Saat itu, ekspektasi masyarakat terhadap AI sedang meroket. Hampir tidak ada yang meragukan masa depannya. Semua lembaga investasi sangat yakin bahwa perusahaan dengan skala miliaran, puluhan miliar, atau bahkan ratusan miliar bisa lahir di sini.
Di balik hampir semua teknologi AI terdapat persaingan antara algoritma, kekuatan komputasi, dan perhitungan. Data yang sangat besar adalah lapisan terbawah dari keunggulan teknis. Pemrogram dengan latar belakang cemerlang duduk di kantor di "Beijing, Shanghai, dan Guangzhou" dan menggambar cetak biru AI melalui algoritme iterasi kode, sementara mahasiswa, ibu, dll. memproses gambar, teks, dan suara dalam paket data besar di bilik di ruang ketiga dan ketiga. kota tingkat keempat.tunggu.
ChatGPT tidak terkecuali. Seorang karyawan tim proyek Baidu Wenxinyiyan mengatakan bahwa model besar itu sendiri tidak memiliki teknologi baru, juga tidak memiliki hambatan teknis yang tinggi.Masalah utamanya adalah hambatan parameter yang dibentuk oleh hambatan daya komputasi.
Anotator data di era model besar tidak jauh berbeda dengan sebelumnya.Beberapa perbedaan mungkin terletak pada lingkungan kantor yang lebih nyaman dan persyaratan kualitas anotasi yang lebih tinggi. Seorang praktisi anotasi data mengatakan kepada Tech Planet bahwa ketika mereka pertama kali memasuki industri, mereka biasanya membentuk tim yang terdiri dari sekitar 10 orang, salah satunya bertanggung jawab untuk pemeriksaan kualitas. Jika pekerjaan tidak memenuhi standar, karyawan tersebut akan dikirim kembali ke ulangi itu. Kualitas data menentukan kualitas model besar.
Pekerja migran data tidak peduli dengan cabang baru teknologi AI, mereka lebih peduli pada harga satuan, karena upah di sini dihitung per potong.
"Pada saat itu, ketika harga satuan sedang tinggi, biaya bingkai 2D lebih dari 1 sen. Pada puncaknya, saya bekerja lebih dari 10 jam dan mendapat penghasilan lebih dari 600 yuan sehari," kenang Lin Shuang. Namun, ini bukan yang tertinggi, salah satu anotator mengatakan bahwa harga gambar bingkai 2D awal bisa mencapai 50 sen.
Gambar bingkai adalah operasi umum dalam anotasi data, anotator menandai objek dalam gambar, seperti kendaraan, lampu jalan merah, rintangan, dll, sesuai dengan kebutuhan. Bingkai dibagi menjadi 2D dan 3D, yang terakhir akan lebih mahal.
Namun popularitas ini tidak bertahan lama. Dengan semakin banyaknya orang yang masuk dan perkembangan industri AI secara keseluruhan tidak berjalan mulus, harga satuan untuk membuat anotasi gambar semakin rendah. Lin Shuang mengatakan bahwa harga terendah sekarang hanya 4 sen.
“Kalau pull-frame, rata-rata harga satuan di industri sekitar 0,15 yuan, tapi tetap tergantung proyeknya. Kalau bisa terima pesanan, syarat minimal terima pesanan langsung harus 100 karyawan. skalanya cukup besar, dan bingkai 3D mungkin berharga 30 sen per buah, tetapi jarang yang mencapai harga 50 sen.”
Tentu saja, jika Anda memiliki pengetahuan profesional di bidang medis dan keuangan, harga satuannya akan lebih tinggi. Misalnya, banyak model medis besar memerlukan anotator untuk memiliki keahlian klinis dan pengalaman yang relevan.
Penghasilan bulanan sebagian besar praktisi tidak lebih dari 5.000 yuan, dan ada juga beberapa yang beruntung di antara mereka. Yang Shuo awalnya mengelola toko pakaian di Sichuan, tetapi epidemi mempengaruhi bisnisnya. Dia beralih ke anotasi data model skala besar tahun ini. Sekarang, dia memiliki penghasilan 8.000 yuan per bulan. "Saya menandatangani kontrak dengan perusahaan dan dibayar Biaya waralaba adalah 9,500 yuan, dan kontrak menyatakan bahwa pendapatan bulanan minimum adalah 7,000 yuan.”
Siapa yang menghasilkan uang
Raksasa internet seperti Alibaba, Tencent, dan Byte, serta perusahaan mobil seperti SAIC dan Lynk & Co, menjadi sumber distribusi bisnis anotasi data.Jika ingin mendapatkan pesanan langsung dari sumbernya dengan harga terbaik, anotasi data perusahaan perlu memiliki skala tertentu. .
Seorang karyawan perusahaan anotasi data mengatakan kepada Tech Planet bahwa mereka mendapat pesanan langsung dari pabrikan besar, namun pabrikan besar tersebut mengharuskan mereka memiliki 500 orang, sehingga mereka akan memilih untuk memenuhi kebutuhan personel melalui waralaba atau anak perusahaan.
Perbedaan keduanya adalah waralaba cocok bagi orang yang baru mengenal industri untuk mendirikan studio.Jika ingin mendirikan anak perusahaan, umumnya hanya ada satu di suatu wilayah. Xiaobai Studio perlu mengenakan biaya waralaba, yaitu 25.000 atau 30.000. Anak perusahaan adalah agen eksklusif di suatu wilayah dan perlu membayar biaya sebesar 50.000. Dan mereka dapat menjamin pesanan yang cukup dalam waktu tiga tahun dan bertanggung jawab atas pelatihan teknis dalam waktu tiga tahun.Studio atau anak perusahaan ini membentuk serikat pekerja yang besar, berkisar antara beberapa ratus hingga beberapa ribu.
Karyawan perusahaan anotasi data yang disebutkan di atas mengatakan bahwa popularitas model besar sekali lagi membuat industri anotasi data menjadi gila, dan sekarang orang mengunjungi perusahaan mereka hampir setiap hari.
Namun nyatanya, menjalankan perusahaan pelabelan data tidaklah mudah. Apa yang diberitahukan oleh perusahaan anotasi data kepada Anda adalah bahwa industri ini sulit dilakukan dalam 1 hingga 2 bulan pertama karena karyawan memerlukan periode peningkatan.Pada tahap awal, cukup 5-8 orang saja, bahkan seorang bibi di dalamnya 40an tidak akan ada masalah.
Stabilitas adalah faktor terpenting bagi perusahaan atau studio anotasi data. Namun, sebagian besar karyawan anotasi yang dihubungi Tech Planet sering kali meninggalkan pekerjaan mereka secepat kilat dalam waktu 3 bulan karena bosan. Karyawan baru tidak segera tersedia untuk operasi praktis. Akibat dari tingginya pergantian staf adalah kualitas yang buruk. dan siklus anotasi data tidak cukup stabil. . Para ibu yang kekurangan uang adalah orang yang paling populer untuk studio anotasi data.
"Jelas tidak mungkin mendapatkan pekerjaan paruh waktu. Akan ada kesenjangan. Jika Anda berinvestasi dalam sewa dan komputer, Anda akan kehilangan uang. Cara terbaik adalah membuat semua karyawan bekerja," Wei Ming, yang menjalankan perusahaan data studio anotasi, kepada Tech Planet.
Sebagian besar data menunjukkan bahwa siklus pembayaran perusahaan dimulai pada 3 bulan dan bisa mencapai setengah tahun, namun mereka harus membayar karyawannya setiap bulan, yang memerlukan cadangan modal pada tingkat tertentu. "3500 per orang, 100 orang, 3 bulan adalah 1,05 juta."
Zhang Jian pernah bergabung dengan serikat pekerja dengan lebih dari 200 karyawan. Pada tahun pertama, mereka berhasil mengejar masa ledakan industri, dan harga satuan gambar bingkai 2D mencapai 5 sen.Tahun itu, serikat pekerjanya memperoleh lebih dari 4 juta.
Namun pada tahun berikutnya, keadaan menjadi lebih buruk. Harga satuan yang ditandai menjadi lebih rendah, karyawan menjadi lebih mobile, dan periode kesenjangan meningkat. Selain itu, dua proyek besar tidak diselesaikan. Setelah satu tahun penuh, mereka kehilangan lebih dari 3 juta yuan. “Para atasan telah mengatakan bahwa mereka tidak akan menyentuh anotasi data dalam jangka pendek,” kata Zhang Jian. “Mereka saat ini sedang dalam tuntutan hukum dengan pihak hulu.”
Ini adalah bisnis dengan margin rendah. Haiti Ruisheng adalah perusahaan papan atas pertama yang terdaftar di industri anotasi data.Tahun lalu, perusahaan tersebut memiliki pendapatan sebesar 263 juta yuan, laba hanya 29,45 juta yuan, dan margin laba bersih lebih dari 10%. Namun pada paruh pertama tahun ini, perseroan mengalami kerugian akibat menurunnya jumlah pelanggan.
"Sekrup" yang dapat diganti kapan saja
Mengandalkan akumulasi semut yang bergerak di Kenya, OpenAI akhirnya menonjol dengan kemampuan model dialog bahasa berskala besar. Orang-orang biasa ini, yang disebut pekerja data, mendukung impian AI Sam Altman (pendiri OpenAI), tetapi jika tidak ada hal lain yang terjadi, sebagian besar pekerjaan di tangan mereka akan segera digantikan oleh produk baru yang mereka ikut sertakan dalam pembuatannya. diganti.
Di luar negeri, Anthropic, yang didirikan pada tahun 2021 oleh mantan karyawan Open AI, telah mengumpulkan dana sebesar US$5,15 miliar pada tahun ini, lebih dari tujuh kali lipat total pembiayaannya dalam dua tahun terakhir. Perusahaan menawarkan cara baru untuk melatih model dengan lebih sedikit keterlibatan manusia.
Tahun ini, startup AI yang mengisi bahan bakar meluncurkan alat sumber terbuka yang disebut Autolabel, yang dapat menggunakan model besar yang ada di pasar untuk memberi label pada kumpulan data. Hasil pengujian perusahaan menyatakan bahwa efisiensi pelabelan Autolabel 100 kali lebih tinggi dibandingkan pelabelan manual, dan biayanya hanya 1/7 dari biaya tenaga kerja.
Di Tiongkok, sebuah perusahaan bernama Vision Future juga sedang membangun model anotasi berskala besar. Dalam sebuah wawancara, mereka mengatakan bahwa beberapa proyek telah diselesaikan menggunakan GPT, dan akurasinya telah mencapai lebih dari 80%, mendekati pekerjaan manual.
Namun, Ruisheng dari Haiti percaya bahwa AI tidak akan mencapai anotasi yang sepenuhnya otomatis, karena jika mesin ingin terus berkembang dan mendekati penilaian dan pemahaman manusia, maka pasti memerlukan bimbingan manusia.
Hampir setiap orang yang pernah terlibat dalam anotasi data mengungkapkan sudut pandang yang sama kepada Tech Planet: Anotasi data adalah pekerjaan tanpa batasan dan hanya mengharuskan Anda mahir menggunakan komputer.
Namun faktanya, jika anotasi sederhana dapat diselesaikan dengan AI, maka partisipasi manual akan membuat penyaringan data dan pekerjaan standar menjadi lebih sulit, yang juga berarti bahwa ambang batas industri akan terus meningkat, terutama ChatGPT, Wen Xinyiyan Model bahasa yang besar untuk kelas.
Sebagai perbandingan, jauh sebelum ChatGPT menjadi populer, OpenAI mengorganisir lebih dari selusin mahasiswa doktoral untuk "menilai". Basis anotasi data Baidu di Haikou memiliki ratusan anotator data model besar yang bekerja penuh waktu, dan tingkat anotator sarjana mencapai 100%.
Karakteristik model bahasa besar jenis ini adalah anotator perlu memiliki cadangan pengetahuan tertentu dan kemampuan analisis logis. Menurut laporan "Financial Eleven", anotator perlu menentukan jenis pertanyaan, lalu memberi skor dan memberi peringkat pada lima jawaban masing-masing. Kisaran skornya adalah 0-5 poin. Jika skornya lebih rendah dari 3 poin, alasan spesifiknya harus diperhatikan, seperti “Jawabannya tidak sesuai dengan pertanyaan yang diajukan (0 poin)”, “sangat di luar topik (1 poin)”, “ada masalah logika dan kesalahan faktual, dan proporsinya kecil dan 2 poin adalah diberikan", dll.
Area anotasi data populer lainnya adalah mengemudi secara otonom. Menurut laporan Deloitte, permintaan pelabelan di bidang kendaraan otonom akan mencapai 38% dari seluruh aplikasi hilir AI pada tahun 2022, dan diperkirakan proporsinya akan meningkat menjadi 52% pada tahun 2027. Dibandingkan dengan model bahasa besar, untuk model di bidang mengemudi otonom, operasi penarikan kotak sederhana tersebut masih memiliki persyaratan akademis yang relatif longgar.
Anotator adalah landasan umat manusia dari era Internet seluler hingga era kecerdasan buatan. Sebagian besar praktisi yang pernah berhubungan dengan Tech Planet tidak mengetahui perubahan yang akan dibawa oleh AI, atau kontribusi yang telah mereka berikan terhadap pengembangan. AI Mereka hanyalah sekrup generasi baru di era Internet, dan dapat diganti kapan saja.
(Catatan: Semua karakter dalam artikel adalah nama samaran.)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Lipatan model besar AI: Data menunjukkan bahwa pendapatan bulanan "pekerja migran" tidak lebih dari 5.000, dan harga satuan turun dari 5 sen menjadi 4 sen
Sumber asli: Tech Planet
Zheng Wen masih ingat sore itu beberapa bulan yang lalu, pada hari itu, dia menghasilkan 20 sen per jam. Dia lulus dari perguruan tinggi junior di Hunan dan merupakan anotator data model besar. Pekerjaan sehari-harinya tidak rumit - menambahkan label ke data mentah (seperti gambar, video, teks, dll.) yang dia terima.
Namun, model besar memiliki persyaratan kualitas data yang sangat tinggi. Pada hari itu, gambar direvisi delapan kali sebelum disetujui. Seluruh proses revisi memakan waktu satu jam. Dengan kata lain, dia hanya menghasilkan 2 sen per jam, sedangkan dalam keadaan normal dia dapat memperoleh 12 yuan dan menarik 600 kotak. “Uang tidak mudah didapat,” dia berulang kali menekankan.
Ini adalah konsensus dari hampir semua praktisi anotasi data. Salah satu ujung anotasi data memuat gaji bulanan para praktisi, yang kurang dari 5.000 yuan, mereka membangun landasan model besar seperti pasukan semut. Di sisi lain adalah impian AI dari perusahaan Internet besar, yang mereka harap dapat melampaui Chat GPT 4.
Anotasi data menggunakan sistem upah per satuan yang paling primitif untuk menghitung upah, dan tidak ada intrik di tempat kerja. Satu-satunya masalah adalah pekerjaan yang membosankan ini menyulitkan sebagian besar dari mereka untuk bertahan selama tiga bulan. Dan, hampir semua orang mengatakan kepada Planet Tech, sebaiknya Anda tidak pergi.
Namun yang tidak mereka ketahui adalah bahwa sebagian besar dari mereka mungkin akan segera kehilangan pekerjaan yang membosankan. Karena anotasi data sederhana tersebut akan digantikan oleh AI.
Dari 5 sen menjadi 4 sen, harganya anjlok
Lin Shuang menghasilkan banyak "uang cepat" pada tahun 2017: lebih dari 6.000 yuan dalam 15 hari. Bagi Lin Shuang yang merupakan lulusan SMP, penghasilannya memang lumayan besar. Saat itu, ekspektasi masyarakat terhadap AI sedang meroket. Hampir tidak ada yang meragukan masa depannya. Semua lembaga investasi sangat yakin bahwa perusahaan dengan skala miliaran, puluhan miliar, atau bahkan ratusan miliar bisa lahir di sini.
Di balik hampir semua teknologi AI terdapat persaingan antara algoritma, kekuatan komputasi, dan perhitungan. Data yang sangat besar adalah lapisan terbawah dari keunggulan teknis. Pemrogram dengan latar belakang cemerlang duduk di kantor di "Beijing, Shanghai, dan Guangzhou" dan menggambar cetak biru AI melalui algoritme iterasi kode, sementara mahasiswa, ibu, dll. memproses gambar, teks, dan suara dalam paket data besar di bilik di ruang ketiga dan ketiga. kota tingkat keempat.tunggu.
ChatGPT tidak terkecuali. Seorang karyawan tim proyek Baidu Wenxinyiyan mengatakan bahwa model besar itu sendiri tidak memiliki teknologi baru, juga tidak memiliki hambatan teknis yang tinggi.Masalah utamanya adalah hambatan parameter yang dibentuk oleh hambatan daya komputasi.
Anotator data di era model besar tidak jauh berbeda dengan sebelumnya.Beberapa perbedaan mungkin terletak pada lingkungan kantor yang lebih nyaman dan persyaratan kualitas anotasi yang lebih tinggi. Seorang praktisi anotasi data mengatakan kepada Tech Planet bahwa ketika mereka pertama kali memasuki industri, mereka biasanya membentuk tim yang terdiri dari sekitar 10 orang, salah satunya bertanggung jawab untuk pemeriksaan kualitas. Jika pekerjaan tidak memenuhi standar, karyawan tersebut akan dikirim kembali ke ulangi itu. Kualitas data menentukan kualitas model besar.
Pekerja migran data tidak peduli dengan cabang baru teknologi AI, mereka lebih peduli pada harga satuan, karena upah di sini dihitung per potong.
"Pada saat itu, ketika harga satuan sedang tinggi, biaya bingkai 2D lebih dari 1 sen. Pada puncaknya, saya bekerja lebih dari 10 jam dan mendapat penghasilan lebih dari 600 yuan sehari," kenang Lin Shuang. Namun, ini bukan yang tertinggi, salah satu anotator mengatakan bahwa harga gambar bingkai 2D awal bisa mencapai 50 sen.
Gambar bingkai adalah operasi umum dalam anotasi data, anotator menandai objek dalam gambar, seperti kendaraan, lampu jalan merah, rintangan, dll, sesuai dengan kebutuhan. Bingkai dibagi menjadi 2D dan 3D, yang terakhir akan lebih mahal.
Namun popularitas ini tidak bertahan lama. Dengan semakin banyaknya orang yang masuk dan perkembangan industri AI secara keseluruhan tidak berjalan mulus, harga satuan untuk membuat anotasi gambar semakin rendah. Lin Shuang mengatakan bahwa harga terendah sekarang hanya 4 sen.
“Kalau pull-frame, rata-rata harga satuan di industri sekitar 0,15 yuan, tapi tetap tergantung proyeknya. Kalau bisa terima pesanan, syarat minimal terima pesanan langsung harus 100 karyawan. skalanya cukup besar, dan bingkai 3D mungkin berharga 30 sen per buah, tetapi jarang yang mencapai harga 50 sen.”
Tentu saja, jika Anda memiliki pengetahuan profesional di bidang medis dan keuangan, harga satuannya akan lebih tinggi. Misalnya, banyak model medis besar memerlukan anotator untuk memiliki keahlian klinis dan pengalaman yang relevan.
Penghasilan bulanan sebagian besar praktisi tidak lebih dari 5.000 yuan, dan ada juga beberapa yang beruntung di antara mereka. Yang Shuo awalnya mengelola toko pakaian di Sichuan, tetapi epidemi mempengaruhi bisnisnya. Dia beralih ke anotasi data model skala besar tahun ini. Sekarang, dia memiliki penghasilan 8.000 yuan per bulan. "Saya menandatangani kontrak dengan perusahaan dan dibayar Biaya waralaba adalah 9,500 yuan, dan kontrak menyatakan bahwa pendapatan bulanan minimum adalah 7,000 yuan.”
Siapa yang menghasilkan uang
Raksasa internet seperti Alibaba, Tencent, dan Byte, serta perusahaan mobil seperti SAIC dan Lynk & Co, menjadi sumber distribusi bisnis anotasi data.Jika ingin mendapatkan pesanan langsung dari sumbernya dengan harga terbaik, anotasi data perusahaan perlu memiliki skala tertentu. .
Seorang karyawan perusahaan anotasi data mengatakan kepada Tech Planet bahwa mereka mendapat pesanan langsung dari pabrikan besar, namun pabrikan besar tersebut mengharuskan mereka memiliki 500 orang, sehingga mereka akan memilih untuk memenuhi kebutuhan personel melalui waralaba atau anak perusahaan.
Perbedaan keduanya adalah waralaba cocok bagi orang yang baru mengenal industri untuk mendirikan studio.Jika ingin mendirikan anak perusahaan, umumnya hanya ada satu di suatu wilayah. Xiaobai Studio perlu mengenakan biaya waralaba, yaitu 25.000 atau 30.000. Anak perusahaan adalah agen eksklusif di suatu wilayah dan perlu membayar biaya sebesar 50.000. Dan mereka dapat menjamin pesanan yang cukup dalam waktu tiga tahun dan bertanggung jawab atas pelatihan teknis dalam waktu tiga tahun.Studio atau anak perusahaan ini membentuk serikat pekerja yang besar, berkisar antara beberapa ratus hingga beberapa ribu.
Karyawan perusahaan anotasi data yang disebutkan di atas mengatakan bahwa popularitas model besar sekali lagi membuat industri anotasi data menjadi gila, dan sekarang orang mengunjungi perusahaan mereka hampir setiap hari.
Namun nyatanya, menjalankan perusahaan pelabelan data tidaklah mudah. Apa yang diberitahukan oleh perusahaan anotasi data kepada Anda adalah bahwa industri ini sulit dilakukan dalam 1 hingga 2 bulan pertama karena karyawan memerlukan periode peningkatan.Pada tahap awal, cukup 5-8 orang saja, bahkan seorang bibi di dalamnya 40an tidak akan ada masalah.
Stabilitas adalah faktor terpenting bagi perusahaan atau studio anotasi data. Namun, sebagian besar karyawan anotasi yang dihubungi Tech Planet sering kali meninggalkan pekerjaan mereka secepat kilat dalam waktu 3 bulan karena bosan. Karyawan baru tidak segera tersedia untuk operasi praktis. Akibat dari tingginya pergantian staf adalah kualitas yang buruk. dan siklus anotasi data tidak cukup stabil. . Para ibu yang kekurangan uang adalah orang yang paling populer untuk studio anotasi data.
"Jelas tidak mungkin mendapatkan pekerjaan paruh waktu. Akan ada kesenjangan. Jika Anda berinvestasi dalam sewa dan komputer, Anda akan kehilangan uang. Cara terbaik adalah membuat semua karyawan bekerja," Wei Ming, yang menjalankan perusahaan data studio anotasi, kepada Tech Planet.
Sebagian besar data menunjukkan bahwa siklus pembayaran perusahaan dimulai pada 3 bulan dan bisa mencapai setengah tahun, namun mereka harus membayar karyawannya setiap bulan, yang memerlukan cadangan modal pada tingkat tertentu. "3500 per orang, 100 orang, 3 bulan adalah 1,05 juta."
Zhang Jian pernah bergabung dengan serikat pekerja dengan lebih dari 200 karyawan. Pada tahun pertama, mereka berhasil mengejar masa ledakan industri, dan harga satuan gambar bingkai 2D mencapai 5 sen.Tahun itu, serikat pekerjanya memperoleh lebih dari 4 juta.
Namun pada tahun berikutnya, keadaan menjadi lebih buruk. Harga satuan yang ditandai menjadi lebih rendah, karyawan menjadi lebih mobile, dan periode kesenjangan meningkat. Selain itu, dua proyek besar tidak diselesaikan. Setelah satu tahun penuh, mereka kehilangan lebih dari 3 juta yuan. “Para atasan telah mengatakan bahwa mereka tidak akan menyentuh anotasi data dalam jangka pendek,” kata Zhang Jian. “Mereka saat ini sedang dalam tuntutan hukum dengan pihak hulu.”
Ini adalah bisnis dengan margin rendah. Haiti Ruisheng adalah perusahaan papan atas pertama yang terdaftar di industri anotasi data.Tahun lalu, perusahaan tersebut memiliki pendapatan sebesar 263 juta yuan, laba hanya 29,45 juta yuan, dan margin laba bersih lebih dari 10%. Namun pada paruh pertama tahun ini, perseroan mengalami kerugian akibat menurunnya jumlah pelanggan.
"Sekrup" yang dapat diganti kapan saja
Mengandalkan akumulasi semut yang bergerak di Kenya, OpenAI akhirnya menonjol dengan kemampuan model dialog bahasa berskala besar. Orang-orang biasa ini, yang disebut pekerja data, mendukung impian AI Sam Altman (pendiri OpenAI), tetapi jika tidak ada hal lain yang terjadi, sebagian besar pekerjaan di tangan mereka akan segera digantikan oleh produk baru yang mereka ikut sertakan dalam pembuatannya. diganti.
Di luar negeri, Anthropic, yang didirikan pada tahun 2021 oleh mantan karyawan Open AI, telah mengumpulkan dana sebesar US$5,15 miliar pada tahun ini, lebih dari tujuh kali lipat total pembiayaannya dalam dua tahun terakhir. Perusahaan menawarkan cara baru untuk melatih model dengan lebih sedikit keterlibatan manusia.
Tahun ini, startup AI yang mengisi bahan bakar meluncurkan alat sumber terbuka yang disebut Autolabel, yang dapat menggunakan model besar yang ada di pasar untuk memberi label pada kumpulan data. Hasil pengujian perusahaan menyatakan bahwa efisiensi pelabelan Autolabel 100 kali lebih tinggi dibandingkan pelabelan manual, dan biayanya hanya 1/7 dari biaya tenaga kerja.
Di Tiongkok, sebuah perusahaan bernama Vision Future juga sedang membangun model anotasi berskala besar. Dalam sebuah wawancara, mereka mengatakan bahwa beberapa proyek telah diselesaikan menggunakan GPT, dan akurasinya telah mencapai lebih dari 80%, mendekati pekerjaan manual.
Namun, Ruisheng dari Haiti percaya bahwa AI tidak akan mencapai anotasi yang sepenuhnya otomatis, karena jika mesin ingin terus berkembang dan mendekati penilaian dan pemahaman manusia, maka pasti memerlukan bimbingan manusia.
Hampir setiap orang yang pernah terlibat dalam anotasi data mengungkapkan sudut pandang yang sama kepada Tech Planet: Anotasi data adalah pekerjaan tanpa batasan dan hanya mengharuskan Anda mahir menggunakan komputer.
Namun faktanya, jika anotasi sederhana dapat diselesaikan dengan AI, maka partisipasi manual akan membuat penyaringan data dan pekerjaan standar menjadi lebih sulit, yang juga berarti bahwa ambang batas industri akan terus meningkat, terutama ChatGPT, Wen Xinyiyan Model bahasa yang besar untuk kelas.
Sebagai perbandingan, jauh sebelum ChatGPT menjadi populer, OpenAI mengorganisir lebih dari selusin mahasiswa doktoral untuk "menilai". Basis anotasi data Baidu di Haikou memiliki ratusan anotator data model besar yang bekerja penuh waktu, dan tingkat anotator sarjana mencapai 100%.
Karakteristik model bahasa besar jenis ini adalah anotator perlu memiliki cadangan pengetahuan tertentu dan kemampuan analisis logis. Menurut laporan "Financial Eleven", anotator perlu menentukan jenis pertanyaan, lalu memberi skor dan memberi peringkat pada lima jawaban masing-masing. Kisaran skornya adalah 0-5 poin. Jika skornya lebih rendah dari 3 poin, alasan spesifiknya harus diperhatikan, seperti “Jawabannya tidak sesuai dengan pertanyaan yang diajukan (0 poin)”, “sangat di luar topik (1 poin)”, “ada masalah logika dan kesalahan faktual, dan proporsinya kecil dan 2 poin adalah diberikan", dll.
Area anotasi data populer lainnya adalah mengemudi secara otonom. Menurut laporan Deloitte, permintaan pelabelan di bidang kendaraan otonom akan mencapai 38% dari seluruh aplikasi hilir AI pada tahun 2022, dan diperkirakan proporsinya akan meningkat menjadi 52% pada tahun 2027. Dibandingkan dengan model bahasa besar, untuk model di bidang mengemudi otonom, operasi penarikan kotak sederhana tersebut masih memiliki persyaratan akademis yang relatif longgar.
Anotator adalah landasan umat manusia dari era Internet seluler hingga era kecerdasan buatan. Sebagian besar praktisi yang pernah berhubungan dengan Tech Planet tidak mengetahui perubahan yang akan dibawa oleh AI, atau kontribusi yang telah mereka berikan terhadap pengembangan. AI Mereka hanyalah sekrup generasi baru di era Internet, dan dapat diganti kapan saja.
(Catatan: Semua karakter dalam artikel adalah nama samaran.)