Büyük model çılgınlığı altındaki stajyerler: Kişi başına 985 mi? Ama büyük bir fabrikada "etiketleme"

Kaynak: Jiazi Guangnian

Yazar: Zhu Yue

Resmi stajın ilk gününde Chen Xi "aldatılmış" olabileceğini hissetti.

Mezuniyet tezini henüz bitirmiş olan potansiyel yüksek lisans öğrencisi Chen Xi, kendisi için yapacak bir şeyler bulmaya hazırdı. Birkaç özgeçmiş gönderdikten sonra kısa süre sonra büyük bir yerli İnternet şirketinin yapay zeka düzenleme pozisyonuna (çeviri yönetmenliği) davet edildi.

İş tanımı şöyle:

  1. Yapay zeka makine öğrenimi için yüksek kaliteli bir derleme sağlayın ve model eğitimi yinelemelerini çoğaltın;

  2. Gereksinimler konusunda teknik ekiple iletişim kurun, kaliteli ve nitelikli verileri zamanında teslim edin ve düzenleme sonuçlarının kalitesinden sorumlu olun.

Model eğitimi hakkında fazla bilgisi olmayan Chen Xi için bu oldukça iyi bir staj gibi görünüyordu.

Chenxi'nin röportajı çeviri alanındaydı ve bu onun İngilizce bölümüyle oldukça tutarlıydı.Yılın başında ChatGPT Çin'de popüler hale geldi ve Chenxi'nin her gün AI ürünlerini kullanma alışkanlığı var, bu da onun ilgi alanları doğrultusunda Ayrıca, gelişen teknolojilere katılma fırsatına da sahip olacak. Endüstriyel gelişim, liberal sanatlar öğrencileri için nadirdir ve elbette en büyük cazibe bu büyük İnternet şirketinden geliyor. Geçtiğimiz birkaç yılda şirket sayısız genç öğrenciyi başarıyla cezbetti. Belli bir perspektiften bakıldığında, büyük bir şirketin özgeçmişindeki adı kişinin kendi yeteneklerinin sembolü olması için yeterlidir.

Ancak işe alım sayfasındaki basit iş tanımı dışında Chen Xi, görüşmeciden bu staj hakkında daha fazla bilgi alamadı.

"O sırada kendimi aldatılmış gibi hissetmemin nedeni, İK'nın röportaj sırasında temelde çeviriyle ilgili konulara odaklanmış olmasıydı." Chen Xi, röportaj sırasında çeviriyle ilgili birkaç soruyu yanıtladıktan sonra teklifi başarıyla aldı. Çalışmaya başlayana kadar bunun tercümanlık işi olduğunu düşünüyordu.

"Aldatıldığını" hisseden tek kişi Chen Xi değil.

Yapay zeka editörlerinin ilk stajyerlerinden biri olan Yang Xiaoyun da Şubat ayının sonunda bu büyük fabrikaya geldi. Görüşmeci bunun bilgi yakalama, dil özetleme ve metin düzenleme gibi yüksek yetenekler gerektiren bir iş olduğunu söyledi.

Gerçekten başladıktan sonra şunu fark etti: "İK'nın tanımladığı iş ile fiili iş tamamen iki farklı şey. Ne kadar gösterişli olursa olsun, aslında bu bir 'markalama' işi."

Günümüzde yapay zeka çılgınlığı, gerçek insanlara benzeyen sohbet robotlarının ve basit komutlarla resimler üretebilen çizim yazılımlarının ortaya çıkmasına neden oldu. Büyük modellerin fenomen düzeyinde ortaya çıkışı, büyük modellerin eğitiminin temeli olarak çok dikkat çekti.Veri, algoritmalar ve bilgi işlem gücü çok dikkat çekti.Veri açıklaması, veri bağlantısının vazgeçilmez bir parçasıdır.

2007 yılında, Princeton Üniversitesi Bilgisayar Bilimleri Bölümü'nde yardımcı doçent olan Li Feifei, yapay zeka algoritmalarını eğitmek için kullanılabilecek verileri genişletmeyi umarak ImageNet adlı bir proje başlattı.

Her kelimeye mümkün olduğu kadar çok görsel örnek sağlamak amacıyla Amazon'un kitle kaynak platformu Mechanical Turk'teki yaklaşık 50.000 çalışan, resimlerdeki balon, çilek vb. nesneleri etiketlemek için iki buçuk yıl harcadı ve toplamda 3,2 milyon resim oluştu. . Bu işçiler dünyanın 167 ülkesinden geliyor ve çoğunlukla işgücü maliyetlerinin düşük olduğu bölgelerde bulunuyorlar.

Time dergisi tarafından yapılan bir araştırma, ChatGPT veri setindeki şiddeti, cinsiyetçiliği ve ırkçılığı azaltmak için OpenAI'nin saatte 2 dolardan az kazanan Kenyalı işçileri kullandığını ortaya çıkardı. "Bloomberg", Google'ın AI sohbet robotu Bard'ın, Bard'ın yanıtlarını incelemek ve açıklama eklemek için yalnızca 3 dakikası olan binlerce sözleşmeli çalışan tarafından eğitildiğini bildirdi.

Geçmişte uzun bir süre boyunca veri açıklaması, dil ve görüntü tanıma için yüksek bilişsel gereksinimler gerektirmiyordu. Büyük modeller çağında, veri açıklamaları görüntülerden daha zorlu ve dikey olan, belirli alanlarda mesleki bilgi ve akıcı dil becerileri gerektiren dile kaydı.

Ancak sıradan veri açıklayıcıları için bu hala sürekli tekrarlanan düşük teknolojili bir iştir.

Prestijli okullardan büyük fabrikalara staj yapmak için giren bu "aldatılan" öğrenciler gibi, yaptıkları işin ne amaçla yapıldığını ve değerinin ne olduğunu net bir şekilde açıklayamıyorlar. "Büyük modelleri eğitmek" için genellikle bu konuda yalnızca belirsiz bir anlayışa sahiptirler.

Chen Xi ve Yang Xiaoyun tarafından temsil edilen yapay zeka düzenleme stajyerleri, büyük modelleri eğitme ihtiyacından doğdu. Bu popüler büyük ölçekli modeller stajyerlerin merakla ve özlemle girmelerine olanak tanırken aynı zamanda arkalarındaki gerçek kaosu ve değersizliği de hissediyorlar.

1. Üniversite öğrencileri büyük model veri açıklamalarına akın ettiğinde

**İnsanlar genellikle veri açıklayıcılarının üçüncü ve dördüncü kademe şehirlerde yaşayan düşük eğitimli ve yaşlı insanlardan oluşan bir grup olduğunu düşünüyor. Aslında daha önce yurt içi veri yorumcularının mevcut durumu da buydu. **

İnsan Kaynakları ve Sosyal Güvenlik Bakanlığı'nın 2021 yılında yayınladığı "Yapay Zeka Eğiticileri için Ulusal Mesleki Beceri Standartları"na göre yapay zeka eğitmenlerinin genel eğitim düzeyi ortaokul mezuniyeti (veya dengi eğitim) şeklindedir. Hebei, Henan, Shandong ve Shanxi gibi geleneksel emek yoğun işletmelerin bulunduğu bölgelere veya hatta veri açıklamalarının yoksulluğun azaltılmasına yönelik bir pilot proje olduğu daha uzak dağlık bölgelere dağılmış olabilirler.

**Ancak büyük modellerin ortaya çıkmasıyla birlikte değişiklikler zaten meydana geldi. **

Yang Xiaoyun'u sıkan şey aslında büyük modelleri eğitmek için yapılan veri açıklama çalışmasıdır.

Basit bir eğitim ve değerlendirmenin ardından Yang Xiaoyun, metin düzenleme ekibine atandı. **Günlük işi soru bankasındaki soruları yanıtlamaktır. Amacı, cevapları açıklayıcılar tarafından manuel olarak yazarak büyük modellerin eğitim sürecini optimize etmektir. **

**Bir soruyu yanıtlama adımları sıkı bir şekilde kontrol edilir. **Örnek olarak "Genshin Impact" oyununu ele alalım. "Yelan'ın kutsal emaneti nedir?" sorusunu alırsanız, Yang Xiaoyun'un cevabı birkaç paragrafa bölmesi gerekir: Öncelikle Yelan nedir? İkincisi kutsal emanetler nelerdir? Yelan'ın kutsal emaneti sonunda neyle eşleşiyor?

Belirlenen arama motoru hakkında bilgi toplayın, yanıtın düzenlemesini tamamlayın ve son olarak Markdown biçiminde gönderin.

Basit ve cevaplanması kolay soruların yanı sıra Yang Xiaoyun, zamanının çoğunu ekonomik bölge, yasal bölge vb. gibi tamamen yabancı olduğu profesyonel alanlarda geçirdi.

Açıkçası, bu önceki veri açıklama çalışmalarından tamamen farklıdır. **

Büyük modellerin ortaya çıkmasından önce, veri açıklama senaryoları genellikle yüzlerce kişinin bulunduğu, her kişinin bir bilgisayarının olduğu ve yalnızca fare ve klavye sesinin olduğu fabrikalardı. Ve 8 saatlik çalışma günleri boyunca yalnızca tek bir basit ve tekrarlayan şey yaparlar: motorlu taşıtları, motorsuz taşıtları, yayaları ve trafik ışıklarını (hedef tespiti) farklı resimlerle çerçevelemek; veya bir paragrafın konusunun altını çizmek, Yüklem, nesne (anlamsal bölümleme).

Resimler ve videolar için bu çizim kutuları ve metnin semantik bölümlenmesinin tümü mevcut verilerin işlenmesidir ve veri açıklayıcılarının kendilerinin "yaratıcı sonuçlar" vermeleri gerekmez. Ancak büyük modellerin veri açıklamaları için durum böyle değildir. Veri açıklayıcılarının mevcut verileri işlemenin yanı sıra soruları yanıtlamaları ve doğru çıkarımlarda bulunmaları da gerekir. **

Guanyan Tianxia Veri Merkezi tarafından 2023 yılında yayınlanan "Çin Veri Açıklama Endüstrisinin Mevcut Durumuna İlişkin Derinlemesine Analiz ve Yatırım Trendi Araştırma Raporu (2023-2030)"na göre, ChatGPT'nin yayınlanmasından önce, yapay zeka eğitim verileri açıklaması temel olarak temel alınıyordu. ses, bilgisayarlı görme ve doğal dil konularında İşleme talebi (NLP) %15'ten azdır.

ChatGPT sohbet robotu, AIGC'nin olağanüstü bir uygulaması haline geldikçe, duygusal muhakeme, anlama yeteneği ve hatta muhakeme yeteneği gibi yüksek kaliteli metin açıklama görevlerine yönelik artan bir talep var.

"(Büyük model) projelerin karmaşıklığı eskisinden daha yüksek hale geldi ve personel gereksinimleri nispeten farklı." Stardust Veri Ürünleri Departmanından sorumlu kişi "Jiazi Işık Yılı"na, "Kısmi görsel bilgilerin tanınması ve açıklanması" dedi. Daha fazla fiziksel çalışma anlamına gelen otonom sürüş için çalışanlara biraz eğitim verilmesi gerekiyor. Kutuları çekmeyi, kısayol tuşlarını kullanmayı ve bazı becerilerde ustalaşmayı öğrendikten sonra hızla yetkin hale gelebilirler. ** Ancak büyük modellerin ihtiyaç duyduğu şey eksiksiz ve Modelin oluşturulmasını ve geliştirilmesini desteklemek için dört veri katmanı gerektiren, çeşitlendirilmiş ve her şeyi kapsayan bir veri sistemi olan yapılandırılmış.Bu veriler, ön eğitim, SFT (Denetimli İnce Ayar), RLHF (İnsan geri bildirimine dayalı Takviyeli Öğrenme, İnsan Geri Bildiriminden Güçlendirme Öğrenimi), özelleştirilmiş dağıtım vb. Farklı endüstrilerin ihtiyaçlarına yanıt olarak, COSMO büyük model veri piramidi çözümünü piyasaya sürdük; büyük model veri açıklayıcıları için COSMO verilerini etiketlemek çoktan seçmeli bir soru değildir veya basit mi? Okuduğunu anlama ve metin düzenleme yerine soru-cevap oluşturmanıza ve içerik oluşturmanıza olanak tanır.**”

Bulut ölçüm verilerinin genel müdürü Jia Yuhang, en büyük modelin eğitim verilerini üç aşamaya ayırıyor: temel veriler, sahne verileri ve sahne verileri optimizasyonu. **Bu üç aşamayı öğrenme sürecine benzetmiştir.

"Kutu çizimi gibi temel veri açıklamaları nispeten basittir ve öğrenir öğrenmez bilgisayar kullanımında uzmanlaşabilirsiniz; sahne verileri, belirli bağlantılarda hedeflenen araştırma ve geliştirme için gerekli olan belirli bir alandaki verilerdir ve konuyla ilgili öğrenmeniz gerekir. Ek açıklama elde etmek için alan bilgisi gereksinimleri; üçüncü aşamada, kullanıma sunma sırasında sürekli yineleme ve optimizasyona dayalı olarak, beceri ve alan bilgisi gereksinimleri daha rafine hale gelecektir." Jia Yuhang dedi.

Bu tür iş talebi altında, her geçen gün daha fazla büyük model firmanın veri açıklayıcılarına olan talebi ortaya çıkıyor, bu da geçmişte düşük eğitimliden yüksek eğitimliye doğru değişti ve bu talep giderek artıyor.

Yerli ana akım iş arama platformlarında, büyük modeller için birçok veri açıklaması pozisyonu şu anda işe alınıyor. Bu pozisyonlar, açıklayıcıların lisans veya üzeri diplomaya sahip olmasını gerektirir. Baidu, daha önce Haikou'daki büyük model veri açıklama tabanının yüzlerce veri açıklayıcıya sahip olduğunu ve lisans oranının %100'e ulaştığını belirtmişti.

Resim kaynağı: BOSS Zhipin ve Maimai

2. Sert büyük model veri açıklaması

Genel olarak konuşursak, büyük bir modelin eğitimi aşağıdaki üç adımı gerektirir:

Kaynak: OpenAI "ChatGPT'ye Giriş"

Bu tekrarlayan görevlerin arkasında aslında "İnsan Geri Bildiriminden Güçlendirilmiş Öğrenme" teknolojisini hayata geçirmek var. GPT-3.5'in en büyük gelişmesi bundan geliyor. Anahtar insan (Etiketleyici) katılımı, yani bu veri açıklayıcılardır.

RLHF'nin yukarıdaki üç adımından birinci ve ikinci adım nispeten daha önemlidir çünkü ödül modelini eğitmek için gerekli veri kalitesi düzeyini belirlerler. Bu iki adımdaki veri açıklaması stajyerleri de iki temel gruba ayrılır: "düzenleme grubu" ve "sıralama grubu". **

Düzenleme ekibinin görevi soru bankasındaki soruları yanıtlamak; sıralama ekibinin görevi ise oluşturulan yanıtları (model ve yapay olarak oluşturulan yanıtlar dahil) sıralamaktır.

Ding Xiaoyu Temmuz ayında metin editörüne katıldı. Aynı zamanda İngilizce uzmanı olan Ding Xiaoyu ve Chen Xi, profesyonel seviyelerini geliştirebilecek bir çeviri işi için sabırsızlanıyorlar, ancak işinin aslında İngilizce ile ilgisi yok.

Yang Xiaoyun'un Şubat ayında staj yaptığı zamana kıyasla, Ding Xiaoyu'nun karşı karşıya olduğu metin düzenleme ekibi daha alt bölümlere ayrılmış durumda. Her stajyer eğlence, fizik, politika vb. gibi dikey bir yön seçmek zorunda ve cevap gereksinimleri daha da arttı. detaylı.

Antik şiirle ilgili çoktan seçmeli bir soru için sadece cevabı açıklamamalı, önce soru türünü, ardından şiirin çevirisini ve arka planını tanıtmalı ve son olarak her seçeneğin doğru olup olmadığına dair bir analiz yapmalısınız. mesele 14'ünde OpenAI tarafından yayınlanan Mart GPT-4'ü karşılaştırmak.

"Cevabına atıfta bulunmalısınız, ancak bu onun cevabıyla aynı olamaz ve cevabından daha iyi olmalı." Ding Xiaoyu çaresizdi.

Chenxi, farklı yanıtların artılarını ve eksilerini belirlemek için her gün sorulara verilen birden fazla yanıtın sıralandığı sıralama grubuna atandı.

Sıralama sonuçlarının açıkça ölçülmesi gerekir. Yanıtları kullanışlılık, özgünlük, alaka düzeyi, güvenlik vb. gibi farklı açılardan derecelendirmesi ve nedenlerini yazması gerekiyor. Bu, makinelerin insanların beklediği yanıtlara sonsuz derecede yaklaşmasını sağlamak içindir.

**Chen Xi bazen birkaç kötü cevap arasında seçim yapmak zorunda kaldığını fark etti. Tüm yanıtlar kötü olunca kendisinden daha iyi bir yanıt yazması istendi. **

Yazı işleri ekibinden Ding Xiaoyu daha da zorlu gereksinimlerle karşı karşıya. Her yanıt, teslim edilmeye hak kazanılmadan önce iki tur incelemeden geçirilecektir. İlki ekip liderinden geldi: "Birkaç soruyu tamamladıktan sonra ekip lideri değişikliklerden memnun kalana kadar bizde hataları bulmak için bir inceleme toplantısı yapacağız." İkincisi genel merkezden geldi ama öyle değil Genel merkez incelemeyi geçene kadar.

Bir keresinde biçimlendirme hataları nedeniyle Ding Xiaoyu'nun yanıtlarının çoğunun tamamen yanlış olduğu değerlendirilmişti. "Sırayı ayarlamak yeterli olabilir ama yanıtınızın içeriğinin yanlış olması ya da formatta bir sorun olması umurumda değil. Sadece her şey yanlış."

Ding Xiaoyu'yu daha da perişan eden şey, ekip liderinin doğrudan bu kadar çok hata yapması halinde görevden alınabileceğini söylemesiydi.

**Büyük modeller için veri açıklaması kesinlikle sonuç odaklı bir iştir. Sürece ne kadar çaba harcarsanız harcayın, sonuçlar iyi olmadığı sürece önceki tüm çabalar tamamen boşa çıkacaktır. **

Ancak sorun şu ki, ister düzenleme grubunun yanıt çıktısı olsun, isterse yanıtların sıralama grubu tarafından sıralanması olsun, bu oldukça öznel bir görevdir. Veri açıklaması stajyerlerinin bir cevabın iyi mi yoksa kötü mü olduğunu kontrol etmesi zordur; farklı stajyerler genellikle aynı soruya farklı cevaplar verir.

**Bu sorunu çözmek için büyük model veri açıklama ekibinin her gün gerçekleştirmesi gereken görevlerden biri, şirket içinde "Yarış Toplantısı" olarak bilinen bir "inceleme toplantısı" düzenlemektir. yanıt standartları ve yanıtları uyumlu hale getirin. Herkes anlar ve tüm öneriler uyumlu hale gelir. **

Ancak gerçek uyumu yakalamak oldukça zordur. Bu tıpkı üniversiteye giriş sınavı notu gibidir, farklı kişilere aynı sorular sorulacaktır, eğer puanlar tutarsızsa, birleşik bir puan elde edilene kadar sürekli olarak ayarlanmalıdır.

Chen Xi'nin izlenimine göre her gün toplantılarda iki veya üç saat harcanıyor. Toplantının sonunda, azınlığın çoğunluğa itaat ettiği en basit ve en kaba çözüme çoğunlukla son şekli veriliyor ve bunu "değer olmadan değer yaratmak" olarak nitelendirdi.

Bununla birlikte, cevap standartlarını "yapay olarak" hizalamak için herkesin bir arada oturmasıyla karşılaştırıldığında, daha sorunlu bir sorun şudur: ** standartlar yapay olarak bir kez ve tamamen hizalanmaz, model çıktısından gelen geri bildirimlere göre sürekli olarak ayarlanmalıdır. **

Yang Xiaoyun'un her gün işe gittiğinde ilk işi, cevabın çerçevesinden paragrafların bölünmesine, arama motorlarının seçimine, formatlara kadar yeni bir açıklama standardının o gün yayınlanıp yayınlanmadığını doğrulaması gerekiyor. boşluklar ve noktalama işaretleri. Ancak ** standartlar sürekli değişiyor. **Beslenen verilerin makinede çalışmadığı tespit edildiğinde standartların yeniden formüle edilmesi gerekir ve tüm sorunlar tersine çevrilerek yeniden yazılacaktır.

"Dokuma gibi. Yatay mı yoksa dikey damar mı örmeliyiz? Susamlı düğme mi yoksa buğday düğme mi örmeliyiz? Ama hangi düğme olursa olsun sadece programa yerleştirilip çalıştırılabilir. Eğer çalıştıramadığını görürseniz bir yöntemi değiştirmeniz gerekiyor. "Yang Xiaoyun, "Jiazi Guangnian" a açıkladı. Bu metaforun arkasında, ödül modelinin eğitim sürecinde veri açıklamasıyla verilen yanıtın beklenen etkiyi sağlayamaması durumunda standardın ayarlanması gerektiği yatmaktadır.

Standartların değişmesi, son uyum toplantısının sonucunun geçersiz olması ve standartların yeniden uyumlaştırılması gerektiği anlamına gelmektedir.

"Gereksiz ve verimli, her gün çok verimli bir şekilde saçma sapan konuşuyor." Yang Xiaoyun şikayet etti.

3. Büyük fabrikalar tarafından sömürülen yüksek başarılı öğrenciler

Bir yanda her gün yapılan sonsuz toplantılar var, diğer yanda ise her an değişebilecek veri standartları var. Büyük fabrikaların parlak ve parlak işaretlerinden etkilenen Chen Xi gibi pek çok başarılı öğrenci, iç çekişmeler nedeniyle başlangıçtaki coşkularını yitirdi ve sonunda ayrılmayı seçti.

**Bu stajyerlerin ortak özelliği eğitimlerinin yüksek olmasıdır. İşe alım şartı lisans derecesi veya üzeridir, ancak birçok stajyerin yüksek lisans derecesi vardır. **

Birçoğu Çin'deki ve hatta dünyadaki en iyi üniversitelerde eğitim görüyor. Yang Xiaoyun, Pekin Üniversitesi ve Londra Imperial College'dan öğrenciler tarafından kuşatılmıştı ve Chenxi'nin iş istasyonunun yanındaki stajyerler, Nankai Üniversitesi ve Çin Elektronik Bilimi ve Teknolojisi Üniversitesi'ndendi; Ding Xiaoyu, eğitim sırasında stajyerlerin akademik nitelikleri hakkında açıkça bilgilendirildi. tarandı. "O (görüşmeyi yapan kişi), bizim gibi yüksek eğitimli üniversite öğrencilerinin her şeyi hızlı bir şekilde öğrenip kolayca başlayabileceklerini söyledi."

**Bir grup akıllı insanı yönetmek asla kolay değildir. Çünkü bu kişiler tekrarlanan eylemlerden yaptıkları işin özünü kolaylıkla keşfedip, sonrasında bu işin gelecekleri için gerçekten değerli olup olmadığını sorgulayabiliyorlar. **

Ding Xiaoyu, çalışmasını "çok az değere sahip ve içsel olarak yorucu" olarak nitelendirdi.

Her sabah iş istasyonuna geldiğinde, ekranı ve not defterini açıyor ve ekrana cevapları yazarken kuralları kontrol etmek için not defterini kullanıyor.Ding Xiaoyu, ayrıntılı kural ve prosedürlerin onun yavaş yavaş alanı kaybetmesine neden olduğunu açıkça hissedebiliyor. Düşünmeye başlar ve Disiplin bir makineye dönüşür. "Bir şey öğrenmezseniz ve başka şeyler öğrenecek enerjiniz yoksa, yavaş yavaş öğrenme motivasyonunuzu ve başka şeyler yapma hevesinizi kaybedersiniz."

Ding Xiaoyu aynı zamanda duyarsızlaştırma ekibinde de çalıştı ancak asıl çalışmanın "duyarsızlaştırma" kelimesiyle temel bir bağlantısı yok. Aynı soruları yanıtlamak için yalnızca farklı sohbet robotlarını ve şirketin dahili beta ürünlerini kullanıyor ve yanıtları karşılaştırıp puanlıyor. Sadece birkaç gün çalıştıktan sonra metin düzeltme ekibine transfer edildi.Yapması gereken, PDF formatını Word formatına dönüştürürken oluşan başta yazım hataları ve noktalama işaretleri olmak üzere hataları düzeltmekti. "Neredeyse arıza" olarak tanımladığı bir süreçte, her gün 25 sayfalık tıbbi hata düzeltme görevlerini tamamladı.

Görüşme sürecinde görüşmeyi yapan kişi Ding Xiaoyu'ya sıkıcı ve tekrarlayan bir işi kabul edip edemeyeceğini sordu. "O zamanki cevabım kabul edilebilir olduğu yönündeydi. Tüm adayların cevaplarının kabul edilebilir olması gerektiğini düşünüyorum." Çünkü lisans eğitiminde yalnızca bir staj deneyimi vardı ve daha fazla staj biriktirme ve büyük şirketlerde deneyimleme beklentisiyle, hatta Ding Xiaoyu yine de şirkete katılmayı seçti.

Sadece iki ay içinde Ding Xiaoyu, aynı dönemdeki stajyerler arasında sonuna kadar direnen kişi olarak görüldü. Pek çok stajyerin büyük hırslarla gelip başlarını eğik bir şekilde ayrıldığına tanık oldu.

Antropolog David Graeber, saçma sapan işleri hiçbir anlamı ve amacı olmayan işler olarak tanımlıyor.Makine otomasyonu tarafından ortadan kaldırılması gereken işler, vitrin süslemek, üstleri memnun etmek ve sistemdeki boşlukları doldurmak nedeniyle varlığını sürdürüyor. Veri açıklaması, genellikle makinelerin yerini aldığı düşünülen ama yine de insanların yapmasını gerektiren saçma işlerin bir varyasyonu gibidir.

Yapay zeka çılgınlığı ortaya çıktığında, insanlar genellikle yapay zekanın tekrarlayan ve sıkıcı görevleri tamamlamada insanların yerini alabileceği, böylece insanların daha yaratıcı ve tatmin edici işler peşinde koşmak için daha fazla zaman ve enerjiye sahip olabileceği beklentisini duyarlar.

Ancak yapay zekanın, geçmişteki telefon ve daktilo gibi emekten tasarruf sağlayan teknolojiler gibi, bilgi aktarımı ve el yazısı sıkıntısını aşması, aynı zamanda yeni yapay zekanın gerçekleştirmesini gerektiren büyük miktarda iletişim ve evrak işi yaratması da mümkündür. Yönetim, ön büro, katip gibi. Yapay zeka insanların yerini alamayabilir ancak daha sıkıcı, sıkıcı ve izole edici işler yaratacaktır.

**Yaptıkları işin değerinin takdir edilememesinin yanı sıra, aldıkları maaş bu başarılı öğrencilerin "fiyat takdiri" elde etmelerine izin vermeyebilir. **

"Jiazi Guangnian"a göre bu veriler stajyer maaşlarının yüksek olmadığını gösteriyor. Birinci kademe bir şehirde bulunuyorlarsa, yapay zeka stajyerlerinin çoğunun maaşı, oda ödeneği ve ücretsiz kantinle birlikte 150 yuan/gündür; ikinci kademe bir şehirde bulunuyorlarsa, yalnızca 100 yuan/gün kalır, ve oda ödeneği de üçte bir oranında azaltılır 2. 20 yuan tutarındaki yemek takviyesi, bedava yemeğin yerine geçer.

Ding Xiaoyu'nun ikinci kademe bir şehirdeki stajı gibi, ofis şehrin merkezinde yer aldığından ve bölge refah içinde olduğundan, paket yemek kolaylıkla 20 yuan'lik yemek sübvansiyonu standardını aşabilir ve temel olarak staj maaşının geri ödenmesini gerektirir.

Çoğu büyük modellerin yetiştirilmesinde temel anlatıcı olduklarından, meslekleriyle ilgisi olmayan pozisyonlara aynı şekilde atanabilirler, ayrıca herhangi bir zamanda farklı departmanlara transfer edilebilirler ve kısa bir süre sonra hızlı bir şekilde işe başlamaları gerekebilir. eğitim.

**Ding Xiaoyu onları büyük fabrikaların istismar ettiği stajyer grupları olarak tanımladı. **

Chen Xi, beklentiler ile fiili iş arasındaki uçurumu hisseden tek kişinin kendisi olmadığını açıkça hissetti. "Açıkçası bu işin bana uygun olmadığını hissediyorum. Bazen sohbet ederken diğer stajyerlerin 985 lisans diplomasına sahip olabileceğini, bazılarının yurt dışından yüksek lisansla döndüğünü görüyorum. Aralarındaki fark da çok fazla. , çok büyük."

Yang Xiaoyun bunu daha doğrudan ifade etti: "Bu uygunsuz bir metafor olabilir. Annem liseye gitti, bu yüzden bu işi yapabilir."

**4. "Bizler aslında montaj hattı işçileriyiz" **

Aslında **, bazı düşük teknolojili işler yapmak ve son derece düşük maaş maliyetleri ödemek için en iyi öğrencileri işe alıyor. Bu aynı zamanda büyük model veri açıklamasının geliştirilmesinin ilk aşamalarındaki pazar kaosunun nesnel bir yansımasıdır. **Veri açıklaması şirketleri için, büyük modellerin mevcut geliştirme aşamasında, veri açıklaması henüz birleşik bir standart oluşturmamıştır ve açıklamacılar için özel bir gereklilik yoktur.

Stardust Veri Ürünleri Departmanından sorumlu kişi şunları söyledi: "Büyük modelin temel yetenekleri tamamlandıkça ve geliştirme süreci daha dikey ve karmaşık hale gelmeye başladıkça, görevler yavaş yavaş değişecek, araçların ve personelin güncellenmesi ve yinelenmesi gerekecek. buna göre.Ancak, Büyük modeller hala geliştirmenin erken aşamalarındadır ve ek açıklamacılara yönelik pazar talebi göreve bağlı olarak değişmektedir.CV (Bilgisayarlı Görü) projeleriyle karşılaştırıldığında, NLP (Doğal Dil İşleme) açıklayıcılarının anlama yeteneği açısından daha yüksek gereksinimleri vardır, mesleki terminoloji ve alan bilgisi gereksinimleri daha yüksek olup, doğru ve güvenilir bir külliyatın sağlanması gerekmektedir.”

Sorumlu kişi, büyük modellerin veri açıklamalarında yarattığı sorunların daha çok üst düzey tasarıma yansıdığını söyledi. Her veri açıklama görevi için müşterinin uygulama senaryosu taleplerinin nasıl anlaşılacağı, veri seçimi, veri dağıtım tasarımı ve boru hattı tasarımı gibi verimli ve düşük maliyetle uygulanabilecek bir dizi çözümün nasıl tasarlanacağı ve verimliliğin ve yeteneklerin nasıl geliştirileceği. platform araçlarının çeşitliliği anahtardır. Daha büyük bir zorluk.

Bu, dikey alan uzmanlarının kıdemli açıklayıcılar olarak katılımına, çözüm tasarımına alan uzmanlığı ve deneyiminin dahil edilmesine ve hatta veri kalitesi denetiminin yineleme sürecine katılmaya dayanır.

Veri çözümü sağlayıcısı Besai Technology'nin operasyon başkanı Zhang Ziqian, açık bir şekilde, şu anda büyük ölçekli modellerin eğitimi açısından, temel açıklayıcılar ile daha önce çerçeve seçimiyle uğraşan açıklayıcılar arasında iş zorluğu ve saatlik ücretler açısından belirgin bir fark olmadığını söyledi. . **Büyük modellerin ince ayarını yaparken ve müşteriler için dikey alanlarda çözümler üretirken en büyük sorun, yüksek kaliteli veri setlerinin nasıl oluşturulacağıdır ve bu, BT, tıp ve finans gibi profesyonel alanlardaki etiketleme uzmanlarını gerektirir. Kıtlık.

OpenAI, düzinelerce doktora öğrencisine veri açıklamasının rehberliği ve gözden geçirilmesi için yatırım yaptı ve temel veri açıklamalarını Afrika ve Hindistan gibi düşük gelirli bölgelere dağılmış veri açıklaması şirketlerine dış kaynak olarak sağladı. **Gerçekten fark yaratanlar, yalnızca küçük bir oranı açıklayan kıdemli yorumculardır. **

Baidu'nun Pekin'deki genel merkezinde ve Haikou veri açıklama tabanında işe alınan açıklayıcıların iş tanımlarını karşılaştırırsak, onların aynı zamanda büyük modelleri eğitmek için de olduklarını görebiliriz.İlki rehberlik, eğitim ve incelemeden sorumlu kıdemli bir açıklayıcı iken ikincisi ise temel bir veri açıklayıcısı. İkisinin maaş düzeyleri oldukça farklı.

Resim kaynağı: BOSS doğrudan işe alım

**Başka bir deyişle, bu üst düzey kıdemli yorumcular aslında büyük model eğitimlerinin kilit yetenekleridir, yaptıkları işler daha teknik ve değerlidir, ayrıca işçilik maliyeti de daha yüksektir. **

**Aksine, prestijli okullardan gelen bu stajyerler büyük modelleri eğitmek için gelseler bile, bu aşamada aslında geçmişteki veri açıklayıcılarla aynıdırlar. **

**Stajyerler genellikle büyük bir fabrikada değil, Internet Foxconn'da çalıştıklarını ve montaj hattında işçi olduklarını söyleyerek kendi aralarında şakalaşırlar. Ne yaptıkları işin sonucunun nereye varacağını göremiyorlar, ne de çevrelerindeki insanlarla yatay bir anlam zinciri oluşturabiliyorlar. **

Bu "Internet Foxconn" şakası sadece bu stajyerlerin çalışmalarına değil, aynı zamanda fabrika montaj hattıyla neredeyse aynı olan iş yükü ve yönetim modeline de gönderme yapıyor.

Stajyerlerin her gün tamamlaması gereken iş miktarı, insan verimliliği açısından belirlenmiş bir kırmızı çizgiye sahiptir. Yang Xiaoyun'un günde 32 soruyu işaretlemesi gerekiyor, eğer kırmızı çizgi karşılanmazsa, nedenlerini bildirmesi veya bitirmek için fazla mesai yapması gerekiyor. Çalışmanın tamamlanmasının ön şartı Laz Derneği'nin sürekli değişen standartları ve sürekli bilgi toplanmasıdır.

Model eğitimini olabildiğince hızlı tamamlamak için açıklama ekibi yüksek baskı yönetimiyle karşı karşıyadır. Yang Xiaoyun'un grubunun çalışma saatleri içinde konuşmasına izin verilmiyor. Birkaç küçük konuşmanın bedeli iş yüküne eklenebilir. Eğer işi tamamlayamazsanız, grupta çılgınca hatırlatılacaksınız. Hasta olsanız ve sorsanız bile İzin için, normal çalışanınızın acil bir çağrısıyla kesintiye uğrayabilirsiniz.

Ayrıca verilerin sızdırılmamasını sağlamak amacıyla, veri açıklamalarının gruplar arasında paylaşılması açıkça yasaktır. Farklı gruplardan stajyerler birbirine yakın yerleştirilse bile işin içeriğini tartışamıyorlar. Bu stajyerlerin hiçbiri şirketin veri etiketlemesinde kaç tane alt gruba ayrılmış grup olduğunu ve kaç tane stajyer olduğunu bilmiyor. Bir grupta her katta 10, 40, 50, 60 veya yüzlerce kişi bulunabilir.

Yüksek basınçlı insan verimliliği kırmızı çizgisi altında Yang Xiaoyun, yasak sorularla karşılaştığında yalnızca geçici olarak "mutlu" olabilir. Çünkü şiddet, pornografi ve kan içeren içeriklerin doğrudan kaldırılması gerekir ancak yine de kişisel çalışma öğeleri arasında sayılabilir. "Bu, kötü bir vidayı sıkmaya eşdeğerdir. Yalnızca vidayı sıkmak zorunda kalmadığınız için mutlu olursunuz." Sabah iş bölümü sırasında stajyerler yasaklı maddeleri almak için birbirleriyle bile yarıştı.

Yang Xiaoyun işinden erken ayrıldıktan sonra sık sık akşam saat 10'da, hatta saat 12'de şirkette toplantı yapan stajyerlerin anlarını ziyaret etti. Ağlayarak ona sesli mesaj gönderen stajyerler de var ama ev kiraladıkları ve gidecek yolları olmadığı için ısrar edemezlerse tüm kiranın boşa gitmesi anlamına geliyor.

5. Burada asla insan sıkıntısı olmayacak

Ama sebat etmeyenler insanlar değil.

Li Zhuxi, veri açıklaması deneyimi olan nadir stajyerlerden biridir. Bilişsel dilbilim eğitimi aldı ve beyin-bilgisayar arayüzlerinin kurulması da dahil olmak üzere dil bilimini nöroloji ile birleştirme, beyin görüntülemeyi gözlemleme yönünün yapay zeka ile belli bir bağlantısı olduğunu açıkladı.

Bu büyük fabrikaya gelmeden önce başka bir büyük fabrikada büyük dil modelleri için veri açıklamaları yapmıştı ve bu da ChatGPT'nin piyasaya sürülmesinden önceydi. Li Zhuxi'nin izlenimine göre, ChatGPT çemberden çıktıktan sonra benzer veri açıklaması stajları yağmurdan sonra mantar gibi ortaya çıktı.

Her ne kadar "nispeten mekanik ve çok da zor olmayan" bir iş olarak tanımlasa da üç aylık stajı başarıyla tamamladı. Li Zhuxi, deneyime daha fazla önem verdiğini belirterek, "Bu işin ilgi çekici olmasını beklemiyorum. Bunu deneyimlemek yine de güzel. Sadece büyük bir fabrikada staj deneyimi kazanmakla kalmıyorum, aynı zamanda buradaki benzersiz kurumsal kültürü de deneyimliyorum. "

Shuangfei'deki bir okuldan liberal sanatlar öğrencisi olan Zhao Shuo için, büyük bir fabrikada yapay zeka düzenleme stajyerliği pozisyonu onun üst düzey tercihi oldu.

Yaz stajı ararken aslında bir araştırma enstitüsünde operasyonel bir pozisyonu tercih etti. Araştırma enstitüsü bir kamu kurumu ve bir kadroya sahip, bu da Zhao Shuo için çok çekiciydi. "O zamanlar özellikle bu stajı sabırsızlıkla bekliyordum. bana verebileceği geri bildirimler." Ancak sonuçta enstitü, yüksek lisans birinci sınıf öğrencisi olan Zhao Shuo'yu seçmedi ve daha üst sınıftaki bir öğrenciyi işe aldı.

Daha "kıvırcık" insanlar var.

Zhao Shuo'nun gözünde bazı stajyerler, düzenli çalışan olma fırsatlarını yakalamak için özellikle çok çalışacak ve daha fazla görev üstlenecek. Ciddi bir tutum ve çalışkan bir tutum, tam zamanlı çalışanların beğenisini kazanacaktır: "Liderler genellikle onlarla belirli görüş alışverişinde bulunur ve onlara stajyerleri yönetmeleri için bazı yönetim yetkileri de verirler."

Hatta şirket her hafta üstün performansa sahip stajyerleri seçiyor ve takdir amacıyla onların fotoğraflarını duvara asıyor, ancak zorunlu olarak bir bonus teşviki yok ve Zhao Shuo'nun iş kolunda da böyle bir teşvik yok.

Yunmei Data'nın genel müdürü Jia Yuhang, Jiaziguangnian'a veri açıklayıcıları için iki ana terfi yolu olduğunu söyledi: biri uzman yolu. Belirli dikey alanlarda ilgili becerilerde uzmanlaştıktan sonra kıdemsiz açıklayıcılar yavaş yavaş kıdemli açıklama uzmanları haline gelebilir. yönetim rotası, projenin yöneticisi olma.

Ancak Zhao Shuo kalmayı tercih etmedi. Bir yıllık yüksek lisans eğitiminin ardından Zhao Shuo, gelecekteki çalışmalara ilişkin beklentilerinin düştüğünü açıkça fark etti. Genel ortamda artan değişiklikleri hisseden ve mezun olduktan sonra çalışmayı seçen öğrencilerin memnuniyetsizliğini gözlemleyen Zhao Shuo'nun daha önce beklediği "üst düzey, sofistike" ve "yeri doldurulamaz" işlerin yerini yavaş yavaş istikrarlı bir iş aldı. Bir liberal sanatlar öğrencisi olarak, yeri doldurulamaz becerilere henüz hakim olmadığı için endişeli ve kurum içinde yönetilen bir iş bulmayı umuyor.

Stajyerler sohbet ederken, yaptıkları işin yakında makinelerle değiştirilebileceğini ve artık manuel veri beslemeye ihtiyaç kalmayacağını söyleyerek birbirlerine yakınıyordu.

Cloud Measurement Data'nın genel müdürü Jia Yuhang için benzer endişeler mevcut değil. Algoritmaların seri üretimi ve veri kapalı döngü yeteneklerinin geliştirilmesiyle birlikte, genel etiketli veri miktarı ve manuel veri etiketleme miktarı her geçen yıl artmaktadır. Geçmişte bu %100 manuel açıklamaydı, ancak artık belirli bir oranda manuel açıklama, otomatik açıklama ve manuel doğrulama var. Gelecekte otomatik etiketlemenin oranı giderek artabilir. Ancak manuel açıklama oranı azalsa da yapay zeka sektörünün giderek gelişmesi ve veri miktarının artmasıyla birlikte manuel açıklama miktarı artmaya devam edecektir.

Yang Xiaoyun, işinden erken ayrıldıktan sonra hoşuna giden bir oyun planlama stajı buldu. Oradaki çalışma atmosferi rahattı ve kendisini daha tatmin edici hissetti. Yapay zeka düzenleme onun için "şanssız" bir staj deneyimiydi. Ding Xiaoyu için bu bir hayal kırıklığı süreciydi. Dört gözle beklediği büyük bir fabrikada staja gitse bile yine de sayısız sıkıcı işle karşı karşıya kalacaktı. Bunun yeteneklerinin güçlü olmamasından kaynaklanabileceğini hissetti. ya da deneyim için çok az fırsat vardı.

Ama orada hiçbir zaman insan sıkıntısı olmayacak.

Yang Xiaoyun, o gittikten sonra ekibin bir ay içinde onlarca kişiden yüzlerce kişiye ulaştığını duydu. Ding Xiaoyu, her 10 günde bir, her biri yirmi veya otuz kişiden oluşan yeni bir stajyer grubunun geleceğini keşfetti.

"Küfür edip dünyaya işinizin ne kadar kötü olduğunu anlatabilirsiniz, ancak yerinizi doldurmak için sürekli yeni insanlar gelecektir."

*Röportaj yapılan kişilerin talebi üzerine makaledeki Chen Xi, Yang Xiaoyun, Ding Xiaoyu, Li Zhuxi ve Zhao Shuo karakterleri takma adlardır.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)