Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
Büyük bir İnternet şirketinde veri açıklayıcı olarak çalışan Xiaoyan, çoğu zaman şirkette kendini yalnız hissediyor.
Xiaoyan'ın iş istasyonu, ürün yöneticileri ve programcıların yanındadır. Onlar da aynı avantajlardan yararlanabilirler: aynı iş rozeti, Apple bilgisayarlar; istedikleri zaman spor salonuna gidebilir veya uyumak için uzay kapsülüne gidebilirler.
Ancak Xiaoyan, bir veri açıklayıcısı olarak kendisinin ve diğer meslektaşlarının "iki dünyaya" ait olduğunu fark edebilir.
Bir ekip olmamıza rağmen, her gün sabah toplantısında kimse yorumcuyu aramayacak, bu yüzden Xiaoyan sadece kapının dışını gizlice izleyebiliyor. Bir defasında birisi, ekibin üzerinde çalıştığı yapay zeka ürününün prototipi olan masa lambalarıyla dolu bir araba getirdi. Programcılar büyük bir heyecanla arabanın etrafında toplandılar ve oynamak için onu ellerine aldılar. Yorumcular iş istasyonlarına oturdular ve herhangi bir olay yaşanmadan kendi işlerine devam ettiler. "Ürünün etiketli verilere göre üretildiğini bilmiyorlar."
Xiaoyan şirkete katıldığında, Xiaoyan'ın şirketi, yapay zekayı eğitmek için büyük miktarda verinin etiketlenmesini gerektiren eğitici bir yapay zeka ürünü geliştiriyordu. Şirket, ilk ve orta dereceli okullar için bir yığın çalışma soru kitabı satın aldı.Xiaoyan'ın görevi, her sorunun fotoğrafını çekmek, ardından kutular çizip bu soruları bilgisayarda işaretlemekti.
Ayrıca yapay zeka için çalışan programcılar, yaptıkları işin değerinin açıkça farkındalar ve algoritmaların sürekli ilerlemesinin getirdiği zevkten keyif alıyorlar, ancak çok az yorumcu, yapay zekayı yaratanın kendi emekleri olduğunu düşünüyor.
Yapay zekanın gelişimi veri açıklamalarından ayrılamaz. Otonom sürüşün son yıllardaki gelişimi veri açıklama pazarını yönlendirdi. Deloitte raporuna göre, otonom sürüş alanındaki etiketleme talebi 2022 yılında tüm yapay zeka uygulamalarının %38'ini oluşturacak ve bu oranın 2027 yılına kadar %52'ye çıkması bekleniyor.
Bu yıl büyük modellerin yükselişi, veri açıklama sektörünü körükledi. Büyük model eğitim senaryolarına dayalı çok sayıda sipariş, veri açıklama şirketlerine doğru uçuyor. Görünüşe göre sıkıcı veri açıklama işine bir kez daha canlılık enjekte edildi. .
Bazı teknoloji şirketleri daha da ileride ve yapay zeka eğitimi için verileri otomatik olarak sentezlemek amacıyla yapay zekayı kullanmaya çalışıyor. Sentetik veriler, manuel etiketleme yerine yapay zeka tarafından sonsuz şekilde üretilen ve etiketleme gerektirmeyen az miktarda gerçek veriye dayanır. Otonom sürüş alanında sentetik veriler, yayaların aniden yola çıkması gibi bazı aşırı yol koşullarını kapsayabilir.
Onların hayalinde, gelecekte manuel açıklamaların yerini sentetik veriler alacak. Teknolojisi olmayan, sadece insan gücüne güvenen etiketleme şirketleri yavaş yavaş ortadan kalkacak. Bir veri, yurtdışında yapay zeka için kullanılan temel verilerin yüzde 70'inin sentetik veriler olduğunu ve bu yolun doğrulandığını gösteriyor.
Yukarıdakiler, çok sayıda veri açıklayıcısı için iyi bir haber değil. Ancak 36Kr'ın iletişime geçtiği bazı yorumcular ChatGPT'nin ne olduğunu hala bilmiyor ve bu terimi ilk kez duymuş gibi tepki veriyorlar.
Xiaoyan, etiketleyicinin her an kesilebilecek bir kuyruk olduğunu söyledi. Tek belirsizlik bıçağın tamamen düşeceği zamandır.
Makineleri eğiten yorumcular kendilerini daha çok makine gibi hissediyorlar
Xiaohe İngilizce okudu ve son yılında büyük bir fabrikada staj yaptı. İşteki ilk gününde ofis bir ofis binasındaydı, geniş ve temizdi, tamamen onun internet şirketi hayaliyle uyumluydu. Görüşme sırasında öğrendiği iş içeriğinin (şirketin ses verilerini düzenlemek ve sınıflandırmak) aslında veri açıklaması olduğunu anlaması uzun sürmedi.
Daha sonra Xiaohe, bunun yapay zeka için çalışmanın başlangıcı olduğunu bilseydi hemen ayrılacağını itiraf etti.
Grupta tamamı prestijli bir üniversitenin yabancı dil bölümü öğrencisi olan 6 stajyer bulunmaktadır. Bir kadın ekip lideri her gün görevler veriyor. Bazen bu bir grup İngilizce fonetik semboldür ve Xiaohe'nin görevi İngiliz telaffuzunu Amerikan telaffuzundan ayırmaktır; bazen bu bir Excel'dir, tıklayın ve her yerde veri göreceksiniz. Aşağı kaydırırsanız 10.000'den fazla öğe vardır. .
"Bir dağa tırmanmak gibi bir duygu." dedi Xiaohe.
En çok yaptığım “proje” ortaokul öğrencilerine yönelik sözlü açıklamadır. Açıklamacılar, işlerden birbiri ardına gelen projeler olarak konuşmaya alışkındır. Xiaohe, günde her biri iki dakika süren, güçlü aksanlı 200 kayıt dinliyor. Genel bir soru duyarsanız 1 puan, özel bir soru duyarsanız 2 puan, ikisini de duymazsanız 0 puan verin. Sızıntıları önlemek için ofiste yalnızca kablolu kulaklık kullanabiliyordu.Xiaohe'nin kulakları ağrıyordu ve kendisini "istemsizce sinirli" hissediyordu.
Kayıtlarda sık sık kullanılan küfürleri duyuyor. Bazı çocuklar küfretmeye başlamadan önce birkaç kelime bile konuşmazlar. Başka bir zaman, bir harita navigasyonu projesi üzerinde çalışırken, birisi kayıtta küfür etmeden duramadı. "Birinin neden bu kadar kızdığını bilmiyorum."
Xiaohe, bunu fazla ciddiye alamayacağınızı, bu kaydı yalnızca "anlamsız" olarak işaretleyip ardından sayfayı çevirip bir sonrakini dinlemeye devam edebileceğinizi söyledi.
**"Bir makine gibi", neredeyse her yorumcu kendisini bu şekilde tanımlar. **Ek açıklama hiç düşünmeden yapılır.Shandong'lu bir açıklamacı, şimdiye kadar yaptığı en zor projenin parmak izi açıklaması olduğunu söyledi. Tanımadığı birinden bir sürü parmak izi aldı (bazıları hâlâ bulanıktı) ve çerçeveyi parmak izlerinin kenarları boyunca azar azar çekmesi gerekiyordu. "O gün eve geldikten sonra gözlerimi kapattığımda gözlerimin her yerinde parmak izlerini görebiliyordum."
Pek çok proje, ek açıklama yapanların katı bir gizlilik sağlamasını gerektirir, ancak ek açıklama yapanlar projenin ne için olduğunu umursamazlar. Çalışma sırasında etiketçilerin cep telefonlarını teslim etmeleri ve duvarda asılı bir çantaya koymaları gerekiyor. Telefonlarını yalnızca bir çağrı aldıklarında almalarına izin verilecek.
Çoğu yorumcu, yabancılıktan uzmanlığa, yenilikten sıkıcılığa giden süreci yaşamıştır. Projenin ilk aşaması en ilginç olanıydı.O zamanlar etiketleme kuralları henüz tamamlanmamıştı.Çoğunlukla tartışmalı alanlarla karşılaşıyorlardı ve birbirleriyle tartışıyorlardı, hatta tartışıyorlardı ve atmosfer canlıydı. Orta ve ileri aşamalarda ise kurallar neredeyse kesinleşmiş olup, geriye yalnızca tekrarlayan ve mekanik işçilik kalır ve kişi anlamsızlık duygusuna kapılır.
**Bir yorumcu bunun "akılsızca bir iş" olduğunu söyledi. **
Fuzhou, Jiangxi'de yerel meslek okulu öğrencileri veri açıklamaları yapıyor; Kaynak: IC fotoğrafı
Şangay Üniversitesi'nde profesör olan Jia Wenjuan, veri açıklamaları üzerine saha araştırması yaptı. Veri açıklamalarının zihinsel emek veya fiziksel emek değil, bilişsel emek olduğuna inanıyor. "İnsanların sattığı şey kendi bilişleridir." Kara mizah, makinelerin daha çok insanlara benzemesini istiyoruz ama aynı zamanda insanları da daha çok makinelere benzetiyoruz. Yani sağduyuyu bir kenara bırakıp robot gibi düşünün. **
Ve şerhçi "Bunu neden yapayım" diye düşünmeye başladığında istifa etmekten çok uzak değil demektir.
Zheng Wei bir veri açıklama şirketinin patronu ve açık bir şekilde insanları elinde tutamayacağını söyledi. En iyi ihtimalle şirkette 20'den az kişi var. Yeni çalışanların ömrü genellikle yalnızca yarım ay oluyor. Birçok kişi ilk gün işe geliyor ve ertesi gün işten ayrılıyor. İşe alım şartlarını düşürmekten başka seçeneği yoktu ve sonunda "Ben insanları seçmiyorum, diğerleri beni seçiyor" diye hissetti.
Ayrılanları nasıl tutacağını bilmiyordu. "Burada kalırsanız her şey giderek daha iyi olacak. Aslında ben de buna inanmıyorum." Komiser Zheng, 36 Kripton'a söyledi. Çalışan kaybı sonunda şirketi bunalttı ve yalnızca iki açıklamacı kaldığında ekibi dağıtmaya karar verdi. Kısa bir süre sonra ChatGPT yeni bir yapay zeka dalgasını başlattı.
Büyük modellerin yükselişi veri açıklaması için iyidir, ancak aynı zamanda ** açıklama ekibinin katılımını da yoğunlaştırır. **
İş kabul etmeye gelince Xiaodai, piyasadaki markalama projelerinin %80-90'ının artık çok düşük birim fiyatlara sahip olduğunu, "çünkü ortada çok fazla alt yüklenici var" ve "hepsi fiyattan kar elde etmek istiyor" dedi. fark var ve işi gerçekten yapmak istemiyorum." . İki yıl boyunca kitle kaynaklı bir platformda açıklayıcı olarak çalıştı ve bu yıl kendi ek açıklama ekibini oluşturmak için kendi işini kurdu.
Veri açıklaması pek karlı değildir. Otonom sürüşün 2 boyutlu çerçeve çizimini örnek alırsak, büyük bir firmanın sipariş gönderim bedeli 10 cent, işi devralan etiketleme ekibinin kişi başı 8 cent. Xiaodai, "Şimdi 5 veya 6 puana düştü." dedi. Bir hesap hesapladı ve eğer 8 puanın altındaysa sadece para kaybedebilirdi.
Xiao Dai, hayatta kalabilmek için zamanının çoğunu proje arayarak ve çeşitli platformlarda ve post barlarda takılarak geçiriyor. Projeler gerçek ve sahte, çoğu güvenilmez.Acente zarara uğradı.8 ay bekledikten sonra paranın gelmediği bir proje var.
Daha sonra ilk olarak yarı zamanlı açıklayıcı olarak çalıştı ve ancak deneme ihalesi ve uzlaşmada herhangi bir sorun kalmadıktan sonra işi ekibin devralmasına izin verdi. Platformun gece yarısı saat 3'te bir dizi proje yayınlayacağını duyduğumda siparişleri almak için önceden alarm kurdu.
**Personel kaybı, düşük birim fiyatlar ve istikrarsız ödeme tahsilatları tümör gibidir ve bu sektördeki çoğu küçük şirketi aşağıya çeker. **
Bu işi küçümsemeyen yorumcu yoktur, para kazanamazlar, yükselme alanını ve gelişme fırsatlarını göremezler, uzun bir bunalım ve kayıp dönemine düşerler.
Bu makaleyi yazarken 36Kr'ın görüştüğü yorumcuların çoğu istifa etti. Kızlardan biri iki aydır çalıştığını ve maaşının 3.000 yuan'dan az olduğunu söyledi.
Dahili açıklayıcılar: Lisans derecesi oranı %100
Geçmişte veri açıklaması eşiği düşüktü. Shandong, Shanxi, Henan, Guizhou ve diğer yerlerde birçok veri açıklama şirketi çok sayıda ucuz iş gücü istihdam etti. En yaygın olanları anneler, engelliler ve meslek okulu öğrencileridir.Bilgisayarın temel işlemlerine hakim oldukları sürece bu sektöre girebilirler.
Büyük modeller çağında, adaylar arasında veri açıklamalarının karıştırılması ve ortadan kaldırılması sessizce gerçekleşmektedir.
Araştırmacılar, eğitim verilerinin kalitesinin model performansı üzerinde çok büyük bir etkiye sahip olduğunu buldu. Veri miktarıyla karşılaştırıldığında, veri kalitesi yüksek olduğunda modelin iyileştirme etkisi daha belirgindir. Veri kalitesini kontrol etmek için bazı yapay zeka şirketleri kendi etiketleme ekiplerini oluşturdu.İlk adım, sektöre giriş eşiğini yükseltmek.
En bariz olan şey, yorumcuların akademik niteliklerinin gelişmeye başlamasıdır.
Bu yılın nisan ayında, önde gelen büyük ölçekli bir model üreticisi bir veri ek açıklama tabanı oluşturdu ve işe alınan ilk açıklayıcı grubunun ** lisans diploması oranı %100 oldu. **Şirketten sorumlu kişi, büyük model verilerinin geniş bir bilgi yelpazesi ve karmaşık değerlendirme kriterleri içerdiğini ve bunun da açıklama yapan kişinin dil anlayışını ve mantıksal akıl yürütme yeteneklerini büyük ölçüde test ettiğini açıkladı.
Xiao Wang üniversiteden yeni mezun olmuştu ve iş aramak için memleketine döndüğünde tesadüfen bu veri etiketleme tabanının işe alımlarıyla karşılaştı. Böylece mülakata katıldı ve başarıyla geçti. Üs ona 300.000 kelimelik bir eğitim materyali gönderdi ve ancak eğitim sınavını geçerek resmi olarak göreve başlayabilir.
Ek açıklamalar her gün sorular üzerinde çalışır. Yeni gelenlere günde 40 soru soruluyor, deneyimli çalışanlara ise 70-80 soru soruluyor. Arka uç sistemi, çoğu gerçek kullanıcılar ve büyük modeller arasındaki konuşma kayıtları olan soruları herkese dağıtır. Dünyanın her yerinden kullanıcıların soruları çok çeşitli ve daha da tuhaf: Bu üç cep telefonundan hangisi daha iyi? Hangi yumurtalar daha iyi, yoksa gashapon mu? Başarılı insanların kriterleri nelerdir? Lin Daiyu neden Kemik Şeytanıyla savaştı?
Büyük bir modelin birçok cevabı olacaktır ve Xiao Wang'ın görevi her cevabı okumak, hataları seçmek ve bunları kaliteye göre tek tek puanlamaktır. 5 puan mükemmel bir puandır, 1 puan en düşük puandır ve 3 puanın altındaki cevaplar hata türlerine ayırmak gerekir. Cevap sorulanla aynı değilse doğrudan en düşük puan verilecek, hassas bir soruyla karşılaşılması durumunda puan verilmeyecek ve "diğer" olarak değerlendirilecektir.
Sıralama, puanlama ve değerlendirme, bu biraz karmaşık açıklama adımları tam olarak RLHF (İnsan Geri Bildiriminden Güçlendirme Öğrenme, yani insan geri bildiriminden pekiştirmeli öğrenme) olarak adlandırılan şeydir. Amaç, büyük modelleri sürekli olarak insani değerler ve yollarla hizalamaktır. Daha kullanışlı. OpenAI, ChatGPT'nin eğitimi sürecinde RLHF'yi kullandı ve dikkat çekici sonuçlar elde etti.
Geçmişteki veri etiketlemeyle karşılaştırıldığında, büyük modellere yönelik etiketleme kuralları daha özneldir. Bir algoritma mühendisi bir yorumcuyla röportaj yaptığında, diğer kişiye şu soruyu soracaktır: "Eğer bir iş lideri olsaydınız ve dört tip çalışanla karşı karşıya kalsaydınız: Sun Wukong, Zhu Bajie, Tang Monk ve Sha Seng, kimi tercih ederdiniz? kiralamak?"
Standart bir cevap yok dedi. **Bu tür sorular açıklama yapan kişinin mantıksal düşünme yeteneğine sahip olup olmadığını test etmeye yöneliktir. **
Sektörün yeteneklere olan talebi acil hale geldi. Kaiwang Data adlı yeni kurulan bir şirket, çok sayıda üniversite öğrencisi yorumcu yetiştirmek için üniversitelerle işbirliği yapıyor. CEO Yu Xu, şirketin geçen yıl "Kaywang Veri Akademisi"ni kurduğunu ve 50 okulda 1.500'den fazla öğrenciye veri açıklaması konusunda eğitim verdiğini söyledi.
Xiao Wang, büyük modelin yanıtlarını puanladığında sıklıkla bazı doğrulamalar yapması gerekiyor ve iş yükü tamamen şansa bağlı. Bir keresinde bir soruyla karşılaştım: Hangisi daha iyi, BMW 3 Serisi mi yoksa Mercedes-Benz C Serisi mi? Büyük modelde sırasıyla iki arabanın 40 parametresi listeleniyor ve her parametrenin Xiao Wang tarafından kontrol edilmesi gerekiyor. Bu soru yarım saatini aldı.
Bir süre açıklama yaptıktan sonra Xiao Wang, puanının nadiren 3 puanı aştığını fark etti: "Yapay zekanın yanıtları beni çok memnun veya olağanüstü hissettirmeye yetmiyor." Bir sorunun şu olduğunu hatırladı: "Bluetooth kulaklık bozulursa, dişçiye mi yoksa kulaklık üreticisine mi gitmeliyim?" Bu açıkça bir balık avlama sorusuydu, ancak yapay zekanın cevabı gözlerini parlattı. "Bana gitmesi söylendi." Tamir için dişçiye gidin, hastaneye değil."
Xiao Wang bu işten memnun. Aylık temel maaşı 1.800 yuan, tam katılım ikramiyesi 200 yuan ve konut yardımı 200 yuan. Performansı dikkate alındığında ayda 4.000 yuan alabiliyor. Gelirin yerel bölgede ortalamanın üzerinde kabul edildiğini söyledi. O da saçını topladı ve ikisi bitişik iş istasyonlarına oturdu.
Xiao Wang ile aynı anda eğitim gören yaklaşık 20 üniversite öğrencisi vardı.İki gün içinde neredeyse hepsi gitti ve sadece iki veya üç kişi kaldı.
Ama şirket konusunda endişelenmemize gerek yok, burada üniversite öğrencisi sıkıntısı asla olmayacak. Bir CTO 36Kr'a gerçeği açıkladı: Gidin üniversite öğrencilerinin mevcut istihdam durumuna bir bakın.
En çok ortadan kaldırmak istediğim şey yapay zeka değil, insan açıklamaları
Veri açıklamalarıyla ilgili birçok raporun bulunduğunu kabul etmek gerekir ki, insanların fikir birliği bu işin “İnternetin montaj hattı” olduğu ve bunun uzun süredir yapılması zor olduğu ve manuel açıklamanın yerini eninde sonunda yapay zekaya bırakacağı yönünde.
Geçtiğimiz ay algoritma mühendisleri ve yapay zeka şirketleriyle iletişim kurmaya çok zaman harcadık. Yukarıdaki fikir birliği yenilenmemiş olsa da insan emeğini en çok ortadan kaldırmak isteyen şeyin yapay zeka olmayabileceği belli belirsiz hissedilebiliyor. Yapay zeka gerçekten harekete geçmeden önce, en ileri teknolojiye hakim olanlar tırpanlarını çoktan kaldırmışlardır.
Teknoloji dünyasında verilerin önemi abartılamaz. Algoritma mühendisi Xiao Duan, eğer bir yapay zeka işletmesi etiketli veriye sahip değilse, yazdıkları algoritma ne kadar iyi olursa olsun, parça parça olacağını söyledi. Ne kadar çok etiketli veri olursa o kadar iyidir. Etiketçilerin tüm yünlerini toplamak, kârı kesin olan bir iştir.
Bazen algoritma, açıklayıcıların dört veya beş günde tamamlaması gereken verileri bir saat içinde tamamlayabiliyor. Xiao Duan büyük bir İnternet şirketinde çalışıyor. Departmanın yeterli bütçesi var ve birkaç tam zamanlı yorumcu var. "Açıklayıcıları boş bırakmamaya çalışıyoruz. Liderler haftalık raporu okuyacak. Eğer çok fazla görev olmadığını düşünüyorlarsa onlara daha fazla görev verelim."
Bir yorumcu 36Kr'a, kendisiyle birlikte çalışan programcıların her tür çalışmanın değerli olduğunu söylemelerine rağmen, istemeden de olsa bir küçümseme izi sergilediklerini söyledi. "Elbette bu grup insan da teknoloji odaklı." Açıklamayı yapan kişi kendini teselli etti.
Teknoloji herkesin beklediğinden çok daha hızlı ilerliyor, büyük modeller çağında veri kalitesi modelin performansını doğrudan etkileyecek. **Bunu anlayan bazı yapay zeka şirketleri, veri açıklaması dış kaynak sağlayıcılarına tereddüt etmeden veda etti.
Bir yapay zeka şirketinin CTO'su, "Geri aldığımız verilerin kalitesi o kadar düşüktü ki temelde işe yaramazdı" dedi. Ana işleri yapay zeka tarafından oluşturulan videolardır ve sınırsız miktarda e-ticaret ürün videosu oluşturabilen, kendi geliştirdikleri bir model geliştirdiler. Modeli eğitmek amacıyla, veri açıklaması yapması için özel olarak 50 üniversite öğrencisini işe aldılar.
Tıbbi bakım, finans ve bilgisayar gibi profesyonel alanlar söz konusu olduğunda üniversite öğrencilerine güvenmek de zordur. Büyük bir yerli İnternet şirketi, kendi etiketleme tabanını oluşturmanın yanı sıra, etiketleme için profesyonellere de para ödüyor. Ek açıklama endüstrisindeki profesyonellerin oranı hala küçük olsa da rolleri oldukça açıktır. Örneğin, sosyal güvenlik ödemelerinin askıya alınmasına ilişkin soruyu hükümet belgelerine aşina olan profesyonellere bırakmak son derece güven vericidir.
Açık bir sır şu ki, ChatGPT popüler olmadan çok önce, OpenAI bir düzineden fazla doktora öğrencisini "işaretlemek" için organize etmişti. Sekiz yıl içinde OpenAI yalnızca modeli eğitmek için 1 milyar ABD doları harcadı.
Bu yılın mayıs ayında, ABD'li bir veri şirketi belirli alanlardaki profesyonelleri işe almaya başladı. Bu kıdemli yorumcuların maaşı artık pazarlık konusu değil.Örneğin, yasal verileri etiketlemenin saatlik ücreti 45 ABD Doları, şiirin saatlik ücreti ise 25 ABD Dolarıdır.
Ancak bazı AI şirketlerinin gözünde, ister mavi yakalı ister beyaz yakalı olsun, maliyetten tasarruf etmek istiyorlar. 36 Krypton bu şirketlerle iletişim kurarken şu kelimeyi sıklıkla duydu: maliyetleri azaltın ve verimliliği artırın.
En yaygın yöntem, otomatik açıklama eklemek için yapay zekayı kullanmaktır. Bir veri şirketi, otomatik açıklama oranının %70'in üzerine çıktığını belirtti.
Algoritma mühendisi Xiao Li ve meslektaşları daha ileri girişimlerde bulunuyorlar: ** Üretken yapay zeka teknolojisi ve bir dizi algoritma aracılığıyla gerçek verilerin küçük bir kısmı model olarak kullanıldığı sürece, yüksek kaliteli eğitim verileri elde edilebilir. sentezlendi. Başka bir deyişle, hiç kimseye ihtiyaç yoktur. **
Xiao Li, "Sentetik verilerimizin fiyatı, manuel açıklamalardan biraz daha ucuz." dedi.
Sentetik veriler şu anda ağırlıklı olarak otonom sürüş ve robotik alanlarında kullanılıyor. Xiao Li, ChatGPT çıktığında açıklamalı verilerin işe yaramayabileceğini ve sonunda sentetik verilerin kullanılması gerekeceğini fark ettiğini söyledi. OpenAI kurucusu Sam Altman da benzer bir görüşe sahip: "Sentetik veriler, büyük model verilerinin eksikliğini çözmenin en etkili yoludur."
Start-up şirketi Light Wheel Intelligence, ağırlıklı olarak otonom sürüş ve robotik alanlarında sentetik veriler üretiyor. CEO Xie Chen, "Otomatik etiketlemenin nihai sonucu etiketlemenin olmamasıdır" dedi ve ekledi: "Çoğu etiketleme şirketi bunu uzun vadeli görmüyor."
Xie Chen, 36Kr'a, ekipteki bir meslektaşının daha önce bir OEM'de otomatik açıklama ekleme işlemi yaptığını ve daha karmaşık 4D-BEV açıklamasını kazandığını söyledi. Bu, otonom sürüş sistemlerinin performansını artırmak amacıyla 3 boyutlu alanda açıklama yapmak için zamanı dördüncü enlem olarak kullanan, endüstri lideri bir açıklama aracıdır. Bu yıl otomatik açıklama eklemeyi bırakmaya karar verdi, Xie Chen'i bulmak için inisiyatif aldı ve sonunda Nimbus İstihbaratına katıldı.
Bu meslektaşım Xiao Li. Üretken yapay zekanın ortaya çıkmasının kendisini bir zamanlar çok endişelendirdiğini ancak sentetik verileri gördükten sonra yeniden heyecanlandığını söyledi.
Çalışma hedeflerinden biri "bu sektördeki insanları değiştirmek (etiketlemek)" ama kesin olarak şunu söylemekten utanıyor: "Muhtemelen kısa vadede, belki bir veya iki yıl içinde olacak."
Son olarak, açıklama yazarlarının dünyasına dönelim. Teknolojinin hızla gelişmesinin yarattığı kaygı burada neredeyse görünmez oluyor. Sadece önemsiz, tekrarlanan rahatsızlıklar ve bazı saf fanteziler var.
Üniversite öğrencisi Xiao Wang hâlâ memleketinde büyük modeller yetiştiriyor. Geçenlerde sohbet ettiğimizde bu işin yapay zeka alanına girmek için bir fırsat olduğunu söyledi. Şirketin onlar için belirlediği terfi yolu, açıklayıcılardan kalite müfettişlerine, eğitmenlere, denetçilere ve son olarak proje yöneticilerine kadar uzanır. Xiao Wang'ın hedefi yönetici olmak ve ardından işleri yapay zekaya daha yakın bir pozisyona değiştirmek. Tam olarak ne olduğunu henüz bilmiyor.
Hırslı Xiao Wang ile karşılaştırıldığında çoğu yorumcunun yapay zekaya pek ilgisi yok. Bir kız şöyle açıkladı: "Yüksek teknolojiye pek dikkat etmiyorum." İki yıldır not alıyor ve zaten kıdemli bir çalışan. Yakın zamanda kalite müfettişliğine terfi etti. Ona göre açıklama işi basit ve istikrarlı, "zihinsel sürtüşme yok" ve ara sıra balık yakalayabiliyor. Yapay zekanın teknoloji dünyasını hareketlendirdiği bu yılda hayatı su gibi sakin geçti.
Birkaç değişiklikten biri, şirket tarafından sağlanan açıklama araçlarına konuşma botunun eklenmesidir. Şirket herkese, açıklama sırasında anlamadığınız herhangi bir soruyla karşılaşırsanız, zaman kazanmak için doğrudan robota sormanız gerektiğini söylüyor. Verimlilik hızla arttı. 36 Kripton'a, daha önce günde beş ya da altı yüz kutuya kadar üretim yapabildiğini ancak şimdi yedi yüzün üzerinde üretim yapabildiğini söyledi.
"Robot sayesinde" dedi. Henüz kimse ona ChatGPT dendiğini söylemedi.
(Görüşme yapılan kişinin isteği üzerine yazıdaki bazı karakterlerin takma adları vardır. 36Kr yazarı Anita Deng de yazıya katkıda bulunmuştur.)
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Büyük modellerde sıkışıp kalan veri açıklayıcıları
Orijinal metin: 36氪
Büyük bir İnternet şirketinde veri açıklayıcı olarak çalışan Xiaoyan, çoğu zaman şirkette kendini yalnız hissediyor.
Xiaoyan'ın iş istasyonu, ürün yöneticileri ve programcıların yanındadır. Onlar da aynı avantajlardan yararlanabilirler: aynı iş rozeti, Apple bilgisayarlar; istedikleri zaman spor salonuna gidebilir veya uyumak için uzay kapsülüne gidebilirler.
Ancak Xiaoyan, bir veri açıklayıcısı olarak kendisinin ve diğer meslektaşlarının "iki dünyaya" ait olduğunu fark edebilir.
Bir ekip olmamıza rağmen, her gün sabah toplantısında kimse yorumcuyu aramayacak, bu yüzden Xiaoyan sadece kapının dışını gizlice izleyebiliyor. Bir defasında birisi, ekibin üzerinde çalıştığı yapay zeka ürününün prototipi olan masa lambalarıyla dolu bir araba getirdi. Programcılar büyük bir heyecanla arabanın etrafında toplandılar ve oynamak için onu ellerine aldılar. Yorumcular iş istasyonlarına oturdular ve herhangi bir olay yaşanmadan kendi işlerine devam ettiler. "Ürünün etiketli verilere göre üretildiğini bilmiyorlar."
Xiaoyan şirkete katıldığında, Xiaoyan'ın şirketi, yapay zekayı eğitmek için büyük miktarda verinin etiketlenmesini gerektiren eğitici bir yapay zeka ürünü geliştiriyordu. Şirket, ilk ve orta dereceli okullar için bir yığın çalışma soru kitabı satın aldı.Xiaoyan'ın görevi, her sorunun fotoğrafını çekmek, ardından kutular çizip bu soruları bilgisayarda işaretlemekti.
Ayrıca yapay zeka için çalışan programcılar, yaptıkları işin değerinin açıkça farkındalar ve algoritmaların sürekli ilerlemesinin getirdiği zevkten keyif alıyorlar, ancak çok az yorumcu, yapay zekayı yaratanın kendi emekleri olduğunu düşünüyor.
Yapay zekanın gelişimi veri açıklamalarından ayrılamaz. Otonom sürüşün son yıllardaki gelişimi veri açıklama pazarını yönlendirdi. Deloitte raporuna göre, otonom sürüş alanındaki etiketleme talebi 2022 yılında tüm yapay zeka uygulamalarının %38'ini oluşturacak ve bu oranın 2027 yılına kadar %52'ye çıkması bekleniyor.
Bu yıl büyük modellerin yükselişi, veri açıklama sektörünü körükledi. Büyük model eğitim senaryolarına dayalı çok sayıda sipariş, veri açıklama şirketlerine doğru uçuyor. Görünüşe göre sıkıcı veri açıklama işine bir kez daha canlılık enjekte edildi. .
Bazı teknoloji şirketleri daha da ileride ve yapay zeka eğitimi için verileri otomatik olarak sentezlemek amacıyla yapay zekayı kullanmaya çalışıyor. Sentetik veriler, manuel etiketleme yerine yapay zeka tarafından sonsuz şekilde üretilen ve etiketleme gerektirmeyen az miktarda gerçek veriye dayanır. Otonom sürüş alanında sentetik veriler, yayaların aniden yola çıkması gibi bazı aşırı yol koşullarını kapsayabilir.
Onların hayalinde, gelecekte manuel açıklamaların yerini sentetik veriler alacak. Teknolojisi olmayan, sadece insan gücüne güvenen etiketleme şirketleri yavaş yavaş ortadan kalkacak. Bir veri, yurtdışında yapay zeka için kullanılan temel verilerin yüzde 70'inin sentetik veriler olduğunu ve bu yolun doğrulandığını gösteriyor.
Yukarıdakiler, çok sayıda veri açıklayıcısı için iyi bir haber değil. Ancak 36Kr'ın iletişime geçtiği bazı yorumcular ChatGPT'nin ne olduğunu hala bilmiyor ve bu terimi ilk kez duymuş gibi tepki veriyorlar.
Xiaoyan, etiketleyicinin her an kesilebilecek bir kuyruk olduğunu söyledi. Tek belirsizlik bıçağın tamamen düşeceği zamandır.
Makineleri eğiten yorumcular kendilerini daha çok makine gibi hissediyorlar
Xiaohe İngilizce okudu ve son yılında büyük bir fabrikada staj yaptı. İşteki ilk gününde ofis bir ofis binasındaydı, geniş ve temizdi, tamamen onun internet şirketi hayaliyle uyumluydu. Görüşme sırasında öğrendiği iş içeriğinin (şirketin ses verilerini düzenlemek ve sınıflandırmak) aslında veri açıklaması olduğunu anlaması uzun sürmedi.
Daha sonra Xiaohe, bunun yapay zeka için çalışmanın başlangıcı olduğunu bilseydi hemen ayrılacağını itiraf etti.
Grupta tamamı prestijli bir üniversitenin yabancı dil bölümü öğrencisi olan 6 stajyer bulunmaktadır. Bir kadın ekip lideri her gün görevler veriyor. Bazen bu bir grup İngilizce fonetik semboldür ve Xiaohe'nin görevi İngiliz telaffuzunu Amerikan telaffuzundan ayırmaktır; bazen bu bir Excel'dir, tıklayın ve her yerde veri göreceksiniz. Aşağı kaydırırsanız 10.000'den fazla öğe vardır. .
"Bir dağa tırmanmak gibi bir duygu." dedi Xiaohe.
En çok yaptığım “proje” ortaokul öğrencilerine yönelik sözlü açıklamadır. Açıklamacılar, işlerden birbiri ardına gelen projeler olarak konuşmaya alışkındır. Xiaohe, günde her biri iki dakika süren, güçlü aksanlı 200 kayıt dinliyor. Genel bir soru duyarsanız 1 puan, özel bir soru duyarsanız 2 puan, ikisini de duymazsanız 0 puan verin. Sızıntıları önlemek için ofiste yalnızca kablolu kulaklık kullanabiliyordu.Xiaohe'nin kulakları ağrıyordu ve kendisini "istemsizce sinirli" hissediyordu.
Kayıtlarda sık sık kullanılan küfürleri duyuyor. Bazı çocuklar küfretmeye başlamadan önce birkaç kelime bile konuşmazlar. Başka bir zaman, bir harita navigasyonu projesi üzerinde çalışırken, birisi kayıtta küfür etmeden duramadı. "Birinin neden bu kadar kızdığını bilmiyorum."
Xiaohe, bunu fazla ciddiye alamayacağınızı, bu kaydı yalnızca "anlamsız" olarak işaretleyip ardından sayfayı çevirip bir sonrakini dinlemeye devam edebileceğinizi söyledi.
**"Bir makine gibi", neredeyse her yorumcu kendisini bu şekilde tanımlar. **Ek açıklama hiç düşünmeden yapılır.Shandong'lu bir açıklamacı, şimdiye kadar yaptığı en zor projenin parmak izi açıklaması olduğunu söyledi. Tanımadığı birinden bir sürü parmak izi aldı (bazıları hâlâ bulanıktı) ve çerçeveyi parmak izlerinin kenarları boyunca azar azar çekmesi gerekiyordu. "O gün eve geldikten sonra gözlerimi kapattığımda gözlerimin her yerinde parmak izlerini görebiliyordum."
Pek çok proje, ek açıklama yapanların katı bir gizlilik sağlamasını gerektirir, ancak ek açıklama yapanlar projenin ne için olduğunu umursamazlar. Çalışma sırasında etiketçilerin cep telefonlarını teslim etmeleri ve duvarda asılı bir çantaya koymaları gerekiyor. Telefonlarını yalnızca bir çağrı aldıklarında almalarına izin verilecek.
Çoğu yorumcu, yabancılıktan uzmanlığa, yenilikten sıkıcılığa giden süreci yaşamıştır. Projenin ilk aşaması en ilginç olanıydı.O zamanlar etiketleme kuralları henüz tamamlanmamıştı.Çoğunlukla tartışmalı alanlarla karşılaşıyorlardı ve birbirleriyle tartışıyorlardı, hatta tartışıyorlardı ve atmosfer canlıydı. Orta ve ileri aşamalarda ise kurallar neredeyse kesinleşmiş olup, geriye yalnızca tekrarlayan ve mekanik işçilik kalır ve kişi anlamsızlık duygusuna kapılır.
**Bir yorumcu bunun "akılsızca bir iş" olduğunu söyledi. **
Şangay Üniversitesi'nde profesör olan Jia Wenjuan, veri açıklamaları üzerine saha araştırması yaptı. Veri açıklamalarının zihinsel emek veya fiziksel emek değil, bilişsel emek olduğuna inanıyor. "İnsanların sattığı şey kendi bilişleridir." Kara mizah, makinelerin daha çok insanlara benzemesini istiyoruz ama aynı zamanda insanları da daha çok makinelere benzetiyoruz. Yani sağduyuyu bir kenara bırakıp robot gibi düşünün. **
Ve şerhçi "Bunu neden yapayım" diye düşünmeye başladığında istifa etmekten çok uzak değil demektir.
Zheng Wei bir veri açıklama şirketinin patronu ve açık bir şekilde insanları elinde tutamayacağını söyledi. En iyi ihtimalle şirkette 20'den az kişi var. Yeni çalışanların ömrü genellikle yalnızca yarım ay oluyor. Birçok kişi ilk gün işe geliyor ve ertesi gün işten ayrılıyor. İşe alım şartlarını düşürmekten başka seçeneği yoktu ve sonunda "Ben insanları seçmiyorum, diğerleri beni seçiyor" diye hissetti.
Ayrılanları nasıl tutacağını bilmiyordu. "Burada kalırsanız her şey giderek daha iyi olacak. Aslında ben de buna inanmıyorum." Komiser Zheng, 36 Kripton'a söyledi. Çalışan kaybı sonunda şirketi bunalttı ve yalnızca iki açıklamacı kaldığında ekibi dağıtmaya karar verdi. Kısa bir süre sonra ChatGPT yeni bir yapay zeka dalgasını başlattı.
Büyük modellerin yükselişi veri açıklaması için iyidir, ancak aynı zamanda ** açıklama ekibinin katılımını da yoğunlaştırır. **
İş kabul etmeye gelince Xiaodai, piyasadaki markalama projelerinin %80-90'ının artık çok düşük birim fiyatlara sahip olduğunu, "çünkü ortada çok fazla alt yüklenici var" ve "hepsi fiyattan kar elde etmek istiyor" dedi. fark var ve işi gerçekten yapmak istemiyorum." . İki yıl boyunca kitle kaynaklı bir platformda açıklayıcı olarak çalıştı ve bu yıl kendi ek açıklama ekibini oluşturmak için kendi işini kurdu.
Veri açıklaması pek karlı değildir. Otonom sürüşün 2 boyutlu çerçeve çizimini örnek alırsak, büyük bir firmanın sipariş gönderim bedeli 10 cent, işi devralan etiketleme ekibinin kişi başı 8 cent. Xiaodai, "Şimdi 5 veya 6 puana düştü." dedi. Bir hesap hesapladı ve eğer 8 puanın altındaysa sadece para kaybedebilirdi.
Xiao Dai, hayatta kalabilmek için zamanının çoğunu proje arayarak ve çeşitli platformlarda ve post barlarda takılarak geçiriyor. Projeler gerçek ve sahte, çoğu güvenilmez.Acente zarara uğradı.8 ay bekledikten sonra paranın gelmediği bir proje var.
Daha sonra ilk olarak yarı zamanlı açıklayıcı olarak çalıştı ve ancak deneme ihalesi ve uzlaşmada herhangi bir sorun kalmadıktan sonra işi ekibin devralmasına izin verdi. Platformun gece yarısı saat 3'te bir dizi proje yayınlayacağını duyduğumda siparişleri almak için önceden alarm kurdu.
**Personel kaybı, düşük birim fiyatlar ve istikrarsız ödeme tahsilatları tümör gibidir ve bu sektördeki çoğu küçük şirketi aşağıya çeker. **
Bu işi küçümsemeyen yorumcu yoktur, para kazanamazlar, yükselme alanını ve gelişme fırsatlarını göremezler, uzun bir bunalım ve kayıp dönemine düşerler.
Bu makaleyi yazarken 36Kr'ın görüştüğü yorumcuların çoğu istifa etti. Kızlardan biri iki aydır çalıştığını ve maaşının 3.000 yuan'dan az olduğunu söyledi.
Dahili açıklayıcılar: Lisans derecesi oranı %100
Geçmişte veri açıklaması eşiği düşüktü. Shandong, Shanxi, Henan, Guizhou ve diğer yerlerde birçok veri açıklama şirketi çok sayıda ucuz iş gücü istihdam etti. En yaygın olanları anneler, engelliler ve meslek okulu öğrencileridir.Bilgisayarın temel işlemlerine hakim oldukları sürece bu sektöre girebilirler.
Büyük modeller çağında, adaylar arasında veri açıklamalarının karıştırılması ve ortadan kaldırılması sessizce gerçekleşmektedir.
Araştırmacılar, eğitim verilerinin kalitesinin model performansı üzerinde çok büyük bir etkiye sahip olduğunu buldu. Veri miktarıyla karşılaştırıldığında, veri kalitesi yüksek olduğunda modelin iyileştirme etkisi daha belirgindir. Veri kalitesini kontrol etmek için bazı yapay zeka şirketleri kendi etiketleme ekiplerini oluşturdu.İlk adım, sektöre giriş eşiğini yükseltmek.
En bariz olan şey, yorumcuların akademik niteliklerinin gelişmeye başlamasıdır.
Bu yılın nisan ayında, önde gelen büyük ölçekli bir model üreticisi bir veri ek açıklama tabanı oluşturdu ve işe alınan ilk açıklayıcı grubunun ** lisans diploması oranı %100 oldu. **Şirketten sorumlu kişi, büyük model verilerinin geniş bir bilgi yelpazesi ve karmaşık değerlendirme kriterleri içerdiğini ve bunun da açıklama yapan kişinin dil anlayışını ve mantıksal akıl yürütme yeteneklerini büyük ölçüde test ettiğini açıkladı.
Xiao Wang üniversiteden yeni mezun olmuştu ve iş aramak için memleketine döndüğünde tesadüfen bu veri etiketleme tabanının işe alımlarıyla karşılaştı. Böylece mülakata katıldı ve başarıyla geçti. Üs ona 300.000 kelimelik bir eğitim materyali gönderdi ve ancak eğitim sınavını geçerek resmi olarak göreve başlayabilir.
Ek açıklamalar her gün sorular üzerinde çalışır. Yeni gelenlere günde 40 soru soruluyor, deneyimli çalışanlara ise 70-80 soru soruluyor. Arka uç sistemi, çoğu gerçek kullanıcılar ve büyük modeller arasındaki konuşma kayıtları olan soruları herkese dağıtır. Dünyanın her yerinden kullanıcıların soruları çok çeşitli ve daha da tuhaf: Bu üç cep telefonundan hangisi daha iyi? Hangi yumurtalar daha iyi, yoksa gashapon mu? Başarılı insanların kriterleri nelerdir? Lin Daiyu neden Kemik Şeytanıyla savaştı?
Büyük bir modelin birçok cevabı olacaktır ve Xiao Wang'ın görevi her cevabı okumak, hataları seçmek ve bunları kaliteye göre tek tek puanlamaktır. 5 puan mükemmel bir puandır, 1 puan en düşük puandır ve 3 puanın altındaki cevaplar hata türlerine ayırmak gerekir. Cevap sorulanla aynı değilse doğrudan en düşük puan verilecek, hassas bir soruyla karşılaşılması durumunda puan verilmeyecek ve "diğer" olarak değerlendirilecektir.
Sıralama, puanlama ve değerlendirme, bu biraz karmaşık açıklama adımları tam olarak RLHF (İnsan Geri Bildiriminden Güçlendirme Öğrenme, yani insan geri bildiriminden pekiştirmeli öğrenme) olarak adlandırılan şeydir. Amaç, büyük modelleri sürekli olarak insani değerler ve yollarla hizalamaktır. Daha kullanışlı. OpenAI, ChatGPT'nin eğitimi sürecinde RLHF'yi kullandı ve dikkat çekici sonuçlar elde etti.
Geçmişteki veri etiketlemeyle karşılaştırıldığında, büyük modellere yönelik etiketleme kuralları daha özneldir. Bir algoritma mühendisi bir yorumcuyla röportaj yaptığında, diğer kişiye şu soruyu soracaktır: "Eğer bir iş lideri olsaydınız ve dört tip çalışanla karşı karşıya kalsaydınız: Sun Wukong, Zhu Bajie, Tang Monk ve Sha Seng, kimi tercih ederdiniz? kiralamak?"
Standart bir cevap yok dedi. **Bu tür sorular açıklama yapan kişinin mantıksal düşünme yeteneğine sahip olup olmadığını test etmeye yöneliktir. **
Sektörün yeteneklere olan talebi acil hale geldi. Kaiwang Data adlı yeni kurulan bir şirket, çok sayıda üniversite öğrencisi yorumcu yetiştirmek için üniversitelerle işbirliği yapıyor. CEO Yu Xu, şirketin geçen yıl "Kaywang Veri Akademisi"ni kurduğunu ve 50 okulda 1.500'den fazla öğrenciye veri açıklaması konusunda eğitim verdiğini söyledi.
Xiao Wang, büyük modelin yanıtlarını puanladığında sıklıkla bazı doğrulamalar yapması gerekiyor ve iş yükü tamamen şansa bağlı. Bir keresinde bir soruyla karşılaştım: Hangisi daha iyi, BMW 3 Serisi mi yoksa Mercedes-Benz C Serisi mi? Büyük modelde sırasıyla iki arabanın 40 parametresi listeleniyor ve her parametrenin Xiao Wang tarafından kontrol edilmesi gerekiyor. Bu soru yarım saatini aldı.
Bir süre açıklama yaptıktan sonra Xiao Wang, puanının nadiren 3 puanı aştığını fark etti: "Yapay zekanın yanıtları beni çok memnun veya olağanüstü hissettirmeye yetmiyor." Bir sorunun şu olduğunu hatırladı: "Bluetooth kulaklık bozulursa, dişçiye mi yoksa kulaklık üreticisine mi gitmeliyim?" Bu açıkça bir balık avlama sorusuydu, ancak yapay zekanın cevabı gözlerini parlattı. "Bana gitmesi söylendi." Tamir için dişçiye gidin, hastaneye değil."
Xiao Wang bu işten memnun. Aylık temel maaşı 1.800 yuan, tam katılım ikramiyesi 200 yuan ve konut yardımı 200 yuan. Performansı dikkate alındığında ayda 4.000 yuan alabiliyor. Gelirin yerel bölgede ortalamanın üzerinde kabul edildiğini söyledi. O da saçını topladı ve ikisi bitişik iş istasyonlarına oturdu.
Xiao Wang ile aynı anda eğitim gören yaklaşık 20 üniversite öğrencisi vardı.İki gün içinde neredeyse hepsi gitti ve sadece iki veya üç kişi kaldı.
Ama şirket konusunda endişelenmemize gerek yok, burada üniversite öğrencisi sıkıntısı asla olmayacak. Bir CTO 36Kr'a gerçeği açıkladı: Gidin üniversite öğrencilerinin mevcut istihdam durumuna bir bakın.
En çok ortadan kaldırmak istediğim şey yapay zeka değil, insan açıklamaları
Veri açıklamalarıyla ilgili birçok raporun bulunduğunu kabul etmek gerekir ki, insanların fikir birliği bu işin “İnternetin montaj hattı” olduğu ve bunun uzun süredir yapılması zor olduğu ve manuel açıklamanın yerini eninde sonunda yapay zekaya bırakacağı yönünde.
Geçtiğimiz ay algoritma mühendisleri ve yapay zeka şirketleriyle iletişim kurmaya çok zaman harcadık. Yukarıdaki fikir birliği yenilenmemiş olsa da insan emeğini en çok ortadan kaldırmak isteyen şeyin yapay zeka olmayabileceği belli belirsiz hissedilebiliyor. Yapay zeka gerçekten harekete geçmeden önce, en ileri teknolojiye hakim olanlar tırpanlarını çoktan kaldırmışlardır.
Teknoloji dünyasında verilerin önemi abartılamaz. Algoritma mühendisi Xiao Duan, eğer bir yapay zeka işletmesi etiketli veriye sahip değilse, yazdıkları algoritma ne kadar iyi olursa olsun, parça parça olacağını söyledi. Ne kadar çok etiketli veri olursa o kadar iyidir. Etiketçilerin tüm yünlerini toplamak, kârı kesin olan bir iştir.
Bazen algoritma, açıklayıcıların dört veya beş günde tamamlaması gereken verileri bir saat içinde tamamlayabiliyor. Xiao Duan büyük bir İnternet şirketinde çalışıyor. Departmanın yeterli bütçesi var ve birkaç tam zamanlı yorumcu var. "Açıklayıcıları boş bırakmamaya çalışıyoruz. Liderler haftalık raporu okuyacak. Eğer çok fazla görev olmadığını düşünüyorlarsa onlara daha fazla görev verelim."
Bir yorumcu 36Kr'a, kendisiyle birlikte çalışan programcıların her tür çalışmanın değerli olduğunu söylemelerine rağmen, istemeden de olsa bir küçümseme izi sergilediklerini söyledi. "Elbette bu grup insan da teknoloji odaklı." Açıklamayı yapan kişi kendini teselli etti.
Teknoloji herkesin beklediğinden çok daha hızlı ilerliyor, büyük modeller çağında veri kalitesi modelin performansını doğrudan etkileyecek. **Bunu anlayan bazı yapay zeka şirketleri, veri açıklaması dış kaynak sağlayıcılarına tereddüt etmeden veda etti.
Bir yapay zeka şirketinin CTO'su, "Geri aldığımız verilerin kalitesi o kadar düşüktü ki temelde işe yaramazdı" dedi. Ana işleri yapay zeka tarafından oluşturulan videolardır ve sınırsız miktarda e-ticaret ürün videosu oluşturabilen, kendi geliştirdikleri bir model geliştirdiler. Modeli eğitmek amacıyla, veri açıklaması yapması için özel olarak 50 üniversite öğrencisini işe aldılar.
Tıbbi bakım, finans ve bilgisayar gibi profesyonel alanlar söz konusu olduğunda üniversite öğrencilerine güvenmek de zordur. Büyük bir yerli İnternet şirketi, kendi etiketleme tabanını oluşturmanın yanı sıra, etiketleme için profesyonellere de para ödüyor. Ek açıklama endüstrisindeki profesyonellerin oranı hala küçük olsa da rolleri oldukça açıktır. Örneğin, sosyal güvenlik ödemelerinin askıya alınmasına ilişkin soruyu hükümet belgelerine aşina olan profesyonellere bırakmak son derece güven vericidir.
Açık bir sır şu ki, ChatGPT popüler olmadan çok önce, OpenAI bir düzineden fazla doktora öğrencisini "işaretlemek" için organize etmişti. Sekiz yıl içinde OpenAI yalnızca modeli eğitmek için 1 milyar ABD doları harcadı.
Bu yılın mayıs ayında, ABD'li bir veri şirketi belirli alanlardaki profesyonelleri işe almaya başladı. Bu kıdemli yorumcuların maaşı artık pazarlık konusu değil.Örneğin, yasal verileri etiketlemenin saatlik ücreti 45 ABD Doları, şiirin saatlik ücreti ise 25 ABD Dolarıdır.
Ancak bazı AI şirketlerinin gözünde, ister mavi yakalı ister beyaz yakalı olsun, maliyetten tasarruf etmek istiyorlar. 36 Krypton bu şirketlerle iletişim kurarken şu kelimeyi sıklıkla duydu: maliyetleri azaltın ve verimliliği artırın.
En yaygın yöntem, otomatik açıklama eklemek için yapay zekayı kullanmaktır. Bir veri şirketi, otomatik açıklama oranının %70'in üzerine çıktığını belirtti.
Algoritma mühendisi Xiao Li ve meslektaşları daha ileri girişimlerde bulunuyorlar: ** Üretken yapay zeka teknolojisi ve bir dizi algoritma aracılığıyla gerçek verilerin küçük bir kısmı model olarak kullanıldığı sürece, yüksek kaliteli eğitim verileri elde edilebilir. sentezlendi. Başka bir deyişle, hiç kimseye ihtiyaç yoktur. **
Xiao Li, "Sentetik verilerimizin fiyatı, manuel açıklamalardan biraz daha ucuz." dedi.
Sentetik veriler şu anda ağırlıklı olarak otonom sürüş ve robotik alanlarında kullanılıyor. Xiao Li, ChatGPT çıktığında açıklamalı verilerin işe yaramayabileceğini ve sonunda sentetik verilerin kullanılması gerekeceğini fark ettiğini söyledi. OpenAI kurucusu Sam Altman da benzer bir görüşe sahip: "Sentetik veriler, büyük model verilerinin eksikliğini çözmenin en etkili yoludur."
Start-up şirketi Light Wheel Intelligence, ağırlıklı olarak otonom sürüş ve robotik alanlarında sentetik veriler üretiyor. CEO Xie Chen, "Otomatik etiketlemenin nihai sonucu etiketlemenin olmamasıdır" dedi ve ekledi: "Çoğu etiketleme şirketi bunu uzun vadeli görmüyor."
Xie Chen, 36Kr'a, ekipteki bir meslektaşının daha önce bir OEM'de otomatik açıklama ekleme işlemi yaptığını ve daha karmaşık 4D-BEV açıklamasını kazandığını söyledi. Bu, otonom sürüş sistemlerinin performansını artırmak amacıyla 3 boyutlu alanda açıklama yapmak için zamanı dördüncü enlem olarak kullanan, endüstri lideri bir açıklama aracıdır. Bu yıl otomatik açıklama eklemeyi bırakmaya karar verdi, Xie Chen'i bulmak için inisiyatif aldı ve sonunda Nimbus İstihbaratına katıldı.
Bu meslektaşım Xiao Li. Üretken yapay zekanın ortaya çıkmasının kendisini bir zamanlar çok endişelendirdiğini ancak sentetik verileri gördükten sonra yeniden heyecanlandığını söyledi.
Çalışma hedeflerinden biri "bu sektördeki insanları değiştirmek (etiketlemek)" ama kesin olarak şunu söylemekten utanıyor: "Muhtemelen kısa vadede, belki bir veya iki yıl içinde olacak."
Son olarak, açıklama yazarlarının dünyasına dönelim. Teknolojinin hızla gelişmesinin yarattığı kaygı burada neredeyse görünmez oluyor. Sadece önemsiz, tekrarlanan rahatsızlıklar ve bazı saf fanteziler var.
Üniversite öğrencisi Xiao Wang hâlâ memleketinde büyük modeller yetiştiriyor. Geçenlerde sohbet ettiğimizde bu işin yapay zeka alanına girmek için bir fırsat olduğunu söyledi. Şirketin onlar için belirlediği terfi yolu, açıklayıcılardan kalite müfettişlerine, eğitmenlere, denetçilere ve son olarak proje yöneticilerine kadar uzanır. Xiao Wang'ın hedefi yönetici olmak ve ardından işleri yapay zekaya daha yakın bir pozisyona değiştirmek. Tam olarak ne olduğunu henüz bilmiyor.
Hırslı Xiao Wang ile karşılaştırıldığında çoğu yorumcunun yapay zekaya pek ilgisi yok. Bir kız şöyle açıkladı: "Yüksek teknolojiye pek dikkat etmiyorum." İki yıldır not alıyor ve zaten kıdemli bir çalışan. Yakın zamanda kalite müfettişliğine terfi etti. Ona göre açıklama işi basit ve istikrarlı, "zihinsel sürtüşme yok" ve ara sıra balık yakalayabiliyor. Yapay zekanın teknoloji dünyasını hareketlendirdiği bu yılda hayatı su gibi sakin geçti.
Birkaç değişiklikten biri, şirket tarafından sağlanan açıklama araçlarına konuşma botunun eklenmesidir. Şirket herkese, açıklama sırasında anlamadığınız herhangi bir soruyla karşılaşırsanız, zaman kazanmak için doğrudan robota sormanız gerektiğini söylüyor. Verimlilik hızla arttı. 36 Kripton'a, daha önce günde beş ya da altı yüz kutuya kadar üretim yapabildiğini ancak şimdi yedi yüzün üzerinde üretim yapabildiğini söyledi.
"Robot sayesinde" dedi. Henüz kimse ona ChatGPT dendiğini söylemedi.
(Görüşme yapılan kişinin isteği üzerine yazıdaki bazı karakterlerin takma adları vardır. 36Kr yazarı Anita Deng de yazıya katkıda bulunmuştur.)