Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
Mevcut üretken yapay zeka hızla büyüyen bir çocuk gibiyse, o zaman sürekli veriler onu büyüten besleyen besindir.
Veri açıklaması bu “yemeği” yapma sürecidir.
Ancak bu süreç gerçekten hacimsel ve yorucudur.
Açıklamayı gerçekleştiren "açıklayıcının" yalnızca görüntüdeki çeşitli nesneleri, renkleri, şekilleri vb. tekrar tekrar tanımlaması gerekmez, aynı zamanda bazen verileri temizlemesi ve ön işlemesi bile gerekir.
Yapay zeka teknolojisinin sürekli gelişmesiyle birlikte, manuel veri açıklamasının sınırlamaları giderek daha belirgin hale geliyor. Manuel veri açıklaması yalnızca zaman alıcı ve emek yoğun olmakla kalmaz, aynı zamanda kalitenin garanti edilmesi bazen zordur.
Bu sorunları çözmek için Google yakın zamanda tercih açıklaması için insanların yerine büyük modeller kullanan, Yapay Zeka Geri Bildirimli Güçlendirme Öğrenimi (RLAIF) adı verilen bir yöntem önerdi.
Araştırma sonuçları, RLAIF'in, insan açıklamasına dayanmadan insan geri bildirimi (RLHF) ile takviyeli öğrenmeye benzer iyileştirmeler üretebildiğini ve her iki kazanma oranının da %50 olduğunu göstermektedir. Bu arada, hem RLAIF hem de RLHF, denetimli ince ayarın (SFT) temel stratejisinden daha iyi performans gösteriyor.
Bu sonuçlar, RLAIF'in manuel açıklamaya ihtiyaç duymadığını ve RLHF'ye uygun bir alternatif olduğunu göstermektedir. **
Peki, eğer bu teknoloji gelecekte gerçekten tanıtılır ve popüler hale getirilirse, veri açıklaması için hâlâ manüel "çekme kutularına" güvenen birçok şirket bundan sonra gerçekten çıkmaz sokağa mı girecek?
1 Veri açıklamasının mevcut durumu
Yurt içi şerh sektörünün mevcut durumunu basitçe özetlemek istersek; **İş yükü fazla ama verimliliği çok yüksek değil ve nankör bir durum. **
Etiketleme şirketlerine yapay zeka alanında veri fabrikaları adı veriliyor ve genellikle Güneydoğu Asya, Afrika veya Çin'deki Henan, Shanxi ve Shandong gibi insan kaynaklarının zengin olduğu bölgelerde yoğunlaşıyorlar.
Maliyetleri kontrol altına almak için etiketleme şirketinin patronları ilçede bir yer kiralayacak, bilgisayarlar kuracak, siparişler olduğunda civardaki kişileri yarı zamanlı çalışacak şekilde işe alacak, sipariş yoksa dağılacaklar. ve biraz dinlen.
Basitçe söylemek gerekirse bu tür işler, yol kenarındaki geçici dekorasyon işçilerine biraz benzer.
İş istasyonunda sistem, "açıklayıcıya" genellikle birkaç soru ve birkaç cevap içeren bir dizi veriyi rastgele verecektir.
Bundan sonra "açıklayıcının" önce sorunun hangi türe ait olduğunu işaretlemesi, ardından yanıtları puanlayıp sıralaması gerekir.
Daha önce yerli büyük modeller ile GPT-4 gibi gelişmiş büyük modeller arasındaki uçurumdan bahsederken yerli veri kalitesinin düşük olmasının sebepleri özetleniyordu.
Peki veri kalitesi neden yüksek değil? Bunun nedeninin bir kısmı veri açıklamasının "montaj hattında" yatmaktadır.
Şu anda Çin'in büyük modelleri için iki tür veri kaynağı bulunmaktadır: biri açık kaynaklı veri kümeleri, diğeri ise tarayıcılar aracılığıyla taranan Çin İnternet verileridir.
**Çin'in büyük modellerinin performansının yeterince iyi olmamasının ana nedenlerinden biri İnternet verilerinin kalitesidir.**Örneğin, profesyoneller genellikle bilgi ararken Baidu'yu kullanmazlar.
Bu nedenle tıbbi bakım, finans vb. gibi daha profesyonel ve dikey veri sorunlarıyla karşılaşıldığında profesyonel bir ekiple işbirliği yapmak gerekir.
Ancak bu noktada sorun yeniden ortaya çıkıyor: Profesyonel ekipler için, konu veri olduğunda geri dönüş süresi uzun olmakla kalmıyor, aynı zamanda ilk hamle yapanların kayıp yaşaması da muhtemel.
Örneğin, belirli bir ek açıklama ekibi çok fazla veri üretmek için çok fazla para ve zaman harcadıysa, diğerleri bunu paketleyip küçük bir miktar para karşılığında satın alabilir.
Böyle bir "bedavacılık ikilemi" ile karşı karşıya kalan büyük yerli modeller, çok fazla veriye sahip olma ancak düşük kalitede olma gibi garip bir çıkmaza düştü.
Durum böyle olunca OpenAI gibi önde gelen yabancı yapay zeka şirketlerinden bazıları bu sorunu nasıl çözüyor?
Aslında veri açıklaması açısından OpenAI, maliyetleri düşürmek için ucuz ve yoğun işgücü kullanmaktan vazgeçmiş değil.
Örneğin, daha önce zehirli bilgileri etiketlemek için çok sayıda Kenyalı işçiyi saat başına 2 ABD Doları karşılığında işe aldığı ortaya çıkmıştı.
**Ancak temel fark, veri kalitesi ve açıklama verimliliği sorunlarının nasıl çözüleceğinde yatmaktadır. **
Spesifik olarak, bu konuda OpenAI ile yerli şirketler arasındaki en büyük fark, manuel açıklamanın "öznellik" ve "kararsızlık" etkisinin nasıl azaltılacağıdır.
2 OpenAI'nin yaklaşımı
Bu tür insan açıklamacıların "öznelliğini" ve "istikrarsızlığını" azaltmak için OpenAI kabaca iki ana stratejiyi benimser:
1. Yapay geri bildirim ve takviyeli öğrenmenin birleşimi;
Etiketleme yöntemi açısından OpenAI'nin manuel geri bildirimi ile yerli geri bildirimi arasındaki en büyük fark, esas olarak akıllı sistemin çıktısını değiştirmek veya etiketlemek yerine davranışını sıralaması veya puanlamasıdır.
Akıllı bir sistemin davranışı, akıllı sistemin karmaşık bir ortamda kendi hedef ve stratejilerine dayalı bir dizi eylem veya karar vermesi anlamına gelir.
Örneğin bir oyun oynayın, bir robotu kontrol edin, bir kişiyle konuşun vb.
Akıllı bir sistemin çıktısı, bir makale yazmak veya bir resim çizmek gibi basit bir görevde girdi verilerine dayanarak bir sonuç veya cevap üretilmesi anlamına gelir.
Genel olarak konuşursak, akıllı sistemlerin davranışını "doğru" veya "yanlış" açısından yargılamak çıktıdan daha zordur ve tercih veya memnuniyet açısından değerlendirilmesi gerekir.
"Tercih" veya "memnuniyet"e dayalı bu tür bir değerlendirme sistemi, belirli içeriğin değiştirilmesini veya açıklanmasını gerektirmez, böylece insan öznelliğinin, bilgi düzeyinin ve diğer faktörlerin veri açıklamalarının kalitesi ve doğruluğu üzerindeki etkisi azalır.
Yerli işletmelerin de etiketleme yaparken "sıralama" ve "puanlama"ya benzer sistemleri kullanacakları doğrudur, ancak akıllı sistemin stratejisini optimize etmek için bir ödül işlevi olarak OpenAI gibi bir "ödül modeli"nin bulunmaması nedeniyle " sıralama" ve "puanlama" "Puanlama" hâlâ aslında çıktıyı değiştirme veya açıklama ekleme yöntemidir.
2. Çeşitlendirilmiş ve büyük ölçekli veri kaynağı kanalları;
Çin'de veri açıklamasının ana kaynakları, üçüncü taraf açıklama şirketleri veya teknoloji şirketlerinin kendi oluşturduğu ekiplerdir. Bu ekipler çoğunlukla lisans öğrencilerinden oluşur ve yüksek kaliteli ve etkili geri bildirim sağlamak için yeterli profesyonellik ve deneyime sahip değildir.
Bunun aksine, OpenAI'nin manuel geri bildirimi birden fazla kanaldan ve ekipten gelir.
OpenAI, veri elde etmek için yalnızca açık kaynaklı veri kümelerini ve İnternet tarayıcılarını kullanmakla kalmıyor, aynı zamanda daha çeşitli ve yüksek kaliteli veriler elde etmek için Scale AI, Appen, Lionbridge AI vb. gibi birden fazla veri şirketi ve kurumuyla da işbirliği yapıyor.
Bu veri şirketlerinin ve kurumlarının etiketleme yöntemleri yerli muadilleriyle karşılaştırıldığında çok daha “otomatik” ve “akıllı”.
Örneğin Scale AI, birden fazla kesin olmayan veri kaynağından yüksek kaliteli etiketler oluşturabilen, zayıf denetimli öğrenmeye dayalı bir veri etiketleme yöntemi olan Snorkel adlı bir tekniği kullanıyor.
Aynı zamanda Snorkel, her veri noktasını doğrudan manuel olarak etiketlemeden verilere etiket eklemek için kurallar, modeller ve bilgi tabanları gibi çeşitli sinyalleri de kullanabilir. Bu, manuel açıklama eklemenin maliyetini ve süresini büyük ölçüde azaltabilir.
Veri açıklamasının maliyeti ve döngüsü kısaldıkça, rekabet avantajına sahip bu veri şirketleri, otonom sürüş, büyük dil modelleri, sentetik veriler vb. gibi yüksek değerli, yüksek zorluklu ve yüksek eşikli alt bölümleri seçebilir. temel rekabet gücü ve farklılaştırılmış avantajları.
Bu şekilde, "ilk hamle yapanlar zarar görür" şeklindeki bedavacılık ikilemi de güçlü teknolojik ve endüstriyel engellerle ortadan kaldırılmıştır.
3 Standardizasyona Karşı küçük atölye
**Yapay zeka otomatik etiketleme teknolojisinin, yalnızca hâlâ tamamen manuel etiketleme kullanan etiketleme şirketlerini gerçekten ortadan kaldıracağı görülebilir. **
Veri ek açıklamaları "emek yoğun" bir sektör gibi görünse de, ayrıntılara indiğinizde yüksek kaliteli verileri elde etmenin kolay bir iş olmadığını göreceksiniz.
Denizaşırı bir veri açıklaması tek boynuzlu atı olan Scale AI tarafından temsil edilen Scale AI, yalnızca Afrika ve diğer yerlerden ucuz insan kaynaklarını kullanmakla kalmıyor, aynı zamanda çeşitli sektörlerdeki profesyonel verilerle ilgilenmek için düzinelerce doktoralı kişiyi işe alıyor.
Veri ek açıklama kalitesi, Scale AI'nin OpenAI gibi büyük model şirketlere sağladığı en büyük değerdir.
Veri kalitesini en üst düzeyde sağlamak amacıyla yukarıda bahsedilen yapay zeka destekli açıklamaların kullanımına ek olarak **Scale AI'nin bir diğer büyük yeniliği de birleşik bir veri platformudur. **
Bu platformlar Scale Audit, Scale Analytics, ScaleData Quality vb.'yi içerir. Bu platformlar aracılığıyla müşteriler, açıklama sürecindeki çeşitli göstergeleri izleyebilir ve analiz edebilir, açıklama verilerini doğrulayıp optimize edebilir ve açıklamanın doğruluğunu, tutarlılığını ve eksiksizliğini değerlendirebilir.
Bu tür standartlaştırılmış ve birleştirilmiş araç ve süreçlerin, etiketleme şirketlerinde "montaj hattı fabrikaları" ile "el yapımı atölyeler" arasında ayrım yapan temel faktörler haline geldiği söylenebilir.
Bu bağlamda, yerli açıklama şirketlerinin çoğu, veri açıklamasının kalitesini incelemek için hala "manuel inceleme"yi kullanıyor. Yalnızca Baidu gibi birkaç dev, EasyData akıllı veri hizmeti platformu gibi daha gelişmiş yönetim ve değerlendirme araçlarını tanıttı.
Temel veri inceleme yönündeki açıklama sonuçlarını ve göstergeleri izlemek ve analiz etmek için özel araçlar yoksa, veri kalitesinin kontrolü yine de bir "ustanın" vizyonuna dayanan atölye benzeri bir düzeye indirgenecektir.
Bu nedenle, Baidu ve Komşum Totoro Data gibi giderek daha fazla yerli şirket, veri açıklamalarının verimliliğini ve kalitesini artırmak ve insan-makine işbirliği modellerini uygulamak için makine öğrenimi ve yapay zeka teknolojilerini kullanmaya başlıyor.
Yapay zeka etiketlemenin ortaya çıkmasının yerli etiketleme şirketlerinin sonu olmadığı, verimsiz, ucuz, emek yoğun, teknik içerikten yoksun etiketleme yönteminin sonu olduğu görülüyor.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Google'ın "büyük hamlesi" kaç yapay zeka etiketleme şirketini öldürecek?
Orijinal kaynak: AI New Intelligence
Mevcut üretken yapay zeka hızla büyüyen bir çocuk gibiyse, o zaman sürekli veriler onu büyüten besleyen besindir.
Veri açıklaması bu “yemeği” yapma sürecidir.
Ancak bu süreç gerçekten hacimsel ve yorucudur.
Yapay zeka teknolojisinin sürekli gelişmesiyle birlikte, manuel veri açıklamasının sınırlamaları giderek daha belirgin hale geliyor. Manuel veri açıklaması yalnızca zaman alıcı ve emek yoğun olmakla kalmaz, aynı zamanda kalitenin garanti edilmesi bazen zordur.
Bu sonuçlar, RLAIF'in manuel açıklamaya ihtiyaç duymadığını ve RLHF'ye uygun bir alternatif olduğunu göstermektedir. **
Peki, eğer bu teknoloji gelecekte gerçekten tanıtılır ve popüler hale getirilirse, veri açıklaması için hâlâ manüel "çekme kutularına" güvenen birçok şirket bundan sonra gerçekten çıkmaz sokağa mı girecek?
1 Veri açıklamasının mevcut durumu
Yurt içi şerh sektörünün mevcut durumunu basitçe özetlemek istersek; **İş yükü fazla ama verimliliği çok yüksek değil ve nankör bir durum. **
Etiketleme şirketlerine yapay zeka alanında veri fabrikaları adı veriliyor ve genellikle Güneydoğu Asya, Afrika veya Çin'deki Henan, Shanxi ve Shandong gibi insan kaynaklarının zengin olduğu bölgelerde yoğunlaşıyorlar.
Maliyetleri kontrol altına almak için etiketleme şirketinin patronları ilçede bir yer kiralayacak, bilgisayarlar kuracak, siparişler olduğunda civardaki kişileri yarı zamanlı çalışacak şekilde işe alacak, sipariş yoksa dağılacaklar. ve biraz dinlen.
Basitçe söylemek gerekirse bu tür işler, yol kenarındaki geçici dekorasyon işçilerine biraz benzer.
Bundan sonra "açıklayıcının" önce sorunun hangi türe ait olduğunu işaretlemesi, ardından yanıtları puanlayıp sıralaması gerekir.
Daha önce yerli büyük modeller ile GPT-4 gibi gelişmiş büyük modeller arasındaki uçurumdan bahsederken yerli veri kalitesinin düşük olmasının sebepleri özetleniyordu.
Peki veri kalitesi neden yüksek değil? Bunun nedeninin bir kısmı veri açıklamasının "montaj hattında" yatmaktadır.
Şu anda Çin'in büyük modelleri için iki tür veri kaynağı bulunmaktadır: biri açık kaynaklı veri kümeleri, diğeri ise tarayıcılar aracılığıyla taranan Çin İnternet verileridir.
**Çin'in büyük modellerinin performansının yeterince iyi olmamasının ana nedenlerinden biri İnternet verilerinin kalitesidir.**Örneğin, profesyoneller genellikle bilgi ararken Baidu'yu kullanmazlar.
Ancak bu noktada sorun yeniden ortaya çıkıyor: Profesyonel ekipler için, konu veri olduğunda geri dönüş süresi uzun olmakla kalmıyor, aynı zamanda ilk hamle yapanların kayıp yaşaması da muhtemel.
Örneğin, belirli bir ek açıklama ekibi çok fazla veri üretmek için çok fazla para ve zaman harcadıysa, diğerleri bunu paketleyip küçük bir miktar para karşılığında satın alabilir.
Böyle bir "bedavacılık ikilemi" ile karşı karşıya kalan büyük yerli modeller, çok fazla veriye sahip olma ancak düşük kalitede olma gibi garip bir çıkmaza düştü.
Durum böyle olunca OpenAI gibi önde gelen yabancı yapay zeka şirketlerinden bazıları bu sorunu nasıl çözüyor?
Örneğin, daha önce zehirli bilgileri etiketlemek için çok sayıda Kenyalı işçiyi saat başına 2 ABD Doları karşılığında işe aldığı ortaya çıkmıştı.
**Ancak temel fark, veri kalitesi ve açıklama verimliliği sorunlarının nasıl çözüleceğinde yatmaktadır. **
Spesifik olarak, bu konuda OpenAI ile yerli şirketler arasındaki en büyük fark, manuel açıklamanın "öznellik" ve "kararsızlık" etkisinin nasıl azaltılacağıdır.
2 OpenAI'nin yaklaşımı
Bu tür insan açıklamacıların "öznelliğini" ve "istikrarsızlığını" azaltmak için OpenAI kabaca iki ana stratejiyi benimser:
1. Yapay geri bildirim ve takviyeli öğrenmenin birleşimi;
Etiketleme yöntemi açısından OpenAI'nin manuel geri bildirimi ile yerli geri bildirimi arasındaki en büyük fark, esas olarak akıllı sistemin çıktısını değiştirmek veya etiketlemek yerine davranışını sıralaması veya puanlamasıdır.
Akıllı bir sistemin davranışı, akıllı sistemin karmaşık bir ortamda kendi hedef ve stratejilerine dayalı bir dizi eylem veya karar vermesi anlamına gelir.
Örneğin bir oyun oynayın, bir robotu kontrol edin, bir kişiyle konuşun vb.
Genel olarak konuşursak, akıllı sistemlerin davranışını "doğru" veya "yanlış" açısından yargılamak çıktıdan daha zordur ve tercih veya memnuniyet açısından değerlendirilmesi gerekir.
"Tercih" veya "memnuniyet"e dayalı bu tür bir değerlendirme sistemi, belirli içeriğin değiştirilmesini veya açıklanmasını gerektirmez, böylece insan öznelliğinin, bilgi düzeyinin ve diğer faktörlerin veri açıklamalarının kalitesi ve doğruluğu üzerindeki etkisi azalır.
2. Çeşitlendirilmiş ve büyük ölçekli veri kaynağı kanalları;
Çin'de veri açıklamasının ana kaynakları, üçüncü taraf açıklama şirketleri veya teknoloji şirketlerinin kendi oluşturduğu ekiplerdir. Bu ekipler çoğunlukla lisans öğrencilerinden oluşur ve yüksek kaliteli ve etkili geri bildirim sağlamak için yeterli profesyonellik ve deneyime sahip değildir.
OpenAI, veri elde etmek için yalnızca açık kaynaklı veri kümelerini ve İnternet tarayıcılarını kullanmakla kalmıyor, aynı zamanda daha çeşitli ve yüksek kaliteli veriler elde etmek için Scale AI, Appen, Lionbridge AI vb. gibi birden fazla veri şirketi ve kurumuyla da işbirliği yapıyor.
Bu veri şirketlerinin ve kurumlarının etiketleme yöntemleri yerli muadilleriyle karşılaştırıldığında çok daha “otomatik” ve “akıllı”.
Aynı zamanda Snorkel, her veri noktasını doğrudan manuel olarak etiketlemeden verilere etiket eklemek için kurallar, modeller ve bilgi tabanları gibi çeşitli sinyalleri de kullanabilir. Bu, manuel açıklama eklemenin maliyetini ve süresini büyük ölçüde azaltabilir.
Bu şekilde, "ilk hamle yapanlar zarar görür" şeklindeki bedavacılık ikilemi de güçlü teknolojik ve endüstriyel engellerle ortadan kaldırılmıştır.
3 Standardizasyona Karşı küçük atölye
**Yapay zeka otomatik etiketleme teknolojisinin, yalnızca hâlâ tamamen manuel etiketleme kullanan etiketleme şirketlerini gerçekten ortadan kaldıracağı görülebilir. **
Veri ek açıklamaları "emek yoğun" bir sektör gibi görünse de, ayrıntılara indiğinizde yüksek kaliteli verileri elde etmenin kolay bir iş olmadığını göreceksiniz.
Denizaşırı bir veri açıklaması tek boynuzlu atı olan Scale AI tarafından temsil edilen Scale AI, yalnızca Afrika ve diğer yerlerden ucuz insan kaynaklarını kullanmakla kalmıyor, aynı zamanda çeşitli sektörlerdeki profesyonel verilerle ilgilenmek için düzinelerce doktoralı kişiyi işe alıyor.
Veri kalitesini en üst düzeyde sağlamak amacıyla yukarıda bahsedilen yapay zeka destekli açıklamaların kullanımına ek olarak **Scale AI'nin bir diğer büyük yeniliği de birleşik bir veri platformudur. **
Bu platformlar Scale Audit, Scale Analytics, ScaleData Quality vb.'yi içerir. Bu platformlar aracılığıyla müşteriler, açıklama sürecindeki çeşitli göstergeleri izleyebilir ve analiz edebilir, açıklama verilerini doğrulayıp optimize edebilir ve açıklamanın doğruluğunu, tutarlılığını ve eksiksizliğini değerlendirebilir.
Bu bağlamda, yerli açıklama şirketlerinin çoğu, veri açıklamasının kalitesini incelemek için hala "manuel inceleme"yi kullanıyor. Yalnızca Baidu gibi birkaç dev, EasyData akıllı veri hizmeti platformu gibi daha gelişmiş yönetim ve değerlendirme araçlarını tanıttı.
Temel veri inceleme yönündeki açıklama sonuçlarını ve göstergeleri izlemek ve analiz etmek için özel araçlar yoksa, veri kalitesinin kontrolü yine de bir "ustanın" vizyonuna dayanan atölye benzeri bir düzeye indirgenecektir.
Yapay zeka etiketlemenin ortaya çıkmasının yerli etiketleme şirketlerinin sonu olmadığı, verimsiz, ucuz, emek yoğun, teknik içerikten yoksun etiketleme yönteminin sonu olduğu görülüyor.