Gözlem｜Büyük modeller dalgası tüm metin evrenini tüketmek üzere.Yüksek kaliteli veriler nereden geliyor?

Question

Kaynak: KağıtYazar: Shao WenUzmanlar, ChatGPT gibi yapay zeka destekli botların yakında "evrendeki metinlerin bitebileceği" konusunda uyarıyor. Aynı zamanda, yapay zeka tarafından oluşturulan verileri yapay zekayı "geri beslemek" için kullanmak veya modelin çökmesine neden olmak. Gelecekteki model eğitimi için kullanılan yüksek kaliteli veriler giderek daha pahalı hale gelebilir ve ağ parçalanır ve kapanır."Büyük ölçekli endüstri modelleri gibi büyük ölçekli modellerin geliştirilmesi daha derine indiğinde, gereken veriler İnternet'teki ücretsiz ve açık veriler değildir. Yüksek hassasiyetle bir model yetiştirmek için ihtiyaç duyulan şey endüstri uzmanlığı ve hatta ticari bilgidir. sırlar.bilgi.herkesin böyle bir külliyata katkıda bulunabilmesi için, hak ve çıkarların dağıtılmasına yönelik bir mekanizma olması gerekir.”![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c63d3da287-dd1a6f-7649e1) Görsel kaynağı: Unbounded AI tarafından oluşturulduYapay zeka altyapısının “troyka”larından biri olarak verinin önemi her zaman aşikâr olmuştur. Büyük dil modellerindeki patlama zirve dönemine girerken, sektör verilere her zamankinden daha fazla önem veriyor.Temmuz ayı başlarında, California Üniversitesi, Berkeley'de bilgisayar bilimi profesörü ve "Artificial Intelligence—A Modern Approach" kitabının yazarı Stuart Russell, ChatGPT gibi yapay zeka destekli robotların yakında "evrendeki metinlerinin tükenebileceği" konusunda uyardı. ." "ve büyük miktarda metin toplayarak botları eğitme tekniği "zorluklarla karşılaşmaya başlıyor." Araştırma firması Epoch, makine öğrenimi veri kümelerinin 2026 yılına kadar tüm "yüksek kaliteli dil verilerini" tüketebileceğini tahmin ediyor.CITIC Think Tank uzman komitesi direktörü ve China Securities Menkul Kıymetler Araştırma Enstitüsü direktörü Wu Chao, "Veri kalitesi ve veri hacmi, bir sonraki aşamada büyük ölçekli model yeteneklerinin ortaya çıkmasının anahtarı olacak." 2023 Dünya Yapay Zeka Konferansı'ndaki (WAIC) konuşmasında "Gelecekte bir modelin kalitesinin %20'sini algoritma, %80'ini de verinin kalitesi belirleyecek. Sonraki, yüksek -kaliteli veriler, modelin performansını iyileştirmenin anahtarı olacaktır."Ancak, yüksek kaliteli veriler nereden geliyor? Şu anda veri endüstrisi, veri kalitesi standardının ne olduğu, veri paylaşımı ve dolaşımının nasıl teşvik edileceği ve bir fiyatlandırma ve dağıtım gelir sisteminin nasıl tasarlanacağı gibi birçok acil sorunla karşı karşıyadır.## **Yüksek kaliteli acil veri**Shanghai Data Exchange'in genel müdür yardımcısı Wei Zhilin, 8 Temmuz'da The Paper'a (medya dahil) verdiği bir röportajda, veri, bilgi işlem gücü ve algoritmalardan oluşan "troyka"da, verilerin çekirdek, en uzun ve en önemli olduğunu söyledi. en temel unsurlar.Büyük ölçekli dil modeli (LLM) bugün inanılmaz bir performansa sahip ve arkasındaki mekanizma "akıllı ortaya çıkma" olarak özetleniyor. Basit bir ifadeyle, daha önce öğretilmeyen yapay zeka becerileri artık öğrenilebilir. Ve çok sayıda veri seti, "istihbaratın ortaya çıkması" için önemli bir temeldir.Büyük bir dil modeli, yapılandırılmış veriler, çevrimiçi kitaplar ve diğer içerik dahil olmak üzere birkaç terabaytlık (Terabayt, 1TB=1024MB) devasa bir doğal dil külliyatında "önceden eğitilmiş" milyarlarca ila trilyonlarca parametreye sahip derin bir sinir ağıdır. China Electronics Jinxin Araştırma Enstitüsü başkan yardımcısı Shan Haijun, 2023 Dünya Yapay Zeka Konferansı sırasında Peng Mei Technology'ye büyük modellerin esasen olasılıklı nesil modeller olduğunu ve temel vurgularının anlama (bağlam hızlı öğrenme) ve muhakeme yeteneğinde yattığını söyledi ( düşünme zinciri) ve Değerleri Vardır (İnsan Geri Besleme Takviyeli Öğrenme). ChatGPT'nin en büyük atılımı, yaklaşık 175 milyar parametre ve 45 TB veri hacmiyle GPT-3'ün ortaya çıkmasıydı.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb60d6123-dd1a6f-7649e1) 2018'den 2022'nin başlarına kadar GPT-1'den Gopher'ın küratörlüğünü yaptığı dil modellerine kadar tüm veri kümelerinin kapsamlı bir görünümü. GB cinsinden ağırlıklandırılmamış boyut. Kredi bilgileri: Alan D. Thompson"OpenAI, yeteneklerini daha da güçlendirmek için her zaman daha yüksek kaliteli veriler aramak ve mevcut verileri derinlemesine analiz etmek için çalışıyor." The Paper'a, "Büyük ölçekli, yüksek kaliteli ve çeşitli veriler elde etmek ve bu verilerin derinlemesine analizi, büyük modellerin geliştirilmesini teşvik etmek için önemli fikirlerden biri olabilir."Ancak, yüksek kaliteli veriler yetersizdir.Bir grup yapay zeka araştırmacısı olan Epoch tarafından geçen Kasım ayında yapılan bir araştırma, makine öğrenimi veri kümelerinin 2026 yılına kadar tüm "yüksek kaliteli dil verilerini" tüketebileceğini tahmin ediyor. Ve çalışma yayınlandığında, büyük modellerdeki küresel patlama gerçekleşmemişti bile. Araştırmaya göre, "yüksek kaliteli" setlerdeki dil verileri "kitaplardan, haber makalelerinden, bilimsel makalelerden, Wikipedia'dan ve filtrelenmiş web içeriğinden" geldi.Aynı zamanda, OpenAI gibi üretken yapay zeka geliştirme kuruluşlarının büyük dil modellerini eğitmek için veri toplama uygulamaları giderek daha tartışmalı hale geliyor. Haziran ayının sonunda, OpenAI, ChatGPT'yi eğitmek için "büyük miktarda kişisel veri" çalmakla suçlanan bir toplu dava ile vuruldu. Reddit ve Twitter'ın da aralarında bulunduğu sosyal medya, platformlarında rastgele veri kullanımından duyduğu memnuniyetsizliği dile getirdi.Musk, 1 Temmuz'da bu nedenle okunan tweet sayısına geçici bir sınırlama getirdi.12 Temmuz'da teknoloji ve finans medyası Insider ile yaptığı bir röportajda Russell, doğrulanmamış olmasına rağmen birçok raporun OpenAI'nin özel kaynaklardan metin veri kümeleri satın aldığını detaylandırdığını söyledi. Bu satın alma için çeşitli olası açıklamalar olsa da, "doğal çıkarım, yeterince yüksek kaliteli kamu verisinin olmadığıdır."Bazı uzmanlar, belki de veriler tükenmeden yeni çözümlerin ortaya çıkacağını ileri sürdüler. Örneğin, büyük model sürekli olarak kendi başına yeni veriler üretebilir ve ardından bazı kaliteli filtrelemelere tabi tutulabilir ve bu da modeli eğitmek için kullanılabilir. Buna kendi kendine öğrenme veya "geri bildirim" denir. Ancak bu yıl Mayıs ayında Oxford Üniversitesi, Cambridge Üniversitesi ve Imperial College London'dan araştırmacılar tarafından ön baskı platformu arXiv'de yayınlanan bir makaleye göre, yapay zeka tarafından üretilen verilerle yapay zeka eğitimi, yapay zeka modelinde geri dönüşü olmayan kusurlara yol açacaktır. o Model Çöküşü. Bu, gelecekte model eğitimi için kullanılan yüksek kaliteli verilerin giderek daha pahalı hale geleceği, ağın parçalanıp kapanacağı ve içerik oluşturucuların içeriklerinin ücretsiz olarak taranmasını önlemek için ellerinden geleni yapacakları anlamına gelir.Kaliteli veri elde etmenin gün geçtikçe zorlaşacağını görmek zor değil. "Verilerimizin çoğu artık internetten geliyor. Yılın ikinci yarısında veriler nereden gelecek? Bunun çok önemli olduğunu düşünüyorum. Sonunda herkes özel verilerini paylaşacak ya da benim sahip olmadığım verileriniz var" OpenDataLab He Conghui'den sorumlu Şanghay Yapay Zeka Laboratuvarı'nın genç bilim adamı, 2023 Dünya Yapay Zeka Konferansı'nda bundan bahsetti.Wu Chao ayrıca The Paper'a, bir sonraki adımda daha yüksek kaliteli verilere sahip olan veya sürekli yüksek kaliteli veri akışı oluşturabilen kişinin, performansı iyileştirmenin anahtarı olacağını söyledi.## **"Veri merkezli" sorunlar**He Conghui, tüm model geliştirme paradigmasının yavaş yavaş "model merkezli"den "veri merkezli"ye değişeceğine inanıyor. Ancak veri merkezlilikle ilgili bir sorun var - standartların eksikliği ve veri kalitesinin kritikliğinden sık sık bahsediliyor, ancak aslında şu anda neyin iyi veri kalitesinin ve standardın ne olduğunu net bir şekilde söylemek herkes için zor.Uygulama sürecinde He Conghui de böyle bir sorunla karşı karşıya kaldı, "Bu süreçteki uygulamamız, verileri parçalamak ve daha ayrıntılı hale getirmektir. Her bir alt bölüm alanı ve alt bölüm konusu ile, verilerin kalite standardı kademeli olarak artar. küçüldükçe küçülür.Önerilmiştir.Aynı zamanda tek başına verilere bakmak yeterli değildir, aynı zamanda verilerin arkasına da bakmak gerekir.Model performansını iyileştirmek için verileri ve verilere karşılık gelen niyeti birleştireceğiz. ve bir dizi veri kalitesi yineleme mekanizması formüle edin.”Geçen yıl, He Conghui'nin çalıştığı Şanghay Yapay Zeka Laboratuvarı, yapay zeka için açık veri platformu OpenDataLab'ı piyasaya sürdü ve 5.500'den fazla yüksek kaliteli veri seti sağladı, "ancak bu yalnızca kamuya açık veri setleri düzeyinde. değişim iki gün önce kurulacak.Büyük ölçekli derlem veri ittifakı, araştırma kurumları ve işletmelere daha iyi veri dolaşım yöntemleri sağlayabilir."6 Temmuz 2023 Dünya Yapay Zeka Konferansında, Şangay Yapay Zeka Laboratuvarı, Çin Bilimsel ve Teknolojik Bilgi Enstitüsü, Şanghay Veri Grubu, Şangay Dijital İş Birliği, Ulusal Meteoroloji Merkezi, Çin Merkez Radyo ve Televizyonu, Şanghay Basın Endüstrisi Grubu Büyük diğer birimlerin ortaklaşa başlattığı model corpus data ittifakının resmi kuruluşunu duyurdu.7 Temmuz'da, Shanghai Data Exchange'in resmi web sitesi korpusu resmi olarak başlattı ve finans, ulaşım ve tıp alanlarını kapsayan metin, ses, görüntü ve diğer çoklu modlar dahil toplam yaklaşık 30 korpus veri ürünü listelendi.Ancak böyle bir külliyat inşası tabiî değildir. Shanghai Data Exchange genel müdürü Tang Qifeng, 2023 Dünya Yapay Zeka Konferansı'nda, "Büyük ölçekli işletmelerin ihtiyaç duyduğu yüksek kaliteli derlem olabilir mi? Hedef kitle verileri açmaya istekli olacak mı?" açıklık derecesi ve veri kalitesi İki yol.Wei Zhilin, veri tedarikinin şu anda birçok zorlukla karşı karşıya olduğunu paylaştı. Önde gelen üreticiler verileri açmaya isteksiz. Aynı zamanda, herkes veri paylaşım sürecindeki güvenlik mekanizması konusunda da endişeli. Bir diğer önemli konu ise, verilerin açık dolaşımı için gelir dağıtım mekanizmasına ilişkin şüphelerin devam etmesidir.Özellikle, veri paylaşımının üç sorunu çözmesi gerekir. Shanghai Lingshu Technology Co., Ltd.'nin kurucusu ve CEO'su Lin Le, Pengpai Technology'ye, öncelikle verilerin tahrif edilmesinin kolay olduğunu ve verilerin gerçek ve güvenilir olmasını sağlamanın gerekli olduğunu açıkladı. İkincisi, verilerin kopyalanması kolaydır, yani mülkiyet ilişkisi net değildir ve onay ve yetkili kullanım için blockchain gereklidir. Üçüncüsü, gizliliği sızdırmanın kolay olmasıdır.Blockchain, verileri kullanılabilir ve görünmez kılmak için gizlilik bilgi işlem teknolojisi ile birleştirilebilir.## **Gelir dağılımı nasıl çözülür**Tang Qifeng, yüksek veri kalitesine ancak düşük açıklığa sahip tedarikçiler için, korpus veri dolaşımındaki güven sorununun veri işlem zinciri aracılığıyla etkili bir şekilde çözülebileceğine dikkat çekti. büyük ölçekli modele katılıyor."Tsinghua Üniversitesi'nin Disiplinlerarası Bilgi Temel Teknoloji Araştırma Enstitüsü başkan yardımcısı Lin Changle, verilerin nasıl fiyatlandırılacağı ve faydaların nasıl dağıtılacağı konusunda teorik bir sistem tasarlıyor."Bir dereceye kadar, ChatGPT gibi birçok insan bilgisi birkaç ay içinde ücretsiz olarak kullanılabilir. Büyük modelin bazı yazarların makalelerini öğrenebildiğini, aynı tarzda makaleler yazabildiğini veya Van Gogh'un resimlerini oluşturabildiğini görüyoruz, ancak Bu ödemenin olması gerekmiyor, bu veri kaynaklarının özneleri bundan yararlanmadı." büyük modeller yoktur veya geleneksel fikri mülkiyet korumasının olmadığı söylenir.Ancak Lin Changle, büyük ölçekli modeller çağından sonra, fikri mülkiyet haklarının korunmasının, veri haklarının, fiyatlandırmanın ve işlemlerin onaylanmasına kadar gelişeceğine inanıyor. "Büyük ölçekli endüstri modelleri gibi büyük ölçekli modellerin geliştirilmesi daha derine indiğinde, gereken veriler İnternet'teki ücretsiz ve açık veriler değildir. Modelleri son derece yüksek hassasiyetle eğitmek için gereken şey, endüstri uzmanlığı ve hatta ticari bilgidir. sırlar.bilgi.herkesin böyle bir külliyata katkıda bulunabilmesi için, hak ve çıkarların dağıtılmasına yönelik bir mekanizma olması gerekir.”Lin Changle'ın şu anda üzerinde çalıştığı "veri varlığı haritası", veri haklarını adil bir şekilde dağıtmak için bir dizi gelir dağıtım mekanizmasını kanıtlamak için matematiği kullanmaktır.**Veri dolaşımı nasıl çözülür**Sanayi ve Bilgi Teknolojileri Bakanlığı CCID Araştırma Enstitüsü baş mühendis yardımcısı ve Rusya Doğa Bilimleri Akademisi yabancı akademisyen Liu Quan, WAIC "Sayıların ve Gerçekliğin Entegrasyonu, Geleceğe Yön Veren Zeka" Endüstriyel Blok Zinciri Ekolojik Son zamanlarda "Twenty Articles of Data"nın Pekin versiyonunun endüstride ortaya çıktığı forum.Çok büyük tepki, veri dolaşımı sürecindeki temel sorunu çözüyor. En açık şekilde, hükümet verilerinin kime ait olduğu sorusu açıklığa kavuşturuldu - kamu verileri hükümete aittir. Peki ya kurumsal veriler ve kişisel veriler? "Pekin Belediyesi Veri Alışverişi, emanet edilen operasyonları yürütmekle görevlendirilebilir."5 Temmuz'da Çin Komünist Partisi Pekin Belediye Komitesi ve Pekin Belediye Halk Hükümeti, "Veri Öğelerinin Rolünü Daha İyi Oynamaya ve Dijital Ekonominin Gelişimini Daha Fazla Hızlandırmaya İlişkin Uygulama Görüşleri" konulu bir bildiri yayınladı. "Uygulama Görüşleri" dokuz bölüme ayrılmıştır.Veri mülkiyet hakları, dolaşım işlemleri, gelir dağılımı ve güvenlik yönetişimi yönlerinden temel bir veri sistemi oluşturur.Pekin versiyonu olarak adlandırılan toplam 23 özel gereksinim önerir. sektördeki "Yirmi Veri Makalesi" nden."Yerli olarak bakıldığında istatistiklere göre veri kaynaklarının %80'i kamu ve devlet kurumlarında yoğunlaşmış durumda. Veri arzını büyük ölçüde çözmek istiyoruz, 20 Maddelik Veriye dayalı olmasını umuyoruz ( "Çin Komünist Partisi Merkez Komitesi ve Devlet Konseyi, Veri Öğelerinin Rolünün Daha İyi Oynanmasına İlişkin Temel Veri Sistemi Görüşleri") Kamu verilerinin açık paylaşımı, oluşturulan verileri teşvik etmek için bir dizi kopyalanabilir mekanizma ve paradigma oluşturabilir. kamu hizmetlerinde ve sonra halka hizmet." Wei Zhilin dedi.Wei Zhilin, mevcut istatistiklere göre, Çin'deki veri kaynakları stokunun bir bütün olarak dünyada ikinci sırada olduğunu, ancak bu verilerin çeşitli yerlere dağıldığını söyledi. 7 Temmuz'daki 2023 Dünya Yapay Zeka Konferansı'nda Devlet Bilgi Merkezi Dijital Çin Araştırma Enstitüsü müdür yardımcısı Zhan Yubao'ya göre, Çin'in mevcut ulusal veri dolaşım sistemi şunları içeriyor: İki veri alışverişi var, biri Şangay Veri Alışverişi Bir Shenzhen Veri Alışverişi; Çin'de Pekin Veri Alışveriş Merkezi dahil 17 veri alışveriş merkezi var.