İnsan verileri OpenAI tarafından kullanılacak, peki ya sonra?

Görsel kaynağı: Unbounded AI tarafından oluşturuldu

"Daha büyükten daha büyük" (Daha büyükten daha büyük), yapay zeka alanındaki en sıcak büyük dil modelini tanımlamak için kullanılan Apple'ın o yılki bir reklamıdır. Görünüşe göre bunda yanlış bir şey yok.

Milyarlardan on milyarlara ve yüz milyarlara kadar, büyük modelin parametreleri yavaş yavaş vahşi hale geldi ve buna bağlı olarak, yapay zekayı eğitmek için kullanılan veri miktarı da katlanarak arttı.

OpenAI'nin GPT'sini GPT-1'den GPT-3'e örnek olarak alırsak, eğitim veri seti katlanarak 4,5 GB'tan 570 GB'a çıktı.

Kısa bir süre önce Databricks tarafından düzenlenen Data+AI konferansında, a16z'nin kurucusu Marc Andreessen, son yirmi yılda İnternet tarafından toplanan devasa verilerin bu yeni AI dalgasının yükselişinin önemli bir nedeni olduğuna inanıyordu. ilki, ikincisine kullanılabilir eğitim verileri sağlar.

Bununla birlikte, netizenler yapay zeka eğitimi için internette pek çok yararlı veya yararsız veri bıraksa bile, bu veriler dibe vurabilir.

Yapay zeka araştırma ve tahmin kuruluşu Epoch tarafından yayınlanan bir makale, yüksek kaliteli metin verilerinin 2023-2027 arasında tükeneceğini öngörüyor.

Araştırma ekibi, analiz yönteminde ciddi sınırlamalar olduğunu ve modelin yanlışlığının yüksek olduğunu kabul etse de, yapay zekanın veri kümelerini tüketme hızının korkunç olduğunu inkar etmek zor.

Düşük kaliteli metin, yüksek kaliteli metin ve görüntülerin makine öğrenimi veri tüketimi ve veri üretim eğilimleri|EpochAI

"İnsan" verileri bittiğinde, AI eğitimi kaçınılmaz olarak AI tarafından üretilen içeriği kullanacaktır. Ancak böyle bir "iç döngü" büyük zorluklar yaratacaktır.

Kısa bir süre önce, Cambridge Üniversitesi, Oxford Üniversitesi, Toronto Üniversitesi ve diğer üniversitelerden araştırmacılar, yapay zeka tarafından oluşturulan içeriği eğitim yapay zekası olarak kullanmanın yeni modelin çökmesine yol açacağına işaret eden makaleler yayınladılar. **

Peki, AI eğitimi için "üretilmiş veriler" nedeniyle oluşan çökmenin nedeni nedir? Herhangi bir yardım var mı?

01 AI "akrabalığın" sonuçları

"Tekrarlamanın Laneti: Oluşturulan Verilerle Eğitim Makes Modellerin Unutturulması" başlıklı makalede, araştırmacılar "model çöküşünün" birkaç nesil boyunca modellerin yozlaşmış bir süreci olduğuna dikkat çekiyor**.

Önceki nesil modellerin ürettiği veriler, sonraki nesil modelleri kirletecektir. Modellerin birkaç nesil "mirasından" sonra, dünyayı yanlış algılayacaklardır.

Model yinelemesinin şematik diyagramı |arxiv

Model çöküşü iki adımda gerçekleşir:

  • Erken model çöküşünde, model orijinal verilerin dağıtım bilgilerini, yani "temiz insan verilerini" kaybetmeye başlayacaktır;
  • Daha sonraki aşamada, model, önceki nesil modellerin orijinal dağıtım bilgilerinin "yanlış algılanmasını" karıştıracak ve böylece gerçekliği çarpıtacaktır.

Araştırmacılar ilk önce az sayıdaki GMM (Gaussian Mixture Model) ve VAE (Variable Autoencoder) modellerini sıfırdan eğittiler. GMM'yi örnek alırsak, aşağıdaki şeklin en solu orijinal verilerin normal dağılımıdır.

Gördüğünüz gibi, model başlangıçta verilere çok iyi uyuyor. 50. yinelemede, temeldeki veri dağılımı yanlış algılanmaya başladı. İterasyon 2000 defaya geldiğinde model çok küçük bir noktaya yakınsıyor, bu da modelin sürekli olarak yanlış cevaplar vermeye başladığı anlamına geliyor.

0, 50, 100, 150, 200, 350, 2000|arxiv yinelemelerinde GMM uydurma verileri örnekleri

Ön eğitimin deneysel sonuçlar üzerindeki etkisini doğrulamak için araştırmacılar, Meta tarafından geliştirilen 125 milyon parametreli LLM (Large Language Model) OPT-125m üzerinde deneyler yaptılar.Veri seti Wikipedia'nın wikitext2'sinden geliyor.

GMM ve VAE gibi küçük modellerin aksine, sıfırdan LLM eğitiminin maliyeti çok yüksektir, dolayısıyla hepsi önceden eğitilmiştir. Deneysel sonuçlar aşağıdaki gibidir:

Girdi: Poyntz Wright'a göre, 1360'tan önceki bazı faaliyetler genellikle usta bir duvar ustası ve küçük bir gezici duvar ustası ekibi tarafından gerçekleştiriliyordu ve yerel kilise işçiliğiyle destekleniyordu. Ancak diğer yazarlar bu modeli reddediyor ve bunun yerine usta mimarın bölge kilisesinin çan kulesini İngiliz dikey stilinde tasarladığını öne sürüyor. Çıktı: 0. Nesil: Londra'daki St. John Katedrali gibi canlanma binaları. Hayatta kalan en eski Vertical Revival binası, 19. yüzyılın sonlarında inşa edilen 18. yüzyıldan kalma Our Lady of Guernsey Kilisesi'ne aittir. İki tür dikey kilise vardır: 1. kuşaktan olanlar: Roma'daki Aziz Petrus Bazilikası veya Buenos Aires'teki Aziz Petrus Bazilikası gibi binalar. Bu binaların Papa III. 7. Nesil: İngiliz Mimarisi. The New York Times ile yaptığı bir röportajda Wright, "İstediğimi yapabilmemde yanlış bir şey olduğunu düşünmüyorum. Sadece benim için çalışmıyor" dedi ve ekledi: "Bilmiyorum. Eğlenceli olduğunu iddia edebilirseniz, 9. Nesil: Mimari En büyük siyah@-@tailhare, beyaz@-@tailhare, blue@-@tailhare, red@-@tailhare, sarı@- yaşam alanlarının yanı sıra

  1. nesil modele gelindiğinde ise çıktı içeriğinin tamamen anlaşılmaz hale geldiği görülüyor.

Makalenin yazarlarından biri olan Ilia Shumailov, zamanla AI tarafından üretilen verilerdeki hataların biriktiğini ve bu veriler üzerinde eğitilen ana modellerin daha da çarpık bir gerçeklik görüşü geliştirdiğini söyledi.

02 Model neden çöküyor?

"Model çöküşünün" ana nedeni, yapay zekanın gerçek zeka olmamasıdır. "Zekayı" yaklaşık olarak tahmin edebilmesinin arkasında aslında büyük miktarda veriye dayanan istatistiksel bir yöntem yatmaktadır.

Temel olarak, tüm denetimsiz makine öğrenimi algoritmaları basit bir model izler: Bir dizi veri verildiğinde, bu verilerin yasalarını tanımlayabilen bir model eğitin.

Bu süreçte eğitim setinde olma olasılığı yüksek olan veri model tarafından daha fazla değerlenirken, olasılığı düşük olan veri model tarafından eksik tahmin edilecektir.

Örneğin, her yüzün olasılığını hesaplamak için 100 zar atışının sonuçlarını kaydetmemiz gerektiğini varsayalım. Teorik olarak, görünen her yüzün olasılığı aynıdır. Gerçek hayatta, küçük örneklem büyüklüğü nedeniyle, 3 ve 4'ten daha fazla vaka olabilir. Ancak model için öğrendiği veri, 3 ve 4'ün görünme olasılığının daha yüksek olduğu, dolayısıyla daha fazla 3 ve 4 sonucu üretme eğiliminde olduğudur.

"model çöküşü"nün şematik diyagramı|arxiv

Diğer bir ikincil neden, işlev yaklaşım hatasıdır. Anlaması da kolaydır, çünkü gerçek fonksiyonlar genellikle çok karmaşıktır.Pratik uygulamalarda, basitleştirilmiş fonksiyonlar genellikle gerçek fonksiyonlara yaklaşmak için kullanılır ve bu da hatalara yol açar.

03 Gerçekten şanssız mısınız?

Endişelenmek!

Öyleyse, giderek daha az insan verisiyle, yapay zeka eğitimi için gerçekten hiç şans yok mu?

Hayır, AI eğitimi için veri tükenmesi sorununu çözmenin hâlâ yolları var:

Veri "izolasyonu"

Yapay zeka giderek daha güçlü hale geldikçe, giderek daha fazla insan işlerinde kendilerine yardımcı olması için yapay zekayı kullanmaya başladı ve İnternet'teki AIGC patladı ve "temiz insan veri kümelerini" bulmak giderek daha zor hale gelebilir.

Google'ın derin öğrenme araştırma departmanı Google Brain'de kıdemli araştırma bilimcisi olan Daphne Ippolito, gelecekte yapay zeka olmadan yüksek kaliteli, garantili eğitim verileri bulmanın giderek daha zor hale geleceğini söyledi.

Bu, yüksek riskli bir genetik hastalıktan mustarip, ancak son derece güçlü bir üreme yeteneğine sahip bir insan atası gibidir. Kısa zamanda soyunu yeryüzünün her köşesine kadar çoğalttı. Sonra bir noktada genetik bir hastalık patlak verir ve tüm insanlık yok olur.

"Model çöküşünü" ele almak için, araştırma ekibi tarafından önerilen bir yaklaşım "ilk hareket eden avantaj", yani AIGC'yi ondan ayırarak yapay olarak oluşturulmuş temiz veri kaynaklarına erişimi sürdürmektir.

Aynı zamanda bu, birçok topluluğun ve şirketin insan verilerini AIGC kirliliğinden uzak tutmak için güçlerini birleştirmesini gerektiriyor.

Yine de, insan verilerinin kıtlığı, bunu yapmak için kazançlı fırsatlar olduğu anlamına geliyor ve bazı şirketler zaten bunu yapıyor. Reddit, API'sine erişim maliyetini önemli ölçüde artıracağını söyledi. Şirketin yöneticileri, değişikliklerin (kısmen) AI şirketlerinin verilerini çalmasına bir yanıt olduğunu söyledi. Reddit'in kurucusu ve CEO'su Steve Huffman The New York Times'a "Reddit'in veri tabanı gerçekten değerli. Ancak tüm bu değeri dünyanın en büyük şirketlerinden bazılarına ücretsiz olarak vermemize gerek yok" dedi.

Sentetik veriler

Aynı zamanda, AI tarafından üretilen verilere profesyonel olarak dayalı olarak, AI eğitimi için zaten etkili bir şekilde kullanılmıştır. Bazı uygulayıcıların gözünde, artık yapay zeka tarafından üretilen verilerin modelin çökmesine neden olacağından endişe etmek, bir şekilde "ana parti".

Light Wheel Intelligence'ın kurucusu Xie Chenguang, Geek Park'a yabancı gazetelerde bahsedildiği gibi, AI modellerini eğitmek için AI tarafından oluşturulan verilerin kullanılmasının çökmelere yol açtığını ve deneysel yöntemlerin önyargılı olduğunu söyledi. İnsan verileri bile kullanılabilir ve kullanılamaz olarak ayrılabilir ve makalede bahsedilen deneyler, kalite denetimi ve etkililik yargısından sonra eğitim verileri olarak hedeflenmek yerine doğrudan ayrım yapılmaksızın eğitim için kullanılır.Açıkçası modeli çökertme olasılığı vardır.

Xie Chen, aslında OpenAI'nin GPT-4'ünün eğitim için önceki nesil model GPT-3.5 tarafından üretilen büyük miktarda veri kullandığını ortaya çıkardı. Sam Altman da yakın tarihli bir röportajda, sentetik verilerin büyük model verilerinin eksikliğini çözmenin etkili bir yolu olduğunu ifade etti. Kilit nokta, AI tarafından üretilen hangi verilerin kullanılabilir, hangilerinin kullanılmadığını ayırt etmek ve eğitilen modelin etkisine dayalı olarak sürekli geri bildirim vermek için eksiksiz bir sistemin olmasıdır - bu, OpenAI'nin gurur duyulacak benzersiz numaralarından biridir. AI arena **, bu şirket daha fazla para toplamak ve daha fazla bilgi işlem gücü satın almak kadar basit değil.

AI endüstrisinde, model eğitimi için sentetik verilerin kullanılması, henüz yabancılar tarafından bilinmeyen bir fikir birliği haline geldi.

Nvidia, Cruise ve Weilai gibi şirketlerde otonom sürüş simülasyonlarından sorumlu olan Xie Chen, çeşitli büyük ölçekli model eğitimleri için mevcut veri miktarına bakılırsa, önümüzdeki 2-3 yıl içinde insan veriler gerçekten de "tükenmiş" olabilir. Ancak, özel sistemlere ve yöntemlere dayalı olarak, yapay zeka tarafından üretilen sentetik veriler, tükenmez bir etkili veri kaynağı haline gelecektir**. Ve kullanım senaryoları metin ve resimlerle sınırlı değil.Otonom sürüş ve robotik gibi endüstrilerin ihtiyaç duyduğu sentetik veri miktarı, metin veri miktarından çok daha fazla olacak.

AI'nın üç unsuru veri, bilgi işlem gücü ve algoritmalardır. Verilerin kaynağı belirlendi ve algoritmanın büyük modeli sürekli gelişiyor. Kalan tek bilgi işlem gücü baskısı, Nvidia'nın kurucusu Huang Renxun'un bunu çözebileceğine inanıyorum. sorunsuz.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)