Veriler büyük modeller tarafından tüketilirse yine de genel yapay zekayı görecek miyiz?

Question

Orijinal kaynak: Otonom sürüşün ikinci yarısı

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Genel yapay zekanın arifesindeyiz. ChatGPT dünya çapında ilgi uyandırırken aynı zamanda büyük yapay zeka modelleri için rekabeti de ateşledi. Google, karşılaştırma yapmak için Bard'ı başlattı, Amazon da savaş alanına katıldı ve metaveriye büyük ölçüde yatırım yapan Meta'nın geride kalmaması gerekiyordu ve LLaMa ve SAM'i başlattı. Okyanusun bu yakasında en fazla kaynağa sahip olduğu kabul edilen BAT, üretken modelde yeniden buluştu. Büyük modellerin trendini takip eden somutlaştırılmış zeka, büyük bir değişimin habercisi gibi görünüyor.

Girişimcilik patlamasının ortaya çıkmasıyla her şey on yıl öncesine dönmüş gibi görünüyor. **Ancak bu sefer genel yapay zekanın tekilliği büyük modeller ile açılıyor ve veriler resmi olarak sahnenin merkezinde duruyor. **

01. Büyük modeller geliştirmenin temel unsurları nelerdir

Bilgisayar gücü, büyük modelleri zenginlik oyununa dönüştürüyor

Büyük bir model, sıradan kişilerin tabiriyle, çok sayıda parametreye sahip bir modeldir. Tek bir GPU üzerinde çalıştırılabilen önceki küçük modellerle karşılaştırıldığında, bu ancak büyük şirketlerin biriktirdiği devasa miktarda bilgi işlem gücüne güvenilerek tamamlanabiliyordu. Örneğin, OpenAI ChatGPT'nin maliyeti şu anda eğitim başına bir milyon ABD dolarına kadar çıkmaktadır. Küçük laboratuvarların yapay zeka dalgasına katılma ihtimali büyük modellerle doğrudan sona erdi ve bunu ancak güçlü birikime sahip şirketler tamamlayabiliyor.

Bu nedenle, genel büyük model girişimcilik dalgasında ortaya çıkan kahramanlar, Meituan'dan Wang Huiwen, Sinovation Ventures'tan Kai-fu Lee ve Sogou'dan Wang Xiaochuan gibi İnternet girişimcilik dalgasında harika hikayeleri olan kişilerdi. Moore Yasası modelleri ortaya çıktı ve daha büyük modeller daha iyi dünyayı anlama ve akıl yürütme yetenekleri getirdi.Böyle bir trendle durup tereddüt edecek zaman yok.

1. Algoritma modeli merkezli geliştirme modeli sona erdi

Şu anda yaygın yapay zeka şirketlerinin geliştirme modeli hâlâ model merkezli, yani veri setini sabitleyip ardından modelin yinelendiği "geleneksel" geliştirme modelidir. Algoritma mühendisleri genellikle birkaç kıyaslama veri setine odaklanır ve ardından tahmin doğruluğunu artırmak için çeşitli modeller tasarlar.

Her ne kadar büyük modeller yağmurdan sonra mantar gibi ortaya çıksa da aslında çoğu modelin arkasındaki algoritmalar tutarlı olma eğilimindedir ve modelde büyük bir değişiklik meydana gelmemiştir. Veri hacminin istiflenmesi, eğitilen modelin küçük değişikliklerle modelden çok daha iyi performans göstermesini sağlar. Örneğin birkaç ay önce yapay zeka öncüsü Yann LeCun, ChatGPT'nin teknik olarak yeni bir şey olmadığını ancak mükemmel performansa ulaştığını belirten bir makale yayınladı. Dikkatli algoritma değişiklikleri, veri eklemek ve yinelemekten daha iyi sonuçlar vermeyebilir. Tek bir veri seti üzerinde eğitilen modelin performansıyla karşılaştırıldığında, büyük miktarda yüksek kaliteli verinin getirdiği model performansı, boyutsal azalmaya bir darbe niteliğindedir. **

1. Veriler büyük model geliştirmenin temel unsuru haline gelir

OpenAI'nin büyük modellerinin başarısı, İlya'nın büyük verideki niceliksel değişimlerin ve büyük modellerin niteliksel değişimleri beraberinde getireceğine olan inancından kaynaklanıyor. Örneğin ChatGPT, eğitim için en az 40T büyük ölçekli veri kullanıyor ve etkili veri miktarı artmaya devam ederse daha iyi performans elde edebiliyor. Google'ın Büyük Dil Modellerinin Ortaya Çıkan Yetenekleri araştırmasına göre, model parametrelerinin belirli bir kritik noktasında, model bir anda beklenmedik yetenekler kazandı.

Bu kadar çok parametrenin makul şekilde eğitilebilmesini sağlamak için yüksek kaliteli veriler anahtar haline geldi. ChatGPT'nin gelişimini örnek alırsak, GPT-1 yalnızca 4629 MB metin verisi kullanırken, GPT-2 Reddit'ten taranan ve filtrelenen 40 GB metin verisi kullandı ve GPT-3 en az 45 TB düz metin kullandı. -4'ün eğitim süreci açıklanmamıştır ancak GPT-4'ün çıkarım hızının GPT-3'ünkinden çok daha yavaş olduğu göz önüne alındığında, modelin parametre sayısının da arttığı ve buna karşılık gelen eğitimin de arttığı sonucuna varılabilir. veriler açıkçası daha fazlasını gerektiriyor. Bu yüksek kaliteli veriler, ChatGPT'nin ilk kez İngiliz dünyasında ortaya çıkmasının önemli bir nedenidir.İngilizce eğitim metinleri, Çince eğitim metinlerine göre daha standartlaştırılmış ve daha zengindir.

Çin Renmin Üniversitesi Disiplinlerarası Bilim Enstitüsü Dekanı Yang Dong da ChatGPT'nin başarısının temel nedeninin yalnızca teknolojinin kendisi değil, aynı zamanda Çin'deki veri açıklığı ve veri tekeli gibi ciddi sorunlar olduğuna da inanıyor. Yakın zamanda piyasaya sürülen anlamsal bölümleme modeli Meta'nın Segment Her Şey Modeli'ne gelince, genel olarak denetlenen modelin belirgin bir yeniliği yoktur, ancak anlamsal bölümleme alanında büyük miktarda verinin kullanılması, modelin performansını şaşırtıcı kılar. On milyonlarca görüntü ve milyarlarca bölümleme maskesi, görüntü semantik bölümleme alanında hiç görülmemiştir.

**Yapay zekanın geliştirme modeli, model merkezliden veri merkezliye doğru değişiyor. **Verileri nereden alıyorsunuz? Dünyadaki veriler modeller için yeterince büyük mü?

02. Gerçek veriler büyük modeller tarafından tüketilecek

Bu dünyada insan faaliyetleri her zaman gerçekleşiyor, peki geride bırakılan veri izlerinin büyümeye devam etmesi gerekmez mi? Neden tükendi?

Yüksek kaliteli veriler azdır

İnsan faaliyetleri tarafından oluşturulan izlerin tümü model eğitimi için kullanılamaz.Yalnızca model eğitimine giren yüksek kaliteli veriler en iyi sonuçları üretebilir.

Doğal dil işleme alanında yüksek kaliteli veriler, doğal olarak dijitalleştirilmiş kitaplar ve bilimsel makalelerdir. İyi bir mantıksal ilişkiye sahip olmak aynı zamanda göreceli doğruluğu da sağlayabilir. Sohbet kayıtları, telefon görüşmeleri vb. gibi düşük kaliteli verilerin, zayıf veri sürekliliği nedeniyle eğitim üzerinde nispeten sınırlı bir etkisi vardır. ChatGPT 3'ün geliştirme belgelerinde, veri filtrelemenin 45TB düz metin üzerinde kaliteli filtreleme yapmasının ardından, etkili verinin yalnızca %1,27'sini kullanarak 570GB metin elde edildiği belirtiliyor.

Otonom sürüş alanında çok sayıda farklı senaryodan yüksek kaliteli veriler üretiliyor. Örneğin, nispeten küçük eğriliğe sahip bir yol çok sık ortaya çıkabilir, ancak gerçekte ne kadar çok meydana gelirse, o kadar az önem kazanır. Aksine, bazı alışılmadık senaryolarda (örn. Köşe Senaryosu) veri kalitesi daha yüksektir ve senaryo uyarlamasının ayrıca yapılması gerekir. Bununla birlikte, bu nispeten küçük numuneler, büyük modellerin parametre gereksinimleriyle karşı karşıya kaldıklarında neredeyse kovada bir damladır.

Veri güvenliği ve gizliliğinin getirdiği sınırlamalar

Üretken yapay zekanın geliştirilmesine veri güvenliği konusundaki tartışmalar eşlik etti. Stable Diffusion kullanıma sunulduktan sonra birçok sanatçı arasında memnuniyetsizliğe neden oldu.Stability AI, baskı altında sanatçıların eserlerini hedefli bir şekilde silmelerine olanak tanıyacağını ve eğitim setine girmelerini engelleyeceğini duyurdu.

Bazı durumlarda kamuya açık veriler, kişisel olarak tanımlanabilecek bilgiler, mali bilgiler veya tıbbi kayıtlar gibi hassas bilgiler içerebilir. Pek çok sektörde ve bölgede, hassas bilgiler içeren verilerin elde edilmesi çok zordur, bu da veri toplamanın zorluğunu artırır ve ilgili veri setlerinin büyüme hızını azaltır. Bu, büyük endüstri modelleri için bir kısıtlama haline geldi. Örneğin tıp alanında, alanın özelliği ve mahremiyeti nedeniyle, sıkı gizlilik koruması ve düzenleyici kısıtlamalar altında büyük model eğitimleri için kullanılabilecek miktarda veri elde etmek imkansızdır.

Yüksek kaliteli gerçek veriler, büyük modellerin eğitimini desteklemek için yeterli olmayabilir

"Verilerimiz tükenecek mi? Makine Öğreniminde veri kümelerini ölçeklendirmenin sınırlarının analizi" makalesi, veri eksikliği olasılığını araştırıyor (veri miktarı, büyük model eğitiminin ihtiyaçlarını karşılamak için yeterli değil). modelin büyüme oranı* 2026 yılı itibarıyla yüksek kaliteli NLP verileri eğitimi desteklemek için yeterli olmayacak*. Dil ve görme modellerine ilişkin veri stokları, eğitim veri kümelerinin boyutundan çok daha yavaş büyüyor; dolayısıyla mevcut eğilimler devam ederse, veri tükenmesi nedeniyle veri kümelerinin büyümesi sonunda duracaktır.

Veri miktarının artmasıyla birlikte kontrol edilemeyen veri toplama yöntemleriyle toplanan verilerin çoğu anlamsız hale gelmektedir. Örneğin otonom sürüş senaryolarında araçlar yolda sürekli olarak yeni veriler topluyor ancak bunların yalnızca çok azı gerçekten kullanılabiliyor. Bu nedenle Nvidia CEO'su Jensen Huang ve Ilya Sutskever arasında yakın zamanda yapılan bir görüşmede veri tükenmesi olasılığı da tartışıldı.

03. Sentetik veriler, büyük modellerin devasa veri gereksinimlerini karşılayabilir

Veri merkezli geliştirme modeli, veriyi en önemli parça haline getiriyor. Eğitim algoritmaları veri gerektirir ancak yüksek kalitede veri elde etmek zordur.Büyük modellerin devasa veri gereksinimleri nasıl karşılanmalı?

Gıdalarda sentetik et olduğu gibi veriler de yapay olarak sentezlenebilir mi? Sentetik veriler dijital dünyada oluşturulan verilerdir. Sentetik verinin kontrol edilebilirliği gerçek veriye göre daha iyidir, matematiksel ve fiziksel anlamda gerçek verinin özelliklerini yansıtabilir ve modeli eğitirken veri dengesini sağlayacak şekilde yönlü veri üretebilir.

Sentetik veriler bilgi deltasına sahiptir

Büyük modelleri çeşitli senaryolarda eğitmek için yeterli veri olduğundan emin olmak için gerçek verilerdeki verilerin dağıtımını öğrenin ve bu dağıtıma dayalı olarak daha fazla veri üretin. Farklı unsurların bir araya gelmesi farklı sahneleri beraberinde getirdiği gibi, sahnelerdeki değişiklikler de bilgi artışını beraberinde getirerek sentezlenen verilerin etkililiğini sağlar.

OpenAI ve UC Berkeley'in 2017 yılındaki araştırmasına göre, gerçek sahneye dayalı olarak kameranın konumu, nesne rengi, şekli, ışıklandırma vb. genelleştirilmiş ve eğitim için büyük miktarda sentetik veri üretilmiştir. nesne algılama modeli. Hiçbir şekilde gerçek veri kullanılmaması nedeniyle tespit modelinin 3 boyutlu hatası 1,5 cm içerisinde tutulmakta olup sağlamlığı oldukça iyidir.

Örneğin, otonom sürüş alanında, öndeki arabanın tipik gerçek bir devreye girme sahnesi, sentetik veriler kullanılarak genelleştirilmiş hava durumu ve aydınlatma yoluyla yeniden üretilebiliyor. Ortaya çıkan veriler modeli eğitmek için kullanıldıktan sonra model, farklı hava ve aydınlatma koşullarında daha sağlam performansa sahip olacaktır. Nvidia'nın 2018 araştırmasına göre, modeli eğitmek için rastgele araç konumları ve dokularıyla üretilen sentetik veriler kullanılarak algılama modelinin performansı önemli ölçüde iyileştirildi. Bu, sentetik veri araç konumlarının daha eşit bir şekilde dağıtılmasına ve üretilen verilerin daha geniş bir dağılımına bağlanmaktadır.

Sentetik verinin kontrol edilebilirliği gerçek veriye göre daha iyidir, matematiksel ve fiziksel anlamda gerçek verinin özelliklerini yansıtabilir ve modeli eğitirken veri dengesini sağlayacak şekilde yönlü veri üretebilir. Verileri hedefe yönelik bir şekilde üretirken, büyük modelin özelliklerini kişiselleştirme olasılığı vardır. Örneğin, büyük dil modelinin belirli soruları yanıtlarken önyargılı olması ve belirli resimleri oluştururken özel stil ve öğelere sahip olması umulur. . Bunların hepsi özel sentetik veriler aracılığıyla gerçekleştirilebilir.

Gerçek verilere dayanmaktadır ancak gerçek verilerden farklıdır. Sentetik verilerin bu özelliği onu giderek daha yaygın hale getiriyor ve yalnızca test amaçlı değil, aynı zamanda modeli daha güçlü hale getirmek için eğitim verileri olarak da kullanılabiliyor.

Sentetik verilerin maliyet avantajı çok büyüktür

Verinin maliyeti toplama ve etiketlemeden gelir; her iki kısımda da sentetik verilerin önemli avantajları vardır.

Gerçek verilerin verimsiz toplanmasıyla karşılaştırıldığında, sentetik veriler hedefe yönelik senaryolar üretebilir ve her bayt veriyi değerli hale getirebilir. Büyük bir veri toplama ekibine, büyük ölçekli bir veri dönüş sistemine ve veri filtreleme sistemine gerek yoktur.Sentetik veriler, üretimin başlangıcından itibaren model eğitimi ihtiyaçlarına dayanmaktadır ve çıktıların çoğu doğrudan kullanılabilir, bu da veri maliyetini azaltır Toplama maliyetleri.

Aynı zamanda, sentetik verilerin etiketlenmesinin maliyeti, gerçek verilere göre çok büyük bir avantaja sahip.Veri hizmet platformu Diffgram'ın tahminlerine göre, otonom sürüş görsellerinin etiketlenmesinde, bir etiketleme kutusunun ortalama fiyatı yaklaşık 0,03 ABD doları, ve bir resmi tam olarak etiketlemenin genel maliyeti yaklaşık 0,03,5,79 ABD dolarıdır ve sentetik veriler için ek açıklama fiyatı temelde sıfıra yakındır ve bazıları yalnızca veri hesaplama maliyetleridir ve bu yalnızca yaklaşık 6 sente mal olur. Kısacası sentetik veriler, büyük modelleri daha kontrol edilebilir, verimli ve düşük maliyetli bir şekilde eğitmek için kullanılabilir.

**Eğer gerçek verilerin toplanması hâlâ tarım ve hayvancılığın yakıp yıkma çağındaysa, o zaman sentetik verilerin üretimi, büyük ölçekli, yüksek kaliteli ürünleri uygun maliyetle sağlayan verimli ve otomatikleştirilmiş sanayi çağına girmiştir. düşük maliyetli. **"MIT Technology Review"a göre sentetik veriler, 2022 yılında dünyada çığır açan ilk on teknolojiden biri olarak listeleniyor. Sentetik verilerin, veri kaynaklarının yetersiz olduğu alanlarda yapay zekanın yavaş gelişimini çözebileceğine inanılıyor.

04. Hangi sektörlerin sentetik verilere ihtiyacı olacak

**Aslında sentetik veriler yurt dışında da yaygın olarak kullanılıyor. Robotik, otonom sürüş, doğal dil işleme, finans, tıbbi bakım vb. alanlarda sentetik verileri hepimiz görebiliriz. **

2018 gibi erken bir tarihte, OpenAI, robot kontrolörlerini eğitmek için bir simülasyon ortamı kullanıyordu.Eğitim süreci, çevresel dinamikleri rastgele hale getirecek ve ardından kontrolörü doğrudan fiziksel robota uygulayacaktır.Bu şekilde, robot, basit görevleri yerine getirirken basit görevleri yerine getirebilir. dış ortamdaki değişiklikler.

JPMorgan Chase'in 2019'da hazırladığı bir rapora göre, çok az mali dolandırıcılık verisi sorununun üstesinden gelmek amacıyla mali dolandırıcılık tespit modellerini eğitmek için sentetik veriler kullanıldı.

Stanford Üniversitesi ayrıca yakın zamanda 7 milyar parametreli kendi büyük ölçekli konuşma modeli Alpaca'yı yayınladı. Özellikle ilginç olan, çalışmaya dahil edilen veri setinin ekip tarafından OpenAI'nin API'sini kullanarak oluşturulmuş olması. Başka bir deyişle, eğitim veri setinin tamamı tamamen sentezlendi.Veri bileşimi ve nihai etki GPT-3.5 ile karşılaştırılabilir.

Yine otonom sürüşü örnek alırsak, bilgisayarlı görmenin önemli bir uygulaması olan otonom sürüş endüstrisi, sentetik verilerin kullanımında uzun bir yol kat etti. Test maliyetlerini azaltmak ve yineleme verimliliğini artırmak amacıyla, sektörde otonom sürüş algoritmalarını test etmek ve doğrulamak için simülasyon motorları yaygın olarak kullanılmaktadır.

Görüş tabanlı otonom sürüş işlevlerinin, dünya algısını tamamlamak amacıyla derin öğrenme modellerini eğitmek için büyük miktarda gerçek sahne verisi toplaması gerekiyor. Ancak seri üretilen uzun kuyruklu verilerin gerçek dünyada toplanması genellikle zor veya imkansızdır. Aynı zamanda, aynı nesnenin görünümü bile farklı zaman ve hava koşullarında büyük ölçüde değişiklik gösterebilir, bu da görsel algıda büyük zorluklar yaratır.

Gerçek verilerin toplanmasıyla karşılaştırıldığında sentetik verilerin maliyeti kontrol edilebilir ve manuel açıklama gerektirmez; bu da tutarsız veri toplama ve akış süreçleri ile insan standartlarından kaynaklanan insan hatalarını büyük ölçüde azaltır. Bu nedenle sentetik veriler endüstri tarafından uzun kuyruk sorununu çözmenin etkili yollarından biri olarak değerlendiriliyor.

Ancak otonom sürüş sistemlerini daha iyi eğitmek için çoğu simülasyon verisinin kalitesi yeterli olmaktan uzaktır, gerçek dünyayı yansıtamazlar ve yalnızca gerçek dünyanın yüksek derecede soyutlanmasıdırlar. Bu nedenle sektördeki birçok şirket, verilerin gerçekçiliğini artırmak için büyük yatırımlar yaptı.Örneğin, Nvidia'nın otonom sürüş simülasyon yazılımı DriveSim, sentetik verilerin gerçekçiliğini geliştirmek için gelişmiş fiziksel işleme teknolojisini kullanıyor.

Cruise ve Waymo, dijital ikiz dünyalar oluşturmak ve ardından sentetik veriler üretmek için NeRF ile ilgili teknolojileri kullanıyor.Nvidia ayrıca 2022'de NeRF'nin eğitim verimliliğini büyük ölçüde artıran Instant NGP'yi önerdi.

Telsa, 2021 AIDay gibi erken bir tarihte, otoyolda koşan bir ailenin ve etiketlenmesi zor kalabalıkların sahnelerini kullanarak algılama sistemini eğitti ve bu çok etkileyiciydi.

Aynı zamanda Silikon Vadisi'nde otonom sürüşe hizmet eden Parallel Domain ve Applied Intuition, genel yapay görme endüstrisine hizmet veren Datagen ve Gretel AI olmak üzere sektörün ön saflarında yer alan birçok sentetik veri şirketi ortaya çıkmaya başladı. Kökleri doğal dil işlemeye dayanan bu şirketlerin arkasında sektörün önde gelen devleri yer alıyor.

Gartner, 2024 yılında eğitim verilerinin %60'ının yetişkin verilerinin yerini alacağını, 2030 yılında ise sentetik verilerin tamamen gerçek verilerin yerini alarak yapay zeka eğitimi için ana veri kaynağı haline geleceğini öngörüyor.

Bununla birlikte, Çin'de aslında nispeten az sayıda sentetik veri uygulaması bulunmaktadır ve şu anda çoğu şirket, model eğitimini tamamlamak için hala gerçek verileri kullanmaktadır.

05. Sentetik verilerin sınırlamaları

Gerçek verilerin tamamen yerini alabilmesi için sentetik verilerle hangi sorunların çözülmesi gerekiyor? Burada biraz tartışma yapmak için otonom sürüşü örnek olarak alıyoruz.

Gerçeklik

Algısal açıdan bakıldığında özgünlük gerçekten de ilk değerlendirme endeksidir. Bu veri kümesi eğitim sistemine girmeden önce, gerçek göründüğünden emin olmak için insan görsel denetiminden geçebilecek mi?

Gerçekçiliğin dezavantajlarına gelince, çıplak gözle görülebilen gerçeklik, verilerin gerçek etkinliğini temsil etmemektedir.Resimlerin görsel gerçekçiliğini körü körüne takip etmenin pratikte ölçülebilir bir önemi olmayabilir. Sentetik verilerin orijinalliğini değerlendirmeye yönelik niceliksel standardın, sentetik veri kümeleri üzerinde eğitilmiş algoritmalar için sentetik veri kümelerinin gerçek veri kümeleri üzerinde geliştirilmesine dayanması gerekir. Şu anda, sentetik verilerin gerçekliği konusunda en yüksek gereksinimlere sahip olan otonom sürüş endüstrisinde, Cruise, Nvidia, Waymo, Tesla vb. şirketlerin gerçek yollardaki algoritmaların performansını etkili ve önemli ölçüde iyileştiren örnekler zaten mevcut. sentetik veriler. Elbette algoritmalar geliştikçe sentetik verilerin doğruluğuna yönelik gereksinimler de artacaktır. Üretken yapay zekadaki son sürekli atılımlar, sentetik verilerin gerçekçiliğini artırmak için bize iyi bir pratik yön verdi.

Sahne çeşitliliği

Otonom sürüş senaryolarının oluşturulması gibi sentetik veri dünyası modellerinin oluşturulması. Sentetik verilerin kaynak suyu gibi akması için sanal bir dünya yaratmamız ve gerçek dünyanın işleyişini simüle etmemiz gerekiyor. Geleneksel yöntem, yapay algoritma modellemeye dayanmaktadır. Örneğin, geleneksel sentetik veri üreticilerinin yapım yöntemi, tamamen sahne oluşturma hızını belirleyen fizik motorlarına dayanmaktadır. Tüm fiziksel dünya, 3D varlık mühendislerinin bunu manuel olarak oluşturmasını gerektirir. bina ve sokak tabelasının manuel olarak yapılması gerekir. Sahne yapım hızını kısıtlayan ve sahne çeşitliliğini büyük ölçüde sınırlayan yerleştirme. Difüzyon Modeli ve Nerf gibi üretken yapay zeka, sentetik verilerin üretim hattı için veri merkezli, otomatik modelleme olanağı sağlar.

Yapay olarak oluşturulmuş sahneler, sentetik verilerin genelleştirilmesini büyük ölçüde sınırlandırmaktadır. Sonuçta, eğitilen algoritmanın gerçek dünyada yeterince iyi performans gösterecek kadar güçlü olmasını umuyoruz.

Açıkçası, yapay yapı gerçek dünyadaki her sahneyi kapsayamaz.Gerçek dünyanın tamamını kapsayacak kadar veri oluşturabilmek için, gerçek dünyanın örtülü ifadesini öğrenmemiz ve ardından yeterince çeşitli sahneler üretmemiz gerekir. Bu, üretken yapay zekaya dayanmalıdır.

Verimlilik

Genelleştirilebilirliği yüksek büyük miktarda veriyi hızlı bir şekilde sağlamak için bulutta büyük ölçekli paralel üretim birinci önceliktir.Verilerin hızlı üretimini yüksek hesaplama gücüyle desteklemek, verilerin gerçek dünyada eşi benzeri olmayan bir hızda sentezlenmesine olanak tanır.

06. Üretken yapay zeka, sentetik verilerin büyük ölçekte gerçek verilerin yerini almasını mümkün kılar

NVidia Huang Renxun, insan yansımalarının ve rüyalarının sentetik verilerin parçası olduğuna inanıyor; bu, yapay zekanın yapay zekayı eğitmek için veri üretmesine eşdeğer. Büyük modellerin büyük veri gereksinimlerini karşılamak amacıyla, yapay zekanın yapay zekayı eğitmesini mümkün kılmak için sentetik verilerin üretim bağlantısını tamamen otomatikleştirmemiz gerekiyor.

Difüzyon Modeli ve NeRF'nin son dönemdeki hızlı gelişimi sayesinde, yüksek kaliteli yapay zeka sentetik verileri artık bir fantezi değil. Difüzyon Modelinin Markov zincirlerine dayanan karmaşık matematiksel süreci, daha büyük ve daha kararlı görüntü oluşturma modellerinin oluşturulmasını mümkün kılar ve aynı zamanda rakip oluşturma ağları için çok zor eğitim sorununun da üstesinden gelir. Kararlı Yayılma Modeli, insanların Yayılma Modelinin sonsuz olanaklarını görmesini sağlamak için devasa bir resim koleksiyonu kullanır ve ControlNet ile ilgili ağların tanıtılması aynı zamanda belirli alanlarda uyarlamayı daha kolay hale getirir.

NeRF (Nöral Parlaklık Alanları), 3D dünyasının inşasını bir sinir ağı öğrenme sürecine dönüştürür. 3D dünyasını çok gerçekçi bir şekilde yeniden inşa etmek için sinir alanlarını (Sinir Alanı) ve voksel oluşturmayı etkili bir şekilde birleştirir ve hantal sürecin yerine geçme konusunda oldukça umut vericidir. Fizik motoru oluşturma süreci. Waymo, San Francisco'yu verimli bir şekilde yeniden yapılandırmak ve orada sentetik veriler üretmek için BlockNeRF'i bu teknolojiye dayanarak geliştirdi. Yakın zamanda yayınlanan CVPR Highlight makalesi UniSim, NeRF uygulamasını ileriye doğru büyük bir adım attı.

Bu teknolojilere dayanarak AIGC tek boynuzlu atları ortaya çıkmaya başladı. StabilityAI (Diffsion Model), Midjourney (Diffusion Model) ve LumaLab AI (NeRF) büyük miktarda veriyle eğitildikten sonra, resimlerin orijinalliği artık sorgulanamaz ve ortaya çıkan sanatsal efektler ve yeni veri ifadeleri bize şunları sağlar: bkz. İşte sentetik veriler üzerinde genellemenin parlak geleceği geliyor.

07, sonda yazılı

ChatGPT yalnızca başlangıç noktasıdır ve doğal dil alanındaki büyük modeller yalnızca kıvılcımdır. ChatGPT halihazırda insanın doğal dil verilerinin öğrenilmesiyle elde edilen temel yapay zeka yeteneklerine sahip olsa da aslında insanın dünyaya ilişkin bilişsel düşüncesi kesinlikle dil ve metinle sınırlı olmayıp, çok modludur. ışık, elektrik, film...). Gerçek bir YGZ'nin dünyadaki tüm modal bilgileri insanlar kadar anında, verimli, doğru ve mantıksal bir şekilde işleyebilmesi ve çeşitli modlar arası veya çok modlu görevleri tamamlayabilmesi gerektiği sonucunu çıkarmak zor değil. Bedenlenmiş zekaya yönelik son zamanlardaki çılgınlık, yeni çok modlu etkileşim yöntemlerinin ortaya çıkmasını da sabırsızlıkla bekliyor.

Bu aynı zamanda çok modlu verileri de gerektirir, bu da gerçek verilerin elde edilmesinin zorluğunu daha da artırır ve çok modlu gerçek veriler daha da kıttır.

Örneğin, her yerde bulunabilen metin verileri ve görüntü verileriyle karşılaştırıldığında, bunlara karşılık gelen yalnızca bir avuç yüksek kaliteli 3D veri seti vardır. Yaygın olarak kullanılan bilimsel araştırma görüntü veri setleri genellikle yüz milyonlarca veya daha fazla görüntü içerirken, bilimsel araştırma için kullanılabilecek birçok yüksek kaliteli 3D veri seti yalnızca binlerce veya onbinlerce 3D modele sahiptir. Yapay zekanın 3 boyutlu dünyayı anlamasını istiyorsak, 3 boyutlu modelleri içeren büyük miktarda çok modlu veriye ihtiyacımız olacak. Bunun çözülmesi için sentetik veriler de gerekebilir.

Dünya modellerinin oluşturulmasını otomatikleştirmek, yapay zekanın kontrollü bir şekilde çok modlu veriler üretmesine izin vermek ve daha akıllı büyük modelleri eğitmek, genel yapay zekaya giden gerçek yoldur.

Bazı referanslar:

View Original