AI sıkışıp kalacak mı? Büyük modellerin eğitimine yönelik veriler 2026 yılına kadar tükenebilir

Question

Kaynak: "Tencent Technology", Yazar: Jinlu

Odaklan:

Üretken yapay zekadaki son patlama, süper büyük modellerin desteklenmesini gerektiriyor ve büyük modellerin devasa verilerle eğitilmesi gerekiyor, dolayısıyla veriler giderek daha değerli hale geliyor.
Araştırmacılar, verilere olan talebin önemli ölçüde artacağına ve büyük modelleri eğitmek için kullanılabilecek yüksek kaliteli metin verilerinin 2026 yılında tükenebileceğine inanıyor. Bir veri karmaşası başlıyor.
Amerika Birleşik Devletleri'nde model oluşturuculara karşı birçok telif hakkı ihlali davası açıldı ve OpenAI, Stability AI, Midjourney ve Meta'nın tümü davalı oldu.
Yapay zeka şirketleri, diğer şirketlerle veri telif hakkı anlaşmaları imzalamak, araçlarıyla kullanıcı etkileşimleri yoluyla veri toplamak ve kurumsal müşterilerden gelen dahili verileri kullanmaya çalışmak da dahil olmak üzere yeni veri kaynakları araştırıyor.

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Kısa bir süre önce analistler, yapay zekanın (AI) yaratıcılara yönelik yazılım geliştiricisi Adobe'nin çöküşüne yol açıp açmayacağı konusunda açıkça spekülasyon yapıyorlardı. Anlık metne dayalı görüntüler oluşturan Dall-E 2 ve MidTrik gibi yeni araçlar, Adobe'nin görüntü düzenleme yeteneklerini gereksiz kılıyor gibi görünüyor. Bu yılın nisan ayında, finans haber sitesi Seeking Alpha da "Yapay Zeka Adobe'nin Katili Olacak mı?" başlıklı bir makale yayınladı.

Ancak gerçekte gerçekler analistlerin varsayımlarından çok uzak. Adobe, Firefly adı verilen kendi yapay zeka araçları paketini oluşturmak için yüz milyonlarca stok fotoğraftan oluşan veritabanını kullandı. Şirket yöneticisi Dana Rao, Firefly'ın Mart ayındaki lansmanından bu yana 1 milyardan fazla görüntü oluşturmak için kullanıldığını söyledi. Adobe, rakipleri gibi görseller için internette araştırma yapmaktan kaçınarak, şu anda sektörü rahatsız eden derinleşen telif hakkı anlaşmazlıklarının önüne geçiyor. Firefly'ın piyasaya sürülmesinden bu yana Adobe hisseleri yüzde 36 arttı.

Veri karmaşası başlıyor

Adobe'nin sözde "Doomslayer"a karşı kazandığı zafer, hızla büyüyen yapay zeka araçları pazarında hakimiyet yarışının daha geniş etkilerinin altını çiziyor. "Üretici yapay zeka" olarak adlandırılan en son dalgayı destekleyen çok büyük modeller, çok büyük miktarda veriye dayanıyor. Daha önce, model oluşturucular çoğunlukla verileri (genellikle izinsiz olarak) İnternet'ten alıyorlardı. Şimdi bu çılgın eğitim rejimini sürdürmek için yeni veri kaynakları buluyorlar. Aynı zamanda, büyük miktarda yeni veriye sahip olan şirketler, bundan en iyi şekilde nasıl kâr elde edebileceklerini tartıyor. Bir veri karmaşası başlıyor.

Yapay zeka modelinin iki temel unsuru veri setleri ve işlem gücüdür.Sistem veri setleri üzerinde eğitilir ve model, işlem gücü aracılığıyla bu veri setlerinin içi ve dışı arasındaki ilişkiyi tespit eder. Bir bakıma bu iki temel birbirinin yerine geçebilir: Bir model daha fazla veri alınarak veya daha fazla işlem gücü eklenerek geliştirilebilir. Ancak ikincisi, özel yapay zeka çiplerinin eksikliği nedeniyle giderek zorlaşıyor ve bu da model oluşturucuların veri bulma konusunda iki katına çıkmasına neden oluyor.

Araştırma firması Epoch AI, verilere olan talebin o kadar dramatik bir şekilde artacağına ve eğitim için mevcut yüksek kaliteli metinlerin 2026 yılına kadar tükenebileceğine inanıyor. İki teknoloji devi Google ve Meta'nın son yapay zeka modellerinin 1 trilyondan fazla kelimeyle eğitildiği aktarılıyor. Karşılaştırıldığında, çevrimiçi ansiklopedi Wikipedia'daki İngilizce kelimelerin toplam sayısı yaklaşık 4 milyardır.

Önemli olan yalnızca veri kümesinin boyutu değildir. Veriler ne kadar iyi olursa, üzerinde eğitilen modeller de o kadar iyi performans gösterir. Veri girişimi Scale AI'dan Russell Kaplan, metin tabanlı modellerin ideal olarak uzun, iyi yazılmış, gerçeklere dayalı doğru çalışmalarla eğitildiğine dikkat çekiyor. Bu bilgiyi besleyen modellerin benzer şekilde yüksek kaliteli çıktılar üretme olasılığı daha yüksektir.

Benzer şekilde yapay zeka sohbet robotları, çalışmalarını adım adım açıklamaları istendiğinde daha iyi yanıtlar vererek ders kitapları gibi kaynaklara olan ihtiyacı artırıyor. Özel bilgi setleri, modellerin daha niş uygulamalar için "ince ayar yapılmasına" olanak tanıdığından daha da değerli hale geliyor. 2018 yılında yazılım kod deposu GitHub'u 7,5 milyar dolara satın alan Microsoft, bunu kod yazmaya yönelik bir yapay zeka aracı geliştirmek için kullandı.

Veri telif hakkı davaları artıyor, yapay zeka şirketleri lisans anlaşmaları imzalamakla meşgul

Veriye olan talep arttıkça veri açıklarına erişim giderek zorlaşıyor ve içerik oluşturucular artık yapay zeka modelleri tarafından emilen materyal için tazminat talep ediyor. Amerika Birleşik Devletleri'ndeki model yapımcılarına karşı çok sayıda telif hakkı ihlali davası açıldı. Aralarında komedyen Sarah Silverman'ın da bulunduğu bir grup yazar, yapay zeka sohbet robotu ChatGPT'nin geliştiricisi OpenAI ve Facebook'un ana şirketi Meta'ya dava açıyor. Ek olarak, bir grup sanatçı da benzer şekilde metinden resme araçlar üzerinde çalışan iki şirket olan Stability AI ve Midjourney'e dava açtı.

Tüm bunların sonucunda yapay zeka şirketleri veri kaynakları elde etmek için yarışırken bir dizi anlaşma ortaya çıkıyor. Temmuz ayında OpenAI, ajansın haber arşivlerine erişim sağlamak için The Associated Press ile bir anlaşma imzaladı. Yakın zamanda şirket, Meta'nın da anlaşmalı olduğu görsel kitaplık sağlayıcısı Shutterstock ile olan anlaşmasını genişletti.

Ağustos ayının başlarında, Google'ın şarkı yazımı için yapay zeka araçları geliştirmeye yardımcı olmak amacıyla sanatçıların seslerini lisanslamak için plak şirketi Universal Music ile görüşmelerde bulunduğu yönündeki raporlar ortaya çıktı. Varlık yöneticisi Fidelity, finansal verilerine erişim isteyen bir dizi teknoloji şirketinin şirkete başvurduğunu söyledi. Yapay Zeka Laboratuvarı'nın görüntü ve film arşivleri için BBC'ye başvurduğu yönünde söylentiler var. Bir diğer ilgi çekici hedef ise bilimsel dergilerden oluşan dijital bir kütüphane olan JSTOR'dur.

Bu bilgi sahipleri daha büyük pazarlık güçlerinden yararlanıyorlar. Bir forum olan Reddit ve programcılar arasında popüler bir soru-cevap sitesi olan Stack Overflow, verilerine erişim maliyetini artırdı. Her iki site de özellikle değerlidir çünkü kullanıcılar yanıtları "beğenir" ve modelin hangilerinin en alakalı olduğunu bilmesine yardımcı olur. Sosyal medya sitesi X (eski adıyla Twitter), botların sitedeki bilgileri kazıma yeteneğini sınırlamak için adımlar attı ve artık sitenin verilerine erişmek isteyen herkesin ödeme yapması gerekecek. X'in patronu Elon Musk, verileri kendi yapay zeka işini kurmak için kullanmayı planlıyor.

Bu nedenle model oluşturucular halihazırda sahip oldukları verilerin kalitesini artırmak için çalışıyorlar. Çoğu yapay zeka laboratuvarı, görüntüleri etiketleme ve yanıtları derecelendirme gibi görevleri gerçekleştirmek için çok sayıda veri açıklayıcı kullanır. Bu işlerden bazıları o kadar karmaşık ki, yaşam bilimleri alanında yüksek lisans veya doktora adayı bile gerektiriyorlar. Ancak bu işlerin çoğu sıradan ve Kenya gibi ülkelerde ucuz işgücüne yaptırılıyor.

Yapay zeka şirketleri ayrıca araçlarıyla kullanıcı etkileşimleri yoluyla da veri topluyor. Bu araçların birçoğunun, kullanıcının hangi çıktıların faydalı olduğunu belirttiği bir tür geri bildirim mekanizması vardır. Firefly'ın metinden görüntüye oluşturucusu, kullanıcıların dört seçenek arasından seçim yapmasına olanak tanır. Google'ın sohbet robotu Bard da üç yanıt sunuyor.

Kullanıcılar, ChatGPT'ye bir sorguya yanıt verdiğinde onay verebilir. Bu bilgi, temel modellere girdi olarak geri beslenebilir ve yeni kurulan Contextual AI'nin kurucu ortağı Douwe Kiela'nın "veri volanı" olarak adlandırdığı şeyi oluşturur. Bir chatbot'un yanıtlarının kalitesinin daha güçlü bir sinyalinin, kullanıcıların metni kopyalayıp başka bir yere yapıştırıp yapıştırmadığını ekledi. Bu bilgilerin analiz edilmesi Google'ın çeviri araçlarını hızla geliştirmesine yardımcı olur.

Yeni alanları keşfedin ve kurumsal müşterilerin dahili verileri tatlı hamur işlerine dönüşsün

Ancak büyük ölçüde kullanılmayan bir veri kaynağı var: teknoloji şirketlerinin kurumsal müşterilerinde bulunan bilgiler. Birçok işletme farkında olmadan çağrı merkezi kayıtlarından müşteri harcama kayıtlarına kadar çok sayıda faydalı veriye sahiptir. Bu bilgi özellikle değerlidir çünkü çağrı merkezi çalışanlarının müşteri sorularını yanıtlamasına yardımcı olmak veya iş analistlerinin satışları artırmanın yollarını bulmasına yardımcı olmak gibi belirli iş amaçları için modellerde ince ayar yapılmasına yardımcı olabilir.

Ancak bu bol kaynaktan yararlanmak hiç de kolay değil. Danışmanlık şirketi Bain & Company'de analist olan Roy Singh, tarihsel olarak çoğu şirketin yapay zeka araçlarının eğitimi için en yararlı olduğunu kanıtlayacak devasa ancak yapılandırılmamış veri setlerine çok az önem verdiğini belirtiyor. Bu veriler genellikle birden fazla sisteme yayılır ve bulut yerine şirket sunucularında gizlenir.

Bu bilgilerin kilidini açmak, işletmelerin yapay zeka araçlarını kendi özel ihtiyaçlarını daha iyi karşılayacak şekilde uyarlamalarına yardımcı olacaktır. Her iki teknoloji devi, Amazon ve Microsoft, artık Google gibi diğer işletmelerin de yapılandırılmamış veri kümelerini daha iyi yönetmelerine yardımcı olacak araçlar sunuyor. Veritabanı şirketi Snowflake'ten Christian Kleinerman, müşterilerin "veri silolarını ortadan kaldırmaya" çalışmasıyla bu alanın hızla büyüdüğünü söyledi.

Startup'lar da bu yeni alana akın ediyor. Bu yılın nisan ayında, yapay zekaya odaklanan bir veritabanı şirketi olan Weaviate, 200 milyon dolarlık değerlemeyle 50 milyon dolar topladı. Sadece bir hafta sonra rakip PineCone, 750 milyon dolarlık bir değerlemeyle 100 milyon dolar topladı. Bu ayın başlarında başka bir veritabanı girişimi olan Neon da 46 milyon dolar topladı. Açıkçası, veri mücadelesi daha yeni başladı.

View Original