İnsan verilerinin acelesi var, Microsoft OpenAI yapay zekayı yapay zeka ile beslemeye başladı, Altman şunları söyledi: Gelecekteki tüm veriler sentetik verilere dönüşecek
Görsel kaynağı: Unbounded AI tarafından oluşturuldu
İnsan verisi kıtlığı var ve yapay zeka, yapay zeka tarafından üretilen verileri yemeye başlamak zorunda kalıyor!
Microsoft ve OpenAI gibi ileri teknoloji yapay zeka şirketlerinin karşılaştığı statüko budur.
Vikipedi, e-kitaplar, haber siteleri, bloglar, Twitter ve Reddit gibi platformlardan ve forumlardan büyük miktarda veri topladılar ve şimdi... verileri tükeniyor.
ANCAK, daha iyi bir büyük modeli eğitmek için hiçbir veri miktarı yeterli değildir.
"Financial Times"a göre birçok şirket, sentetik veriler (Sentetik veriler) olarak adlandırılan büyük modellerin ürettiği sonuçları, daha küçük parametrelere sahip büyük modellere besliyor ve sonuçların fena olmadığını gördü.
OpenAI CEO'su Sam Altman, sentetik verilerin kullanımına aldırış etmemekle kalmayıp, "gelecekteki tüm verilerin sentetik veri haline geleceğini" de söyledi.
Değeri 2 milyar dolar olan büyük model girişimi Cohere de sentetik veriler kullanıyor. Şirketin CEO'su ve klasik büyük model Transformer makalesinin yazarlarından biri olan Aidan Gomez, şuna bile inanıyor:
Sentetik veriler, "süper zeki" yapay zeka sistemlerine giden yolu hızlandırabilir.
Peki, hangi büyük modeller halihazırda sentetik veri kullanıyor ve bu sentetik veriler nereden geliyor?
Büyük AI verileri sentezler, küçük AI yer bitirir
Bu sözde sentetik veriler esasen manuel ayarlama sonrasında daha iyi performansa sahip mevcut büyük model tarafından oluşturulan ve ardından biraz daha küçük büyük bir modele beslenen verilerdir.
Örneğin Cohere, "rol yapma" diyalogları yürütmek ve bunlar tarafından üretilen sonuçları sentetik verilere dönüştürmek için iki büyük model kullanmaya çalıştı.
Bu iki büyük model sırasıyla “matematik öğretmeni” ve “öğrenci” rollerini oynamakta ve sanal bir matematik öğretimi dersi yürütmektedir. Bu arada Cohere, diyalog oluşumunu denetlemesi için kenara bir insan çalışan yerleştirdi.
Bir konuşma ters gittiğinde insanlar metni düzeltmek için devreye girer.
İnsan gücü gerektirse de, metni yazmak için bilim, tıp ve iş alanlarından uzmanlar tutmaktan çok daha ucuzdur.
Peki, bu sentetik verileri ne tür büyük modeller kullanacak?
Microsoft Research tarafından yapılan son araştırmalar, yapay verilerin GPT-4 veya PaLM-2'den biraz daha küçük dil modellerini eğitmek için kullanılabileceğini göstermiştir**.
Örnek olarak GPT-4 tarafından oluşturulan "dört yaşındaki çocuk romanı" veri kümesini TinyStories'i ele alalım. Bu veri kümesinin yalnızca 4 yaşındaki çocukların anlayabileceği sözcükleri içerdiği kanıtlanmıştır, ancak eğitimden sonra büyük bir model, aynı Dilbilgisi açısından doğru ve sorunsuz okunan bir hikaye:
İnternetten veri alabilmek elbette daha iyidir, ancak ağ verileri ihtiyaçları karşılayamayacak kadar dağınıktır. Buna karşılık, geniş çapta yayılmamış olsa bile, sentetik veriler zaten bol miktarda bulunmaktadır.
Arkasındaki endüstriyel zincir ortaya çıktı
Şu anda Scale AI ve Gretel.ai gibi şirketler dış dünyaya sentetik veri hizmetleri sunmaya başladılar.
İlk olarak, kuruluşlara sentetik veri hizmetleri sağlamak için bir sentetik veri ürünü olan Scale Synthetic'i piyasaya süren Scale AI.
SemiAnalysis'in GPT-4'ün "büyük danteli" haberini verdiği bir önceki haberde, GPT-4 veri setinde Scale AI ve dahili talimat ince ayar verilerinden milyonlarca satır bulunduğundan da bahsetmişti.
Resmi web sitesinden sentetik veri platformu Gretel.ai'ye gelince, diğer geliştiricilerin kullanması için daha fazla sentetik veri oluşturmak üzere Google, Riot Games ve HSBC gibi farklı şirketlerle işbirliği yaptı.
Gretel.ai CEO'su Ali Golshan, sentetik verilerin yararının, istatistiksel bütünlüğünü korurken veri kümesindeki tüm bireylerin gizliliğini koruması olduğuna inanıyor.
Ancak sentetik verilerin "büyülü operasyonunu" herkes kabul etmiyor.Şu anda tüm tarafların görüşleri esas olarak iki dalgaya ayrılıyor.
Bazıları sentetik verilerin kullanılmasını onaylıyor. Cohere gibi AI şirketleri de dahil olmak üzere, büyük ölçekli modellerle uğraşan birçok şirket hala bu yaklaşımda ısrar ediyor ve bunun daha iyi AI üretebileceğine ve hatta "süper zeka" doğurabileceğine inanıyor.
Diğer bir kısım, sentetik verilerin sonunda AI'nın "kendi kendini beslemesine" izin vereceğine inanıyor.
Örneğin, Oxford Üniversitesi, Cambridge Üniversitesi, Imperial College, Toronto Üniversitesi, Edinburgh Üniversitesi ve Vector Institute tarafından yapılan bir araştırma şunu gösteriyor:
Sentetik verilerle eğitim, modelde geri dönüşü olmayan hatalara neden olur:
Kendi kendine üretilen verilerle zehirlenen "imkansız olayları" unutun.
Bazı netizenler, bu sentetik verilerin sonunda "kullanılamaz çamur" havuzu haline geleceğine inanıyor ve ardından insanlar onu temizlemek* için veri bilimcileri kiralamak zorunda kalacak.
Bazı netizenler bunun kulağa "AI akraba çiftleşmesi" gibi geldiğini söyleyerek alay etti.
Yapay zekanın sentetik verileri kullanması gerektiğini düşünüyor musunuz?
Referans bağlantısı:
[1]
[2]
[3]
[4]
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
İnsan verilerinin acelesi var, Microsoft OpenAI yapay zekayı yapay zeka ile beslemeye başladı, Altman şunları söyledi: Gelecekteki tüm veriler sentetik verilere dönüşecek
Orijinal kaynak: Qubit
İnsan verisi kıtlığı var ve yapay zeka, yapay zeka tarafından üretilen verileri yemeye başlamak zorunda kalıyor!
Microsoft ve OpenAI gibi ileri teknoloji yapay zeka şirketlerinin karşılaştığı statüko budur.
Vikipedi, e-kitaplar, haber siteleri, bloglar, Twitter ve Reddit gibi platformlardan ve forumlardan büyük miktarda veri topladılar ve şimdi... verileri tükeniyor.
"Financial Times"a göre birçok şirket, sentetik veriler (Sentetik veriler) olarak adlandırılan büyük modellerin ürettiği sonuçları, daha küçük parametrelere sahip büyük modellere besliyor ve sonuçların fena olmadığını gördü.
OpenAI CEO'su Sam Altman, sentetik verilerin kullanımına aldırış etmemekle kalmayıp, "gelecekteki tüm verilerin sentetik veri haline geleceğini" de söyledi.
Değeri 2 milyar dolar olan büyük model girişimi Cohere de sentetik veriler kullanıyor. Şirketin CEO'su ve klasik büyük model Transformer makalesinin yazarlarından biri olan Aidan Gomez, şuna bile inanıyor:
Peki, hangi büyük modeller halihazırda sentetik veri kullanıyor ve bu sentetik veriler nereden geliyor?
Büyük AI verileri sentezler, küçük AI yer bitirir
Bu sözde sentetik veriler esasen manuel ayarlama sonrasında daha iyi performansa sahip mevcut büyük model tarafından oluşturulan ve ardından biraz daha küçük büyük bir modele beslenen verilerdir.
Örneğin Cohere, "rol yapma" diyalogları yürütmek ve bunlar tarafından üretilen sonuçları sentetik verilere dönüştürmek için iki büyük model kullanmaya çalıştı.
Bu iki büyük model sırasıyla “matematik öğretmeni” ve “öğrenci” rollerini oynamakta ve sanal bir matematik öğretimi dersi yürütmektedir. Bu arada Cohere, diyalog oluşumunu denetlemesi için kenara bir insan çalışan yerleştirdi.
İnsan gücü gerektirse de, metni yazmak için bilim, tıp ve iş alanlarından uzmanlar tutmaktan çok daha ucuzdur.
Peki, bu sentetik verileri ne tür büyük modeller kullanacak?
Microsoft Research tarafından yapılan son araştırmalar, yapay verilerin GPT-4 veya PaLM-2'den biraz daha küçük dil modellerini eğitmek için kullanılabileceğini göstermiştir**.
Örnek olarak GPT-4 tarafından oluşturulan "dört yaşındaki çocuk romanı" veri kümesini TinyStories'i ele alalım. Bu veri kümesinin yalnızca 4 yaşındaki çocukların anlayabileceği sözcükleri içerdiği kanıtlanmıştır, ancak eğitimden sonra büyük bir model, aynı Dilbilgisi açısından doğru ve sorunsuz okunan bir hikaye:
Arkasındaki endüstriyel zincir ortaya çıktı
Şu anda Scale AI ve Gretel.ai gibi şirketler dış dünyaya sentetik veri hizmetleri sunmaya başladılar.
İlk olarak, kuruluşlara sentetik veri hizmetleri sağlamak için bir sentetik veri ürünü olan Scale Synthetic'i piyasaya süren Scale AI.
SemiAnalysis'in GPT-4'ün "büyük danteli" haberini verdiği bir önceki haberde, GPT-4 veri setinde Scale AI ve dahili talimat ince ayar verilerinden milyonlarca satır bulunduğundan da bahsetmişti.
Ancak sentetik verilerin "büyülü operasyonunu" herkes kabul etmiyor.Şu anda tüm tarafların görüşleri esas olarak iki dalgaya ayrılıyor.
Bazıları sentetik verilerin kullanılmasını onaylıyor. Cohere gibi AI şirketleri de dahil olmak üzere, büyük ölçekli modellerle uğraşan birçok şirket hala bu yaklaşımda ısrar ediyor ve bunun daha iyi AI üretebileceğine ve hatta "süper zeka" doğurabileceğine inanıyor.
Diğer bir kısım, sentetik verilerin sonunda AI'nın "kendi kendini beslemesine" izin vereceğine inanıyor.
Örneğin, Oxford Üniversitesi, Cambridge Üniversitesi, Imperial College, Toronto Üniversitesi, Edinburgh Üniversitesi ve Vector Institute tarafından yapılan bir araştırma şunu gösteriyor:
Referans bağlantısı: [1] [2] [3] [4]