LLaMA'nın kullandığı açık kaynak veri seti raflardan kaldırıldı: yaklaşık 200.000 kitap içeriyor ve OpenAI veri seti ile kıyaslanıyor

巴比特_

2023-08-21 06:22:01

Orijinal kaynak: Qubit

Görsel kaynağı: Unbounded AI‌ tarafından oluşturuldu

Açık kaynak veri seti, telif hakkı ihlali nedeniyle raflardan kaldırıldı.

LLaMA, GPT-J vb. gibiler bununla eğitilmiştir.

Bugün, onu 3 yıl boyunca barındıran web sitesi, ilgili tüm içeriği bir gecede sildi.

Bu Books3, yaklaşık 200.000 kitaptan oluşan ve yaklaşık 37 GB boyutunda bir veri kümesidir.

Danimarkalı bir korsanlıkla mücadele kuruluşu, veri setinde ihlal teşkil eden üyelerine ait 150 kitap bulunduğunu belirterek platformdan bu kitabı kaldırmasını istedi.

Platformda Books3 web sayfası linki artık "404" oldu.

Veri setinin orijinal geliştiricisi çaresizce Books3'ün kaldırılmasının açık kaynak çemberinde bir trajedi olduğunu söyledi.

Books3 nedir?

Books3, 2020'de yayınlandı, AI geliştiricisi Shawn Presser tarafından yüklendi ve Eleuther AI'nin açık kaynaklı veri kümesi Pile'a dahil edildi.

OpenAI'nin veri setini karşılaştırmayı amaçlayan korsan web sitesi Bibliotik'teki tüm kitaplar da dahil olmak üzere toplam 197.000 kitap içerir, ancak ana açık kaynak.

Books3 adı buradan gelir—

GPT-3'ün piyasaya sürülmesinden sonra, eğitim veri setindeki içeriğin %15'inin "Books1" ve "Books2" adlı iki e-kitap külliyatından geldiği resmi olarak açıklandı, ancak belirli içerik açıklanmadı.

Açık kaynaklı Books3, daha fazla projeye OpenAI ile rekabet etme fırsatı sunar.

Örneğin, bu yıl patlayan LLaMA ve Eleuther AI'nin GPT-J'si Books3 kullanıyor.

Büyük model ön eğitiminde kitap verilerinin her zaman temel korpus malzemesi olduğunu bilmelisiniz ve modelin yüksek kaliteli uzun metin çıktısı alması için bir referans sağlayabilir.

Birçok yapay zeka devinin kullandığı kitap veri setleri açık kaynak değil, hatta çok gizemli. Örneğin Kitaplar 1/2, kaynağı ve ölçeğinin anlaşılması çoğunlukla hayatın her kesiminden gelen spekülasyonlardır.

Bu nedenle, açık kaynaklı veri kümeleri AI çevresi için çok önemlidir.

Daha kolay erişim için Books3, The Eye'da barındırılmaktadır. Bu, bilgileri arşivleyebilen, kamuya açık verileri çıkarabilen bir platformdur.

Ve bu kez raflardan indirildi ve konu yine bu platformla ilgiliydi.

Danimarkalı korsanlıkla mücadele grubu Rights Alliance, The Eye'dan onu kaldırması için talepte bulundu ve kabul edildi.

Ancak iyi haber şu ki Books3 tamamen ortadan kalkmadı, onu almanın başka yolları da var.

Wayback Machine'de de yedekler vardır veya bunlar bir torrent istemcisinden indirilebilir.

Yazar abi Twitter'da birden fazla yöntem verdi.

"Books3 olmadan kendi ChatGPT'nizi yapamazsınız"

Aslında, veri setinin yazarının bu listeden çıkarma olayı hakkında söyleyeceği çok şey var.

ChatGPT gibi bir model yapmanın tek yolunun Books3 gibi bir veri seti oluşturmak olduğunu söyledi.

Kâr amacı güden her şirket gizliden gizliye veri setleri yapıyor.Books3 yoksa bu kitap verilerine sadece OpenAI gibi teknoloji devlerinin erişebileceği anlamına gelir, dolayısıyla kendi ChatGPT'nizi yapamazsınız.

Yazarın görüşüne göre ChatGPT, 90'lardaki kişisel bir web sitesi gibidir ve bunu herkesin yapabilmesi çok önemlidir.

Bununla birlikte, Books3 verilerinin büyük bir kısmı korsan web sitelerinden geldiği için yazar, gelecekte birisinin Books3'ten daha iyi bir veri seti oluşturacağını umduğunu da dile getirdi, bu sadece veri kalitesini iyileştirmekle kalmayacak, aynı zamanda kitapların telif haklarına da saygı duyacak. .

Bu benzer durum OpenAI'de de yaşandı.

Bir aydan daha uzun bir süre önce, iki tam zamanlı yazar, çalışmalarını ChatGPT'yi izinsiz olarak eğitmek için kullandıkları için OpenAI'ye dava açtı.

Bunun olmasının nedeni, OpenAI'nin Books2 veri kümesinin gölge kitaplığından (korsan web sitesi) çok fazla veri elde etmesidir.

Bu nedenle, bazı sesler yapay zekanın yalnızca yeni teknolojik atılımlar getirmediği, aynı zamanda korsanlıkla mücadele kuruluşlarına yeni görevler getirdiği konusunda şaka yaptı.

Referans bağlantısı: [1] [2] [3] [4]

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
Gate 2025 Q2 Report Released
37k Popularity
Altcoin Season Update
14k Popularity
Bitcoin Whale Moves
8k Popularity
4Gate Derivatives Volume Hits New High
16k Popularity
5CPI Data Incoming
62k Popularity
6Join Gate VIP to Win MacBook
31k Popularity
7MicroStrategy Buys More Bitcoin
3k Popularity
8BTC Hits New High
112k Popularity
9My Gate Moments
27k Popularity
10VIP Exclusive Airdrop Carnival
27k Popularity

sitemap

LLaMA'nın kullandığı açık kaynak veri seti raflardan kaldırıldı: yaklaşık 200.000 kitap içeriyor ve OpenAI veri seti ile kıyaslanıyor

**Books3 nedir? **

"Books3 olmadan kendi ChatGPT'nizi yapamazsınız"

Books3 nedir?