LLaMA都在用的開源數據集慘遭下架：包含近20萬本書，對標OpenAI數據集

巴比特_

2023-08-21 06:22:01

原文來源：量子位

圖片來源：由無界AI‌ 生成

開源數據集因侵權問題，慘遭下架。

如LLaMA、GPT-J等，都用它訓練過。

如今，託管了它3年的網站，一夜之間刪除了所有相關內容。

這就是Books3，一個由將近20萬本圖書組成的數據集，大小將近37GB。

丹麥一家反盜版組織表示，在該數據集中發現了150本其成員的書籍，構成侵權，所以要求平台下架。

現在該平台上的Books3網頁鏈接已經“404”。

數據集的最初開發者無奈表示，Books3的下架是開源圈的一場悲劇。

Books3是什麼？

Books3在2020年發布，由AI開發者Shawn Presser上傳，被收錄在Eleuther AI的開源數據集Pile中。

它總計包含197000本書，包含來自盜版網站Bibliotik的所有書籍，意在對標OpenAI的數據集，但主打開源。

這也是Books3名字的來源之處——

GPT-3發布後，官方披露其訓練數據集中15%的內容來自兩個名為“Books1”、“Books2”的電子圖書語料庫，不過具體內容一直沒有被透露。

開源的Books3則給更多項目提供了一個和OpenAI競爭的機會。

比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等，都用上了Books3.

要知道，圖書數據一直是大模型預訓練中核心的語料素材，它能為模型輸出高質量長文本提供參考。

很多AI巨頭使用的圖書數據集都是不開源，甚至是非常神秘的。比如Books1/2，關於其來源、規模的了解，更多都是各界猜測。

由此，開源數據集對於AI圈內相當重要。

為了更方便獲取，Books3被放到了The Eye上託管。這是一個可以存檔信息、提取公開數據的平台。

而這一次慘遭下架，說的也是這一平台。

丹麥反盜版組織權利聯盟向The Eye提出了下架請求，並且通過了。

不過好消息是，Books3並沒有完全消失，還是有其他辦法獲取的。

Wayback Machine上還有備份，或者可以從Torrent客戶端下載。

作者老哥在推特上給出了多個方法。

“沒有Books3就沒法做自己的ChatGPT”

實際上，對於這次下架風波，數據集作者老哥有很多話想說。

他談到，想要做出像ChatGPT一樣的模型，唯一的方法就是創建像Books3這樣的數據集。

每一個盈利性質的公司都在秘密做數據集，如果沒有Books3，就意味著只有OpenAI等科技巨頭才能訪問這些圖書數據，由此你將無法做出自己的ChatGPT。

在作者看來，ChatGPT就像是90年代的個人網站一樣，任何人都能做是很關鍵的。

不過由於Books3很大一部分數據來自於盜版網站，所以作者也表示，希望之後能有人做出來比Books3更好的數據集，不僅提升數據質量，而且尊重書籍版權。

這種類似的情況在OpenAI也有發生。

一個多月以前，兩位全職作者以未經允許擅自將作品用來訓練ChatGPT，起訴了OpenAI。

而之所以會發生這種情況，很有可能是OpenAI的數據集Books2從影子圖書館（盜版網站）中獲取了大量數據。

所以也有聲音調侃說，AI不僅帶來了新的技術突破，也給反盜版組織帶來了新任務。

參考鏈接： [1] [2] [3] [4]

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

話題
Gate 2025 Q2報告出爐
41644 熱度
比特幣巨鯨動向
388 熱度
山寨季何時到來？
399 熱度
4Gate衍生品交易量新高
15854 熱度
5加密法案投票周
5969 熱度
6MicroStrategy增持比特幣
2361 熱度
7BTC再創新高
113525 熱度
8我的Gate時刻
26890 熱度
9VIP 專屬空投嘉年華
26702 熱度
10美加徵關稅
17138 熱度

LLaMA都在用的開源數據集慘遭下架：包含近20萬本書，對標OpenAI數據集

**Books3是什麼？ **

“沒有Books3就沒法做自己的ChatGPT”

Books3是什麼？