Bộ dữ liệu mã nguồn mở mà LLaMA đang sử dụng đã được dỡ bỏ: nó chứa gần 200.000 cuốn sách và được so sánh với bộ dữ liệu OpenAI

巴比特_

2023-08-21 06:22:01

Nguồn gốc: Qubit

Nguồn hình ảnh: Được tạo bởi Unbounded AI‌

Bộ dữ liệu nguồn mở đã bị xóa khỏi kệ do vi phạm bản quyền.

Chẳng hạn như LLaMA, GPT-J, v.v., đã được đào tạo với nó.

Hôm nay, trang web đã lưu trữ nó trong 3 năm đã xóa tất cả nội dung liên quan chỉ trong một đêm.

Đây là Books3, một bộ dữ liệu bao gồm gần 200.000 cuốn sách, với dung lượng gần 37GB.

Một tổ chức chống vi phạm bản quyền của Đan Mạch tuyên bố rằng 150 cuốn sách của các thành viên của họ đã được tìm thấy trong bộ dữ liệu, điều này cấu thành hành vi vi phạm, vì vậy họ đã yêu cầu nền tảng xóa nó.

Hiện tại, liên kết trang web Books3 trên nền tảng đã là "404".

Nhà phát triển ban đầu của bộ dữ liệu đã nói một cách bất lực rằng việc loại bỏ Books3 là một bi kịch trong vòng nguồn mở.

Sách3 là gì?

Books3 được phát hành vào năm 2020, do nhà phát triển AI Shawn Presser tải lên và được đưa vào tập dữ liệu nguồn mở của Eleuther AI Pile.

Nó chứa tổng cộng 197.000 cuốn sách, bao gồm tất cả các cuốn sách từ trang web vi phạm bản quyền Bibliotik, nhằm đánh giá chuẩn bộ dữ liệu của OpenAI, nhưng nguồn mở chính.

Cái tên Books3 bắt nguồn từ đây—

Sau khi phát hành GPT-3, chính thức tiết lộ rằng 15% nội dung trong bộ dữ liệu đào tạo của nó đến từ hai kho sách điện tử có tên "Books1" và "Books2", nhưng nội dung cụ thể chưa được tiết lộ.

Books3 mã nguồn mở cung cấp cho nhiều dự án hơn cơ hội cạnh tranh với OpenAI.

Ví dụ: LLaMA, đã bùng nổ trong năm nay và GPT-J của Eleuther AI, tất cả đều sử dụng Books3.

Bạn nên biết rằng dữ liệu sách luôn là tài liệu văn bản cốt lõi trong đào tạo trước mô hình lớn và nó có thể cung cấp tài liệu tham khảo cho mô hình để xuất văn bản dài chất lượng cao.

Các bộ dữ liệu sách được nhiều gã khổng lồ AI sử dụng không phải là nguồn mở, hoặc thậm chí rất bí ẩn. Ví dụ, Books1/2, sự hiểu biết về nguồn gốc và quy mô của nó chủ yếu là suy đoán từ mọi tầng lớp xã hội.

Do đó, các bộ dữ liệu nguồn mở rất quan trọng đối với vòng tròn AI.

Để truy cập dễ dàng hơn, Books3 được lưu trữ trên The Eye. Đây là một nền tảng có thể lưu trữ thông tin, trích xuất dữ liệu công khai.

Và lần này nó đã được đưa ra khỏi kệ, và nó cũng là về nền tảng này.

Nhóm chống vi phạm bản quyền Đan Mạch Rights Alliance đã yêu cầu The Eye gỡ nó xuống và nó đã được chấp thuận.

Nhưng tin tốt là Books3 vẫn chưa biến mất hoàn toàn, vẫn còn nhiều cách khác để lấy nó.

Ngoài ra còn có các bản sao lưu trên Wayback Machine hoặc chúng có thể được tải xuống từ ứng dụng khách torrent.

Anh trai tác giả đã đưa ra nhiều phương pháp trên Twitter.

"Không có Books3, bạn không thể thực hiện ChatGPT của riêng mình"

Trên thực tế, tác giả của bộ dữ liệu có rất nhiều điều để nói về sự cố hủy niêm yết này.

Anh ấy nói rằng cách duy nhất để tạo ra một mô hình như ChatGPT là tạo một bộ dữ liệu như Books3.

Mọi công ty vì lợi nhuận đều bí mật làm bộ dữ liệu, nếu không có Books3 đồng nghĩa với việc chỉ những gã khổng lồ công nghệ như OpenAI mới có thể truy cập những dữ liệu sách này, vì vậy bạn sẽ không thể tạo ChatGPT của riêng mình.

Theo ý kiến của tác giả, ChatGPT giống như một trang web cá nhân vào những năm 90, và điều rất quan trọng là ai cũng có thể làm được.

Tuy nhiên, do một phần lớn dữ liệu của Books3 đến từ các trang web vi phạm bản quyền, tác giả cũng bày tỏ hy vọng rằng trong tương lai sẽ có người làm bộ dữ liệu tốt hơn Books3, điều này không chỉ nâng cao chất lượng dữ liệu mà còn tôn trọng bản quyền của sách .

Tình trạng tương tự này cũng xảy ra với OpenAI.

Hơn một tháng trước, hai tác giả toàn thời gian đã kiện OpenAI vì đã sử dụng các tác phẩm của họ để đào tạo ChatGPT mà không được phép.

Lý do tại sao điều này xảy ra là do bộ dữ liệu Books2 của OpenAI đã lấy được rất nhiều dữ liệu từ thư viện bóng tối (trang web vi phạm bản quyền).

Vì vậy, một số ý kiến đùa rằng AI không chỉ mang đến những đột phá mới về công nghệ mà còn mang đến những nhiệm vụ mới cho các tổ chức chống vi phạm bản quyền.

Liên kết tham khảo: [1] [2] [3] [4]

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
Gate 2025 Q2 Report Released
37k Phổ biến
Altcoin Season Update
14k Phổ biến
Bitcoin Whale Moves
8k Phổ biến
4Gate Derivatives Volume Hits New High
16k Phổ biến
5CPI Data Incoming
62k Phổ biến
6Join Gate VIP to Win MacBook
31k Phổ biến
7MicroStrategy Buys More Bitcoin
3k Phổ biến
8BTC Hits New High
112k Phổ biến
9My Gate Moments
27k Phổ biến
10VIP Exclusive Airdrop Carnival
27k Phổ biến

Ghim

sơ đồ trang web

Bộ dữ liệu mã nguồn mở mà LLaMA đang sử dụng đã được dỡ bỏ: nó chứa gần 200.000 cuốn sách và được so sánh với bộ dữ liệu OpenAI

**Sách3 là gì? **

"Không có Books3, bạn không thể thực hiện ChatGPT của riêng mình"

Sách3 là gì?