Cứ để các ông lớn AI "ăn cắp" thế này, chưa chắc chúng ta đã thấy các trang web miễn phí

Nguồn gốc: Đánh giá xấu

Nguồn hình ảnh: Được tạo bởi Unbounded AI‌

Cách đây vài ngày, Google đã bất ngờ cập nhật chính sách bảo mật, trong đó nói rõ rằng họ sẽ sử dụng tất cả dữ liệu công khai trên Internet để đào tạo mô hình AI của riêng mình.

Nói cách khác, theo chính sách mới, bất kỳ thông tin nào bạn đăng công khai trên Internet đều có thể được Google thu thập dữ liệu, bao gồm nhưng không giới hạn ở các bài đăng, từ khóa bạn tìm kiếm và video bạn xem.

Đây không phải là vệt Internet thích hợp sao!

Không lâu sau khi OpenAI bị kiện vì vi phạm dữ liệu, Google đã vội ra đòn.

Tại thời điểm này, khả năng cao là nó không liên quan gì đến phí dữ liệu, nếu Google không thu thập làn sóng len miễn phí này, rất có thể sau này sẽ không thu được. **

Vấn đề này chưa bao giờ dừng lại kể từ khi ChatGPT trở nên phổ biến.

Shichao sẽ cung cấp cho các bạn tóm tắt về dòng thời gian trước.

Vào tháng 3 năm nay, Musk đã đi đầu trong việc bắn phát súng đầu tiên vào phí dữ liệu, tuyên bố rằng giao diện API của Twitter không còn miễn phí nữa.

Ngay sau đó, Reddit phiên bản US thanh đăng bài chịu không nổi nữa.

Tháng trước, chiến dịch "mất điện" của Reddit là một cuộc phản đối chính sách phí API chính thức.

Khi Shichao viết về điều này trước đây, anh ấy vẫn đang đoán xem liệu các quan chức Reddit cuối cùng có nhượng bộ hay không.

Đánh giá từ quá trình theo dõi hiện tại, hầu hết phần mềm của bên thứ ba đã được xác nhận là đã ngừng hoạt động và Reddit quyết tâm tính phí dữ liệu.

Trong khoảng thời gian này, Twitter lại điều chỉnh giới hạn tỷ lệ, tài khoản không bỏ tiền xác thực chỉ được đọc 600 bài đăng mỗi ngày, mục đích cũng là để ngăn chặn robot lấy dữ liệu người dùng.

Dữ liệu có giá trị như vậy không?

Shi Chao cảm thấy rằng đó vẫn là lỗi của **AI. **

Nếu mô hình AI lớn muốn trở nên thông minh hơn, nó cần một dòng dữ liệu ổn định để "nuôi".

Những người có thể tạo ra các mô hình lớn bây giờ, hoặc có dữ liệu của riêng họ, chẳng hạn như Baidu, Ali và Tencent; hoặc thu thập dữ liệu của người khác, đây là tên OpenAI.

Vì nhiều trang web có giao diện API mở và miễn phí nên những gã khổng lồ như Microsoft và OpenAI đã có cơ hội.

Nhưng ngày nay đã khác trước, sau khi AI mang lại giá trị dữ liệu, các nền tảng có con chip trong tay tất nhiên tuyệt đối không muốn bị mua bán vì mục đích gì. **

Ngay cả CEO Hoffman của Reddit cũng nói rõ: ông chỉ không muốn cung cấp dữ liệu miễn phí cho những gã khổng lồ.

Do đó, việc OpenAI bị truy tố có lẽ là do các nền tảng đã liên kết lại để "giết gà bắt khỉ" và chữa trị những khuynh hướng không lành mạnh của AI.

Tuy nhiên, thật khó để nói liệu pháp luật có đứng về phía OpenAI lần này hay không.

Vì bản quyền dữ liệu liên quan đến 3 vấn đề chính:

**1. Bản thân hành vi của trình thu thập dữ liệu có hợp pháp không? **

**2. Dữ liệu có được bảo vệ bản quyền không? **

**3. Các tác phẩm được tạo ra từ dữ liệu có được bảo vệ bản quyền không? **

Trước hết, câu hỏi đầu tiên, để có được dữ liệu, không gì khác hơn là trả tiền mua hàng hoặc thu thập dữ liệu có sẵn công khai trên Internet.

Tuy nhiên, cần lưu ý rằng dữ liệu được tiết lộ không đồng nghĩa với việc sử dụng được phép và điều này còn phụ thuộc vào việc trang web có các điều khoản liên quan hạn chế hành vi của trình thu thập dữ liệu hay không.

Nếu trực tiếp vượt quá sự đồng ý của chủ sở hữu bản quyền hoặc dữ liệu được lấy một cách cưỡng bức bằng cách bỏ qua các hạn chế của trang web, thì đó là tội lấy dữ liệu hệ thống thông tin máy tính một cách bất hợp pháp.

Ngay cả khi OpenAI tuyên bố thu thập dữ liệu từ các trang web công cộng, thì việc bản thân hành vi thu thập dữ liệu đó có hợp pháp hay không phụ thuộc vào việc chủ sở hữu bản quyền có cho phép hay không.

Thứ hai, về việc bản thân dữ liệu có thuộc bản quyền hay không.

Theo luật bản quyền của Hoa Kỳ, nếu dữ liệu được sử dụng để đào tạo mô hình AI nằm trong phạm vi "sử dụng hợp lý" thì sẽ không cấu thành hành vi vi phạm.

Nhưng vấn đề nằm ở chỗ "sử dụng hợp pháp" này.

Các yếu tố cấu thành của "sử dụng hợp lý" bao gồm việc sử dụng có liên quan đến mục đích thương mại hay không, liệu bản thân tác phẩm có được bảo vệ bởi luật bản quyền hay không, số lượng các phần được sử dụng và tác động đối với chính tác phẩm sau khi sử dụng.

Giống như các báo cáo tin tức và nghiên cứu học thuật, các trích dẫn thích hợp là hoàn toàn ổn.

Việc sử dụng dữ liệu hàng trăm triệu cấp độ trên các mô hình AI và phần mềm AI được thương mại hóa có còn được tính là "sử dụng hợp lý" không?

Cuối cùng là vấn đề bản quyền của các tác phẩm do AI tạo ra.

Do bản quyền của dữ liệu đào tạo không rõ ràng nên nội dung do AI tạo ra đương nhiên sẽ xảy ra tranh chấp bản quyền. Vài ngày trước, Steam cũng đã gỡ bỏ một trò chơi được tạo bằng AIGC với lý do có vấn đề về bản quyền.

Lấy AI vẽ làm ví dụ, việc tạo ảnh tương đương với một quá trình chia nhỏ và tổ chức lại, mặc dù kết quả cuối cùng là hoàn toàn "mới" nhưng vẫn giữ được một số đặc điểm của ảnh huấn luyện.

Tuy nhiên, liệu tình huống này có được coi là vi phạm hay không thì vẫn có những ý kiến khác nhau từ các quốc gia khác nhau.

Do dữ liệu đào tạo thuộc về người khác, Văn phòng Bản quyền Hoa Kỳ đã xác định rằng các tác phẩm do AI tạo ra không được luật bản quyền bảo vệ và thậm chí có thể vi phạm bản quyền.

Thái độ của chính phủ Nhật Bản lại khá khác biệt khi cho rằng luật pháp Nhật Bản không bảo vệ bản quyền của dữ liệu được sử dụng để đào tạo AI.

Ít nhất là trong khung pháp lý hiện hành, khó có câu trả lời thống nhất cho các câu hỏi trên.

Do cơ quan giám sát chưa đủ mạnh nên chủ sở hữu bản quyền không còn cách nào khác là phải tự mình làm, nếu thu phí thì thu hồi nhanh.

▼Tài liệu kiện OpenAI

Có thể thấy trước rằng sau Twitter và Reddit, có thể sẽ có nhiều bên bản quyền nội dung dựng tường cao hơn.

Vấn đề này, đối với nền tảng, tất nhiên là một cách kiếm tiền mới, cho dù các đại gia công nghệ có tệ đến đâu, họ sẽ chi nhiều tiền hơn.

Nhưng đối với Internet nói chung, đó không phải là một điều tốt.

Vào thời điểm đó, Internet đã ra đời với gen chia sẻ mở, chẳng hạn như Wikipedia và Twitter, cung cấp giao diện API miễn phí quanh năm, giúp các nhà phát triển gọi dữ liệu rất thuận tiện.

Nhưng bây giờ nếu cứ cho phép triển khai cước data như thế này thì khó nói kết quả sẽ ra sao.

Xét cho cùng, các nhà phát triển nhỏ không có khả năng trả phí dữ liệu khổng lồ, nếu sự đổi mới chỉ xảy ra ở những người khổng lồ, thì đây chẳng phải là một sự độc quyền thuần túy sao?

Điều quan trọng nhất là nhiều trang web có thể xem miễn phí bây giờ có thể phải xem sau, đây là điều thực sự nguy hiểm đối với người dùng bình thường như chúng tôi.

Thực tế, phí data không thể hoàn toàn đổ lỗi cho nền tảng, nó thực sự khiến các ông lớn AI sợ “ăn cướp”, một động thái tự bảo vệ bất lực.

Mặc dù lần này Google có "chính sách bảo mật" nhưng thật khó để nói kết quả sẽ như thế nào.

Do đó, điều quan trọng là phải xem khi nào búa tạ của sự giám sát sẽ rơi xuống.

Làm rõ bản quyền dữ liệu là rào cản không thể tránh khỏi trong quá trình phát triển AI, và giờ đây, nó dường như còn liên quan đến hướng đi của Internet trong tương lai.

Không biết con tàu AI sẽ đẩy chúng ta vào kỷ nguyên cởi mở hơn hay khép kín?

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)