"Cuộc nổi dậy dữ liệu" nổ ra ở Mỹ: Văn học, báo chí và mạng xã hội Hollywood nổi dậy chống lại AI

Tác giả: Thực tập sinh Chen Xiaorui; Phóng viên Fang Xiao

Nguồn: The Paper

Eric Goldman, giáo sư tại Trường Luật của Đại học Santa Clara, Hoa Kỳ, tin rằng làn sóng kiện tụng chỉ mới bắt đầu và "làn sóng thứ hai và thứ ba" đang đến, sẽ quyết định tương lai của trí tuệ nhân tạo.

Các công ty AI lập luận rằng việc sử dụng các tác phẩm có bản quyền để đào tạo AI là hợp lý — ám chỉ đến khái niệm "sử dụng biến đổi" trong luật bản quyền của Hoa Kỳ, trong đó tài liệu được thay đổi theo cách "biến đổi" sẽ tạo ra một ngoại lệ.

Nguồn hình ảnh: Được tạo bởi công cụ Unbounded AI

Hiệp hội Biên kịch Mỹ đã đình công hơn 70 ngày, yêu cầu tăng lương, tăng thị phần của các nền tảng truyền thông trực tuyến và giám sát trí tuệ nhân tạo.

Một “cuộc nổi dậy dữ liệu” đang nổ ra ở Mỹ, với Hollywood, nghệ sĩ, nhà văn, công ty truyền thông xã hội và tổ chức tin tức nằm trong số những người nổi loạn.

Tất cả các điểm đổ lỗi cho các công cụ trí tuệ nhân tạo tổng quát như ChatGPT và Khuếch tán ổn định, bị cáo buộc sử dụng trái phép công việc của người tạo nội dung để đào tạo các mô hình ngôn ngữ lớn mà không được phép hoặc bồi thường.

Trọng tâm của "cuộc nổi dậy về dữ liệu" này là sự thừa nhận mới rằng thông tin trực tuyến -- các câu chuyện, tác phẩm nghệ thuật, các bài báo, bài đăng trên web và ảnh -- có thể có giá trị đáng kể chưa được khai thác. Việc thu thập nội dung công khai trên internet đã có lịch sử lâu đời và hầu hết các công ty cũng như tổ chức phi lợi nhuận đều tiết lộ công khai nội dung đó. Nhưng trước khi ChatGPT được phát hành, chủ sở hữu dữ liệu không biết nhiều về nó, cũng như không coi đây là một vấn đề đặc biệt nghiêm trọng. Giờ đây, điều đó đã thay đổi khi công chúng đã biết thêm về những kiến thức cơ bản về đào tạo AI.

Brandon Duderstadt, người sáng lập và CEO của Nomic, cho biết trong một cuộc phỏng vấn với giới truyền thông: "Đây là sự định hình lại cơ bản về giá trị của dữ liệu. Bạn có thể truy cập dữ liệu và chạy quảng cáo để nhận được giá trị từ nó. Bây giờ, mọi người nghĩ rằng họ phải bảo vệ dữ liệu của họ.”

Sóng nối tiếp sóng

Trong những tháng gần đây, các công ty truyền thông xã hội như Reddit và Twitter, các tổ chức tin tức như The New York Times và NBC, tác giả khoa học viễn tưởng Paul Tremblay và nữ diễn viên Sarah Silverman (Sarah Silverman) và những người khác đã có những hành động phản đối việc thu thập trái phép các tác phẩm và dữ liệu của họ. bằng trí tuệ nhân tạo. Loạt động thái này được giới truyền thông Mỹ mệnh danh là "Cuộc nổi dậy dữ liệu".

Tuần trước, Silverman đã đệ đơn kiện OpenAI và Meta, cáo buộc họ sử dụng các bản sao vi phạm bản quyền cuốn sách của anh ấy trong dữ liệu đào tạo của họ vì chatbot của các công ty có thể tóm tắt chính xác nội dung từ cuốn sách của anh ấy. Ngoài ra, hơn 5.000 tác giả, bao gồm Jodi Picoult, Margaret Atwood và Viet Thanh Nguyen, đã ký một bản kiến nghị kêu gọi các công ty công nghệ Xin phép họ cũng như ghi công và bồi thường khi sử dụng sách của họ làm dữ liệu đào tạo.

Để bảo vệ tác phẩm của mình, các văn nghệ sĩ đã dùng đến nhiều hình thức phản kháng khác nhau. Một số chọn khóa các tác phẩm và ngăn trí tuệ nhân tạo lấy chúng; một số chọn tẩy chay các trang web xuất bản nội dung do trí tuệ nhân tạo tạo ra; một số chọn viết nội dung lật đổ để can thiệp vào việc học của trí tuệ nhân tạo.

Ngày 13/7, SAG-AFTRA, một trong ba nghiệp đoàn lớn của Hollywood với 160.000 thành viên, tuyên bố đình công, trước đó Hiệp hội Biên kịch Mỹ đã đình công hơn 70 ngày. Theo New York Times, cuộc tổng đình công đã khiến ngành công nghiệp điện ảnh và truyền hình trị giá 134 tỷ USD của Mỹ bị đình trệ, đảm bảo không thay thế các diễn viên có khuôn mặt và giọng nói do AI và máy tính tạo ra.

Trong khi đó, một số tổ chức tin tức đang chống lại AI. Vào tháng 6, trong một bản ghi nhớ nội bộ về việc sử dụng AI sáng tạo, The New York Times cho biết, "Các công ty AI nên tôn trọng tài sản trí tuệ của chúng tôi." tin bài làm dữ liệu đào tạo trí tuệ nhân tạo tiềm ẩn rủi ro và vấn đề pháp lý, đồng thời kêu gọi các công ty trí tuệ nhân tạo tôn trọng tri thức của nhà xuất bản Quyền sở hữu và lao động sáng tạo.

Các công ty truyền thông xã hội cũng đã có một lập trường. Vào tháng 4, trang tin xã hội Reddit cho biết họ muốn tính phí bên thứ ba khi truy cập vào giao diện lập trình ứng dụng (API). Giám đốc điều hành Reddit Steve Hoffman cho biết công ty của ông "không cần phải trao miễn phí tất cả giá trị cho một số công ty lớn nhất trên thế giới". bất hợp pháp" lấy một lượng lớn dữ liệu Twitter. Để đối phó với "việc thu thập dữ liệu quá mức và thao túng hệ thống", Twitter đã quyết định giới hạn số lượng tweet mà các tài khoản cá nhân có thể xem.

Người sáng lập và Giám đốc điều hành Reddit Steve Hoffman muốn tính phí bên thứ ba để truy cập vào giao diện lập trình ứng dụng (API), gây ra làn sóng phản đối kịch liệt trong cư dân mạng.

“Cuộc nổi dậy về dữ liệu” này cũng bao gồm “làn sóng kiện tụng”, với một số công ty AI bị kiện nhiều lần vì lo ngại về quyền riêng tư dữ liệu. Vào tháng 11, một nhóm lập trình viên đã đệ đơn kiện tập thể chống lại Microsoft và OpenAI, cáo buộc rằng các công ty này đã vi phạm bản quyền khi sử dụng mã của họ để đào tạo trợ lý lập trình trí tuệ nhân tạo. Vào tháng 6 năm nay, công ty luật Clarkson có trụ sở tại Los Angeles đã đệ đơn kiện tập thể dài 151 trang chống lại OpenAI và Microsoft, chỉ ra cách OpenAI thu thập dữ liệu từ trẻ vị thành niên, nói rằng việc quét web vi phạm luật bản quyền và cấu thành hành vi "Trộm cắp". Công ty đã đệ đơn kiện tương tự chống lại Google.

Giáo sư Eric Goldman của Trường Luật Đại học Santa Clara (Eric Goldman) cho biết trong một cuộc phỏng vấn với giới truyền thông rằng các lập luận của vụ kiện này quá rộng và khó có thể được tòa án chấp nhận. Nhưng ông lập luận rằng làn sóng kiện tụng chỉ mới bắt đầu, với một “làn sóng thứ hai và thứ ba” sắp tới sẽ xác định tương lai của trí tuệ nhân tạo.

Tranh cãi pháp lý

ChatGPT và Dall-E của OpenAI, Bard của Google, Ổn định khuếch tán ổn định của AI và các AI tổng quát khác đều được đào tạo dựa trên các bài báo, sách, ảnh, video và bài đăng trên blog khổng lồ được lấy từ Internet, nhiều trong số đó là công khai và được bảo vệ bản quyền.

Vào tháng 3 năm nay, OpenAI đã công bố một báo cáo phân tích về mô hình ngôn ngữ chính của tổ chức, cho thấy phần văn bản của dữ liệu đào tạo đã sử dụng dữ liệu từ các trang web tin tức, Wikipedia và cơ sở dữ liệu sách vi phạm bản quyền (LibGen), hiện đã bị đóng cửa. Bộ Tư pháp Hoa Kỳ.

Vào ngày 13 tháng 7, Ủy ban Thương mại Liên bang Hoa Kỳ (FTC) đã gửi một tài liệu dài 20 trang tới OpenAI, yêu cầu OpenAI cung cấp hồ sơ về quản lý rủi ro, bảo mật dữ liệu và đánh giá thông tin về các mô hình trí tuệ nhân tạo của mình để điều tra xem liệu nó có vi phạm các quy định về quyền của người tiêu dùng hay không. quyền.

Vào ngày 12 tháng 7, tiểu ban Thượng viện Hoa Kỳ đã tổ chức một phiên điều trần về trí tuệ nhân tạo, sở hữu trí tuệ và các vấn đề bản quyền, và các nhân chứng tham dự đã tuyên thệ trước tòa. Phiên điều trần được nghe từ ngành công nghiệp âm nhạc, nhà sản xuất Photoshop Adobe, công ty trí tuệ nhân tạo Stability AI và họa sĩ minh họa Karla Ortiz.

Nhưng khi xuất hiện trước công chúng và để đáp lại các vụ kiện, các công ty AI đã lập luận rằng việc sử dụng các tác phẩm có bản quyền để đào tạo AI là hợp lý—một tham chiếu đến khái niệm "việc sử dụng có tính biến đổi" trong luật bản quyền của Hoa Kỳ, xảy ra nếu tài liệu được xuất bản ở dạng A. cách thay đổi "biến đổi" tạo ra một ngoại lệ.

Kent Walker, chủ tịch phụ trách các vấn đề toàn cầu của Google, cho biết trong một cuộc phỏng vấn: "Mô hình AI về cơ bản là học hỏi từ tất cả thông tin. Nó giống như một học sinh đọc sách trong thư viện và sau đó học cách viết và đọc". thời gian, bạn phải đảm bảo rằng bạn không sao chép tác phẩm của người khác hoặc làm điều gì đó vi phạm bản quyền."

Halimah DeLaine Prado, cố vấn chung của Google, nói với giới truyền thông: “Mọi người đều thấy rõ trong nhiều năm rằng chúng tôi sử dụng dữ liệu từ các nguồn công khai—chẳng hạn như đăng lên web mở và dữ liệu công khai được thu thập để đào tạo các mô hình AI đằng sau các dịch vụ như Google Dịch." Cô ấy lưu ý, "Luật pháp Hoa Kỳ hỗ trợ việc tạo ra các cách sử dụng thông tin công khai mới và có lợi, và chúng tôi mong muốn bác bỏ những tuyên bố vô căn cứ này."

Andres Sawicki, giáo sư nghiên cứu luật sở hữu trí tuệ tại Đại học Miami, cho biết trong một cuộc phỏng vấn rằng có một số tiền lệ có thể có lợi cho các công ty công nghệ, chẳng hạn như phán quyết của Tòa phúc thẩm Hoa Kỳ năm 1992 cho phép các công ty kiện các công ty khác vì quyền sở hữu trí tuệ của họ. quyền sở hữu.Mã phần mềm được thiết kế ngược để thiết kế các sản phẩm cạnh tranh. Nhưng nhiều người nói rằng thật không công bằng khi các tập đoàn lớn sử dụng công việc của những người sáng tạo để tạo ra các công cụ kiếm tiền mới. Ông nói: “Câu hỏi về AI tổng quát thực sự rất khó trả lời.

Jessica D. Litman Sawicki, giáo sư luật bản quyền tại Đại học Miami, cho biết học thuyết sử dụng hợp lý là biện pháp bảo vệ mạnh mẽ cho các công ty AI vì quy mô của các mô hình AI. con người cụ thể. Nhưng cô ấy lập luận rằng nếu những người sáng tạo kiện các công ty AI có thể đưa ra đủ ví dụ về kết quả đầu ra của AI gần giống với tác phẩm của họ, thì họ sẽ có lý do chính đáng để tin rằng bản quyền đang bị vi phạm.

Các công ty AI bắt đầu phản hồi

Sauwicki cho biết, các công ty AI có thể tránh điều này bằng cách cài đặt các bộ lọc trong sản phẩm của họ để đảm bảo chúng không tạo ra bất kỳ thứ gì quá giống với công việc hiện có. Ví dụ: trang web video YouTube đã sử dụng công nghệ để phát hiện và tự động xóa các tác phẩm có bản quyền được tải lên trang web của mình. Về lý thuyết, các công ty AI cũng có thể xây dựng các thuật toán tìm đầu ra gần giống với các tác phẩm nghệ thuật, âm nhạc hoặc văn bản hiện có.

"Cuộc nổi dậy dữ liệu" này có thể không tạo ra làn sóng trong thời gian dài. Những gã khổng lồ công nghệ như Google và Microsoft đã có một lượng lớn dữ liệu độc quyền và có khả năng thu thập nhiều hơn nữa. Tuy nhiên, các công ty khởi nghiệp và tổ chức phi lợi nhuận muốn cạnh tranh với những người chơi lớn hơn có thể không có đủ dữ liệu để đào tạo hệ thống của họ vì nội dung trở nên khó lấy hơn.

Mới đầu tháng 7, Stuart Russell, giáo sư khoa học máy tính tại Đại học California, Berkeley và là tác giả của cuốn sách "Trí tuệ nhân tạo: Cách tiếp cận hiện đại", đã cảnh báo rằng các robot do AI điều khiển như ChatGPT có thể sớm "hết sạch vũ trụ". " văn bản" và các kỹ thuật huấn luyện bot bằng cách thu thập một lượng lớn văn bản "bắt đầu gặp khó khăn".

Một số công ty cũng đang cưỡi sóng với thái độ hợp tác. Trong một tuyên bố, OpenAI cho biết, "Chúng tôi tôn trọng quyền của những người sáng tạo và tác giả và mong muốn tiếp tục hợp tác với họ để bảo vệ lợi ích của họ." OpenAI, đồng thời sử dụng công nghệ và sản phẩm của OpenAI.

Google cũng cho biết trong một tuyên bố rằng họ đã tham gia vào các cuộc đàm phán về cách các nhà xuất bản sẽ quản lý nội dung của họ trong tương lai. "Chúng tôi tin rằng mọi người đều có thể hưởng lợi từ hệ sinh thái nội dung sôi động", công ty cho biết.

Margaret Mitchell (Margaret Mitchell), nhà khoa học đạo đức trưởng tại công ty trí tuệ nhân tạo HuggingFace, cho biết trong một cuộc phỏng vấn với giới truyền thông, "Toàn bộ hệ thống thu thập dữ liệu cần phải được thay đổi, và thật không may, nó cần phải đạt được thông qua kiện tụng, thường là Cô ấy nói rằng cô ấy sẽ không ngạc nhiên nếu OpenAI rút hoàn toàn một trong các sản phẩm của mình vào cuối năm nay vì các vụ kiện hoặc các quy định mới.

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)