Vụ kiện bản quyền ChatGPT đầu tiên: OpenAI đối mặt 6 cáo buộc và bị "bắt quả tang" vì xuất tóm tắt sách

2023-08-07 02:33:22

Nguồn gốc: Công nghệ Tencent

Nguồn hình ảnh: Được tạo bởi Unbounded AI‌

Vào ngày 28 tháng 6 năm 2023, vụ kiện vi phạm bản quyền ChatGPT tiêu biểu đầu tiên cuối cùng đã xuất hiện trước công chúng. Hai nhà văn đã đệ đơn kiện tập thể về bản quyền chống lại Open AI tại Tòa án Quận phía Bắc của California, cáo buộc Open AI sử dụng sách có bản quyền của họ để đào tạo ChatGPT mà không được phép vì lợi ích thương mại.

Các nguyên đơn, Paul Tremblay và Mona Awad, sống ở Massachusetts và lần lượt sở hữu bản quyền các tác phẩm liên quan đến vụ án "Căn lều ở nơi tận cùng thế giới" và "13 cách nhìn một cô gái béo và chú thỏ"; bị đơn Open AI được tạo và vận hành thế hệ Sản phẩm trí tuệ nhân tạo ChatGPT hiện chủ yếu được điều khiển bởi hai mô hình ngôn ngữ lớn cơ bản là GPT-3.5 và GPT-4.

Khiếu nại chỉ ra rằng mặc dù nguyên đơn không cho phép Open AI sử dụng sách có bản quyền của riêng mình để đào tạo người mẫu, ChatGPT vẫn có thể xuất các bản tóm tắt sách theo lệnh s, điều này chỉ có thể xảy ra nếu bị đơn đưa các sách liên quan vào kho văn bản cho tập huấn.

01 bị "bắt" để xuất tóm tắt sách

Nguyên đơn tuyên bố rằng một lượng lớn nội dung có trong bộ dữ liệu đào tạo Open AI là một tác phẩm có bản quyền, bao gồm cả những cuốn sách mà nguyên đơn có bản quyền. Tuy nhiên, Open AI đã không nhận được sự đồng ý của nguyên đơn, cũng như không chỉ ra nguồn gốc của nội dung, cũng như không trả các khoản phí cần thiết. Sách do nguyên đơn xuất bản có thông tin quản lý bản quyền rõ ràng, bao gồm số xuất bản, số bản quyền, tên chủ sở hữu bản quyền, điều khoản sử dụng.

**Nguyên đơn có thể suy luận từ các dữ kiện và thông tin hiện có rằng lý do duy nhất có thể giải thích được khiến ChatGPT có thể tạo chính xác bản tóm tắt của một cuốn sách cụ thể là Open AI đã lấy và sao chép cuốn sách có liên quan, đồng thời sử dụng nó cho mô hình ngôn ngữ lớn của mình (GPT3. 5 hoặc GPT4). **

Thử nghiệm của nguyên đơn cho thấy rằng khi ChatGPT được yêu cầu tóm tắt hai cuốn sách liên quan đến vụ án đến hết s, ChatGPT có thể tạo ra một bản tóm tắt chính xác hơn (mặc dù cũng có một số lượng nhỏ nội dung sai). Điều này cho thấy ChatGPT lưu giữ nội dung của một tác phẩm cụ thể trong tập dữ liệu huấn luyện và có thể xuất văn bản tương ứng. Đồng thời, thông qua thiết kế nguyên tắc tạo nội dung của mô hình ngôn ngữ lớn, nội dung đầu ra của ChatGPT sẽ không chứa thông tin quản lý bản quyền gốc.

02 "ChatGPT, bạn chạy như thế nào!"

**Điều thú vị của vụ án này là trong quá trình chứng minh hành vi vi phạm của Open AI, việc nguyên đơn giới thiệu các nguyên tắc cơ bản của ChatGPT dựa trên việc đối thoại với ChatGPT và yêu cầu anh ta “tự giới thiệu”. Nội dung cụ thể được tóm tắt như sau. **

Open AI đã phát hành một loạt mô hình ngôn ngữ lớn, bao gồm GPT-1 (2018.6), GPT-2 (2019.2), GPT-3 (2020.5), GPT-3.5 (2022.3) và GPT-4 mới nhất (2023·3) . Nói chung, phần mềm trí tuệ nhân tạo nhằm mục đích sử dụng các phương pháp thống kê để mô phỏng logic và suy luận của con người thông qua các thuật toán. Mô hình ngôn ngữ lớn là một loại phần mềm trí tuệ nhân tạo chuyên dụng được sử dụng để phân tích và xuất ngôn ngữ tự nhiên.

**Một mặt, Open AI cung cấp ChatGPT cho người dùng thông qua một trang web với mức giá $20 mỗi tháng. **Người dùng có thể chọn hai phiên bản ChatGPT, kiểu GPT-3.5 hoặc kiểu GPT-4 cập nhật. ** Mặt khác, ChatGPT cũng được cung cấp cho các nhà phát triển phần mềm dưới dạng API. **Giao diện API cho phép các nhà phát triển viết chương trình để trao đổi dữ liệu với ChatGPT, trong trường hợp này, nó được tính phí theo mức sử dụng.

** Cho dù dịch vụ được cung cấp dưới dạng trang hay API, ChatGPT sẽ chủ động đáp ứng yêu cầu của người dùng. **Nếu người dùng đặt câu hỏi cho ChatGPT, ChatGPT sẽ đưa ra câu trả lời; nếu người dùng đưa ra chỉ dẫn cho ChatGPT, ChatGPT sẽ thực hiện; nếu người dùng yêu cầu ChatGPT tóm tắt tóm tắt một cuốn sách, ChatGPT vẫn sẽ thực hiện.

03 Sách là kho ngữ liệu cốt lõi để đào tạo mô hình lớn

Quan điểm của nguyên đơn là, không giống như phần mềm truyền thống, được viết bởi các kỹ sư, mô hình ngôn ngữ lớn được phát triển thông qua “đào tạo”—thu thập khối nội dung lớn từ các nguồn khác nhau và “nạp” chúng vào mô hình. (tập dữ liệu huấn luyện).

Mô hình ngôn ngữ lớn sẽ liên tục điều chỉnh đầu ra của nó sao cho càng gần với trình tự tổ hợp văn bản trong các tác phẩm được đào tạo càng tốt. ** Điều đáng chú ý là mặc dù nhiều nội dung được sử dụng để đào tạo các mô hình ngôn ngữ lớn, nhưng sách luôn là tài liệu cốt lõi trong bộ dữ liệu đào tạo vì chúng cung cấp các ví dụ tốt nhất về cách viết dài chất lượng cao. **

Trong bài báo của công ty "Cải thiện khả năng hiểu ngôn ngữ thông qua đào tạo trước tạo" được xuất bản vào tháng 6 năm 2018, Open AI đã tiết lộ rằng việc đào tạo GPT-1 dựa trên bộ dữ liệu "BookCorpus". "BookCorpus" chứa 7.000 cuốn sách thuộc các lĩnh vực khác nhau như phiêu lưu, giả tưởng và lãng mạn. **Open AI đã chỉ ra rằng lý do sách đặc biệt quan trọng như một kho ngữ liệu đào tạo là vì chúng chứa các văn bản dài liên tục, cho phép các mô hình tổng quát học cách xử lý thông tin văn bản dài. **

** Nhiều công ty nghiên cứu và phát triển trí tuệ nhân tạo, bao gồm Open AI, Google, Amazon, v.v., sử dụng "BookCorpus" để đào tạo mô hình. ** Vào năm 2015, một nhóm nghiên cứu trí tuệ nhân tạo đã tạo bộ dữ liệu này, trong đó có sách từ trang web Smashwords.com, nhưng "BookCorpus" đã không được chủ sở hữu bản quyền cho phép khi đưa những cuốn sách này vào.

04 Làm sáng tỏ kho văn bản sách đằng sau GPT

Bằng cách tìm kiếm công khai sáng kiến tiết lộ thông tin của Open AI (giấy tờ doanh nghiệp), nguyên đơn hy vọng chứng minh rằng việc đào tạo loạt mô hình GPT dựa trên việc sử dụng trái phép nội dung sách khổng lồ. **Trong bài báo của công ty "Mô hình ngôn ngữ là những người học mẫu nhỏ" xuất bản vào tháng 7 năm 2020, Open AI đã tiết lộ rằng 15% nội dung trong tập dữ liệu đào tạo GPT-3 đến từ hai cơ sở dữ liệu điện tử có tên "Books1" và "Books2". Sách ngữ liệu. **

Mặc dù Open AI không giải thích các chi tiết cụ thể về nội dung của "Books1" và "Books2", nhưng có thể suy ra từ các manh mối liên quan: thứ nhất, hai kho ngữ liệu là từ Internet; thứ hai, quy mô của hai kho ngữ liệu lớn hơn đáng kể so với "Tập sách". Theo tiết lộ của Open AI, quy mô của "Books1" gấp 9 lần BookCorpus (khoảng 63.000 cuốn sách) và Books2 gấp 42 lần (khoảng 294.000 cuốn sách). **Trên thực tế, chỉ một số lượng rất nhỏ cơ sở dữ liệu có thể cung cấp một kho sách quy mô lớn như vậy. Một mặt, "Books1" có thể đến từ "Project Gutenberg" hoặc "Project Gutenberg Corpus Standardization". **Project Gutenberg là một thư viện sách điện tử trực tuyến "vượt quá thời hạn bảo vệ bản quyền". Vào tháng 9 năm 2020, Dự án Gutenberg thông báo rằng nó đã bao gồm hơn 60.000 cuốn sách. Do không được bảo vệ bản quyền, Project Gutenberg đã được sử dụng rộng rãi cho việc đào tạo mô hình trí tuệ nhân tạo. Năm 2018, một nhóm nghiên cứu trí tuệ nhân tạo đã tạo ra "Dự án Gutenberg Corpus chuẩn hóa" (Standardized Project Gutenberg Corpus) gồm hơn 50.000 cuốn sách dựa trên "Dự án Gutenberg". **Mặt khác, "Books2" rất có thể bắt nguồn từ "Shadow Library" trên Internet. **Bộ dữ liệu "Books2" chứa khoảng 29.400 cuốn sách và chỉ có "thư viện bóng tối" bị chỉ trích nhiều mới có thể cung cấp kho sách quy mô lớn như vậy. Các ví dụ bao gồm Thư viện Genesis, Thư viện Z, Sci-Hub và Bibliotik, trong số những thứ khác. Thuật ngữ "Shadow Library" được đặt ra bởi Hội đồng Nghiên cứu Khoa học Xã hội Hoa Kỳ trong bài báo "Media Vi phạm bản quyền ở các nền kinh tế mới nổi" xuất bản năm 2011. Vào tháng 3 năm 2023, Open AI đã phát hành bài báo về doanh nghiệp GPT-4, nhưng tuyên bố rằng "khi xem xét tình hình cạnh tranh trong ngành và bảo mật ứng dụng sản phẩm, cấu trúc và nội dung của tập dữ liệu đào tạo sẽ không còn được tiết lộ."

05 Open AI phải đối mặt với sáu cáo buộc vi phạm

**Nguyên đơn đã đệ trình tổng cộng sáu cáo buộc chống lại Open AI, ba cáo buộc đầu tiên liên quan đến vi phạm bản quyền, cáo buộc thứ tư liên quan đến cạnh tranh không lành mạnh và cáo buộc thứ năm và thứ sáu liên quan đến hai loại trách nhiệm dân sự cơ bản—nghĩa vụ chăm sóc và làm giàu bất chính. **

** Thứ nhất, trực tiếp vi phạm bản quyền. **Nguyên đơn không cho phép Open AI sao chép hoặc tạo các tác phẩm phái sinh từ sách của mình, cũng như không cho phép Open AI hiển thị hoặc phân phối công khai các bản sao chép hoặc tác phẩm phái sinh nói trên.

Ngoài ra, nguyên đơn nhấn mạnh rằng do mô hình ngôn ngữ lớn Open AI cần trích xuất và lưu thông tin biểu cảm từ sách của nguyên đơn để hoạt động nên bản thân mô hình ngôn ngữ lớn đã tạo thành một tác phẩm phái sinh vi phạm mà không có sự cho phép của nguyên đơn.

** Thứ hai, vi phạm thay thế bản quyền. **Nguyên đơn nhấn mạnh rằng trong trường hợp không có sự cho phép, mỗi đầu ra của mô hình lớn đều cấu thành một tác phẩm phái sinh vi phạm. Bởi vì nó có quyền và khả năng kiểm soát đầu ra nội dung của mô hình ngôn ngữ lớn và thu được lợi ích kinh tế từ nó, Open AI cấu thành hành vi vi phạm thay thế bản quyền.

Theo hệ thống án lệ của Mỹ, "vi phạm thay thế", "vi phạm hỗ trợ" và "xúi giục vi phạm" cùng nhau tạo thành một hệ thống vi phạm bản quyền gián tiếp hoàn chỉnh. Vi phạm gián tiếp đối lập với vi phạm trực tiếp, có nghĩa là mặc dù người vi phạm không trực tiếp thực hiện hành vi được quy định bởi các quyền độc quyền về bản quyền (nghĩa là vi phạm bản quyền trực tiếp), nhưng nó cung cấp một số điều kiện nhất định cho hành vi vi phạm bản quyền trực tiếp.

**Thứ ba, vi phạm quy định về quản lý bản quyền thông tin trong DMCA. ** Dưới góc độ cơ chế thiết kế sản phẩm, nội dung do ChatGPT xuất ra sẽ không lưu giữ “thông tin quản lý bản quyền” (CMI) của tác phẩm, do đó, hành vi cố tình loại bỏ thông tin quản lý bản quyền của tác phẩm của nguyên đơn là vi phạm “Luật kỹ thuật số”. Các điều khoản của Đạo luật Bản quyền Thiên niên kỷ" (DMCA). Ngoài ra, các bị cáo cũng vi phạm DMCA bằng cách phân phối các tác phẩm phái sinh vi phạm mà không có thông tin quản lý bản quyền mà không được phép.

"Thông tin quản lý bản quyền" là thông tin có thể xác định chủ sở hữu tác phẩm, quyền sở hữu quyền và điều kiện sử dụng. Cho dù ở Hoa Kỳ hay quốc gia của tôi, việc xóa hoặc thay đổi thông tin quản lý bản quyền hoặc cung cấp cho công chúng các tác phẩm có thông tin quản lý bản quyền bị xóa hoặc thay đổi là bất hợp pháp.

**Thứ tư, cạnh tranh không lành mạnh. **Việc Open AI sử dụng trái phép tác phẩm có bản quyền của nguyên đơn để đào tạo người mẫu là vi phạm Bộ luật Kinh doanh và Nghề nghiệp California vì nó không phù hợp, vô đạo đức, ép buộc và gây bất lợi cho lợi ích của người tiêu dùng.

Bị đơn đã cố tình thiết kế ChatGPT để xuất các đoạn trích và tóm tắt tác phẩm của nguyên đơn mà không chỉ ra nguồn gốc của nội dung. ChatGPT phát triển các sản phẩm thương mại để thu lợi bất chính và danh tiếng bằng cách che giấu tác giả và sao chép nội dung, quan điểm của các tác phẩm vi phạm.

**Thứ năm, vi phạm bất cẩn là vi phạm nghĩa vụ chăm sóc. **AI mở cần phải thực hiện nghĩa vụ chăm sóc được quy định trong "Bộ luật Dân sự California" - tất cả mọi người nên áp dụng cách cư xử hợp lý đối với người khác. Nghĩa vụ này dựa trên tập quán của ngành, thông lệ kinh doanh, thông tin mà bị đơn sở hữu và khả năng kiểm soát dựa trên thông tin đó.

Sau khi bị đơn thu thập các tác phẩm có bản quyền của nguyên đơn cho mục đích đào tạo mô hình GPT, họ cần phải có một nghĩa vụ cẩn trọng nhất định: khi có thể thấy trước rằng việc sử dụng trái phép các tác phẩm để đào tạo mô hình sẽ gây thiệt hại cho nguyên đơn, nó không nên vi phạm và sử dụng lại những tác phẩm này.

** Thứ sáu, làm giàu bất chính. **Nguyên đơn đã dành thời gian và công sức đáng kể để tạo ra cuốn sách được đề cập. Do tác phẩm của chính anh ta được sử dụng để đào tạo mô hình GPT mà không được phép nên nguyên đơn đã bị tước quyền thu lợi từ tác phẩm. Việc bị đơn thu được lợi ích thương mại bằng cách sử dụng công việc của nguyên đơn để đào tạo mô hình GPT là không công bằng. Trừ khi bị cấm hoặc hạn chế, hành vi của bị đơn sẽ gây ra thiệt hại không thể khắc phục được cho nguyên đơn.

** Viết ở cuối: ba vấn đề sẽ được thảo luận trong trường hợp này. **

**Là vụ kiện đại diện đầu tiên về hành vi vi phạm bản quyền của ChatGPT, sẽ vẫn còn một quá trình lâu dài trước khi Tòa án Quận phía Bắc của California đưa ra phán quyết chính thức. Nhưng trước đó, liên quan đến nội dung khiếu nại cụ thể của nguyên đơn vẫn còn một số vấn đề đáng được quan tâm, xem xét. **

**Mối quan tâm 1: Không dễ phát hiện vi phạm mô hình. **

Việc đào tạo các mô hình ngôn ngữ lớn về cơ bản là một loại hành vi sử dụng tác phẩm nội bộ và không rõ ràng, và chủ sở hữu bản quyền gặp vấn đề thực sự khi phát hiện ra rằng tác phẩm của họ đã bị vi phạm. Nói chung, chỉ bằng cách so sánh nội dung do mô hình tạo ra với tác phẩm của chính nó về cơ bản là tương tự, có thể suy luận rằng có việc sử dụng trái phép tác phẩm trong giai đoạn đào tạo mô hình. Trong trường hợp này, lý do tại sao nguyên đơn có thể cáo buộc rằng sách của anh ta bị vi phạm bởi mô hình ngôn ngữ lớn trong Open AI là vì anh ta phát hiện ra rằng ChatGPT đã đưa ra một bản tóm tắt về công việc của chính anh ta.

Nhưng liệu tuyên bố này có giữ nước hay không vẫn còn phải xem. **Nếu bản tóm tắt tác phẩm của ChatGPT chỉ dựa trên việc sưu tập các tài liệu giới thiệu công khai sách của nguyên đơn trên Internet, thay vì trực tiếp sao chép và đào tạo sách của nguyên đơn, thì tính hợp pháp của cáo buộc vi phạm sẽ bị lung lay. ** Nguyên đơn cũng thừa nhận rằng có một số lỗi thực tế trong phần tóm tắt đầu ra sách của ChatGPT, điều này cũng cho thấy ở một mức độ nào đó rằng mô hình lớn có thể chưa nghiên cứu đầy đủ các cuốn sách liên quan.

**Mối quan tâm 2: Quyền nào bị vi phạm cần được chứng minh. **

Hiện tại, mặc dù "lưu trữ dữ liệu công việc" chính thức có thể thuộc quy định của "quyền sao chép" trong Luật Bản quyền, nhưng liệu "hành vi đào tạo dữ liệu công việc" cốt lõi có vi phạm hay không và loại quyền nào trong luật bản quyền chưa bị xâm phạm.Có kết luận thống nhất. Trong trường hợp này, nguyên đơn nhấn mạnh rằng hoạt động bình thường và đầu ra nội dung của mô hình ngôn ngữ lớn dựa trên việc đào tạo kho ngữ liệu của tác phẩm, vì vậy việc đào tạo mô hình lớn cấu thành hành vi vi phạm bản quyền và bản thân mô hình lớn đã cấu thành vi phạm tác phẩm phái sinh.

Yêu cầu này cũng vẫn còn được khám phá. **Ngoại trừ một vài yêu cầu tạo nội dung đặc biệt như "yêu cầu khái quát hóa, tóm tắt và dịch các tác phẩm bản quyền cụ thể ở dạng s" trong trường hợp này, trong hầu hết các trường hợp, mô hình lớn chấp nhận các hướng dẫn tạo nội dung mở (không giới hạn đối với các hướng dẫn tạo nội dung cụ thể). tác phẩm, phong cách cụ thể của nhà văn), về cơ bản nó sẽ không xuất ra các tác phẩm cụ thể hoặc thậm chí là các đoạn của tác phẩm cụ thể, vì vậy nó không cấu thành hành vi vi phạm bản quyền. **

**Băn khoăn 3: Cần làm rõ trách nhiệm thượng nguồn và hạ nguồn. **

Trong lĩnh vực bản quyền mô hình lớn, nhà phát triển mô hình có các quyền liên quan đối với chính mô hình lớn, vì vậy anh ta chịu trách nhiệm bản quyền liên quan đến đào tạo mô hình; đối với nội dung đầu ra của mô hình lớn, xét theo thực tiễn ngành hiện tại, thông thường thực tiễn là làm rõ quyền thông qua hợp đồng và trách nhiệm thuộc về người sử dụng. Vào ngày 10 tháng 7 năm 2023, "Các biện pháp tạm thời để quản lý các dịch vụ trí tuệ nhân tạo sáng tạo" do Cục quản lý không gian mạng Trung Quốc ban hành cũng ghi nhận rõ ràng rằng "các nhà cung cấp nên ký thỏa thuận dịch vụ với người dùng để làm rõ quyền và nghĩa vụ của cả hai bên."

** Đáng lưu ý, xét theo yêu cầu của nguyên đơn thì cũng tuân theo hai giai đoạn đào tạo người mẫu và sản xuất nội dung, đồng thời có ý tưởng phân chia quyền lợi và trách nhiệm. **Yêu cầu của nguyên đơn về vi phạm bản quyền trực tiếp tập trung vào giai đoạn đào tạo mô hình AI Mở: thứ nhất, các bản sao sách được tạo ra trong quá trình đào tạo mô hình mà không có sự cho phép của nguyên đơn; thứ hai, không có sự cho phép của nguyên đơn, bản thân mô hình ngôn ngữ lớn đã cấu thành hành vi vi phạm tác phẩm phái sinh. **Cáo buộc của nguyên đơn về việc vi phạm nội dung đầu ra của ChatGPT chỉ nhằm khẳng định rằng Open AI cấu thành hành vi vi phạm bản quyền gián tiếp (vi phạm thay thế). Điều này cũng có nghĩa là đối với nội dung đầu ra của mô hình lớn, người dùng phải chịu trách nhiệm trực tiếp về việc vi phạm bản quyền, bởi vì nó có các quyền tương ứng. **

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.