Nguồn: Danh sách bảng chữ cái, Tác giả: Bi Andi, Biên tập: Wang Jing
Nguồn hình ảnh: Được tạo bởi Unbounded AI
Tôi chỉ nghe nói về việc các phương tiện truyền thông xã hội đang cố gắng khiến người dùng ở lại lâu hơn, nhưng tôi chưa bao giờ nghe nói về việc chủ động đặt giới hạn cho mọi người. Mở rộng tầm mắt ra, Elon Musk đang thêm "bảo vệ nhỏ" cho tất cả người dùng Twitter, và tất cả điều này thực sự là do AI ép buộc?
Ngày nay, số lượng tweet tối đa mà người dùng Twitter có thể duyệt mỗi ngày không phụ thuộc vào tốc độ tay hay việc không muốn thức khuya, mà có một con số rõ ràng: 10.000 tài khoản đã được xác minh (nghĩa là dịch vụ "Bluebird" trả phí), 10.000 chưa được xác minh Có 1000 tài khoản, nhưng chỉ có 500 tài khoản mới đăng ký chưa được xác minh.
Đây là tiêu chuẩn được nâng lên hai lần của Musk khi đối mặt với những người dùng giận dữ. Về lý do, đó là "để giải quyết mức độ cực đoan của việc thu thập dữ liệu và thao tác hệ thống."
Anh ấy đang đề cập đến các công ty AI, những công ty đòi hỏi phải cung cấp một lượng lớn dữ liệu để đào tạo các mô hình của họ. Tháng 12 năm ngoái, Musk cắt kết nối dữ liệu với OpenAI, đến tháng 4 năm nay cáo buộc Microsoft sử dụng trái phép dữ liệu của Twitter.
OpenAI đang phải đối mặt với một vụ kiện tập thể khi Musk thực hiện các bước tích cực để ngăn chặn việc thu thập dữ liệu. Có 16 nguyên đơn trong vụ kiện, tất cả đều là cá nhân, hay nói cách khác là những người lướt Internet bình thường. Họ cáo buộc OpenAI đã bí mật "lấy 300 tỷ từ trên Internet" và đánh cắp "một lượng lớn thông tin cá nhân" từ người dùng Internet đó mà không được phép đào tạo ChatGPT.
Một bên là người dùng Internet và các nền tảng đã tích lũy một lượng lớn nội dung UGC trong nhiều năm và bên kia là các công ty AIGC mới nổi.
01
Đánh chiêng trống Thứ sáu. Cuối cùng cũng đến cuối tuần, nhưng người dùng Twitter đã chết lặng khi một thông báo lỗi hiển thị trên màn hình, nhắc nhở họ rằng họ đã vượt quá "giới hạn tốc độ", vi phạm các quy tắc của Twitter và đã xem quá nhiều tweet.
Mọi người hoàn toàn không biết điều này có nghĩa là gì.. Ông chủ Twitter, Musk, đã bước lên phía trước và nói rằng thực sự có giới hạn tỷ lệ và thông báo: Để giải quyết mức độ cực đoan của việc thu thập dữ liệu và thao túng hệ thống, các đăng ký mới đã được xác minh, chưa được xác minh và được xác minh. không được phép. Các tài khoản đã xác minh được giới hạn ở 6000, 600 và 300 tweet mỗi ngày.
Trước đó, Musk vừa thông báo rằng Twitter sẽ cấm người dùng chưa đăng nhập duyệt nội dung, điều này được người dùng chấp nhận. Hạn chế đã thực sự bị hạn chế và người dùng bị tê liệt, sau đó nhìn vào sự khác biệt giữa xác minh và không xác minh, và nhướn mày: Có thể bạn đang cố gắng sử dụng thủ thuật này để quảng cáo "Đăng ký Blue Bird"? Trong khu vực bình luận, nhiều người dùng đã bình luận: "Bây giờ chúng ta phải dùng tiền để giành chiến thắng sao?"
Tiếng nói không hài lòng lớn, các sản phẩm cạnh tranh của Twitter Hive, Mastodon, Tumblr, v.v. xuất hiện trong các chủ đề nóng và một meme về bia mộ của Twitter được sử dụng rộng rãi. Trong cuộc tranh cãi, Musk đã hai lần nâng tiêu chuẩn lên 10.000 lượt xem của người dùng đã được xác minh và 1.000 lượt xem của người dùng chưa được xác minh.
Một trong những tài khoản giả mạo của Musk đã nói đùa: "Tôi đặt ra giới hạn vì những người nghiện twitter của bạn cần phải thoát ra. Tôi đang làm những điều tốt đẹp cho thế giới." Loại ý tưởng tăng giá trị này rất tốt, Musk trái tay là một bài đăng lại, và anh ấy cũng gửi một tin nhắn riêng "Hãy đi thăm bạn bè và gia đình của bạn."
Nhưng đùa mà đùa, Musk đã đưa ra lời giải thích rõ ràng cho “thử nghiệm” của mình: xử lý việc thu thập dữ liệu. Sự không hài lòng của người dùng còn nằm ở việc phương pháp giới hạn hiện tại có hiệu quả hay không chứ không phải ở vấn đề thu thập dữ liệu.
Việc các công ty khởi nghiệp AI tìm đến Twitter để "xóa dữ liệu" nghiêm trọng đến mức nào? Trong một tweet, Musk cho biết lưu lượng truy cập tăng cao đã buộc Twitter phải bật các máy chủ dự phòng:** "Thật quá sức khi bật một số lượng lớn máy chủ trực tuyến trong trường hợp khẩn cấp chỉ để giúp một số công ty khởi nghiệp AI với mức định giá cao đến nực cười." ."**
Một ngày trước cơn bão giới hạn hiện tại, Tim Sweeney, Giám đốc điều hành của Epic Games, cũng đã tweet để phàn nàn rằng Twitter cũng đang xây dựng một bức tường. điểm mà nó ảnh hưởng đến trải nghiệm người dùng. Chúng ta nên làm điều đó như thế nào? Tôi cởi mở với mọi ý kiến.”
Tim, người vừa mới phàn nàn, đã nhanh chóng đưa ra các đề xuất nghiêm túc, chẳng hạn như thêm lệnh cấm thu thập dữ liệu vào điều khoản dịch vụ của Twitter, bảo vệ nền tảng bằng kỹ thuật bảo mật thông tin và thực hiện hành động pháp lý chống lại các công ty lạm dụng Twitter trên quy mô lớn.
Đáng chú ý, Musk đã đề cập trong câu trả lời của mình rằng hành động pháp lý "chắc chắn" sẽ được thực hiện đối với những kẻ đã đánh cắp dữ liệu: "(một cách lạc quan) 2 đến 3 năm kể từ bây giờ, rất mong được gặp họ trước tòa."
Bất kể phỏng đoán "đổ củi vào đăng ký trả phí" có phải là dã tâm của kẻ xấu hay không, việc Musk giương cao biểu ngữ bảo vệ quyền riêng tư của người dùng có thể ít nhiều ích kỷ. Vào tháng 4, có tin đồn rằng Musk sẽ thành lập X.AI, một công ty trí tuệ nhân tạo mới, để chống lại ChatGPT. Nếu bạn thực sự muốn đào tạo một mô hình ngôn ngữ lớn, dữ liệu người dùng của Twitter tất nhiên chỉ dành cho chính bạn.
Trong mọi trường hợp, có thể chủ động hạn chế dòng chảy của nền tảng, Musk sẵn sàng chiến đấu đến cùng với các công ty khởi nghiệp AI.
02
**Ngay khi Musk đang tấn công để hạn chế dòng chảy của toàn bộ nền tảng, OpenAI, "người khởi xướng" cơn sốt AICG này và là người tạo ra ChatGPT, đã tham gia vào một vụ kiện tập thể. **
Vụ kiện được bắt đầu tại Tòa án Quận Hoa Kỳ cho Quận phía Bắc của California, với 16 nguyên đơn, tất cả đều ẩn danh, tất cả các cá nhân. Đơn kiện rất dài, đầy 157 trang, bắt đầu bằng câu nói của Stephen Hawking: "Sự trỗi dậy của trí tuệ nhân tạo hùng mạnh hoặc là điều tốt nhất trong lịch sử loài người hoặc là điều tồi tệ nhất". Microsoft, công ty đã bơm hàng chục tỷ đô la vào nó.
Cáo buộc cốt lõi là ChatGPT đã vi phạm "bản quyền và quyền riêng tư của vô số người" khi sử dụng dữ liệu được thu thập từ Internet để "đào tạo công nghệ của mình".
Bản cáo trạng cho biết OpenAI đã bí mật thu thập 300 tỷ từ trên internet và nghe lén "sách, bài báo, trang web và bài đăng, bao gồm cả thông tin cá nhân thu được mà không có sự đồng ý", bản cáo trạng cho biết. Nó đề cập rằng OpenAI thu thập dữ liệu một lượng lớn dữ liệu mạng, bao gồm cả dữ liệu trên mạng xã hội.
Họ cũng chỉ ra rằng OpenAI có một kho dữ liệu AI độc quyền đã tích lũy một lượng lớn dữ liệu cá nhân, bao gồm dữ liệu lấy từ các bài đăng trên Reddit và các trang web mà chúng liên kết đến.
Đây là một cáo buộc về mô hình đào tạo, ngoài ra nguyên đơn cũng cho rằng tương tác của người dùng với sản phẩm của OpenAI và thông tin cá nhân trong sản phẩm cũng bị OpenAI truy cập trái phép và chiếm đoạt trên quy mô lớn.
Đây không phải là lần đầu tiên OpenAI phải đối mặt với một vụ kiện tập thể tại Hoa Kỳ. Vào tháng 11 năm ngoái, các lập trình viên Github đã khởi động một vụ kiện tập thể chống lại Github, OpenAI và Microsoft, cáo buộc OpenAI đã vi phạm giấy phép nguồn mở và sử dụng mã đóng góp của họ để đào tạo công cụ AI độc quyền GitHub Copilot.
Khi đó ChatGPT chưa online, bây giờ nhìn lại, vấn đề đào tạo AI lúc bấy giờ đã bộc lộ. Hôm nay, vụ kiện tập thể mới nhất nhắm vào ChatGPT, nơi có nhiều người dùng hơn và nhiều người bị xâm phạm hơn (về cơ bản đều là nạn nhân), quan trọng hơn, dưới sự điên cuồng của AIGC, bất kỳ tiền lệ pháp lý nào cũng có thể ảnh hưởng đến tương lai .
Trong một tuyên bố, Clarkson, công ty luật vì lợi ích công cộng đại diện cho vụ việc, đã gọi vụ kiện tập thể là một vụ kiện liên bang "mang tính bước ngoặt" và là lời cảnh báo đối với toàn bộ trí tuệ nhân tạo.
Từ quan điểm này, gánh nặng trên vai của OpenAI thực sự rất nặng nề.
**OpenAI đã gặp phải rất nhiều rắc rối do thu thập dữ liệu và bảo mật quyền riêng tư. Nền tảng bị khóa và người dùng quay lưng lại với nhau. Đây chỉ là phần nổi của tảng băng chìm. **
Tại châu Âu, OpenAI bị nhiều nước điều tra, thậm chí hồi tháng 4 năm nay, Ý lo ngại ChatGPT vi phạm luật bảo vệ dữ liệu của châu Âu nên đã tạm thời cấm ChatGPT.
Quy định của toàn bộ lĩnh vực trí tuệ nhân tạo đang tiến bộ. Pháp đã đưa ra kế hoạch hành động về trí tuệ nhân tạo vào tháng 5. Trong số đó, về AIGC, cơ quan quản lý quyền riêng tư của Pháp đặc biệt chú ý đến việc thực hành một số mô hình AI thu thập dữ liệu từ Internet và xây dựng bộ dữ liệu để đào tạo các mô hình ngôn ngữ lớn.
Quan trọng nhất là Đạo luật điều chỉnh trí tuệ nhân tạo của Liên minh châu Âu (Đạo luật AI của EU), hiện đang trong giai đoạn hoàn thiện. Dự luật có thể sẽ trở thành một mô hình quản trị AI toàn cầu.
03
** Nền tảng, người dùng và giám sát, ba lực lượng đã hình thành xu hướng bao vây, thề sẽ thiết lập các quy tắc cho AIGC càng sớm càng tốt và bắt đầu từ điểm xuất phát là đào tạo mô hình quy mô lớn. **
Một mặt, thời gian không còn nhiều và AIGC đang phát triển quá nhanh.
Chúng tôi không biết ai là người mà Musk đang đề cập đến bởi "các công ty khởi nghiệp AI được định giá cao một cách phi lý". Nhưng những lời này vừa nói ra, quả nhiên có rất nhiều tiếng vang, dù sao AIGC lĩnh vực cũng có làn sóng tài trợ, đều là tiền nóng.
Trong số các công ty khởi nghiệp, OpenAI được định giá gần 30 tỷ USD, với tổng quy mô tài chính là 11,3 tỷ USD, trở thành công ty giàu nhất trong AIGC; tiếp theo là Anthropic, công ty giàu thứ hai, với mức định giá hơn 4 tỷ USD. Và Inflection, công ty đã gây chấn động Thung lũng Silicon với khoản tài trợ 1,3 tỷ USD chỉ vài ngày trước, có mức định giá 4 tỷ USD và mới thành lập hơn một năm.
Những cái lớn có thể vẫn chưa đến. Inflection sử dụng mô hình ngôn ngữ lớn của riêng mình, lần này đã nhận được 1,3 tỷ đô la Mỹ và tuyên bố sẽ sản xuất 22.000 chip Nvidia H100 để xây dựng cụm trí tuệ nhân tạo lớn nhất thế giới. Với sức mạnh tính toán quy mô lớn như vậy, số lượng tham số mục tiêu và tập dữ liệu chắc chắn sẽ rất đáng kinh ngạc.
** Mặt khác, ChatGPT được sinh ra từ hư không và không dễ "sửa chữa" khi nó phát hiện ra sự cố. **Nhiều thế hệ mô hình ngôn ngữ lớn của OpenAI, tập dữ liệu GPT-2 có 40GB văn bản và GPT-3 (nghĩa là mô hình được sử dụng khi ChatGPT được phát hành) có 570GB dữ liệu đào tạo. Đối với GPT-4 đã phát hành năm nay, kích thước của tập dữ liệu về cơ bản là Không tiết lộ.
Một lượng lớn dữ liệu không được ghi lại đúng cách ngay từ đầu. Nicia Sambaswan, cựu nhà khoa học nghiên cứu tại Google, đã nói trong các cuộc phỏng vấn rằng các công ty công nghệ không theo dõi cách họ thu thập hoặc chú thích dữ liệu đào tạo AI, hoặc thậm chí những gì có trong bộ dữ liệu.
ChatGPT đã hoàn thành giống như một hộp đen và nó là một hộp đen được xây dựng trong một căn phòng bí mật. Giờ đây, nó cần phải minh bạch và được bảo vệ quyền riêng tư, chẳng hạn như liệt kê dữ liệu nào được thu thập, giải thích cách dữ liệu đó sẽ được sử dụng trong quá trình sử dụng và xóa nó theo yêu cầu của người dùng.Một phần dữ liệu nào đó thực sự rất khó khăn.
Người lướt Internet và cơ quan quản lý cắn OpenAI, còn một lý do khác không thể bỏ qua - trong những năm mạng xã hội phát triển và lớn mạnh, nhận thức về bảo vệ dữ liệu mạng cá nhân vẫn còn sơ khai, đến lúc phải tranh giành thì người ta mới phát hiện ra. rằng nó đã bỏ lỡ quá xa.
Khi Zuckerberg lần đầu tiên ngồi trong phiên điều trần trước quốc hội vào năm 2018, nền tảng mạng xã hội Facebook của anh đã ra mắt được 14 năm. Vào thời điểm đó, Facebook đã vướng vào "Vụ bê bối Cambridge", và giám đốc công nghệ của công ty cho biết 87 triệu người dùng đã bị ảnh hưởng. Đó cũng là một sai lầm lớn do cạo dữ liệu.
Khi Altman ngồi trong phiên điều trần của Quốc hội Hoa Kỳ vào tháng 5 năm nay, các dân biểu thường xuyên bày tỏ sự hối tiếc vì đã thiếu hành động trong thời đại truyền thông xã hội. **
Các mô hình lớn nối tiếp nhau vẫn đang được đào tạo, nắm bắt dữ liệu là một sợi dây, chỉ có nắm bắt được thì mới mong giải tỏa được sự nhầm lẫn của AIGC.
Những tài liệu tham khảo:
Sina Công nghệ: "Musk và Microsoft trên thanh? Twitter cáo buộc Microsoft sử dụng trái phép dữ liệu của mình »
Lập trình viên ngựa ô: "Những lập trình viên này đã kiện GitHub!" Yêu cầu bồi thường 64,9 tỷ đồng"
Jiemian News: "Dự luật AI của EU được công bố, OpenAI và các công ty khác có thể ghi điểm như thế nào, và những tranh chấp cốt lõi là gì?" "
Tencent Technology: “Cơn khát dữ liệu đang làm hại OpenAI? Nhiều quốc gia cáo buộc nó vi phạm luật bảo vệ dữ liệu
Công nghệ Netease: "ChatGPT tiếp tục hoạt động trực tuyến ở Ý nhưng những rắc rối về quy định của OpenAI chỉ mới bắt đầu"
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Musk gay gắt với OpenAI, người dùng gặp bất hạnh
Nguồn: Danh sách bảng chữ cái, Tác giả: Bi Andi, Biên tập: Wang Jing
Tôi chỉ nghe nói về việc các phương tiện truyền thông xã hội đang cố gắng khiến người dùng ở lại lâu hơn, nhưng tôi chưa bao giờ nghe nói về việc chủ động đặt giới hạn cho mọi người. Mở rộng tầm mắt ra, Elon Musk đang thêm "bảo vệ nhỏ" cho tất cả người dùng Twitter, và tất cả điều này thực sự là do AI ép buộc?
Ngày nay, số lượng tweet tối đa mà người dùng Twitter có thể duyệt mỗi ngày không phụ thuộc vào tốc độ tay hay việc không muốn thức khuya, mà có một con số rõ ràng: 10.000 tài khoản đã được xác minh (nghĩa là dịch vụ "Bluebird" trả phí), 10.000 chưa được xác minh Có 1000 tài khoản, nhưng chỉ có 500 tài khoản mới đăng ký chưa được xác minh.
Đây là tiêu chuẩn được nâng lên hai lần của Musk khi đối mặt với những người dùng giận dữ. Về lý do, đó là "để giải quyết mức độ cực đoan của việc thu thập dữ liệu và thao tác hệ thống."
Anh ấy đang đề cập đến các công ty AI, những công ty đòi hỏi phải cung cấp một lượng lớn dữ liệu để đào tạo các mô hình của họ. Tháng 12 năm ngoái, Musk cắt kết nối dữ liệu với OpenAI, đến tháng 4 năm nay cáo buộc Microsoft sử dụng trái phép dữ liệu của Twitter.
OpenAI đang phải đối mặt với một vụ kiện tập thể khi Musk thực hiện các bước tích cực để ngăn chặn việc thu thập dữ liệu. Có 16 nguyên đơn trong vụ kiện, tất cả đều là cá nhân, hay nói cách khác là những người lướt Internet bình thường. Họ cáo buộc OpenAI đã bí mật "lấy 300 tỷ từ trên Internet" và đánh cắp "một lượng lớn thông tin cá nhân" từ người dùng Internet đó mà không được phép đào tạo ChatGPT.
Một bên là người dùng Internet và các nền tảng đã tích lũy một lượng lớn nội dung UGC trong nhiều năm và bên kia là các công ty AIGC mới nổi.
01
Đánh chiêng trống Thứ sáu. Cuối cùng cũng đến cuối tuần, nhưng người dùng Twitter đã chết lặng khi một thông báo lỗi hiển thị trên màn hình, nhắc nhở họ rằng họ đã vượt quá "giới hạn tốc độ", vi phạm các quy tắc của Twitter và đã xem quá nhiều tweet.
Mọi người hoàn toàn không biết điều này có nghĩa là gì.. Ông chủ Twitter, Musk, đã bước lên phía trước và nói rằng thực sự có giới hạn tỷ lệ và thông báo: Để giải quyết mức độ cực đoan của việc thu thập dữ liệu và thao túng hệ thống, các đăng ký mới đã được xác minh, chưa được xác minh và được xác minh. không được phép. Các tài khoản đã xác minh được giới hạn ở 6000, 600 và 300 tweet mỗi ngày.
Tiếng nói không hài lòng lớn, các sản phẩm cạnh tranh của Twitter Hive, Mastodon, Tumblr, v.v. xuất hiện trong các chủ đề nóng và một meme về bia mộ của Twitter được sử dụng rộng rãi. Trong cuộc tranh cãi, Musk đã hai lần nâng tiêu chuẩn lên 10.000 lượt xem của người dùng đã được xác minh và 1.000 lượt xem của người dùng chưa được xác minh.
Việc các công ty khởi nghiệp AI tìm đến Twitter để "xóa dữ liệu" nghiêm trọng đến mức nào? Trong một tweet, Musk cho biết lưu lượng truy cập tăng cao đã buộc Twitter phải bật các máy chủ dự phòng:** "Thật quá sức khi bật một số lượng lớn máy chủ trực tuyến trong trường hợp khẩn cấp chỉ để giúp một số công ty khởi nghiệp AI với mức định giá cao đến nực cười." ."**
Một ngày trước cơn bão giới hạn hiện tại, Tim Sweeney, Giám đốc điều hành của Epic Games, cũng đã tweet để phàn nàn rằng Twitter cũng đang xây dựng một bức tường. điểm mà nó ảnh hưởng đến trải nghiệm người dùng. Chúng ta nên làm điều đó như thế nào? Tôi cởi mở với mọi ý kiến.”
Tim, người vừa mới phàn nàn, đã nhanh chóng đưa ra các đề xuất nghiêm túc, chẳng hạn như thêm lệnh cấm thu thập dữ liệu vào điều khoản dịch vụ của Twitter, bảo vệ nền tảng bằng kỹ thuật bảo mật thông tin và thực hiện hành động pháp lý chống lại các công ty lạm dụng Twitter trên quy mô lớn.
Đáng chú ý, Musk đã đề cập trong câu trả lời của mình rằng hành động pháp lý "chắc chắn" sẽ được thực hiện đối với những kẻ đã đánh cắp dữ liệu: "(một cách lạc quan) 2 đến 3 năm kể từ bây giờ, rất mong được gặp họ trước tòa."
Bất kể phỏng đoán "đổ củi vào đăng ký trả phí" có phải là dã tâm của kẻ xấu hay không, việc Musk giương cao biểu ngữ bảo vệ quyền riêng tư của người dùng có thể ít nhiều ích kỷ. Vào tháng 4, có tin đồn rằng Musk sẽ thành lập X.AI, một công ty trí tuệ nhân tạo mới, để chống lại ChatGPT. Nếu bạn thực sự muốn đào tạo một mô hình ngôn ngữ lớn, dữ liệu người dùng của Twitter tất nhiên chỉ dành cho chính bạn.
Trong mọi trường hợp, có thể chủ động hạn chế dòng chảy của nền tảng, Musk sẵn sàng chiến đấu đến cùng với các công ty khởi nghiệp AI.
02
**Ngay khi Musk đang tấn công để hạn chế dòng chảy của toàn bộ nền tảng, OpenAI, "người khởi xướng" cơn sốt AICG này và là người tạo ra ChatGPT, đã tham gia vào một vụ kiện tập thể. **
Vụ kiện được bắt đầu tại Tòa án Quận Hoa Kỳ cho Quận phía Bắc của California, với 16 nguyên đơn, tất cả đều ẩn danh, tất cả các cá nhân. Đơn kiện rất dài, đầy 157 trang, bắt đầu bằng câu nói của Stephen Hawking: "Sự trỗi dậy của trí tuệ nhân tạo hùng mạnh hoặc là điều tốt nhất trong lịch sử loài người hoặc là điều tồi tệ nhất". Microsoft, công ty đã bơm hàng chục tỷ đô la vào nó.
Cáo buộc cốt lõi là ChatGPT đã vi phạm "bản quyền và quyền riêng tư của vô số người" khi sử dụng dữ liệu được thu thập từ Internet để "đào tạo công nghệ của mình".
Bản cáo trạng cho biết OpenAI đã bí mật thu thập 300 tỷ từ trên internet và nghe lén "sách, bài báo, trang web và bài đăng, bao gồm cả thông tin cá nhân thu được mà không có sự đồng ý", bản cáo trạng cho biết. Nó đề cập rằng OpenAI thu thập dữ liệu một lượng lớn dữ liệu mạng, bao gồm cả dữ liệu trên mạng xã hội.
Họ cũng chỉ ra rằng OpenAI có một kho dữ liệu AI độc quyền đã tích lũy một lượng lớn dữ liệu cá nhân, bao gồm dữ liệu lấy từ các bài đăng trên Reddit và các trang web mà chúng liên kết đến.
Đây là một cáo buộc về mô hình đào tạo, ngoài ra nguyên đơn cũng cho rằng tương tác của người dùng với sản phẩm của OpenAI và thông tin cá nhân trong sản phẩm cũng bị OpenAI truy cập trái phép và chiếm đoạt trên quy mô lớn.
Đây không phải là lần đầu tiên OpenAI phải đối mặt với một vụ kiện tập thể tại Hoa Kỳ. Vào tháng 11 năm ngoái, các lập trình viên Github đã khởi động một vụ kiện tập thể chống lại Github, OpenAI và Microsoft, cáo buộc OpenAI đã vi phạm giấy phép nguồn mở và sử dụng mã đóng góp của họ để đào tạo công cụ AI độc quyền GitHub Copilot.
Khi đó ChatGPT chưa online, bây giờ nhìn lại, vấn đề đào tạo AI lúc bấy giờ đã bộc lộ. Hôm nay, vụ kiện tập thể mới nhất nhắm vào ChatGPT, nơi có nhiều người dùng hơn và nhiều người bị xâm phạm hơn (về cơ bản đều là nạn nhân), quan trọng hơn, dưới sự điên cuồng của AIGC, bất kỳ tiền lệ pháp lý nào cũng có thể ảnh hưởng đến tương lai .
Trong một tuyên bố, Clarkson, công ty luật vì lợi ích công cộng đại diện cho vụ việc, đã gọi vụ kiện tập thể là một vụ kiện liên bang "mang tính bước ngoặt" và là lời cảnh báo đối với toàn bộ trí tuệ nhân tạo.
Từ quan điểm này, gánh nặng trên vai của OpenAI thực sự rất nặng nề.
**OpenAI đã gặp phải rất nhiều rắc rối do thu thập dữ liệu và bảo mật quyền riêng tư. Nền tảng bị khóa và người dùng quay lưng lại với nhau. Đây chỉ là phần nổi của tảng băng chìm. **
Tại châu Âu, OpenAI bị nhiều nước điều tra, thậm chí hồi tháng 4 năm nay, Ý lo ngại ChatGPT vi phạm luật bảo vệ dữ liệu của châu Âu nên đã tạm thời cấm ChatGPT.
Quy định của toàn bộ lĩnh vực trí tuệ nhân tạo đang tiến bộ. Pháp đã đưa ra kế hoạch hành động về trí tuệ nhân tạo vào tháng 5. Trong số đó, về AIGC, cơ quan quản lý quyền riêng tư của Pháp đặc biệt chú ý đến việc thực hành một số mô hình AI thu thập dữ liệu từ Internet và xây dựng bộ dữ liệu để đào tạo các mô hình ngôn ngữ lớn.
Quan trọng nhất là Đạo luật điều chỉnh trí tuệ nhân tạo của Liên minh châu Âu (Đạo luật AI của EU), hiện đang trong giai đoạn hoàn thiện. Dự luật có thể sẽ trở thành một mô hình quản trị AI toàn cầu.
03
** Nền tảng, người dùng và giám sát, ba lực lượng đã hình thành xu hướng bao vây, thề sẽ thiết lập các quy tắc cho AIGC càng sớm càng tốt và bắt đầu từ điểm xuất phát là đào tạo mô hình quy mô lớn. **
Một mặt, thời gian không còn nhiều và AIGC đang phát triển quá nhanh.
Chúng tôi không biết ai là người mà Musk đang đề cập đến bởi "các công ty khởi nghiệp AI được định giá cao một cách phi lý". Nhưng những lời này vừa nói ra, quả nhiên có rất nhiều tiếng vang, dù sao AIGC lĩnh vực cũng có làn sóng tài trợ, đều là tiền nóng.
Trong số các công ty khởi nghiệp, OpenAI được định giá gần 30 tỷ USD, với tổng quy mô tài chính là 11,3 tỷ USD, trở thành công ty giàu nhất trong AIGC; tiếp theo là Anthropic, công ty giàu thứ hai, với mức định giá hơn 4 tỷ USD. Và Inflection, công ty đã gây chấn động Thung lũng Silicon với khoản tài trợ 1,3 tỷ USD chỉ vài ngày trước, có mức định giá 4 tỷ USD và mới thành lập hơn một năm.
Những cái lớn có thể vẫn chưa đến. Inflection sử dụng mô hình ngôn ngữ lớn của riêng mình, lần này đã nhận được 1,3 tỷ đô la Mỹ và tuyên bố sẽ sản xuất 22.000 chip Nvidia H100 để xây dựng cụm trí tuệ nhân tạo lớn nhất thế giới. Với sức mạnh tính toán quy mô lớn như vậy, số lượng tham số mục tiêu và tập dữ liệu chắc chắn sẽ rất đáng kinh ngạc.
** Mặt khác, ChatGPT được sinh ra từ hư không và không dễ "sửa chữa" khi nó phát hiện ra sự cố. **Nhiều thế hệ mô hình ngôn ngữ lớn của OpenAI, tập dữ liệu GPT-2 có 40GB văn bản và GPT-3 (nghĩa là mô hình được sử dụng khi ChatGPT được phát hành) có 570GB dữ liệu đào tạo. Đối với GPT-4 đã phát hành năm nay, kích thước của tập dữ liệu về cơ bản là Không tiết lộ.
Một lượng lớn dữ liệu không được ghi lại đúng cách ngay từ đầu. Nicia Sambaswan, cựu nhà khoa học nghiên cứu tại Google, đã nói trong các cuộc phỏng vấn rằng các công ty công nghệ không theo dõi cách họ thu thập hoặc chú thích dữ liệu đào tạo AI, hoặc thậm chí những gì có trong bộ dữ liệu.
ChatGPT đã hoàn thành giống như một hộp đen và nó là một hộp đen được xây dựng trong một căn phòng bí mật. Giờ đây, nó cần phải minh bạch và được bảo vệ quyền riêng tư, chẳng hạn như liệt kê dữ liệu nào được thu thập, giải thích cách dữ liệu đó sẽ được sử dụng trong quá trình sử dụng và xóa nó theo yêu cầu của người dùng.Một phần dữ liệu nào đó thực sự rất khó khăn.
Người lướt Internet và cơ quan quản lý cắn OpenAI, còn một lý do khác không thể bỏ qua - trong những năm mạng xã hội phát triển và lớn mạnh, nhận thức về bảo vệ dữ liệu mạng cá nhân vẫn còn sơ khai, đến lúc phải tranh giành thì người ta mới phát hiện ra. rằng nó đã bỏ lỡ quá xa.
Khi Zuckerberg lần đầu tiên ngồi trong phiên điều trần trước quốc hội vào năm 2018, nền tảng mạng xã hội Facebook của anh đã ra mắt được 14 năm. Vào thời điểm đó, Facebook đã vướng vào "Vụ bê bối Cambridge", và giám đốc công nghệ của công ty cho biết 87 triệu người dùng đã bị ảnh hưởng. Đó cũng là một sai lầm lớn do cạo dữ liệu.
Khi Altman ngồi trong phiên điều trần của Quốc hội Hoa Kỳ vào tháng 5 năm nay, các dân biểu thường xuyên bày tỏ sự hối tiếc vì đã thiếu hành động trong thời đại truyền thông xã hội. **
Các mô hình lớn nối tiếp nhau vẫn đang được đào tạo, nắm bắt dữ liệu là một sợi dây, chỉ có nắm bắt được thì mới mong giải tỏa được sự nhầm lẫn của AIGC.
Những tài liệu tham khảo:
Sina Công nghệ: "Musk và Microsoft trên thanh? Twitter cáo buộc Microsoft sử dụng trái phép dữ liệu của mình »
Lập trình viên ngựa ô: "Những lập trình viên này đã kiện GitHub!" Yêu cầu bồi thường 64,9 tỷ đồng"
Jiemian News: "Dự luật AI của EU được công bố, OpenAI và các công ty khác có thể ghi điểm như thế nào, và những tranh chấp cốt lõi là gì?" "
Tencent Technology: “Cơn khát dữ liệu đang làm hại OpenAI? Nhiều quốc gia cáo buộc nó vi phạm luật bảo vệ dữ liệu
Công nghệ Netease: "ChatGPT tiếp tục hoạt động trực tuyến ở Ý nhưng những rắc rối về quy định của OpenAI chỉ mới bắt đầu"