GPT-5 không còn xa nữa! OpenAI đã ra mắt trình thu thập dữ liệu web GPTBot, tự động lấy dữ liệu và có thể tắt một cách có chọn lọc

2023-08-08 06:14:41

Edit: Peach buồn ngủ quá

Nguồn: Xinzhiyuan

Hướng dẫn: Mới đây, OpenAI đã ra mắt GPTBot - trình thu thập dữ liệu web có thể tự động lấy dữ liệu từ toàn bộ Internet. Dữ liệu kết quả sẽ được sử dụng để huấn luyện các mô hình AI như GPT-4 và GPT-5!

Cách đây một thời gian, đã xảy ra tình trạng hỗn loạn trong việc lấy dữ liệu người dùng của nền tảng và cư dân mạng Reddit đã tranh cãi.

Hôm nay, OpenAI đã ra mắt công cụ thu thập dữ liệu web GPTBot, có thể tự động thu thập dữ liệu trang web.

cách sử dụng?

OpenAI cho biết trong tài liệu đã xuất bản rằng trình thu thập dữ liệu web sẽ lọc để xóa các nguồn yêu cầu quyền truy cập phải trả tiền, nhưng cũng xóa thông tin nhận dạng cá nhân (PII) hoặc văn bản vi phạm chính sách của nó.

Dữ liệu do GPTBot thu thập được sử dụng để đào tạo GPT-4 hoặc GPT-5, có thể cải thiện độ chính xác và khả năng của các hệ thống trí tuệ nhân tạo trong tương lai.

Công cụ này có thể được xác định bằng đoạn mã sau:

Mã thông báo tác nhân người dùng: GPTBotChuỗi tác nhân người dùng đầy đủ: Mozilla/5.0 AppleWebKit/537.36 (KHTML, như Gecko; tương thích; GPTBot/1.0; +

Cấm truy cập vào GPTBot

Mặt khác, bạn cũng có thể vô hiệu hóa GPTBot truy cập các trang web bằng cách thêm nó vào trang web robots.txt.

Điều này có nghĩa là chủ sở hữu trang web phải tự nguyện thực hiện các biện pháp cấm OpenAI truy cập trang web của họ và không sử dụng dữ liệu của chính họ để đào tạo.

Tác nhân người dùng: GPTBotDisallow: /

Truy cập GPTBot tùy chỉnh

Bạn cũng có thể kiểm soát quyền truy cập của GPTBot vào một số nội dung của trang web thông qua đoạn mã sau.

Tác nhân người dùng: GPTBotAllow: /directory-1/Disallow: /directory-2/

Xuất IP

Đối với trình thu thập dữ liệu của OpenAI, trang web sẽ được gọi từ một khối địa chỉ IP được ghi trên trang web OpenAI.

Thảo luận sôi nổi của cư dân mạng

Động thái của OpenAI đã gây ra các cuộc thảo luận giữa cư dân mạng về các vấn đề đạo đức của trình thu thập dữ liệu web được sử dụng để đào tạo các mô hình AI.

"OpenAI thậm chí còn không được trích dẫn vừa phải. Nó đang tạo ra một sản phẩm phái sinh và không trích dẫn nó, do đó che khuất sự thật rằng nó là như vậy."

Cư dân mạng nói rằng cuối cùng cũng có cơ hội ngăn OpenAI lấy dữ liệu mạng của bạn để huấn luyện mô hình.

Cũng có ý kiến cho rằng tiện ích bổ sung của trình duyệt ChatGPT đã bị xóa một thời gian, một phần vì tiện ích này cho phép truy cập vào nội dung đằng sau tường phí.

Cách đây ít lâu, OpenAI đã nộp đơn đăng ký nhãn hiệu GPT-5 lên Văn phòng Bằng sáng chế Hoa Kỳ vào ngày 18 tháng 7, cho thấy công ty đang đào tạo một hệ thống AI tiên tiến hơn.

GPTBot rõ ràng sẽ giúp OpenAI thu thập thêm dữ liệu từ internet để huấn luyện mô hình.

Người giới thiệu:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.