Dữ liệu con người đang vội, Microsoft OpenAI bắt đầu nuôi AI bằng AI, Altman nói: tất cả dữ liệu trong tương lai sẽ trở thành dữ liệu tổng hợp

2023-08-14 03:22:36

Nguồn gốc: Qubit

Nguồn hình ảnh: Được tạo bởi Unbounded AI‌

Thiếu dữ liệu của con người và AI buộc phải bắt đầu ăn dữ liệu do AI tạo ra!

Đây là hiện trạng mà các công ty tiên tiến về AI như Microsoft và OpenAI phải đối mặt.

Họ đã lùng sục lượng dữ liệu khổng lồ từ các nền tảng và diễn đàn như Wikipedia, sách điện tử, trang tin tức, blog, Twitter và Reddit, và giờ đây... họ đang cạn kiệt dữ liệu.

NHƯNG, để đào tạo một mô hình lớn tốt hơn, không có lượng dữ liệu nào là đủ.

Theo "Financial Times", nhiều công ty đang cung cấp kết quả do các mô hình lớn tạo ra, cái gọi là dữ liệu tổng hợp (Dữ liệu tổng hợp), cho các mô hình lớn có tham số nhỏ hơn và nhận thấy rằng kết quả không tệ.

Đối với việc sử dụng dữ liệu tổng hợp, Giám đốc điều hành OpenAI Sam Altman không những không bận tâm mà còn nói rằng "tất cả dữ liệu trong tương lai sẽ trở thành dữ liệu tổng hợp".

Cohere, một mô hình khởi nghiệp lớn trị giá 2 tỷ USD, cũng đang sử dụng dữ liệu tổng hợp. Aidan Gomez, Giám đốc điều hành của công ty và là một trong những tác giả của bài báo Transformer mô hình lớn cổ điển, thậm chí còn tin rằng:

Dữ liệu tổng hợp có thể tăng tốc đường dẫn đến các hệ thống AI "siêu thông minh".

Vì vậy, những mô hình lớn nào đã sử dụng dữ liệu tổng hợp và những dữ liệu tổng hợp này đến từ đâu?

AI lớn tổng hợp dữ liệu, AI nhỏ ăn

Cái gọi là dữ liệu tổng hợp này về cơ bản là dữ liệu do mô hình lớn hiện tại có hiệu suất tốt hơn tạo ra, sau khi điều chỉnh thủ công, sau đó được cung cấp cho mô hình lớn nhỏ hơn một chút.

Ví dụ: Cohere đã cố gắng sử dụng hai mô hình lớn để thực hiện các cuộc đối thoại "nhập vai" và biến kết quả do chúng tạo ra thành dữ liệu tổng hợp.

Hai mô hình lớn này lần lượt đóng vai trò là "giáo viên toán" và "học sinh" và đang thực hiện một lớp dạy toán ảo. Trong khi đó, Cohere đặt một nhân viên bên lề để giám sát quá trình tạo đối thoại.

Con người bước vào để sửa văn bản bất cứ khi nào cuộc trò chuyện gặp trục trặc.

Mặc dù nó đòi hỏi nhân lực, nhưng nó rẻ hơn nhiều so với việc thuê các chuyên gia về khoa học, y học và kinh doanh để viết văn bản.

Vì vậy, loại mô hình lớn nào sẽ sử dụng những dữ liệu tổng hợp này?

Nghiên cứu gần đây của Microsoft Research đã chỉ ra rằng dữ liệu tổng hợp có thể được sử dụng để huấn luyện các mô hình ngôn ngữ nhỏ hơn một chút so với GPT-4 hoặc PaLM-2**.

Lấy tập dữ liệu "tiểu thuyết dành cho trẻ 4 tuổi" TinyStories do GPT-4 tạo ra làm ví dụ. Tập dữ liệu này đã được chứng minh là chỉ chứa những từ mà trẻ 4 tuổi có thể hiểu nhưng sau khi được đào tạo a large model, same Một câu chuyện đúng ngữ pháp và đọc trôi chảy:

Về lý do sử dụng dữ liệu tổng hợp, Giám đốc điều hành Aidan Gomez của Cohere tin rằng:

Tất nhiên là tốt hơn nếu có thể lấy dữ liệu từ Internet, nhưng dữ liệu mạng quá lộn xộn để đáp ứng nhu cầu. Ngược lại, dữ liệu tổng hợp đã có rất nhiều, ngay cả khi nó không được phổ biến rộng rãi.

Dây chuyền công nghiệp phía sau đã hiện ra

Hiện tại, các công ty bao gồm Scale AI và Gretel.ai đã bắt đầu cung cấp dịch vụ dữ liệu tổng hợp cho thế giới bên ngoài.

Đầu tiên, Scale AI, đã ra mắt sản phẩm dữ liệu tổng hợp, Scale Synthetic, để cung cấp cho các doanh nghiệp dịch vụ dữ liệu tổng hợp.

Trong tin tức trước đây mà SemiAnalysis đã đưa tin về "vòng ren lớn" của GPT-4, nó cũng đã đề cập rằng trong bộ dữ liệu GPT-4, có hàng triệu hàng từ Scale AI và dữ liệu tinh chỉnh hướng dẫn nội bộ.

Đối với nền tảng dữ liệu tổng hợp Gretel.ai, từ trang web chính thức, nó đã hợp tác với các công ty khác nhau như Google, Riot Games và HSBC để tạo ra nhiều dữ liệu tổng hợp hơn cho các nhà phát triển khác sử dụng.

Ali Golshan, Giám đốc điều hành của Gretel.ai, tin rằng lợi ích của dữ liệu tổng hợp là nó bảo vệ quyền riêng tư của tất cả các cá nhân trong tập dữ liệu trong khi vẫn duy trì tính toàn vẹn thống kê của nó.

Nhưng không phải ai cũng chấp nhận “sự vận hành thần kỳ” của dữ liệu tổng hợp, hiện nay ý kiến của các bên chủ yếu chia thành hai làn sóng.

Một số chấp thuận sử dụng dữ liệu tổng hợp. Bao gồm các công ty AI như Cohere, nhiều công ty tham gia vào các mô hình quy mô lớn vẫn kiên định với phương pháp này và tin rằng nó có thể tạo ra AI tốt hơn, thậm chí sinh ra "siêu trí tuệ".

Một phần khác tin rằng dữ liệu tổng hợp cuối cùng sẽ cho phép AI "tự cung cấp năng lượng".

Ví dụ, một nghiên cứu từ Đại học Oxford, Đại học Cambridge, Đại học Imperial, Đại học Toronto, Đại học Edinburgh và Viện Vector cho thấy:

Huấn luyện với dữ liệu tổng hợp sẽ gây ra các lỗi không thể sửa chữa trong mô hình: Hãy quên đi những "sự kiện bất khả thi" cuối cùng bị đầu độc bởi dữ liệu tự tạo.

Một số cư dân mạng tin rằng những dữ liệu tổng hợp này cuối cùng sẽ trở thành một đống "bùn không sử dụng được" - và sau đó mọi người buộc phải thuê các nhà khoa học dữ liệu để làm sạch* nó.

Một số cư dân mạng chế giễu rằng điều này nghe giống như "AI cận huyết".

Bạn có nghĩ AI cần sử dụng dữ liệu tổng hợp không?

Liên kết tham khảo: [1] [2] [3] [4]

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
Gate 2025 Q2 Report Released
28k Phổ biến
CPI Data Incoming
58k Phổ biến
Altcoin Season Update
8k Phổ biến
4Gate Derivatives Volume Hits New High
16k Phổ biến
5Join Gate VIP to Win MacBook
30k Phổ biến
6MicroStrategy Buys More Bitcoin
2k Phổ biến
7BTC Hits New High
95k Phổ biến
8My Gate Moments
27k Phổ biến
9VIP Exclusive Airdrop Carnival
26k Phổ biến
10Fed June Meeting Minutes
7k Phổ biến

Ghim

sơ đồ trang web