AI sẽ bị mắc kẹt? Dữ liệu đào tạo mô hình lớn có thể cạn kiệt vào năm 2026

Question

Nguồn: "Tencent Technology", Tác giả: Jinlu

Tập trung vào:

Sự bùng nổ mới nhất của trí tuệ nhân tạo tổng hợp đòi hỏi sự hỗ trợ của các mô hình siêu lớn và các mô hình lớn cần được đào tạo với dữ liệu khổng lồ nên dữ liệu ngày càng trở nên quý giá.
Các nhà nghiên cứu tin rằng nhu cầu về dữ liệu sẽ tăng lên đáng kể và dữ liệu văn bản chất lượng cao có thể được sử dụng để đào tạo các mô hình lớn có thể cạn kiệt vào năm 2026. Một cuộc tranh giành dữ liệu đang bắt đầu.
Tại Hoa Kỳ, đã có nhiều vụ vi phạm bản quyền đối với những người xây dựng mô hình và OpenAI, Stability AI, Midjourney và Meta đều đã trở thành bị cáo.
Các công ty trí tuệ nhân tạo đang khám phá các nguồn dữ liệu mới, bao gồm việc ký thỏa thuận bản quyền dữ liệu với các công ty khác, thu thập dữ liệu thông qua tương tác của người dùng với các công cụ của họ và cố gắng sử dụng dữ liệu nội bộ từ khách hàng doanh nghiệp.

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Cách đây không lâu, các nhà phân tích đã công khai suy đoán liệu trí tuệ nhân tạo (AI) có dẫn đến sự sụp đổ của Adobe, nhà phát triển phần mềm dành cho quảng cáo hay không. Các công cụ mới như Dall-E 2 và MidTrik, tạo ra hình ảnh dựa trên văn bản nhắc nhở, dường như khiến khả năng chỉnh sửa hình ảnh của Adobe trở nên dư thừa. Chỉ trong tháng 4 năm nay, trang web tin tức tài chính Seeking Alpha cũng đã xuất bản một bài báo có tựa đề “Liệu trí tuệ nhân tạo có thể trở thành kẻ giết Adobe?”

Nhưng trên thực tế, sự thật khác xa với giả định của các nhà phân tích. Adobe đã sử dụng cơ sở dữ liệu gồm hàng trăm triệu ảnh stock để xây dựng bộ công cụ trí tuệ nhân tạo của riêng mình có tên Firefly. Giám đốc điều hành công ty Dana Rao cho biết Firefly đã được sử dụng để tạo ra hơn 1 tỷ hình ảnh kể từ khi ra mắt vào tháng 3. Bằng cách tránh khai thác internet để tìm hình ảnh giống như các đối thủ cạnh tranh, Adobe đã tránh được các tranh chấp bản quyền ngày càng sâu sắc hiện đang gây khó khăn cho ngành. Cổ phiếu Adobe đã tăng 36% kể từ khi Firefly ra mắt.

Một cuộc tranh giành dữ liệu đang bắt đầu

Chiến thắng của Adobe trước cái gọi là "Doomslayer" nhấn mạnh ý nghĩa rộng lớn hơn của cuộc đua giành quyền thống trị trong thị trường công cụ trí tuệ nhân tạo đang phát triển nhanh chóng. Các mô hình rất lớn hỗ trợ làn sóng mới nhất của cái gọi là "trí tuệ nhân tạo tổng hợp" dựa vào lượng dữ liệu khổng lồ. Trước đây, những người xây dựng mô hình chủ yếu lấy dữ liệu (thường không được phép) từ Internet. Hiện tại, họ đang tìm kiếm những nguồn dữ liệu mới để duy trì chế độ tập luyện điên cuồng này. Đồng thời, các công ty có lượng dữ liệu mới khổng lồ đang cân nhắc cách kiếm lợi nhuận tốt nhất từ nó. Một cuộc tranh giành dữ liệu đang bắt đầu.

Hai yếu tố cơ bản của mô hình trí tuệ nhân tạo là tập dữ liệu và sức mạnh xử lý, hệ thống được huấn luyện trên các tập dữ liệu và mô hình phát hiện mối quan hệ giữa bên trong và bên ngoài của các tập dữ liệu này thông qua sức mạnh xử lý. Theo một cách nào đó, hai nguyên tắc cơ bản này có thể thay thế cho nhau: một mô hình có thể được cải thiện bằng cách thu thập nhiều dữ liệu hơn hoặc bổ sung thêm sức mạnh xử lý. Tuy nhiên, điều thứ hai ngày càng trở nên khó khăn trong bối cảnh thiếu chip AI chuyên dụng, khiến các nhà xây dựng mô hình phải tăng gấp đôi việc tìm kiếm dữ liệu.

Công ty nghiên cứu Epoch AI tin rằng nhu cầu về dữ liệu sẽ tăng mạnh đến mức văn bản chất lượng cao dành cho đào tạo có thể cạn kiệt vào năm 2026. Được biết, các mô hình trí tuệ nhân tạo mới nhất của hai gã khổng lồ công nghệ Google và Meta đã được đào tạo trên hơn 1 nghìn tỷ từ. Để so sánh, tổng số từ tiếng Anh trên bách khoa toàn thư trực tuyến Wikipedia là khoảng 4 tỷ.

Vấn đề không chỉ là kích thước của tập dữ liệu. Dữ liệu càng tốt thì các mô hình được đào tạo dựa trên dữ liệu đó sẽ hoạt động càng tốt. Russell Kaplan của công ty khởi nghiệp dữ liệu Scal AI chỉ ra rằng các mô hình dựa trên văn bản được đào tạo lý tưởng trên các tác phẩm dài, được viết tốt và chính xác về mặt thực tế. Các mô hình được cung cấp thông tin này có nhiều khả năng tạo ra kết quả đầu ra chất lượng cao tương tự.

Tương tự như vậy, các chatbot AI đưa ra câu trả lời tốt hơn khi được yêu cầu giải thích từng bước công việc của họ, làm tăng nhu cầu về các tài nguyên như sách giáo khoa. Các bộ thông tin chuyên dụng cũng trở nên có giá trị hơn vì chúng cho phép các mô hình được “tinh chỉnh” cho nhiều ứng dụng thích hợp hơn. Microsoft, công ty đã mua lại kho lưu trữ mã phần mềm GitHub vào năm 2018 với giá 7,5 tỷ USD, đã sử dụng nó để phát triển một công cụ trí tuệ nhân tạo để viết mã.

Các vụ kiện bản quyền dữ liệu gia tăng, các công ty AI bận rộn ký thỏa thuận cấp phép

Khi nhu cầu về dữ liệu tăng lên, việc truy cập vào các khoảng trống dữ liệu ngày càng trở nên phức tạp và người sáng tạo nội dung hiện đang yêu cầu bồi thường cho nội dung được các mô hình AI hấp thụ. Đã có rất nhiều vụ vi phạm bản quyền chống lại những người xây dựng mô hình ở Hoa Kỳ. Một nhóm nhà văn, bao gồm diễn viên hài Sarah Silverman, đang kiện OpenAI, nhà phát triển chatbot trí tuệ nhân tạo ChatGPT và công ty mẹ Meta của Facebook. Ngoài ra, một nhóm nghệ sĩ cũng đã khởi kiện tương tự Stability AI và Midjourney, hai công ty đang phát triển công cụ chuyển văn bản thành hình ảnh.

Kết quả cuối cùng của tất cả những điều này là một loạt các thỏa thuận khi các công ty AI chạy đua để có được nguồn dữ liệu. Vào tháng 7, OpenAI đã ký một thỏa thuận với Associated Press để có quyền truy cập vào kho lưu trữ tin tức của cơ quan này. Gần đây hơn, công ty cũng mở rộng thỏa thuận với nhà cung cấp thư viện hình ảnh Shutterstock, mà Meta cũng có thỏa thuận.

Đầu tháng 8, có thông tin cho rằng Google đang đàm phán với hãng thu âm Universal Music để cấp phép cho giọng hát của các nghệ sĩ nhằm giúp phát triển các công cụ trí tuệ nhân tạo cho việc sáng tác. Nhà quản lý tài sản Fidelity cho biết công ty đã được một số công ty công nghệ tiếp cận yêu cầu quyền truy cập vào dữ liệu tài chính của công ty. Có tin đồn rằng Phòng thí nghiệm AI đang tiếp cận BBC để lấy kho lưu trữ hình ảnh và phim của họ. Một mục tiêu quan tâm khác là JSTOR, một thư viện số gồm các tạp chí học thuật.

Những người nắm giữ thông tin này đang tận dụng khả năng thương lượng lớn hơn của họ. Reddit, một diễn đàn và Stack Overflow, một trang web hỏi đáp phổ biến với các lập trình viên, đều đã tăng chi phí truy cập dữ liệu của họ. Cả hai trang web đều đặc biệt có giá trị vì người dùng “thích” câu trả lời, giúp mô hình biết câu trả lời nào phù hợp nhất. Trang mạng xã hội X (trước đây là Twitter) đã thực hiện các bước nhằm hạn chế khả năng bot thu thập thông tin trên trang này và giờ đây bất kỳ ai muốn truy cập dữ liệu của nó sẽ phải trả tiền. Ông chủ X, Elon Musk đang có kế hoạch sử dụng dữ liệu để xây dựng doanh nghiệp trí tuệ nhân tạo của riêng mình.

Do đó, những người xây dựng mô hình đang nỗ lực cải thiện chất lượng dữ liệu mà họ đã có. Nhiều phòng thí nghiệm AI sử dụng đội quân chú thích dữ liệu để thực hiện các nhiệm vụ như gắn nhãn hình ảnh và xếp hạng câu trả lời. Một số công việc này phức tạp đến mức thậm chí còn yêu cầu ứng viên có bằng thạc sĩ hoặc tiến sĩ với chuyên ngành khoa học đời sống. Nhưng hầu hết những công việc đó đều tầm thường và đang được thuê ngoài với nguồn lao động giá rẻ ở các nước như Kenya.

Các công ty AI cũng thu thập dữ liệu thông qua tương tác của người dùng với các công cụ của họ. Nhiều công cụ trong số này có một số dạng cơ chế phản hồi, nhờ đó người dùng chỉ ra kết quả đầu ra nào hữu ích. Trình tạo văn bản thành hình ảnh của Firefly cho phép người dùng chọn từ bốn tùy chọn. Chatbot của Google, Bard, cũng đưa ra ba câu trả lời.

Người dùng có thể thích ChatGPT khi nó trả lời một truy vấn. Thông tin này có thể được phản hồi dưới dạng đầu vào cho các mô hình cơ bản, hình thành nên thứ mà Douwe Kiela, người đồng sáng lập công ty khởi nghiệp Contextual AI, gọi là “bánh đà dữ liệu”. Ông nói thêm, một tín hiệu mạnh mẽ hơn về chất lượng câu trả lời của chatbot là liệu người dùng có sao chép văn bản và dán nó vào nơi khác hay không. Việc phân tích thông tin này giúp Google nhanh chóng cải thiện các công cụ dịch thuật của mình.

Khám phá các lĩnh vực mới và dữ liệu nội bộ của khách hàng doanh nghiệp trở thành những chiếc bánh ngọt

Tuy nhiên, có một nguồn dữ liệu phần lớn vẫn chưa được khai thác: thông tin tồn tại trong khách hàng doanh nghiệp của các công ty công nghệ. Nhiều doanh nghiệp vô tình sở hữu vô số dữ liệu hữu ích, từ hồ sơ trung tâm cuộc gọi đến hồ sơ chi tiêu của khách hàng. Thông tin này đặc biệt có giá trị vì nó có thể giúp tinh chỉnh các mô hình cho các mục đích kinh doanh cụ thể, chẳng hạn như giúp nhân viên trung tâm cuộc gọi trả lời các câu hỏi của khách hàng hoặc giúp các nhà phân tích kinh doanh tìm cách tăng doanh số bán hàng.

Tuy nhiên, việc tận dụng nguồn tài nguyên dồi dào này không phải là điều dễ dàng. Roy Singh, nhà phân tích tại công ty tư vấn Bain & Company, lưu ý rằng về mặt lịch sử, hầu hết các công ty ít chú ý đến các tập dữ liệu khổng lồ nhưng không có cấu trúc sẽ tỏ ra hữu ích nhất cho việc đào tạo các công cụ AI. Dữ liệu này thường được trải rộng trên nhiều hệ thống và ẩn trên máy chủ của công ty thay vì trên đám mây.

Việc mở khóa thông tin này sẽ giúp doanh nghiệp điều chỉnh các công cụ AI để đáp ứng tốt hơn nhu cầu cụ thể của họ. Cả hai gã khổng lồ công nghệ Amazon và Microsoft hiện đều cung cấp các công cụ giúp các doanh nghiệp khác quản lý tốt hơn các tập dữ liệu phi cấu trúc, Google cũng vậy. Christian Kleinerman của công ty cơ sở dữ liệu Snowflake cho biết lĩnh vực này đang bùng nổ khi khách hàng tìm cách "phá vỡ các kho chứa dữ liệu".

Các công ty khởi nghiệp cũng đang đổ xô vào lĩnh vực mới này. Vào tháng 4 năm nay, Weaviate, một công ty cơ sở dữ liệu tập trung vào trí tuệ nhân tạo, đã huy động được 50 triệu USD với mức định giá 200 triệu USD. Chỉ một tuần sau, đối thủ PineCone đã huy động được 100 triệu USD với mức định giá 750 triệu USD. Đầu tháng này, một công ty khởi nghiệp cơ sở dữ liệu khác là Neon cũng huy động được 46 triệu USD. Rõ ràng, cuộc tranh giành dữ liệu chỉ mới bắt đầu.

Xem bản gốc