Quan sát｜Làn sóng mô hình lớn sắp làm cạn kiệt toàn bộ vũ trụ văn bản. Dữ liệu chất lượng cao đến từ đâu?

Question

Nguồn: The PaperTác giả: Thiệu VănCác bot hỗ trợ AI như ChatGPT có thể sớm "hết văn bản trong vũ trụ", các chuyên gia cảnh báo. Đồng thời, sử dụng dữ liệu do AI tạo ra để "phản hồi" AI hoặc khiến mô hình sụp đổ. Dữ liệu chất lượng cao được sử dụng để đào tạo mô hình trong tương lai có thể ngày càng trở nên đắt đỏ hơn và mạng sẽ bị phân mảnh và đóng cửa."Khi sự phát triển của các mô hình quy mô lớn đi sâu hơn, chẳng hạn như các mô hình công nghiệp quy mô lớn, dữ liệu cần thiết không phải là dữ liệu mở và miễn phí trên Internet. Để đào tạo một mô hình có độ chính xác cao, điều cần thiết là chuyên môn của ngành hoặc thậm chí là thương mại bí mật. Kiến thức. Để mọi người đóng góp vào một kho dữ liệu như vậy, phải có một cơ chế phân chia quyền và lợi ích.”![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c63d3da287-dd1a6f-7649e1) Nguồn hình ảnh: Được tạo bởi Unbounded AILà một trong "bộ ba" của cơ sở hạ tầng trí tuệ nhân tạo, tầm quan trọng của dữ liệu luôn được thể hiện rõ ràng. Khi sự bùng nổ của các mô hình ngôn ngữ lớn bước vào thời kỳ đỉnh cao, ngành công nghiệp đang chú ý đến dữ liệu hơn bao giờ hết.Vào đầu tháng 7, Stuart Russell, giáo sư khoa học máy tính tại Đại học California, Berkeley và là tác giả của cuốn sách "Trí tuệ nhân tạo—Phương pháp tiếp cận hiện đại", đã cảnh báo rằng các bot do AI cung cấp như ChatGPT có thể sớm "hết văn bản trong vũ trụ". ." ", và kỹ thuật huấn luyện bot bằng cách thu thập một lượng lớn văn bản đang "bắt đầu gặp khó khăn." Công ty nghiên cứu Epoch ước tính rằng bộ dữ liệu máy học có thể cạn kiệt tất cả "dữ liệu ngôn ngữ chất lượng cao" vào năm 2026."Chất lượng dữ liệu và khối lượng dữ liệu sẽ là chìa khóa cho sự xuất hiện của các khả năng mô hình quy mô lớn trong giai đoạn tiếp theo." Wu Chao, giám đốc ủy ban chuyên gia của CITIC Think Tank và giám đốc Viện Nghiên cứu Chứng khoán của Chứng khoán Trung Quốc, đã chia sẻ bài phát biểu tại Hội nghị Trí tuệ Nhân tạo Thế giới (WAIC) năm 2023 Người ta ước tính rằng "20% chất lượng của một mô hình trong tương lai sẽ được quyết định bởi thuật toán và 80% sẽ được quyết định bởi chất lượng của dữ liệu tiếp theo, cao -dữ liệu chất lượng sẽ là chìa khóa để cải thiện hiệu suất của mô hình."Tuy nhiên, dữ liệu chất lượng cao đến từ đâu? Hiện tại, ngành công nghiệp dữ liệu vẫn phải đối mặt với nhiều vấn đề cấp bách, chẳng hạn như tiêu chuẩn chất lượng dữ liệu là gì, làm thế nào để thúc đẩy chia sẻ và lưu thông dữ liệu cũng như cách thiết kế hệ thống định giá và phân phối doanh thu.## **Dữ liệu chất lượng cao khẩn cấp**Wei Zhilin, phó tổng giám đốc của Sàn giao dịch dữ liệu Thượng Hải, cho biết trong một cuộc phỏng vấn với The Paper (bao gồm cả phương tiện truyền thông) vào ngày 8 tháng 7 rằng trong "bộ ba" dữ liệu, sức mạnh tính toán và thuật toán, dữ liệu là cốt lõi, lâu dài nhất và cơ bản nhất.các yếu tố.Mô hình ngôn ngữ quy mô lớn (LLM) ngày nay có hiệu suất đáng kinh ngạc và cơ chế đằng sau nó được tóm tắt là "sự xuất hiện thông minh". Nói một cách đơn giản, các kỹ năng AI chưa từng được dạy trước đây giờ có thể học được. Và một số lượng lớn các bộ dữ liệu là cơ sở quan trọng cho "sự xuất hiện của trí thông minh".Mô hình ngôn ngữ lớn là một mạng thần kinh sâu với hàng tỷ đến hàng nghìn tỷ tỷ tham số, được "đào tạo trước" trên một kho ngữ liệu ngôn ngữ tự nhiên khổng lồ có dung lượng vài terabyte (Terabyte, 1TB=1024MB), bao gồm dữ liệu có cấu trúc, sách trực tuyến và nội dung khác . Shan Haijun, phó chủ tịch Viện nghiên cứu Jinxin Điện tử Trung Quốc, nói với Peng Mei Technology trong Hội nghị Trí tuệ Nhân tạo Thế giới năm 2023 rằng các mô hình lớn về cơ bản là các mô hình tạo xác suất và điểm nổi bật cốt lõi của chúng nằm ở khả năng hiểu (học nhanh theo ngữ cảnh) và suy luận ( chuỗi suy nghĩ) và Has Values (Human Feedback Reinforcement Learning). Bước đột phá lớn nhất của ChatGPT là khi GPT-3 xuất hiện, với khoảng 175 tỷ tham số và dung lượng dữ liệu 45 TB.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb60d6123-dd1a6f-7649e1) Chế độ xem toàn diện về tất cả các bộ dữ liệu từ GPT-1 đến các mô hình ngôn ngữ do Gopher tuyển chọn từ năm 2018 đến đầu năm 2022. Kích thước không trọng số, tính bằng GB. Tín dụng: Alan D. Thompson"OpenAI luôn nỗ lực hướng tới việc tìm kiếm dữ liệu chất lượng cao hơn và phân tích sâu dữ liệu hiện có, để làm cho khả năng của nó ngày càng mạnh mẽ hơn." Vào ngày 12 tháng 7, Giáo sư Đại học Phục Đán, Giám đốc Phòng thí nghiệm Khoa học Dữ liệu Trọng điểm Thượng Hải Xiao Yanghua nói với The Paper, "Thu thập dữ liệu quy mô lớn, chất lượng cao và đa dạng, đồng thời phân tích chuyên sâu những dữ liệu này có thể là một trong những ý tưởng quan trọng để thúc đẩy sự phát triển của các mô hình lớn."Tuy nhiên, dữ liệu chất lượng cao đang bị thiếu hụt.Một nghiên cứu vào tháng 11 năm ngoái của Epoch, một nhóm các nhà nghiên cứu trí tuệ nhân tạo, đã ước tính rằng bộ dữ liệu máy học có thể làm cạn kiệt tất cả "dữ liệu ngôn ngữ chất lượng cao" vào năm 2026. Và khi nghiên cứu được công bố, sự bùng nổ toàn cầu về mô hình lớn thậm chí còn chưa xảy ra. Theo nghiên cứu, dữ liệu ngôn ngữ trong các bộ "chất lượng cao" đến từ "sách, bài báo, bài báo khoa học, Wikipedia và nội dung web được lọc".Đồng thời, các hoạt động thu thập dữ liệu của các tổ chức phát triển AI tổng quát như OpenAI để đào tạo các mô hình ngôn ngữ lớn đang ngày càng trở nên gây tranh cãi. Vào cuối tháng 6, OpenAI đã vướng phải một vụ kiện tập thể với cáo buộc đánh cắp "một lượng lớn dữ liệu cá nhân" để đào tạo ChatGPT. Các phương tiện truyền thông xã hội, bao gồm Reddit và Twitter, bày tỏ sự không hài lòng với việc sử dụng dữ liệu ngẫu nhiên trên nền tảng của họ.Vào ngày 1 tháng 7, Musk đã áp đặt giới hạn tạm thời về số lượng tweet được đọc vì lý do này.Trong một cuộc phỏng vấn với phương tiện truyền thông công nghệ và tài chính Insider vào ngày 12 tháng 7, Russell nói rằng nhiều báo cáo, mặc dù chưa được xác nhận, nêu chi tiết rằng OpenAI đã mua bộ dữ liệu văn bản từ các nguồn tư nhân. Mặc dù có nhiều cách giải thích khác nhau cho việc mua hàng này, nhưng "suy luận tự nhiên là không có đủ dữ liệu công khai chất lượng cao."Một số chuyên gia đã gợi ý rằng có lẽ các giải pháp mới sẽ xuất hiện trước khi dữ liệu cạn kiệt. Ví dụ: mô hình lớn có thể liên tục tự tạo dữ liệu mới và sau đó trải qua một số quá trình lọc chất lượng, do đó có thể được sử dụng để đào tạo mô hình. Quá trình này được gọi là tự học hoặc "phản hồi". Tuy nhiên, theo một bài báo được xuất bản trên nền tảng in sẵn arXiv của các nhà nghiên cứu từ Đại học Oxford, Đại học Cambridge và Đại học Hoàng gia Luân Đôn vào tháng 5 năm nay, việc đào tạo AI với dữ liệu do AI tạo ra sẽ dẫn đến những khiếm khuyết không thể sửa chữa trong mô hình AI. nó Mô hình sụp đổ. Điều này có nghĩa là dữ liệu chất lượng cao được sử dụng để đào tạo mô hình trong tương lai sẽ ngày càng trở nên đắt đỏ hơn, mạng sẽ bị phân mảnh và đóng cửa, đồng thời những người tạo nội dung sẽ cố gắng hết sức để ngăn nội dung của họ bị thu thập dữ liệu miễn phí.Không khó để thấy rằng việc thu thập dữ liệu chất lượng cao sẽ ngày càng trở nên khó khăn hơn. "Hầu hết dữ liệu của chúng tôi hiện nay đều đến từ Internet. Dữ liệu sẽ đến từ đâu trong nửa cuối năm? Tôi nghĩ điều này rất quan trọng. Cuối cùng, mọi người sẽ chia sẻ dữ liệu riêng tư hoặc bạn có dữ liệu mà tôi không có". không có." Nhà khoa học trẻ của Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải, chịu trách nhiệm về OpenDataLab He Conghui đã nói về nó tại Hội nghị Trí tuệ Nhân tạo Thế giới năm 2023.Wu Chao cũng nói với The Paper rằng bất cứ ai có dữ liệu chất lượng cao hơn tiếp theo hoặc có thể tạo ra một luồng dữ liệu chất lượng cao ổn định, sẽ trở thành chìa khóa để cải thiện hiệu suất.## **Sự cố "tập trung vào dữ liệu"**He Conghui tin rằng mô hình của toàn bộ quá trình phát triển mô hình sẽ dần thay đổi từ "lấy mô hình làm trung tâm" sang "lấy dữ liệu làm trung tâm". Nhưng có một vấn đề về tập trung vào dữ liệu - thiếu tiêu chuẩn và tầm quan trọng của chất lượng dữ liệu thường được đề cập, nhưng thực tế hiện tại khó ai có thể nói rõ ràng thế nào là chất lượng dữ liệu tốt và thế nào là tiêu chuẩn.Trong quá trình thực hành, He Conghui cũng gặp phải vấn đề như vậy, "Thực tiễn của chúng tôi trong quy trình này là chia nhỏ dữ liệu và làm cho dữ liệu ngày càng chi tiết hơn. Với từng lĩnh vực phân mục và chủ đề phân mục, tiêu chuẩn chất lượng của dữ liệu dần dần trở nên ngày càng nhỏ hơn. Nó đã được đề xuất. Đồng thời, chỉ xem xét dữ liệu thôi là chưa đủ mà còn phải xem xét đằng sau dữ liệu. Chúng tôi sẽ kết hợp dữ liệu và cải thiện hiệu suất mô hình của ý định tương ứng của dữ liệu và cùng nhau xây dựng một bộ cơ chế lặp lại chất lượng dữ liệu.”Năm ngoái, Phòng thí nghiệm trí tuệ nhân tạo Thượng Hải nơi He Conghui làm việc đã phát hành nền tảng dữ liệu mở OpenDataLab dành cho trí tuệ nhân tạo, cung cấp hơn 5.500 bộ dữ liệu chất lượng cao, "nhưng đây chỉ ở mức bộ dữ liệu công khai. Chúng tôi hy vọng rằng dữ liệu trao đổi sẽ được thành lập hai ngày trước. Liên minh dữ liệu kho dữ liệu quy mô lớn có thể cung cấp cho các tổ chức nghiên cứu và doanh nghiệp các phương pháp lưu thông dữ liệu tốt hơn."Vào ngày 6 tháng 7, tại Hội nghị Trí tuệ Nhân tạo Thế giới 2023, Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải, Viện Thông tin Khoa học và Công nghệ Trung Quốc, Tập đoàn Dữ liệu Thượng Hải, Hiệp hội Kinh doanh Kỹ thuật số Thượng Hải, Trung tâm Khí tượng Quốc gia, Đài Phát thanh và Truyền hình Trung ương Trung Quốc, Tập đoàn Công nghiệp Báo chí Thượng Hải The large mô hình liên minh kho dữ liệu do các đơn vị khác khởi xướng đã công bố thành lập chính thức.Vào ngày 7 tháng 7, trang web chính thức của Sàn giao dịch dữ liệu Thượng Hải đã chính thức ra mắt kho dữ liệu và tổng cộng gần 30 sản phẩm dữ liệu kho dữ liệu đã được liệt kê, bao gồm văn bản, âm thanh, hình ảnh và đa phương thức khác, bao gồm các lĩnh vực tài chính, giao thông vận tải và y tế.Nhưng việc xây dựng ngữ liệu như vậy không phải là chuyện đương nhiên. "Có thể có kho dữ liệu chất lượng cao theo yêu cầu của các doanh nghiệp quy mô lớn không? Đối tượng mục tiêu có sẵn sàng mở dữ liệu không?", Tang Qifeng, tổng giám đốc của Sàn giao dịch dữ liệu Thượng Hải, cho biết tại Hội nghị Trí tuệ nhân tạo thế giới năm 2023 rằng khó khăn chủ yếu nằm ở mức độ mở và chất lượng dữ liệu Hai cách.Wei Zhilin chia sẻ, việc cung cấp dữ liệu hiện đang gặp nhiều thách thức, các nhà sản xuất hàng đầu không sẵn sàng công khai dữ liệu, đồng thời mọi người cũng lo lắng về cơ chế bảo mật trong quá trình chia sẻ dữ liệu. Một vấn đề quan trọng khác là vẫn còn những nghi ngờ về cơ chế phân phối doanh thu cho việc lưu thông dữ liệu mở.Cụ thể, chia sẻ dữ liệu cần giải quyết ba vấn đề. Lin Le, người sáng lập kiêm Giám đốc điều hành của Shanghai Lingshu Technology Co., Ltd. giải thích với Pengpai Technology rằng, trước tiên, dữ liệu rất dễ làm sai lệch và cần đảm bảo rằng dữ liệu đó là xác thực và đáng tin cậy. Thứ hai là dữ liệu dễ sao chép, có nghĩa là mối quan hệ sở hữu không rõ ràng và cần có blockchain để xác nhận và sử dụng được ủy quyền. Thứ ba là dễ rò rỉ quyền riêng tư, chuỗi khối có thể được kết hợp với công nghệ điện toán quyền riêng tư để làm cho dữ liệu có sẵn và vô hình.## **Cách giải quyết vấn đề phân phối thu nhập**Tang Qifeng chỉ ra rằng đối với các nhà cung cấp có chất lượng dữ liệu cao nhưng tính công khai thấp, vấn đề niềm tin của việc lưu thông dữ liệu kho dữ liệu có thể được giải quyết hiệu quả thông qua chuỗi giao dịch dữ liệu. "Một trong những điều cốt lõi nằm ở vấn đề quyền sở hữu và phân chia lợi ích sau khi tham gia mô hình quy mô lớn”.Lin Changle, phó chủ tịch điều hành của Viện nghiên cứu công nghệ cốt lõi thông tin liên ngành của Đại học Thanh Hoa, đang thiết kế một hệ thống lý thuyết về cách định giá dữ liệu và phân phối lợi ích."Ở một mức độ nào đó, rất nhiều kiến thức của con người như ChatGPT có thể được sử dụng miễn phí trong vài tháng. Chúng tôi thấy rằng mô hình lớn có thể học một số bài báo của nhà văn, viết cùng một phong cách bài báo hoặc tạo ra các bức tranh của Van Gogh, nhưng nó không cần phải Khoản thanh toán này, chủ thể của những nguồn dữ liệu này không được hưởng lợi từ nó." Lin Changle cho biết tại Hội nghị Trí tuệ Nhân tạo Thế giới năm 2023, vì vậy có thể có một quan điểm cấp tiến hơn: quyền sở hữu trí tuệ trong thời đại các mô hình lớn không tồn tại, hoặc Người ta nói rằng bảo vệ quyền sở hữu trí tuệ truyền thống không tồn tại.Tuy nhiên, Lin Changle tin rằng sau thời đại của các mô hình lớn, việc bảo vệ quyền sở hữu trí tuệ sẽ phát triển thành việc xác nhận quyền dữ liệu, giá cả và giao dịch. "Khi sự phát triển của các mô hình quy mô lớn đi sâu hơn, chẳng hạn như các mô hình công nghiệp quy mô lớn, dữ liệu cần thiết không phải là dữ liệu mở và miễn phí trên Internet. Để đào tạo các mô hình có độ chính xác cực cao, điều cần thiết là chuyên môn của ngành hoặc thậm chí là thương mại bí mật. Kiến thức. Để mọi người đóng góp vào một kho dữ liệu như vậy, phải có một cơ chế phân chia quyền và lợi ích.”"Bản đồ tài sản dữ liệu" mà Lin Changle đang nghiên cứu hiện nay là sử dụng toán học để chứng minh một bộ cơ chế phân phối thu nhập nhằm phân phối quyền dữ liệu một cách công bằng.**Cách giải quyết lưu thông dữ liệu**Liu Quan, phó kỹ sư trưởng của Viện nghiên cứu CCID của Bộ Công nghiệp và Công nghệ thông tin, đồng thời là viện sĩ nước ngoài của Viện Hàn lâm Khoa học Tự nhiên Nga, đã đề cập tại WAIC "Tích hợp số và thực tế, trí thông minh dẫn đầu tương lai" Chuỗi khối sinh thái công nghiệp Diễn đàn mà gần đây phiên bản Bắc Kinh của "Hai mươi bài báo về dữ liệu" đã xuất hiện trong ngành, phản ứng rất lớn, nó giải quyết vấn đề cốt lõi trong quá trình lưu thông dữ liệu. Rõ ràng nhất, câu hỏi ai sở hữu dữ liệu của chính phủ đã được làm rõ—dữ liệu công khai thuộc về chính phủ. Còn dữ liệu công ty và dữ liệu cá nhân thì sao? "Trao đổi dữ liệu thành phố Bắc Kinh có thể được ủy thác để tiến hành các hoạt động được ủy thác."Vào ngày 5 tháng 7, Ủy ban Thành phố Bắc Kinh của Đảng Cộng sản Trung Quốc và Chính quyền Nhân dân Thành phố Bắc Kinh đã đưa ra thông báo về "Các ý kiến triển khai về Phát huy tốt hơn vai trò của các yếu tố dữ liệu và đẩy nhanh hơn nữa sự phát triển của nền kinh tế kỹ thuật số". "Ý kiến thực hiện" được chia thành chín phần. Nó xây dựng một hệ thống dữ liệu cơ bản từ các khía cạnh của quyền sở hữu dữ liệu, giao dịch lưu thông, phân phối thu nhập và quản trị an ninh. Nó đề xuất tổng cộng 23 yêu cầu cụ thể, được gọi là phiên bản Bắc Kinh của "Hai mươi bài báo dữ liệu" trong ngành."Từ quan điểm trong nước, theo thống kê, 80% tài nguyên dữ liệu tập trung ở các cơ quan công cộng và chính phủ. Chúng tôi muốn giải quyết vấn đề cung cấp dữ liệu, ở mức độ lớn, chúng tôi hy vọng sẽ dựa trên 20 Điều khoản của Dữ liệu ( "Ủy ban Trung ương Đảng Cộng sản Trung Quốc và Hội đồng Nhà nước về Xây dựng Hệ thống Dữ liệu Cơ bản Ý kiến về Phát huy tốt hơn vai trò của các yếu tố dữ liệu") trong các tiện ích công cộng và sau đó phục vụ công chúng." Wei Zhilin nói.Wei Zhilin cho biết, theo thống kê hiện tại, kho tài nguyên dữ liệu ở Trung Quốc nói chung đứng thứ hai trên thế giới, nhưng những dữ liệu này nằm rải rác ở nhiều nơi. Theo Zhan Yubao, phó giám đốc Viện Nghiên cứu Trung Quốc Kỹ thuật số của Trung tâm Thông tin Nhà nước, tại Hội nghị Trí tuệ Nhân tạo Thế giới năm 2023 vào ngày 7 tháng 7, hệ thống lưu thông dữ liệu quốc gia hiện tại của Trung Quốc bao gồm: Có hai trao đổi dữ liệu, một là Trao đổi dữ liệu Thượng Hải Một là Sàn giao dịch dữ liệu Thâm Quyến; có 17 trung tâm trao đổi dữ liệu ở Trung Quốc, bao gồm cả Trung tâm trao đổi dữ liệu Bắc Kinh.