Nếu dữ liệu bị cạn kiệt bởi các mô hình lớn, liệu chúng ta có còn thấy trí tuệ nhân tạo nói chung không?

Question

Nguồn gốc: Nửa sau của xe tự hành![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0f892af477-dd1a6f-6d2ef1) Nguồn hình ảnh: Được tạo bởi AI‌ không giới hạnChúng ta đang ở giai đoạn trước của trí tuệ nhân tạo nói chung. Trong khi ChatGPT đã truyền cảm hứng cho sự nhiệt tình trên khắp thế giới, nó cũng đã khơi dậy sự cạnh tranh cho các mô hình AI lớn. Google tung ra Bard để chuẩn hóa, Amazon cũng tham gia vào chiến trường, và Meta, vốn đang đặt cược rất nhiều vào metaverse, cũng không chịu thua kém và tung ra LLaMa và SAM. Ở bên này đại dương, BAT, nơi được công nhận là có nhiều tài nguyên nhất, lại gặp nhau trên mô hình tổng hợp. Bắt kịp xu hướng của những mẫu xe cỡ lớn, trí thông minh hiện thân dường như đang tạo ra một sự thay đổi lớn.Mọi thứ dường như đã quay trở lại mười năm trước, với sự bùng nổ kinh doanh đang nổi lên. **Chỉ lần này, điểm kỳ dị của trí tuệ nhân tạo nói chung được mở ra bằng các mô hình lớn và dữ liệu chính thức đứng ở trung tâm của sân khấu. **## **01. Các yếu tố chính trong việc phát triển mô hình lớn**1. **Sức mạnh tính toán biến các mô hình lớn trở thành trò chơi giàu có**Một mô hình lớn, theo cách nói thông thường, là một mô hình có số lượng tham số khổng lồ. So với các mô hình nhỏ trước đây có thể chạy trên một GPU duy nhất, nó chỉ có thể được hoàn thành bằng cách dựa vào lượng sức mạnh tính toán khổng lồ do các công ty lớn tích hợp. Ví dụ: OpenAI ChatGPT hiện có giá lên tới một triệu đô la Mỹ cho mỗi khóa đào tạo. Khả năng các phòng thí nghiệm nhỏ tham gia vào làn sóng trí tuệ nhân tạo đã bị các mô hình lớn trực tiếp chấm dứt và chỉ những công ty có sự tích lũy mạnh mẽ mới có thể hoàn thành được.Do đó, những anh hùng duy nhất nổi lên trong làn sóng khởi nghiệp mô hình lớn nói chung là những người có những câu chuyện tuyệt vời trong làn sóng khởi nghiệp trên Internet, chẳng hạn như Wang Huiwen của Meituan, Kai-fu Lee của Sinovation Ventures và Wang Xiaochuan của Sogou. Định luật mô hình Moore đã xuất hiện, các mô hình lớn hơn đã mang lại khả năng lý luận và hiểu biết thế giới tốt hơn, với xu hướng như vậy, không còn thời gian để dừng lại và do dự.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a9a8463401-dd1a6f-6d2ef1) 1. **Mô hình phát triển lấy mô hình làm trung tâm thuật toán đã kết thúc**Hiện nay, mô hình phát triển của các công ty trí tuệ nhân tạo thông thường vẫn là mô hình phát triển “truyền thống” lấy mô hình làm trung tâm, tức là sửa tập dữ liệu rồi lặp lại mô hình. Các kỹ sư thuật toán thường tập trung vào một số bộ dữ liệu chuẩn và sau đó thiết kế các mô hình khác nhau để cải thiện độ chính xác của dự đoán.Mặc dù các mô hình lớn đang mọc lên như nấm sau mưa nhưng trên thực tế, các thuật toán đằng sau hầu hết các mô hình đều có xu hướng nhất quán và không có thay đổi lớn nào về mô hình xảy ra. Việc xếp chồng khối lượng dữ liệu làm cho mô hình được đào tạo hoạt động tốt hơn nhiều so với mô hình có những thay đổi nhỏ. Ví dụ, vài tháng trước, nhà tiên phong về trí tuệ nhân tạo Yann LeCun đã xuất bản một bài báo nói rằng ChatGPT về mặt kỹ thuật không có gì mới, nhưng nó đã đạt được hiệu suất tuyệt vời. Những thay đổi thuật toán cẩn thận có thể không tạo ra kết quả tốt hơn việc thêm và lặp lại dữ liệu. So với hiệu suất của mô hình được huấn luyện trên một tập dữ liệu duy nhất, hiệu suất của mô hình do lượng dữ liệu chất lượng cao khổng lồ mang lại là một đòn giáng mạnh vào việc giảm kích thước. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7795ab74b7-dd1a6f-6d2ef1) 1. Dữ liệu trở thành yếu tố cốt lõi của việc phát triển mô hình lớnThành công của các mô hình lớn của OpenAI bắt nguồn từ niềm tin của Ilya rằng những thay đổi về số lượng trong dữ liệu lớn và các mô hình lớn sẽ mang lại những thay đổi về chất. Ví dụ: ChatGPT sử dụng ít nhất 40T dữ liệu quy mô lớn để đào tạo và nếu lượng dữ liệu hiệu quả tiếp tục tăng, nó có thể đạt được hiệu suất tốt hơn. Theo nghiên cứu của Google về Khả năng mới nổi của các mô hình ngôn ngữ lớn, tại một điểm tới hạn nhất định của các tham số mô hình, mô hình đột nhiên đạt được những khả năng không ngờ tới.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-43bc9589e2-dd1a6f-6d2ef1) Để đảm bảo có thể huấn luyện nhiều tham số một cách hợp lý, dữ liệu chất lượng cao đã trở thành chìa khóa. Lấy sự phát triển của ChatGPT làm ví dụ, GPT-1 chỉ sử dụng 4629 MB dữ liệu văn bản, trong khi GPT-2 sử dụng 40 GB văn bản được thu thập và lọc từ Reddit, còn GPT-3 sử dụng ít nhất 45TB văn bản thuần túy. Quá trình huấn luyện của -4 chưa được tiết lộ, nhưng do tốc độ suy luận của GPT-4 chậm hơn nhiều so với GPT-3, có thể suy ra rằng số lượng tham số của mô hình cũng tăng lên và huấn luyện tương ứng dữ liệu rõ ràng đòi hỏi nhiều hơn. Những dữ liệu chất lượng cao này là lý do quan trọng khiến ChatGPT lần đầu tiên xuất hiện trong thế giới tiếng Anh. Các văn bản đào tạo tiếng Anh chuẩn hơn và phong phú hơn các văn bản đào tạo tiếng Trung.Yang Dong, trưởng khoa Viện Khoa học liên ngành tại Đại học Nhân dân Trung Quốc, cũng tin rằng nguyên nhân cơ bản dẫn đến thành công của ChatGPT không chỉ nằm ở bản thân công nghệ mà còn là vấn đề nghiêm trọng về tính không mở và độc quyền dữ liệu ở Trung Quốc. Đối với mô hình phân đoạn ngữ nghĩa Segment Anything Model được phát hành gần đây của Meta, mô hình được giám sát tổng thể không có sự đổi mới rõ ràng, nhưng việc sử dụng dữ liệu khổng lồ trong lĩnh vực phân đoạn ngữ nghĩa khiến hiệu suất của mô hình trở nên đáng kinh ngạc. Hàng chục triệu hình ảnh và hàng tỷ mặt nạ phân đoạn chưa từng xuất hiện trong lĩnh vực phân đoạn ngữ nghĩa hình ảnh.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5e0755349c-dd1a6f-6d2ef1) **Mô hình phát triển AI đang thay đổi từ lấy mô hình làm trung tâm sang lấy dữ liệu làm trung tâm. **Bạn lấy dữ liệu ở đâu, dữ liệu trên thế giới có đủ lớn cho mô hình không?## **02. Dữ liệu thực sẽ bị cạn kiệt bởi các mô hình lớn**Trong thế giới này, các hoạt động của con người luôn diễn ra, vậy chẳng phải dấu vết dữ liệu để lại sẽ tiếp tục gia tăng sao? Tại sao lại cạn kiệt?### **Dữ liệu chất lượng cao đang khan hiếm**Không phải tất cả dấu vết do hoạt động của con người tạo ra đều có thể được sử dụng để đào tạo mô hình. Chỉ có dữ liệu chất lượng cao đưa vào đào tạo mô hình mới có thể mang lại kết quả tốt nhất.Trong lĩnh vực xử lý ngôn ngữ tự nhiên, dữ liệu chất lượng cao là những cuốn sách, bài báo khoa học được số hóa một cách tự nhiên. Có một mối quan hệ logic tốt cũng có thể đảm bảo độ chính xác tương đối. Dữ liệu chất lượng thấp, chẳng hạn như bản ghi trò chuyện, cuộc gọi điện thoại, v.v., có tác dụng tương đối hạn chế đối với việc đào tạo do tính liên tục của dữ liệu kém. Trong tài liệu phát triển của ChatGPT 3 có đề cập rằng sau khi lọc dữ liệu thực hiện lọc chất lượng trên 45TB văn bản thuần túy, thu được 570GB văn bản, chỉ sử dụng 1,27% dữ liệu hiệu quả.Trong lĩnh vực lái xe tự động, dữ liệu chất lượng cao được tạo ra từ nhiều tình huống khác nhau. Ví dụ, một con đường có độ cong tương đối nhỏ có thể xuất hiện rất thường xuyên, nhưng trên thực tế, càng xuất hiện nhiều lần thì nó càng ít quan trọng. Ngược lại, đối với một số kịch bản độc đáo (ví dụ: Trường hợp góc), chất lượng dữ liệu cao hơn và việc điều chỉnh kịch bản cần phải được thực hiện riêng. Tuy nhiên, những mẫu tương đối nhỏ này gần như vô dụng khi phải đối mặt với các yêu cầu về thông số của các mô hình lớn.### **Các hạn chế do bảo mật và quyền riêng tư dữ liệu**Sự phát triển của Generative AI đã kéo theo những tranh cãi về bảo mật dữ liệu. Sau khi Stable Diffusion ra mắt, nó đã gây ra sự không hài lòng của nhiều nghệ sĩ. Dưới áp lực, Stability AI tuyên bố sẽ cho phép các nghệ sĩ xóa tác phẩm của mình theo cách có chủ đích và ngăn họ tham gia khóa đào tạo.Trong một số trường hợp, dữ liệu có sẵn công khai có thể chứa thông tin nhạy cảm như thông tin nhận dạng cá nhân, thông tin tài chính hoặc hồ sơ y tế. Ở nhiều ngành và khu vực, rất khó lấy được dữ liệu chứa thông tin nhạy cảm, điều này làm tăng độ khó trong việc thu thập dữ liệu và làm giảm tốc độ tăng trưởng của các tập dữ liệu tương ứng. Điều này đã trở thành hạn chế đối với các mô hình công nghiệp lớn. Ví dụ, trong lĩnh vực y tế, do tính đặc thù và quyền riêng tư của lĩnh vực này, không thể thu được lượng dữ liệu có thể sử dụng cho đào tạo mô hình lớn với các hạn chế về quy định và bảo vệ quyền riêng tư nghiêm ngặt.### **Dữ liệu thực chất lượng cao có thể không đủ để hỗ trợ việc đào tạo các mô hình lớn**Bài viết “Liệu chúng ta có hết dữ liệu không? Phân tích giới hạn của việc mở rộng tập dữ liệu trong Machine Learning” khám phá khả năng thiếu hụt dữ liệu (lượng dữ liệu không đủ đáp ứng nhu cầu đào tạo mô hình lớn) theo hiện trạng tốc độ tăng trưởng của mô hình,* *Đến khoảng năm 2026, dữ liệu NLP chất lượng cao sẽ không đủ để hỗ trợ đào tạo**. Kho dữ liệu cho các mô hình ngôn ngữ và thị giác đang tăng chậm hơn nhiều so với kích thước của các tập dữ liệu huấn luyện, vì vậy nếu xu hướng hiện tại tiếp tục, các tập dữ liệu cuối cùng sẽ ngừng phát triển do cạn kiệt dữ liệu.Với lượng dữ liệu ngày càng tăng, hầu hết dữ liệu được thu thập bằng các phương pháp thu thập dữ liệu không thể kiểm soát đều vô nghĩa. Ví dụ, trong các tình huống lái xe tự động, các phương tiện liên tục thu thập dữ liệu mới trên đường, nhưng thực tế chỉ có rất ít dữ liệu có thể được sử dụng. Vì vậy, trong cuộc trò chuyện gần đây giữa CEO Nvidia Jensen Huang và Ilya Sutskever, họ cũng thảo luận về khả năng cạn kiệt dữ liệu.## **03. Dữ liệu tổng hợp có thể đáp ứng yêu cầu dữ liệu khổng lồ của các mô hình lớn**Mô hình phát triển lấy dữ liệu làm trung tâm coi dữ liệu là phần quan trọng nhất. Thuật toán huấn luyện cần có dữ liệu nhưng khó có được dữ liệu chất lượng cao, làm thế nào để đáp ứng được yêu cầu dữ liệu khổng lồ của các mô hình lớn?Cũng giống như có thịt tổng hợp trong thực phẩm, dữ liệu có thể được tổng hợp một cách nhân tạo không? Dữ liệu tổng hợp là dữ liệu được tạo ra trong thế giới kỹ thuật số. Khả năng kiểm soát của dữ liệu tổng hợp tốt hơn dữ liệu thực, nó có thể phản ánh các thuộc tính của dữ liệu thực theo nghĩa toán học và vật lý, đồng thời có thể tạo ra dữ liệu một cách định hướng để đảm bảo sự cân bằng của dữ liệu khi huấn luyện mô hình.### **Dữ liệu tổng hợp có thông tin delta**Tìm hiểu cách phân phối dữ liệu trong dữ liệu thực và tạo ra nhiều dữ liệu hơn dựa trên phân phối này để đảm bảo có đủ dữ liệu để đào tạo các mô hình lớn trong các tình huống khác nhau. Sự kết hợp của các yếu tố khác nhau sẽ mang đến những khung cảnh khác nhau, đồng thời những thay đổi trong khung cảnh cũng mang lại sự gia tăng thông tin, từ đó đảm bảo tính hiệu quả của dữ liệu tổng hợp.Theo nghiên cứu của OpenAI và UC Berkeley năm 2017, dựa trên khung cảnh thực tế, vị trí của máy ảnh, màu sắc đối tượng, hình dạng, ánh sáng, v.v. được khái quát hóa và một lượng lớn dữ liệu tổng hợp được tạo ra để đào tạo mô hình phát hiện đối tượng Trên cơ sở hoàn toàn không sử dụng dữ liệu thực, sai số 3D của mô hình phát hiện được giữ trong khoảng 1,5 cm và có độ chắc chắn rất tốt.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0146688a69-dd1a6f-6d2ef1) Ví dụ: trong lĩnh vực lái xe tự động, một cảnh cắt cảnh thực tế điển hình của chiếc xe phía trước có thể được tái tạo thông qua thời tiết và ánh sáng tổng quát bằng cách sử dụng dữ liệu tổng hợp. Sau khi dữ liệu thu được được sử dụng để huấn luyện mô hình, mô hình sẽ có hiệu suất mạnh mẽ hơn trong các điều kiện thời tiết và ánh sáng khác nhau. Theo nghiên cứu năm 2018 của Nvidia, việc sử dụng dữ liệu tổng hợp được tạo ra với các vị trí và kết cấu xe ngẫu nhiên để huấn luyện mô hình, hiệu suất của mô hình phát hiện đã được cải thiện đáng kể. Điều này là do sự phân bổ đồng đều hơn các vị trí dữ liệu tổng hợp của phương tiện và sự phân bổ rộng hơn của dữ liệu được tạo ra.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5dbda969ef-dd1a6f-6d2ef1) Khả năng kiểm soát của dữ liệu tổng hợp tốt hơn dữ liệu thực, nó có thể phản ánh các thuộc tính của dữ liệu thực theo nghĩa toán học và vật lý, đồng thời có thể tạo ra dữ liệu một cách định hướng để đảm bảo sự cân bằng của dữ liệu khi huấn luyện mô hình. Khi tạo dữ liệu theo cách có mục tiêu, có khả năng tùy chỉnh các đặc điểm của mô hình lớn. Ví dụ: người ta hy vọng rằng mô hình ngôn ngữ lớn sẽ bị sai lệch khi trả lời một số câu hỏi nhất định và có các kiểu và yếu tố đặc biệt khi tạo một số hình ảnh nhất định . Tất cả điều này có thể được thực hiện thông qua dữ liệu tổng hợp tùy chỉnh.Dựa trên dữ liệu thực, nhưng khác với dữ liệu thực. Đặc điểm này của dữ liệu tổng hợp khiến nó ngày càng được sử dụng rộng rãi, không chỉ dùng để thử nghiệm mà còn có thể dùng làm dữ liệu huấn luyện để mô hình trở nên mạnh mẽ hơn.### **Lợi thế về chi phí của dữ liệu tổng hợp là rất lớn**Chi phí của dữ liệu đến từ việc thu thập và ghi nhãn, ở cả hai phần, dữ liệu tổng hợp đều có những lợi thế đáng kể.So với việc thu thập dữ liệu thực không hiệu quả, dữ liệu tổng hợp có thể tạo ra các kịch bản theo cách có mục tiêu, làm cho mỗi byte dữ liệu trở nên có giá trị. Không cần đội ngũ thu thập dữ liệu lớn, cũng không cần hệ thống trả về dữ liệu và lọc dữ liệu quy mô lớn, dữ liệu tổng hợp dựa trên nhu cầu đào tạo mô hình ngay từ khi bắt đầu sản xuất và hầu hết đầu ra có thể được sử dụng trực tiếp, giúp giảm chi phí dữ liệu.Đồng thời, chi phí dán nhãn dữ liệu tổng hợp có lợi thế rất lớn so với dữ liệu thực.Theo ước tính từ nền tảng dịch vụ dữ liệu Diffgram, trong việc dán nhãn hình ảnh lái xe tự động, giá trung bình của một hộp nhãn là khoảng 0,03 USD, và tổng chi phí để dán nhãn đầy đủ cho một bức ảnh là khoảng 0,03,5,79 đô la Mỹ và đối với dữ liệu tổng hợp, giá chú thích về cơ bản gần bằng 0 và một số chỉ là chi phí tính toán dữ liệu, chỉ tốn khoảng 6 xu. Nói tóm lại, dữ liệu tổng hợp có thể được sử dụng để huấn luyện các mô hình lớn theo cách dễ kiểm soát hơn, hiệu quả hơn và chi phí thấp hơn.**Nếu việc thu thập dữ liệu thực vẫn còn ở thời đại trồng trọt, chăn nuôi đốt nương làm rẫy, thì việc sản xuất dữ liệu tổng hợp đã bước vào kỷ nguyên công nghiệp tự động hóa hiệu quả, cung cấp sản phẩm quy mô lớn, chất lượng cao ở mức giá thấp. **Theo "MIT Technology Review", dữ liệu tổng hợp được liệt kê là một trong mười công nghệ đột phá hàng đầu trên thế giới vào năm 2022. Người ta tin rằng dữ liệu tổng hợp có thể giải quyết tình trạng phát triển chậm chạp của trí tuệ nhân tạo trong các lĩnh vực không đủ nguồn dữ liệu.## **04. Những ngành nào sẽ cần dữ liệu tổng hợp****Trên thực tế, dữ liệu tổng hợp đã được sử dụng rộng rãi ở nước ngoài. Trong lĩnh vực robot, lái xe tự động, xử lý ngôn ngữ tự nhiên, tài chính, chăm sóc y tế, v.v., chúng ta đều có thể thấy dữ liệu tổng hợp. **Ngay từ năm 2018, OpenAI đã sử dụng môi trường mô phỏng để đào tạo bộ điều khiển robot. Quá trình đào tạo sẽ ngẫu nhiên hóa động lực học của môi trường, sau đó áp dụng bộ điều khiển trực tiếp vào robot vật lý. Bằng cách này, robot có thể xử lý các tác vụ đơn giản khi thực hiện các tác vụ đơn giản. những thay đổi của môi trường bên ngoài.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8d42e2c10d-dd1a6f-6d2ef1) Theo báo cáo của JPMorgan Chase vào năm 2019, họ đã sử dụng dữ liệu tổng hợp để đào tạo các mô hình phát hiện gian lận tài chính nhằm khắc phục vấn đề có rất ít dữ liệu gian lận tài chính.Đại học Stanford gần đây cũng đã phát hành mô hình hội thoại quy mô lớn Alpaca của riêng mình với 7 tỷ tham số. Điều đặc biệt thú vị là bộ dữ liệu tham gia nghiên cứu được tạo ra bởi nhóm sử dụng API của OpenAI. Nói cách khác, toàn bộ bộ dữ liệu huấn luyện đã được tổng hợp hoàn toàn. Thành phần dữ liệu và hiệu ứng cuối cùng có thể so sánh với GPT-3.5.Lấy lái xe tự động làm ví dụ một lần nữa, như một ứng dụng quan trọng của thị giác máy tính, ngành công nghiệp lái xe tự động đã đi một chặng đường dài trong việc sử dụng dữ liệu tổng hợp. Để giảm chi phí thử nghiệm và cải thiện hiệu quả lặp lại, các công cụ mô phỏng được sử dụng rộng rãi trong ngành để thử nghiệm và xác minh các thuật toán lái xe tự động.Các chức năng lái xe tự động dựa trên tầm nhìn cần thu thập lượng lớn dữ liệu cảnh thực để đào tạo các mô hình học sâu nhằm hoàn thiện nhận thức về thế giới. Tuy nhiên, dữ liệu đuôi dài được sản xuất hàng loạt thường khó hoặc không thể thu thập được trong thế giới thực. Đồng thời, ngay cả hình dáng bên ngoài của cùng một vật thể cũng có thể khác nhau rất nhiều trong các thời điểm và điều kiện thời tiết khác nhau, điều này mang lại những thách thức lớn cho nhận thức thị giác.So với việc thu thập dữ liệu thực, chi phí của dữ liệu tổng hợp có thể kiểm soát được và không yêu cầu chú thích thủ công, giúp giảm đáng kể lỗi của con người do quy trình thu thập và lưu chuyển dữ liệu không nhất quán cũng như tiêu chuẩn của con người. Do đó, dữ liệu tổng hợp được ngành coi là một trong những cách hiệu quả để giải quyết bài toán đuôi dài.Tuy nhiên, để đào tạo các hệ thống lái xe tự động tốt hơn, chất lượng của hầu hết dữ liệu mô phỏng là chưa đủ, chúng không thể phản ánh thế giới thực và chỉ mang tính trừu tượng ở mức độ cao của thế giới thực. Do đó, nhiều công ty trong ngành đã đầu tư rất nhiều vào việc cải thiện tính chân thực của dữ liệu, chẳng hạn như phần mềm mô phỏng lái xe tự động DriveSim của Nvidia sử dụng công nghệ kết xuất vật lý tiên tiến để cải thiện tính chân thực của dữ liệu tổng hợp.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-628c99907d-dd1a6f-6d2ef1) Cruise và Waymo sử dụng các công nghệ liên quan đến NeRF để tạo ra thế giới song sinh kỹ thuật số, sau đó tạo ra dữ liệu tổng hợp. Nvidia cũng đề xuất Instant NGP vào năm 2022, giúp cải thiện đáng kể hiệu quả đào tạo của NeRF.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1938a186d7-dd1a6f-6d2ef1) Ngay từ AIDay năm 2021, Telsa đã đào tạo hệ thống nhận thức bằng cách sử dụng cảnh một gia đình đang chạy trên đường cao tốc và những đám đông khó gắn nhãn, điều này rất ấn tượng.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-bb8ef9b3a3-dd1a6f-6d2ef1) Đồng thời, nhiều công ty dữ liệu tổng hợp đã bắt đầu nổi lên ở vị trí dẫn đầu trong ngành tại Thung lũng Silicon. Miền song song và Trực giác ứng dụng phục vụ lái xe tự động, Datagen phục vụ ngành thị giác máy nói chung và Gretel AI bắt nguồn từ xử lý ngôn ngữ tự nhiên. Đằng sau những công ty này là những gã khổng lồ dẫn đầu ngành.Gartner dự đoán vào năm 2024, 60% dữ liệu đào tạo sẽ được thay thế bằng dữ liệu người lớn và đến năm 2030, dữ liệu tổng hợp sẽ thay thế hoàn toàn dữ liệu thực và trở thành nguồn dữ liệu chính để đào tạo AI.Tuy nhiên, ở Trung Quốc, thực tế có tương đối ít ứng dụng dữ liệu tổng hợp, hiện tại hầu hết các công ty vẫn sử dụng dữ liệu thực để hoàn thành việc đào tạo mô hình.## **05. Hạn chế của dữ liệu tổng hợp**Những vấn đề nào vẫn cần được giải quyết với dữ liệu tổng hợp trước khi nó có thể thay thế hoàn toàn dữ liệu thực? Ở đây chúng tôi lấy lái xe tự động làm ví dụ để thảo luận.### **Sự thật**Ở góc độ cảm nhận, tính xác thực thực sự là chỉ số đánh giá đầu tiên. Trước khi lô dữ liệu này được đưa vào hệ thống đào tạo, liệu nó có thể vượt qua quá trình kiểm tra trực quan của con người để đảm bảo rằng nó trông giống thật không?Về nhược điểm của chủ nghĩa hiện thực, thực tế có thể nhìn thấy bằng mắt thường không thể hiện được hiệu quả thực sự của dữ liệu, theo đuổi một cách mù quáng chủ nghĩa hiện thực trực quan của hình ảnh có thể không có ý nghĩa định lượng thực tế. Tiêu chuẩn định lượng để đánh giá tính xác thực của dữ liệu tổng hợp cần dựa trên sự cải tiến của tập dữ liệu tổng hợp so với tập dữ liệu thực đối với các thuật toán được huấn luyện trên tập dữ liệu tổng hợp. Hiện tại, trong ngành công nghiệp lái xe tự động, vốn có yêu cầu cao nhất về tính xác thực của dữ liệu tổng hợp, đã có những ví dụ từ Cruise, Nvidia, Waymo, Tesla, v.v. đã cải thiện hiệu quả và đáng kể hiệu suất của thuật toán trên đường thật dựa trên dữ liệu tổng hợp. Tất nhiên, khi các thuật toán được cải thiện, yêu cầu về tính xác thực của dữ liệu tổng hợp cũng sẽ tăng lên. Những đột phá liên tục gần đây trong lĩnh vực AI tổng hợp đã cho chúng ta một hướng đi thực tế tốt để nâng cao tính chân thực của dữ liệu tổng hợp.### **Sự đa dạng của cảnh**Xây dựng các mô hình thế giới dữ liệu tổng hợp, chẳng hạn như xây dựng các kịch bản lái xe tự động. Chúng ta cần tạo ra thế giới ảo và mô phỏng hoạt động của thế giới thực để dữ liệu tổng hợp chảy ra như nước suối. Phương pháp truyền thống dựa trên mô hình thuật toán nhân tạo. Ví dụ: phương pháp xây dựng của các nhà sản xuất dữ liệu tổng hợp truyền thống hoàn toàn dựa trên các công cụ vật lý, xác định tốc độ xây dựng cảnh. Toàn bộ thế giới vật chất cần được xây dựng thủ công bởi các kỹ sư tài sản 3D. Mọi tòa nhà và biển báo đường phố đều phải được xây dựng theo cách thủ công, vị trí, điều này hạn chế tốc độ xây dựng cảnh và hạn chế rất nhiều về sự đa dạng của cảnh. AI sáng tạo như Mô hình khuếch tán và Nerf cung cấp khả năng lập mô hình tự động, tập trung vào dữ liệu cho dây chuyền sản xuất dữ liệu tổng hợp.Các cảnh được xây dựng nhân tạo hạn chế đáng kể việc khái quát hóa dữ liệu tổng hợp. Sau cùng, chúng tôi hy vọng rằng thuật toán được đào tạo đủ mạnh để hoạt động đủ tốt trong thế giới thực.Rõ ràng, công trình nhân tạo không thể bao quát hết mọi cảnh vật trong thế giới thực, để tạo ra đủ dữ liệu bao trùm toàn bộ thế giới thực, chúng ta cần tìm hiểu cách thể hiện ngầm của thế giới thực rồi tạo ra những cảnh đủ đa dạng. Điều này phải dựa vào AI sáng tạo.### **Năng suất**Để nhanh chóng cung cấp các lô lớn dữ liệu có tính khái quát cao, việc sản xuất song song quy mô lớn trên đám mây là ưu tiên hàng đầu. Hỗ trợ sản xuất dữ liệu nhanh chóng với khả năng tính toán cao cho phép dữ liệu được tổng hợp với tốc độ chưa từng có trong thế giới thực.## **06. AI sáng tạo giúp dữ liệu tổng hợp có thể thay thế dữ liệu thực trên quy mô lớn**NVidia Huang Renxun tin rằng những phản ánh và giấc mơ của con người là một phần của dữ liệu tổng hợp, tương đương với việc AI tạo ra dữ liệu để huấn luyện AI. Để đáp ứng yêu cầu dữ liệu khổng lồ của các mô hình lớn, chúng ta cần tự động hóa hoàn toàn liên kết sản xuất dữ liệu tổng hợp để AI có thể huấn luyện AI.Nhờ sự phát triển nhanh chóng gần đây của Mô hình khuếch tán và NeRF, dữ liệu tổng hợp AI chất lượng cao không còn là điều xa vời nữa. Quy trình toán học phức tạp của Mô hình khuếch tán dựa trên chuỗi Markov giúp tạo ra các mô hình tạo hình ảnh lớn hơn và ổn định hơn, đồng thời khắc phục vấn đề đào tạo quá khó khăn cho các mạng tạo đối thủ. Mô hình khuếch tán ổn định sử dụng bộ sưu tập hình ảnh khổng lồ để cho mọi người thấy khả năng vô hạn của Mô hình khuếch tán và việc giới thiệu các mạng liên quan đến ControlNet cũng giúp việc thích ứng trong các lĩnh vực cụ thể trở nên thuận tiện hơn.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-284d009079-dd1a6f-6d2ef1) NeRF (Trường bức xạ thần kinh) biến việc xây dựng thế giới 3D thành một quá trình học tập mạng lưới thần kinh. Nó kết hợp hiệu quả các trường thần kinh (Trường thần kinh) và kết xuất voxel để tái tạo lại thế giới 3D một cách rất thực tế và rất hứa hẹn sẽ thay thế quy trình rườm rà. Quá trình xây dựng động cơ vật lý. Waymo đã phát triển BlockNeRF dựa trên công nghệ này để tái cấu trúc San Francisco một cách hiệu quả và tạo ra dữ liệu tổng hợp ở đó. Bài báo CVPR Highlight gần đây của UniSim đã thúc đẩy ứng dụng NeRF tiến một bước lớn.Dựa trên những công nghệ này, các kỳ lân AIGC bắt đầu xuất hiện. Sau khi StabilityAI (Mô hình khuếch tán), Midjourney (Mô hình khuếch tán) và LumaLab AI (NeRF) được đào tạo với hàng loạt dữ liệu lớn, tính xác thực của hình ảnh không còn bị nghi ngờ nữa và kết quả là các hiệu ứng nghệ thuật cũng như cách biểu đạt dữ liệu mới cho phép chúng tôi xem Đây là tương lai tươi sáng của việc khái quát hóa dữ liệu tổng hợp.## **07, viết ở cuối**ChatGPT chỉ là điểm khởi đầu, còn những mô hình lớn trong lĩnh vực ngôn ngữ tự nhiên chỉ là tia lửa. Mặc dù ChatGPT đã có các khả năng trí tuệ nhân tạo cơ bản, có được nhờ học dữ liệu ngôn ngữ tự nhiên của con người, nhưng trên thực tế, tư duy nhận thức của con người về thế giới chắc chắn không chỉ giới hạn ở ngôn ngữ và văn bản mà là đa phương thức. ánh sáng, điện, phim...). Không khó để suy ra rằng một AGI thực sự phải có khả năng xử lý tất cả thông tin phương thức trên thế giới ngay lập tức, hiệu quả, chính xác và logic như con người, đồng thời hoàn thành các nhiệm vụ đa phương thức hoặc đa phương thức khác nhau. Cơn sốt gần đây về trí tuệ thể hiện cũng đang hướng tới sự xuất hiện của các phương pháp tương tác đa phương thức mới.Điều này cũng đòi hỏi dữ liệu đa phương thức, điều này càng làm tăng thêm khó khăn trong việc lấy dữ liệu thực và dữ liệu thực đa phương thức thậm chí còn khan hiếm hơn.Ví dụ: so với dữ liệu văn bản và dữ liệu hình ảnh có thể tìm thấy ở khắp mọi nơi, chỉ có một số ít bộ dữ liệu 3D chất lượng cao tương ứng. Các bộ dữ liệu hình ảnh nghiên cứu khoa học thường được sử dụng thường chứa hàng trăm triệu hình ảnh trở lên, trong khi nhiều bộ dữ liệu 3D chất lượng cao hơn có thể được sử dụng cho nghiên cứu khoa học chỉ có hàng nghìn hoặc hàng chục nghìn mô hình 3D. Nếu muốn trí tuệ nhân tạo hiểu được thế giới 3D, chúng ta sẽ cần một lượng lớn dữ liệu đa phương thức chứa các mô hình 3D. Điều này cũng có thể yêu cầu dữ liệu tổng hợp để giải quyết.Tự động hóa việc xây dựng các mô hình thế giới, cho phép AI tạo ra dữ liệu đa phương thức một cách có kiểm soát và đào tạo các mô hình lớn thông minh hơn là con đường thực sự dẫn đến trí tuệ nhân tạo nói chung.Một số tài liệu tham khảo:************