Nguồn gốc: Science and Technology Innovation Board Daily
Nguồn hình ảnh: Được tạo bởi Unbounded AI
Với nhu cầu dữ liệu khổng lồ từ AI, tài nguyên dữ liệu gần như cạn kiệt, vì vậy các công ty đã bắt đầu tìm ra một "cách mới" để có được dữ liệu - tự "tạo" dữ liệu. ** Tuy nhiên, hầu hết các dữ liệu tổng hợp trước đây đã được sử dụng để đào tạo mô hình lớn AI và lần này, Nvidia đã tạo ra một "kho dữ liệu" để đào tạo robot **.
Trong một bài báo nghiên cứu mới giữa NVIDIA và Đại học Texas ở Austin, một hệ thống có tên "MimicGen" được mô tả có thể tự động tạo ra các bộ dữ liệu đào tạo robot quy mô lớn chỉ với một số lượng nhỏ các cuộc biểu tình của con người. Jim Fan, một nhà khoa học cao cấp tại Nvidia, cho biết công ty sẽ mở nguồn mọi thứ, bao gồm cả các bộ dữ liệu được tạo ra.
Quy mô của dữ liệu được tạo ra là gì? ** Sử dụng 10 bản demo của con người, MimicGen có thể tạo ra 1000 ví dụ tổng hợp; Với 200 bản demo của con người, MimicGen đã có thể trực tiếp tạo ra 50.000 dữ liệu đào tạo trên 18 tác vụ và nhiều môi trường mô phỏng **.
Còn tập dữ liệu được tạo thì sao?
MimicGen có thể "phát triển" cùng một cảnh trong các giai đoạn khác nhau trên cơ sở dữ liệu gốc:
Nó cũng có thể tạo các bộ dữ liệu khác nhau trên một loạt các phân phối đặt lại tác vụ, bao gồm lắp ráp các mục, rót cà phê, làm sạch cốc và hơn thế nữa:
Khả năng tạo ra các bản demo khác nhau của cánh tay robot mới:
Ngoài ra còn có dữ liệu đào tạo cho các nhiệm vụ dài hạn:
Dữ liệu kịch bản trong thế giới thực cũng có sẵn:
Đáng chú ý, các nhà nghiên cứu đã so sánh dữ liệu được tạo ra bởi các bộ dữ liệu nguồn khác nhau. Tuy nhiên, họ phát hiện ra rằng hai bộ kết quả có thể so sánh được - cho thấy "chất lượng dữ liệu có thể không quan trọng trong các cơ chế dữ liệu quy mô lớn".
Không chỉ vậy, các nhà nghiên cứu đã so sánh dữ liệu được tạo ra bởi 10 bản demo của con người với 200 bản demo của con người và kết quả tương tự không khác nhau nhiều. Do đó, bài báo cũng thừa nhận rằng cần nghiên cứu thêm về việc liệu dữ liệu trình bày của con người có gây ra sự dư thừa và chi phí dán nhãn dữ liệu không cần thiết hay không.
Tại sao bạn lại bị ám ảnh bởi dữ liệu tổng hợp? Ngoài tài nguyên dữ liệu nguồn hạn chế được đề cập ở đầu bài viết, việc thu thập dữ liệu cực kỳ tốn kém và tốn thời gian, và với một hệ thống như MimicGen, có thể tự động tạo ra các bộ dữ liệu phong phú, quy mô lớn chỉ với một lượng nhỏ dữ liệu, trải dài nhiều kịch bản, khả năng của đối tượng, cánh tay robot và các tác vụ dài hạn hoặc có độ chính xác cao, làm cho nó trở thành một cách hiệu quả để "mở rộng quy mô sức mạnh và tính kinh tế của việc học robot".
"Dữ liệu tổng hợp sẽ cung cấp hàng nghìn tỷ dữ liệu tiếp theo cho các mô hình 'đói' của chúng tôi. "Một trong những lý do chính khiến robot bị tụt hậu xa so với các lĩnh vực AI khác là thiếu dữ liệu - bạn không thể nhận được tín hiệu điều khiển từ internet. "
"Chúng ta đang nhanh chóng cạn kiệt dữ liệu thực tế chất lượng cao từ web và AI sinh ra từ dữ liệu tổng hợp sẽ là con đường phía trước."
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Phá vỡ trò chơi! Thành tựu mới của NVIDIA trong dữ liệu tổng hợp: tạo ra "máy chuyển động vĩnh cửu dữ liệu đào tạo" cho robot
Nguồn gốc: Science and Technology Innovation Board Daily
Với nhu cầu dữ liệu khổng lồ từ AI, tài nguyên dữ liệu gần như cạn kiệt, vì vậy các công ty đã bắt đầu tìm ra một "cách mới" để có được dữ liệu - tự "tạo" dữ liệu. ** Tuy nhiên, hầu hết các dữ liệu tổng hợp trước đây đã được sử dụng để đào tạo mô hình lớn AI và lần này, Nvidia đã tạo ra một "kho dữ liệu" để đào tạo robot **.
Trong một bài báo nghiên cứu mới giữa NVIDIA và Đại học Texas ở Austin, một hệ thống có tên "MimicGen" được mô tả có thể tự động tạo ra các bộ dữ liệu đào tạo robot quy mô lớn chỉ với một số lượng nhỏ các cuộc biểu tình của con người. Jim Fan, một nhà khoa học cao cấp tại Nvidia, cho biết công ty sẽ mở nguồn mọi thứ, bao gồm cả các bộ dữ liệu được tạo ra.
Còn tập dữ liệu được tạo thì sao?
MimicGen có thể "phát triển" cùng một cảnh trong các giai đoạn khác nhau trên cơ sở dữ liệu gốc:
Không chỉ vậy, các nhà nghiên cứu đã so sánh dữ liệu được tạo ra bởi 10 bản demo của con người với 200 bản demo của con người và kết quả tương tự không khác nhau nhiều. Do đó, bài báo cũng thừa nhận rằng cần nghiên cứu thêm về việc liệu dữ liệu trình bày của con người có gây ra sự dư thừa và chi phí dán nhãn dữ liệu không cần thiết hay không.
Tại sao bạn lại bị ám ảnh bởi dữ liệu tổng hợp? Ngoài tài nguyên dữ liệu nguồn hạn chế được đề cập ở đầu bài viết, việc thu thập dữ liệu cực kỳ tốn kém và tốn thời gian, và với một hệ thống như MimicGen, có thể tự động tạo ra các bộ dữ liệu phong phú, quy mô lớn chỉ với một lượng nhỏ dữ liệu, trải dài nhiều kịch bản, khả năng của đối tượng, cánh tay robot và các tác vụ dài hạn hoặc có độ chính xác cao, làm cho nó trở thành một cách hiệu quả để "mở rộng quy mô sức mạnh và tính kinh tế của việc học robot".
"Dữ liệu tổng hợp sẽ cung cấp hàng nghìn tỷ dữ liệu tiếp theo cho các mô hình 'đói' của chúng tôi. "Một trong những lý do chính khiến robot bị tụt hậu xa so với các lĩnh vực AI khác là thiếu dữ liệu - bạn không thể nhận được tín hiệu điều khiển từ internet. "
"Chúng ta đang nhanh chóng cạn kiệt dữ liệu thực tế chất lượng cao từ web và AI sinh ra từ dữ liệu tổng hợp sẽ là con đường phía trước."