AIGC thi triển "ma thuật vật lý", tầm nhìn 3D vượt qua "giới hạn chính xác"

2023-08-21 02:00:10

Nguồn gốc: Light Cone Intelligence

Tác giả: Diêu Nguyệt

Nguồn hình ảnh: Được tạo bởi Unbounded AI‌

"Không có nghệ thuật, tất cả là vật lý! Vật lý làm cho bạn hạnh phúc, phải không?"

Mới đây, tại hội nghị đồ họa máy tính thế giới SIGGRAPH 2023, người sáng lập kiêm CEO của Nvidia, Huang Renxun đã tuyên bố rằng khi kết hợp trí tuệ nhân tạo AI với nền tảng mô phỏng Omniverse, ông đã rất phấn khích khi tuyên bố rằng "AIGC chính là khoảnh khắc của iPhone".

**Khác với các mô hình ngôn ngữ lớn chỉ có thể áp dụng cho đồ họa và văn bản, với nền tảng mô phỏng dựa trên các quy luật vật lý, AI tổng quát có thể được sử dụng trực tiếp trong thế giới thực. **

Ngoài Huang Renxun, nhóm của Li Feifei tại Đại học Stanford, Hoa Kỳ gần đây cũng đã tích hợp các mô hình lớn vào rô-bốt, không chỉ cho phép rô-bốt tương tác hiệu quả với môi trường mà còn hoàn thành nhiều nhiệm vụ khác nhau mà không cần đào tạo và dữ liệu bổ sung.

** "AI tổng hợp dựa trên mô phỏng thế giới vật chất là AI tổng hợp 2.0", Jia Kui, người sáng lập Kuawei Intelligence và là giáo sư tại Đại học Công nghệ Nam Trung Quốc, nói với Light Cone Intelligence rằng sự kết hợp giữa AI tổng hợp và trí thông minh thể hiện sẽ đóng một vai trò quan trọng, có tác dụng quyết định hơn. **

Với việc nâng cao năng lực chung, AI cũng được kỳ vọng sẽ phá vỡ "lời nguyền" thương mại hóa.

Khi trí tuệ nhân tạo AI học vật lý

Việc kết hợp AI sáng tạo với thế giới vật chất không hề dễ dàng và chuỗi kỹ thuật liên quan rất dài.

** Trước hết, cần nắm vững các quy luật cơ bản của thế giới vật chất để mô hình hóa thế giới thực trên nền tảng mô phỏng. **

Nền tảng mô phỏng không chỉ có thể mô phỏng các cảnh vật lý mà còn mô phỏng sự tương tác, chuyển động và biến dạng của các vật thể trong thế giới thực.

Việc bổ sung AI tổng quát sẽ cho phép nền tảng mô phỏng có khả năng "xem trước".

"Con người đã biết kiến thức vật lý từ khi còn nhỏ, nhưng AI thì không biết." Huang Renxun nói, "Sự kết hợp giữa AI tổng quát và nền tảng mô phỏng là để làm cho tương lai của AI bắt nguồn từ vật lý."

Huang Renxun giải thích thêm rằng hãy để AI học cách nhận thức môi trường trong thế giới ảo, đồng thời hiểu tác động và hậu quả của hành vi thể chất thông qua học tập củng cố, để AI có thể đạt được các mục tiêu cụ thể.

**Điều này yêu cầu sử dụng AI tổng hợp để dự đoán hàng chục triệu hoặc thậm chí hàng trăm triệu khả năng trong thế giới vật chất để tạo thành dữ liệu tổng hợp có giá trị. **

Ví dụ, cánh tay robot cần sử dụng “đôi mắt” tầm nhìn 3D để nắm bắt chính xác, nhưng làm thế nào để loại bỏ sự can thiệp của những thay đổi môi trường và nhận ra đối tượng cần nắm (chẳng hạn như các bộ phận trong nhà máy)?

Thông qua nền tảng mô phỏng, chúng tôi đã nắm vững các định luật vật lý như "sự phản xạ và khúc xạ ánh sáng trên đối tượng cảnh", và AI tổng quát có thể dự đoán và mô phỏng một cái chai với các mức độ phản xạ khác nhau dưới ánh sáng cảnh khác nhau; dưới cùng một ánh sáng , kim loại, Trạng thái bề mặt của các vật thể làm bằng các vật liệu khác nhau như nhựa và sản phẩm gỗ; một đống đinh, tất cả các trạng thái phân tán có thể xảy ra...

** Một lần nữa, tất cả dữ liệu cần được chạy trên nền tảng mô phỏng với AI. **

Bước này là để đào tạo mô hình lớn trực quan 3D. Khác với các mô hình ngôn ngữ lớn, các mô hình lớn trực quan 3D rất quan trọng để hiểu và suy luận về các đặc điểm cấu thành của cảnh trực quan và cần xử lý các mối quan hệ phức tạp giữa các đối tượng, vị trí và thay đổi trong môi trường thực.

**Cuối cùng, nó cần được kết nối với phần cứng thông minh như cánh tay rô-bốt, để nó có thể học cách vận hành thông minh. **

Có thể thấy rằng toàn bộ chuỗi kỹ thuật của sự kết hợp giữa AI tạo ra và thế giới vật chất không chỉ liên quan đến vật lý, đồ họa, thị giác máy tính và người máy đa ngành, mà còn cả song sinh kỹ thuật số, học sâu hình học, tính toán động học, trí thông minh lai và thông minh Phần cứng và các công nghệ tiên tiến đa chiều khác.

Tương ứng, chuỗi của toàn ngành cũng tương đối phức tạp, từ dữ liệu đến mô hình, rồi từ mô hình đến triển khai.

Trong các liên kết này, có một nút rất khác so với đường dẫn AI trước đó và đó là "tạo dữ liệu tổng hợp".

Sử dụng dữ liệu được tổng hợp bởi AI tổng hợp dựa trên các định luật vật lý để đào tạo các mô hình lớn sẽ mang lại một cuộc cách mạng nhảy vọt cho ngành công nghiệp vật lý.

Không có ảnh thật,

Đào tạo mô hình lớn trực quan 3D

Tại sao không đào tạo các mô hình lớn trực tiếp trên dữ liệu thực?

Hiện tại, hầu hết các cánh tay robot dựa trên tầm nhìn 3D trong ngành đều sử dụng dữ liệu thực để đào tạo thuật toán cho các hệ thống điều khiển của họ. Do các vấn đề như quyền riêng tư thương mại, những dữ liệu thực này rất khó lấy được trong dữ liệu chung và về cơ bản do các doanh nghiệp tự thu thập.

**Tuy nhiên, dữ liệu thực tự thu thập, trước hết, hiệu suất chi phí rất thấp về "hiệu quả và chi phí", hai chỉ số chính của hoạt động. **

Điều này là do các kịch bản ứng dụng đầu cuối bị phân mảnh và dữ liệu không thể được sử dụng phổ biến. Để thu thập dữ liệu thực, doanh nghiệp cần thu thập “thảm” từng ngành, từng nhà máy, từng hiện trường. Hơn nữa, dữ liệu được thu thập không thể được sử dụng trực tiếp và cần phải xử lý một loạt.

Trong quá trình này thậm chí còn xuất hiện “nghịch lý trí tuệ nhân tạo”.

"Thu thập dữ liệu thực, hơn một nửa chi phí của công nghệ AI là chi phí dữ liệu và việc xử lý thu thập, làm sạch, ghi nhãn và nâng cao dữ liệu thường là kết quả của việc tích lũy một lượng lớn nhân lực." Một số nhà phân tích đã chỉ ra, Bản chất của trí tuệ nhân tạo là thay thế trí tuệ nhân tạo. "Điều trớ trêu là AI như vậy có đặc điểm công nghiệp thâm dụng lao động rõ ràng."

Còn dữ liệu tổng hợp thì sao?

** "Sử dụng dữ liệu thực được tích lũy trong năm hoặc sáu năm và hàng nghìn trường hợp, nó có thể được hoàn thành trong vài ngày và vài tuần thông qua dữ liệu tổng hợp." Jia Kui nói với Light Cone Intelligence rằng so với việc thu thập và dán nhãn dữ liệu thủ công , chi phí của dữ liệu tổng hợp Có thể giảm được vài bậc độ lớn. **

**Điều quan trọng nhất là về hiệu quả đào tạo, dữ liệu tổng hợp có thể tốt hơn dữ liệu thực. **

Vì được tổng hợp dựa trên các định luật vật lý nên dữ liệu tổng hợp được sinh ra với các chú thích chính xác tuyệt đối, điều đó có nghĩa là AI học tập rất hiệu quả.

Ngoài ra, "tính toàn diện" của dữ liệu tổng hợp không thể so sánh với dữ liệu thực. "AI sáng tạo 2.0 có thể tạo ra vô số thế giới và nó có thể khiến thế giới này phát triển nhanh chóng." Jia Kui nói.

**Nói đến ngành thị giác 3D, cánh tay robot được ví như “bàn tay của Chúa”, có thể điều khiển mọi thứ trong quá khứ và tương lai. **

"Tất nhiên, điều này không thể nằm ngoài quy luật của thế giới vật chất." Jia Kui nhấn mạnh.

"Hiện tại, chúng tôi có thể hoàn thành việc đào tạo mô hình trực quan 3D của cánh tay robot cho các hoạt động phức tạp mà không cần sử dụng hình ảnh thực." Jia Kui nói với Lightcone Intelligence rằng hoạt động linh hoạt của cánh tay robot có thể được hướng dẫn bởi mô hình được đào tạo hoàn toàn bằng chất tổng hợp. dữ liệu, có thể nhận ra độ bám ổn định hơn 99,9% tại chỗ.

Chính vì điều này mà **dữ liệu tổng hợp được gọi là "cỗ máy chuyển động vĩnh viễn dữ liệu" của các mô hình lớn. **

Hiện tại, ngoài lĩnh vực tầm nhìn 3D, nhiều lĩnh vực cũng đang cố gắng sử dụng dữ liệu tổng hợp do các vấn đề như thiếu dữ liệu chung và độ nhiễu cao. Tuy nhiên, cũng có những nghi ngờ mạnh mẽ về dữ liệu tổng hợp, nói rằng nếu nó không được sửa lỗi cẩn thận và sử dụng rộng rãi trong quá trình đào tạo, nó sẽ khiến mô hình gặp sự cố và gây ra các lỗi không thể khắc phục được.

Từ góc độ phát triển công nghệ, dữ liệu tổng hợp sẽ không phải là giải pháp duy nhất cho các mô hình lớn.

Tuy nhiên, Jia Kui chỉ ra: "Trước khi tìm ra cách tốt hơn, dữ liệu tổng hợp là cách tốt nhất để giải quyết các vấn đề thực tế hiện nay. Nếu dữ liệu thực do con người tích lũy vẫn được sử dụng, trong nhiều lĩnh vực bao gồm cả tầm nhìn 3D, AGI (Trí tuệ nhân tạo tổng hợp) ) trí thông minh) sẽ không bao giờ có thể thực hiện được.”

Phá bỏ "lời nguyền" thương mại hóa AI

Trong lĩnh vực thị giác máy, nhu cầu về dữ liệu tổng hợp cao hơn và giá trị mà trí tuệ nhân tạo AI 2.0 có thể mở ra sẽ còn lớn hơn nữa.

Là một phương pháp nhận thức rất quan trọng của thị giác máy, thị giác 3D có nhu cầu cấp thiết về dữ liệu tổng hợp.

"Tìm điểm khác biệt" giữa một loạt các bộ phận giống nhau, đồng thời thay đổi chất liệu và màu sắc của vật thể, đồng thời bạn cần điều chỉnh các tham số." Một người thực hành thị giác 3D cho biết, các nhu cầu khác nhau của các lĩnh vực khác nhau khiến cảnh hạ cánh quá rời rạc. Kết thúc một dự án và sau đó tùy chỉnh lại dự án khác.

Điều này đồng nghĩa với việc doanh nghiệp khó hình thành sản phẩm chuẩn nếu chỉ tập trung giải quyết một hoặc một số yêu cầu của dự án. Cũng không thể thâm nhập và mở rộng thị trường và theo đuổi quy mô lợi nhuận thông qua việc nhân rộng nhanh chóng.

**Chi phí cận biên rất khó giảm, điều này sẽ biến một công ty công nghệ thành một công ty dự án và cuối cùng kéo nó xuống. **

Ma quỷ là trong các chi tiết.

Nhận thức hình ảnh 3D truyền thống mong manh như thế nào? Jia Kui mô tả với Light Cone Intelligence, "Trong quá trình nắm bắt cánh tay robot, nếu ai đó đi ngang qua và thay đổi ánh sáng, nhiệm vụ có thể thất bại."

Điều này là do nguyên lý hình ảnh của camera 3D phần cứng, hình ảnh camera 3D dễ bị ảnh hưởng bởi môi trường, hình dạng vật thể, vật liệu, màu sắc, môi trường tán xạ, v.v., vấn đề này rất khó giải quyết trong thời gian ngắn.

"Có thể mất cả trăm bước để giải quyết một vấn đề, nhưng nỗ lực ở bước cuối cùng có thể bằng tổng của 99 bước trước đó." Yang Fan, đồng sáng lập SenseTime, từng nói rằng phần lớn năng lượng của doanh nghiệp cần được sử dụng để giải quyết các bộ phận nhỏ Vấn đề đuôi dài.

Nhưng giờ đây, **“Trí thông minh nhân tạo 2.0 với tính linh hoạt mạnh mẽ có thể giải quyết vấn đề dài hạn, điều này rất quan trọng đối với việc tiêu chuẩn hóa sản phẩm.” Jia Kui cho biết. **

So với mô hình phát triển tùy chỉnh truyền thống của ngành, dựa trên AI 2.0 tổng quát, các doanh nghiệp có thể sử dụng mô hình quy mô lớn chung để thực hiện phát triển mô-đun sản phẩm, đạt được triển khai vượt trội và sau đó thực hiện mở rộng trực tiếp trong cùng ngành và các ngành công nghiệp khác nhau cũng có thể tái sử dụng hiệu quả. Vấn đề thương mại hóa của ngành thị giác 3D sẽ được giải quyết dễ dàng.

Đồng thời, chi phí dữ liệu, phát triển, triển khai, phần cứng và mở rộng ngành cũng giảm mạnh trong mọi liên kết.

Dưới sự xúc tác của AI 2.0 tổng quát, một khi tầm nhìn 3D bùng nổ, điều đó có nghĩa là các cảnh dọc phụ thuộc nhiều vào công nghệ tầm nhìn 3D như cánh tay robot, người máy, xe không người lái và metaverse sẽ tăng tốc để ăn cổ tức của AI.

Rất nhiều dữ liệu đã xác nhận điểm này, trong các lĩnh vực như ghi nhãn dữ liệu, dữ liệu tổng hợp, robot công nghiệp và thị giác máy, quy mô thị trường toàn cầu đang tăng với tốc độ cao, đặc biệt là tốc độ tăng trưởng kép hàng năm của dữ liệu tổng hợp thậm chí còn vượt quá 30%. .

Đằng sau điều này thực sự là giá trị chiến lược của trí tuệ nhân tạo AI 2.0, vốn được giới công nghệ và nhiều ông lớn sản xuất đánh giá cao.

Từ những công ty sản xuất lâu đời như Siemens và Ford, đến những gã khổng lồ công nghệ như Nvidia, Tesla, Google và những ngôi sao khởi nghiệp như Waabi, họ đều đã bắt tay vào hoạt động trong nhiều lĩnh vực như công nghiệp, robot, lái xe không người lái, chăm sóc y tế. và bán lẻ. Khám phá những khả năng lớn hơn của AI 2.0.

Đồng thời, sự nhiệt tình về vốn cũng đã được huy động rất nhiều. Theo thống kê chưa đầy đủ, trong những năm gần đây, nguồn tài chính liên quan đến dữ liệu tổng hợp nước ngoài đã tích lũy được gần 800 triệu đô la Mỹ.

Tại Trung Quốc, các công ty liên quan đến dữ liệu tổng hợp cũng đã thu hút sự chú ý của vốn. Vào tháng 6 năm 2022, Kuowei Smart đã thông báo hoàn thành vòng cấp vốn Pre-A, với số tiền tài trợ hàng chục triệu nhân dân tệ và khoản tài trợ tích lũy gần 100 triệu nhân dân tệ trong vòng chưa đầy một năm kể từ khi thành lập; vào tháng 7 này Năm ngoái, Guanglun Smart cũng tuyên bố hoàn thành vòng tài trợ thiên thần +, tổng số tiền tài trợ tích lũy là hàng chục triệu nhân dân tệ.

**Có thể nói, từ khả năng làm thơ cho đến học vật lý, trí tuệ nhân tạo AI 2.0 đang mở ra một tương lai rộng lớn của công nghiệp số hóa. **

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích

Phần thưởng
1
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
Gate 2025 Q2 Report Released
37k Phổ biến
Altcoin Season Update
14k Phổ biến
Bitcoin Whale Moves
8k Phổ biến
4Gate Derivatives Volume Hits New High
16k Phổ biến
5CPI Data Incoming
62k Phổ biến
6Join Gate VIP to Win MacBook
31k Phổ biến
7MicroStrategy Buys More Bitcoin
3k Phổ biến
8BTC Hits New High
112k Phổ biến
9My Gate Moments
27k Phổ biến
10VIP Exclusive Airdrop Carnival
27k Phổ biến

Ghim

sơ đồ trang web