Phòng thí nghiệm trí tuệ nhân tạo Thượng Hải công bố mô hình cảnh thực 3D của Shusheng·Tianji LandMark

Nguồn: The Paper

Phóng viên Wu Tianyi Thực tập sinh Chen Xiaorui

Nguồn hình ảnh: Được tạo bởi công cụ Unbounded AI

·Mô hình quy mô lớn NeRF 3D ngoài đời thực đầu tiên trên thế giới với 100 tỷ tham số ·Sky LandMark có thể hỗ trợ nhiều chức năng chỉnh sửa thành phố. Trong phần trình diễn, Tòa nhà Wukang có thể sử dụng công nghệ NeRF để thay đổi phong cách và hiệu ứng ánh sáng và bóng tối theo các khoảng thời gian khác nhau; Cung Văn hóa Trung Quốc có thể thực hiện xoay tổng thể hoặc xoay các lớp khác nhau.

·Phòng thí nghiệm trí tuệ nhân tạo Thượng Hải đã ra mắt hệ thống mô hình quy mô lớn chung cho các học giả, bao gồm ba mô hình cơ sở là đa phương thức, Puyu và Tianji. Đồng thời, nó đã ra mắt hệ thống mã nguồn mở toàn chuỗi đầu tiên cho mô hình quy mô lớn phát triển và ứng dụng.

Vào ngày 6 tháng 7, tại cuộc họp toàn thể của Hội nghị trí tuệ nhân tạo thế giới (WAIC) 2023, Lin Dahua, một chuyên gia về học sâu và khoa học máy tính, giáo sư tại Phòng thí nghiệm trí tuệ nhân tạo Thượng Hải, đồng thời là giáo sư tại Đại học Hồng Trung Quốc. Kong, đã phát hành một mô hình cảnh thực 3D lớn của Shusheng Tianji LandMark, và nguyên tắc kỹ thuật và ứng dụng chức năng của nó được giới thiệu.

Lin Dahua cho biết Shusheng·Tianji LandMark là mô hình lớn 100 tỷ thông số NeRF 3D ngoài đời thực đầu tiên trên thế giới, được Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải, Đại học Trung Quốc Hồng Kông và Viện Khảo sát và Bản đồ Thượng Hải phối hợp phát triển.) Khả năng của mô hình trường ánh sáng mở rộng từ cấp độ đối tượng đến cấp độ thành phố. Lin Dahua nói rằng việc phát hành Shusheng·Tianji LandMark là một ứng dụng sáng tạo của các mô hình lớn, "cung cấp khả năng kỹ thuật để chúng tôi hiện thực hóa AIGC (Nội dung được tạo bằng trí tuệ nhân tạo) cấp thành phố trong tương lai."

"Hệ thống mô hình chung Shusheng" (sau đây gọi là "Mô hình lớn Shusheng") cũng được công bố lần đầu tiên tại hội nghị, bao gồm ba mô hình cơ bản là Shusheng·Multimodal, Shusheng·Puyu và Shusheng·Tianji, cũng như Hệ thống nguồn mở toàn chuỗi theo định hướng mô hình quy mô lớn đầu tiên dành cho R&D và ứng dụng.

Từ một quả táo đến cả một thành phố

"Ngoài việc tạo văn bản, mô hình lớn cũng có thể mang đến cho chúng ta một thế giới giàu trí tưởng tượng hơn." Lin Dahua nói rằng học giả Tianji LandMark sử dụng công nghệ NeRF để cung cấp nhiều khả năng hơn cho việc áp dụng công nghệ mô hình lớn.

NeRF là một loại công nghệ mô hình trường ánh sáng 3D mới, lần đầu tiên được đề xuất bởi nhóm nghiên cứu của Google vào tháng 3 năm 2020. Công nghệ này ban đầu được áp dụng cho mô hình 3D và được giới hạn ở cấp độ các vật thể nhỏ (kích thước bằng quả táo) . "Nhưng chúng tôi nghĩ rằng công nghệ NeRF còn hơn thế nữa." Lin Dahua cho biết, "Vào ngày 10 tháng 12 năm 2021, nhóm của chúng tôi lần đầu tiên đề xuất mở rộng khả năng lập mô hình trường ánh sáng NeRF từ cấp độ đối tượng là một quả táo nhỏ lên cấp độ thành phố. Đây là toàn cầu Đây là lần đầu tiên mở rộng khả năng của công nghệ NeRF từ các vật thể đến các thành phố. Ông nói rằng sau khi nhóm nghiên cứu của họ đề xuất NeRF cấp thành phố một thời gian, Đại học Carnegie Mellon và Google đã phát hành các công nghệ NeRF cấp thành phố tương ứng của họ .

Vào ngày 10 tháng 12 năm 2021, nhóm của Lin Dahua lần đầu tiên đề xuất mở rộng khả năng lập mô hình trường ánh sáng NeRF từ cấp độ đối tượng là một quả táo nhỏ lên cấp độ thành phố.

"Dựa trên công nghệ cốt lõi của NeRF cấp thành phố, chúng tôi không ngừng cải thiện khả năng mở rộng và khả năng của nó." Lin Dahua giới thiệu rằng mô hình lớn 3D ngoài đời thực của Shusheng·Tianji LandMark dựa trên công nghệ và thuật toán CT NeRF thế hệ thứ hai của nhóm nghiên cứu và hỗ trợ đầy đủ khả năng hiển thị thời gian thực có độ chính xác cao, bao gồm 200 tỷ tham số, bao phủ 100 km vuông, mọi chi tiết trong cảnh thực đều hỗ trợ độ phân giải độ phân giải cao 4K.

Real 3D là một không gian kỹ thuật số phản ánh và thể hiện các không gian sản xuất, sinh hoạt và sinh thái thực, ba chiều và theo trình tự thời gian của con người trong một phạm vi nhất định. Theo các báo cáo, Shusheng·Tianji LandMark tích hợp các thuật toán, toán tử và hệ thống máy tính, đồng thời đề xuất một mô hình đào tạo và biểu diễn mô hình 3D thế giới thực mới ở cấp độ mô hình. Trong khi đào tạo hiệu quả, nó có thể thể hiện chính xác các cảnh đô thị 3D quy mô lớn, và Đạt được hiệu ứng kết xuất thần kinh chất lượng cao. Nó dẫn đầu về bốn khía cạnh: mô hình hóa có độ chính xác cao, kết xuất có độ chính xác cao, khả năng mở rộng chức năng và tích hợp đào tạo và tương tác.

Shusheng·Tianji LandMark cũng có thể hỗ trợ các chức năng như chỉnh sửa cấp thành phố và chuyển đổi kiểu. Trong phần trình diễn, Tòa nhà Wukang có thể sử dụng công nghệ NeRF để thay đổi phong cách và hiệu ứng ánh sáng và bóng tối theo các khoảng thời gian khác nhau; Cung Văn hóa Trung Quốc có thể thực hiện xoay tổng thể hoặc xoay các lớp khác nhau. "Điều này cung cấp khả năng kỹ thuật cho AIGC cấp thành phố của chúng tôi trong tương lai." Lin Dahua nói.

Các phần khác nhau của Cung văn hóa Trung Quốc có thể được "xoay".

Lin Dahua cho biết: "Tôi hy vọng rằng thông qua công nghệ tạo cảnh thực 3D mới, chúng ta có thể đưa không gian sáng tạo và trí tưởng tượng mới vào không gian đô thị trong tương lai của mình. Trong tương lai, Phòng thí nghiệm AI Thượng Hải sẽ mở rộng phạm vi mô hình hóa và chức năng của Shusheng Tianji, và Các thuật toán, toán tử và hệ thống của Shusheng Tianji đều là mã nguồn mở.”

Hệ thống mô hình quy mô lớn chung đầu tiên dành cho các học giả

Tại cuộc họp, Lin Dahua cũng giới thiệu hệ thống mô hình quy mô lớn chung cho các học giả, bao gồm ba mô hình cơ sở là đa phương thức, Puyu và Tianji, đồng thời tung ra hệ thống nguồn mở toàn chuỗi đầu tiên cho quy mô lớn phát triển và ứng dụng mô hình quy mô. Trong số đó, mô hình lớn đa phương thức có 20 tỷ tham số, hỗ trợ 3,5 triệu thẻ ngữ nghĩa và dẫn đầu thế giới về hơn 80 tác vụ; mô hình lớn ngôn ngữ Pu là mô hình lớn đầu tiên được phát hành chính thức tại Trung Quốc với 100 tỷ tham số hỗ trợ nhiều phương thức. ngôn ngữ.

"Học giả Puyu đã vượt qua LLaMA-7B (một mô hình ngôn ngữ trí tuệ nhân tạo do nhóm FAIR của Meta AI phát triển) về mọi mặt." Lin Dahua nói rằng Shusheng Puyu, với tư cách là một mô hình lớn với hàng trăm tỷ tham số, đã đạt được cả hai điều tốt nhất các mô hình nguồn mở hiện có ở Trung Quốc.

Vào ngày 7 tháng 6 năm nay, Phòng thí nghiệm AI Thượng Hải và SenseTime đã cùng với Đại học Trung văn Hồng Kông, Đại học Phục Đán và Đại học Giao thông Thượng Hải phát hành mô hình ngôn ngữ quy mô lớn "Scholar·Puyu". Mô hình có 104 tỷ tham số, là một trong những mô hình ngôn ngữ lớn hiện nay với hàng trăm tỷ tham số, được đào tạo dựa trên bộ dữ liệu chất lượng cao đa ngôn ngữ chứa 1,6 nghìn tỷ Token.

Theo báo cáo, kể từ khi chính thức ra mắt vào tháng 6, Scholar · Puyu đã trải qua quá trình nâng cấp toàn diện trong vòng một tháng, bao gồm năm khía cạnh. Thứ nhất, độ dài của cửa sổ ngữ cảnh đã được tăng từ 2K lên 8K, cho phép nó hiểu đầu vào dài, phát triển lý luận phức tạp và thực hiện nhiều vòng đối thoại trong thời gian dài; thứ hai, khả năng diễn đạt đa ngôn ngữ và có cấu trúc đã được nâng cao hơn nữa tăng cường, Phiên bản mới của mô hình hỗ trợ hơn 20 ngôn ngữ, đồng thời có thể tóm tắt và trình bày thông tin phức tạp thông qua bảng và biểu đồ; thứ ba, khả năng đa chiều đã được cải thiện toàn diện và hiệu suất trên 42 bộ đánh giá chính đã được cải thiện đáng kể được cải thiện và hiệu suất trên 35 trong số đó Vượt qua ChatGPT Thứ tư, khả năng logic toán học đã được cải thiện đáng kể và khả năng toán học như tính toán số, vận hành hàm và giải phương trình đã được cải thiện rất nhiều. Hiệu suất trên bộ đánh giá toán học GSM8K đã tăng từ 62,9 lên 73,2. Đối với các câu hỏi trắc nghiệm của kỳ thi tuyển sinh đại học năm 2023, Tỷ lệ chính xác đã tăng hơn 70%; Thứ năm, khả năng an toàn và căn chỉnh đã được tăng cường đáng kể. Thông qua tinh chỉnh hướng dẫn hiệu quả hơn, bao gồm cả việc học tăng cường dựa trên phản hồi của con người (RLHF), phiên bản mới của mô hình có thể làm theo hướng dẫn của con người một cách đáng tin cậy hơn, và rõ ràng là độ an toàn cũng được cải thiện.

"Giá trị cuối cùng của tất cả các mô hình lớn vẫn là tạo ra giá trị cho cuộc sống và sản xuất. Phòng thí nghiệm trí tuệ nhân tạo Thượng Hải không chỉ đạt được những bước đột phá về công nghệ thông qua đổi mới mà còn cam kết thúc đẩy việc triển khai những công nghệ này trong các ngành cụ thể." Lin Dahua cho biết tại cuộc họp.

Lin Dahua cho biết ngoài bản thân mô hình lớn, nhóm còn mã nguồn mở toàn bộ chuỗi hệ thống công cụ, bao gồm năm liên kết chính là dữ liệu, đào tạo trước, tinh chỉnh, triển khai và đánh giá trong quá trình phát triển mô hình lớn. "Thông qua hệ thống công cụ mã nguồn mở, mô hình có thể được phát huy hết giá trị. Tôi tin rằng mã nguồn mở thực sự có thể giúp các nhà phát triển phát triển và đổi mới trên cơ sở các mô hình lớn."

Theo các báo cáo, phiên bản nguồn mở chính thức là một InternLM-7B nhẹ với 7 tỷ tham số, cho thấy hiệu suất tuyệt vời và cân bằng trong đánh giá toàn chiều bao gồm 40 bộ đánh giá, vượt trội so với các mô hình nguồn mở hiện có.

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)