Shengshu Technology được thành lập vào tháng 3 năm 2023. Các thành viên cốt lõi chủ yếu đến từ Trường Trí tuệ nhân tạo của Đại học Thanh Hoa. Đây là một trong những nhóm sớm nhất ở Trung Quốc triển khai các mô hình quy mô lớn đa phương thức. Vòng gọi vốn này do Ant Group dẫn đầu, tiếp theo là Baidu Ventures và Zhuoyuan Capital, với mức định giá hiện tại là 100 triệu USD.
Có những xu hướng mới trong việc phát triển các mô hình quy mô lớn đa phương thức trong nước. Vào ngày 19 tháng 6, một nhóm mới do Zhu Jun, giáo sư khoa học máy tính tại Đại học Thanh Hoa và phó chủ tịch Viện Trí tuệ nhân tạo, dẫn đầu, đã hoàn thành vòng tài trợ thiên thần trị giá gần 100 triệu nhân dân tệ.
Pengpai Technology (Tôi được biết rằng công ty khởi nghiệp mô hình quy mô lớn đa phương thức này có tên là Beijing Shengshu Technology Co., Ltd. (sau đây gọi là "Shengshu Technology") đã thông báo hoàn thành vòng tài trợ thiên thần trị giá gần 100 triệu nhân dân tệ. Khoản đầu tư này do Ant Group dẫn đầu, tiếp theo là Baidu Ventures và Zhuoyuan Capital, mức định giá hiện tại là 100 triệu đô la Mỹ. Vòng tài trợ này sẽ chủ yếu được sử dụng để xây dựng đội ngũ R&D cốt lõi và thúc đẩy sự phát triển của quy mô lớn đa phương thức. -mô hình quy mô và sản phẩm ứng dụng.
Một mô hình lớn đa phương thức đề cập đến một mô hình kết hợp thông tin đa phương thức như văn bản, hình ảnh, video và âm thanh để đào tạo. Trước đây, người đồng sáng lập OpenAI Ilya Sutskever (Ilya Sutskever) cho biết: "Mục tiêu dài hạn của trí tuệ nhân tạo là xây dựng một mạng lưới thần kinh đa phương thức, tức là AI có thể học các khái niệm giữa các phương thức khác nhau, để hiểu rõ hơn về thế giới" .
Tạo hình ảnh được hỗ trợ bởi mô hình Shengshu.
Shengshu Technology được thành lập vào tháng 3 năm 2023. Nó được ươm tạo bởi Beijing Ruilai Smart Technology Co., Ltd., Ant Group và Baidu Venture Capital. với tư cách là Giám đốc điều hành.Nó được sử dụng để tạo ra một mô hình lớn có mục đích chung đa phương thức có thể kiểm soát được. Được biết, đây là lần đầu tiên Ant Group đầu tư vào một công ty mô hình quy mô lớn sau sự nổi tiếng của ChatGPT, và đây cũng là dự án kinh doanh thứ hai của Zhu Jun sau Ruilai Wisdom. Ruilai Wisdom là nhà cung cấp giải pháp và cơ sở hạ tầng trí tuệ nhân tạo.
Các thành viên cốt lõi của nhóm Công nghệ Shengshu đến từ Viện Trí tuệ nhân tạo của Đại học Thanh Hoa, chủ yếu là nhóm nghiên cứu do Zhu Jun đứng đầu. Nhóm nghiên cứu cam kết nghiên cứu lý thuyết cơ bản và thuật toán hiệu quả của máy học Bayesian, đồng thời là một trong những nhóm đầu tiên trên thế giới nghiên cứu sâu về các mô hình tổng quát xác suất. Vào tháng 1 năm 2022, khung lý luận phi đào tạo Analytic-DPM do nhóm đề xuất đã được OpenAI áp dụng cho chiến lược xử lý mô hình DALL E 2. Sau đó, thuật toán lấy mẫu DPM-Solver đã được đề xuất, hiện là thuật toán tạo hình ảnh nhanh nhất thế giới thuật toán bằng Khuếch tán ổn định và một số lượng lớn khác Được thông qua bởi các dự án nguồn mở.
Sửa đổi các thành phần màn hình trong video (dấu nhắc: thiên nga pha lê Swarovski đang bơi trên sông), video gốc ở ngoài cùng bên trái, hiệu ứng công nghệ kỹ thuật số ở giữa và hiệu ứng Runway ở ngoài cùng bên phải.
Theo các báo cáo, Shengshu Technology là một trong những nhóm sớm nhất ở Trung Quốc đưa ra các mô hình quy mô lớn đa mục đích đa phương thức. Hoàn thành các tác vụ tạo khác nhau như tạo văn bản dựa trên hình ảnh, tạo liên kết văn bản hình ảnh và viết lại văn bản hình ảnh.
Mô hình Transformer được một nhóm tại Google đưa ra vào năm 2017. Đây là mô hình học sâu có thể chỉ định các trọng số khác nhau tùy theo mức độ quan trọng của từng phần dữ liệu đầu vào. Mô hình này chủ yếu được sử dụng trong các lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính (CV). Hiện nay các dòng máy lớn chủ yếu như GPT đều được phát triển dựa trên Transformer.
"Nhìn chung, ý tưởng hiện tại về việc tạo ra các mô hình tạo hình ảnh quy mô lớn trong ngành là giống nhau và tất cả chúng đều dựa trên mô hình khuếch tán. Sự đổi mới của chúng tôi nằm ở việc sửa đổi mạng chính bên dưới. Đó là lần đầu tiên sử dụng công nghệ Transformer trong Mô hình khuếch tán để đạt được thái độ đa chế độ." Tang Jiayu cho biết trong một cuộc phỏng vấn với giới truyền thông gần đây.
Tang Jiayu tin rằng các mô hình và sản phẩm trên thị trường ở giai đoạn này chỉ giải quyết vấn đề về khả năng tạo ra trong giai đoạn đầu, nhưng kết quả tạo ra vẫn có tính không chắc chắn và không thể kiểm soát được, vẫn còn những thiếu sót lớn, chẳng hạn như rất khó để chính xác kiểm soát vị trí và chi tiết của các yếu tố trong hình ảnh được tạo và mô hình 3D được tạo vẫn ở mức tương đối thấp về độ mịn bề mặt và độ chính xác của màu sắc, ánh sáng và bóng tối.
Tạo nội dung 3D (gợi ý: ảnh DSLR chụp một chú chim giẻ cùi xanh đang đứng trên một giỏ bánh macaron cầu vồng lớn).
Shengshu Technology đã giới thiệu với Pengpai Technology rằng về mặt tạo nội dung 3D, nó đã phát triển công nghệ đầu tiên trong ngành để tự động tạo nội dung 3D dựa trên ba chế độ xem và công nghệ nội dung 3D của Wensheng không yêu cầu bất kỳ dữ liệu đào tạo 3D nào và hiệu ứng có thể là chi tiết tinh xảo, có thể gần với các ứng dụng ở cấp độ công nghiệp, "Mô hình lớn được đào tạo đã vượt qua phiên bản mới nhất của mô hình khuếch tán ổn định cơ bản về khả năng tạo hình ảnh và dự kiến sẽ bắt kịp phiên bản mới nhất của Midjourney trong năm nay ."
Khuếch tán ổn định là một mô hình tạo văn bản thành hình ảnh được phát triển bởi các công ty khởi nghiệp StabilityAI, CompVis và Runway. Nó được phát hành vào năm 2022 và hiện là mã nguồn mở. Midjourney là một công cụ tạo văn bản thành hình ảnh được ra mắt vào tháng 3 năm 2022. Nó đã trải qua nhiều lần lặp lại và bước vào giai đoạn thử nghiệm công khai. Cả Stable Diffusion và Midjourney đều là những công cụ AI hàng đầu và được đánh giá cao trên toàn thế giới.
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Bố cục mô hình quy mô lớn đa phương thức: Nhóm Đại học Thanh Hoa đã hoàn thành khoản tài trợ vòng thiên thần gần 100 triệu nhân dân tệ, do Ant dẫn đầu
Tác giả: The Paper
Phóng viên Thiệu Văn
Shengshu Technology được thành lập vào tháng 3 năm 2023. Các thành viên cốt lõi chủ yếu đến từ Trường Trí tuệ nhân tạo của Đại học Thanh Hoa. Đây là một trong những nhóm sớm nhất ở Trung Quốc triển khai các mô hình quy mô lớn đa phương thức. Vòng gọi vốn này do Ant Group dẫn đầu, tiếp theo là Baidu Ventures và Zhuoyuan Capital, với mức định giá hiện tại là 100 triệu USD.
Có những xu hướng mới trong việc phát triển các mô hình quy mô lớn đa phương thức trong nước. Vào ngày 19 tháng 6, một nhóm mới do Zhu Jun, giáo sư khoa học máy tính tại Đại học Thanh Hoa và phó chủ tịch Viện Trí tuệ nhân tạo, dẫn đầu, đã hoàn thành vòng tài trợ thiên thần trị giá gần 100 triệu nhân dân tệ.
Pengpai Technology (Tôi được biết rằng công ty khởi nghiệp mô hình quy mô lớn đa phương thức này có tên là Beijing Shengshu Technology Co., Ltd. (sau đây gọi là "Shengshu Technology") đã thông báo hoàn thành vòng tài trợ thiên thần trị giá gần 100 triệu nhân dân tệ. Khoản đầu tư này do Ant Group dẫn đầu, tiếp theo là Baidu Ventures và Zhuoyuan Capital, mức định giá hiện tại là 100 triệu đô la Mỹ. Vòng tài trợ này sẽ chủ yếu được sử dụng để xây dựng đội ngũ R&D cốt lõi và thúc đẩy sự phát triển của quy mô lớn đa phương thức. -mô hình quy mô và sản phẩm ứng dụng.
Một mô hình lớn đa phương thức đề cập đến một mô hình kết hợp thông tin đa phương thức như văn bản, hình ảnh, video và âm thanh để đào tạo. Trước đây, người đồng sáng lập OpenAI Ilya Sutskever (Ilya Sutskever) cho biết: "Mục tiêu dài hạn của trí tuệ nhân tạo là xây dựng một mạng lưới thần kinh đa phương thức, tức là AI có thể học các khái niệm giữa các phương thức khác nhau, để hiểu rõ hơn về thế giới" .
Shengshu Technology được thành lập vào tháng 3 năm 2023. Nó được ươm tạo bởi Beijing Ruilai Smart Technology Co., Ltd., Ant Group và Baidu Venture Capital. với tư cách là Giám đốc điều hành.Nó được sử dụng để tạo ra một mô hình lớn có mục đích chung đa phương thức có thể kiểm soát được. Được biết, đây là lần đầu tiên Ant Group đầu tư vào một công ty mô hình quy mô lớn sau sự nổi tiếng của ChatGPT, và đây cũng là dự án kinh doanh thứ hai của Zhu Jun sau Ruilai Wisdom. Ruilai Wisdom là nhà cung cấp giải pháp và cơ sở hạ tầng trí tuệ nhân tạo.
Các thành viên cốt lõi của nhóm Công nghệ Shengshu đến từ Viện Trí tuệ nhân tạo của Đại học Thanh Hoa, chủ yếu là nhóm nghiên cứu do Zhu Jun đứng đầu. Nhóm nghiên cứu cam kết nghiên cứu lý thuyết cơ bản và thuật toán hiệu quả của máy học Bayesian, đồng thời là một trong những nhóm đầu tiên trên thế giới nghiên cứu sâu về các mô hình tổng quát xác suất. Vào tháng 1 năm 2022, khung lý luận phi đào tạo Analytic-DPM do nhóm đề xuất đã được OpenAI áp dụng cho chiến lược xử lý mô hình DALL E 2. Sau đó, thuật toán lấy mẫu DPM-Solver đã được đề xuất, hiện là thuật toán tạo hình ảnh nhanh nhất thế giới thuật toán bằng Khuếch tán ổn định và một số lượng lớn khác Được thông qua bởi các dự án nguồn mở.
Theo các báo cáo, Shengshu Technology là một trong những nhóm sớm nhất ở Trung Quốc đưa ra các mô hình quy mô lớn đa mục đích đa phương thức. Hoàn thành các tác vụ tạo khác nhau như tạo văn bản dựa trên hình ảnh, tạo liên kết văn bản hình ảnh và viết lại văn bản hình ảnh.
Mô hình Transformer được một nhóm tại Google đưa ra vào năm 2017. Đây là mô hình học sâu có thể chỉ định các trọng số khác nhau tùy theo mức độ quan trọng của từng phần dữ liệu đầu vào. Mô hình này chủ yếu được sử dụng trong các lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính (CV). Hiện nay các dòng máy lớn chủ yếu như GPT đều được phát triển dựa trên Transformer.
"Nhìn chung, ý tưởng hiện tại về việc tạo ra các mô hình tạo hình ảnh quy mô lớn trong ngành là giống nhau và tất cả chúng đều dựa trên mô hình khuếch tán. Sự đổi mới của chúng tôi nằm ở việc sửa đổi mạng chính bên dưới. Đó là lần đầu tiên sử dụng công nghệ Transformer trong Mô hình khuếch tán để đạt được thái độ đa chế độ." Tang Jiayu cho biết trong một cuộc phỏng vấn với giới truyền thông gần đây.
Tang Jiayu tin rằng các mô hình và sản phẩm trên thị trường ở giai đoạn này chỉ giải quyết vấn đề về khả năng tạo ra trong giai đoạn đầu, nhưng kết quả tạo ra vẫn có tính không chắc chắn và không thể kiểm soát được, vẫn còn những thiếu sót lớn, chẳng hạn như rất khó để chính xác kiểm soát vị trí và chi tiết của các yếu tố trong hình ảnh được tạo và mô hình 3D được tạo vẫn ở mức tương đối thấp về độ mịn bề mặt và độ chính xác của màu sắc, ánh sáng và bóng tối.
Shengshu Technology đã giới thiệu với Pengpai Technology rằng về mặt tạo nội dung 3D, nó đã phát triển công nghệ đầu tiên trong ngành để tự động tạo nội dung 3D dựa trên ba chế độ xem và công nghệ nội dung 3D của Wensheng không yêu cầu bất kỳ dữ liệu đào tạo 3D nào và hiệu ứng có thể là chi tiết tinh xảo, có thể gần với các ứng dụng ở cấp độ công nghiệp, "Mô hình lớn được đào tạo đã vượt qua phiên bản mới nhất của mô hình khuếch tán ổn định cơ bản về khả năng tạo hình ảnh và dự kiến sẽ bắt kịp phiên bản mới nhất của Midjourney trong năm nay ."
Khuếch tán ổn định là một mô hình tạo văn bản thành hình ảnh được phát triển bởi các công ty khởi nghiệp StabilityAI, CompVis và Runway. Nó được phát hành vào năm 2022 và hiện là mã nguồn mở. Midjourney là một công cụ tạo văn bản thành hình ảnh được ra mắt vào tháng 3 năm 2022. Nó đã trải qua nhiều lần lặp lại và bước vào giai đoạn thử nghiệm công khai. Cả Stable Diffusion và Midjourney đều là những công cụ AI hàng đầu và được đánh giá cao trên toàn thế giới.