Văn bản, hình ảnh, âm thanh và video... Mô hình đa phương thức CoDi của Microsoft mạnh đến mức nào?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f937af10e0-dd1a6f-7649e1) Nguồn hình ảnh: Được tạo bởi Unbounded AINhóm nghiên cứu của Microsoft Azure và các nhà nghiên cứu của Đại học Bắc Carolina đã xuất bản bài báo "Tạo ngẫu nhiên thông qua khuếch tán có thể kết hợp", giới thiệu một mô hình tạo đa phương thức mới - CoDi (Khuếch tán có thể kết hợp).CoDi có khả năng tạo bất kỳ tổ hợp phương thức đầu ra nào từ bất kỳ tổ hợp phương thức đầu vào nào, chẳng hạn như ngôn ngữ, hình ảnh, video hoặc âm thanh. Không giống như các hệ thống AI tổng quát hiện có, CoDi có thể tạo song song nhiều phương thức và đầu vào của nó không bị giới hạn ở các tập hợp con của các phương thức như văn bản hoặc hình ảnh. CoDi được tự do đặt điều kiện cho bất kỳ tổ hợp đầu vào nào và tạo ra bất kỳ tập hợp phương thức nào, ngay cả khi chúng không có trong dữ liệu đào tạo.CoDi giới thiệu một cấp độ tạo nội dung chưa từng có bằng cách đồng thời xử lý và tạo nội dung đa phương thức như văn bản, hình ảnh, âm thanh và video. Bằng cách sử dụng các mô hình khuếch tán và kỹ thuật có thể kết hợp, CoDi có thể tạo ra các đầu ra đa dạng, chất lượng cao từ một hoặc nhiều đầu vào, biến đổi việc tạo nội dung, khả năng truy cập và học tập được cá nhân hóa.CoDi có khả năng tùy chỉnh và linh hoạt cao, cho phép chất lượng tạo phương thức chung mạnh mẽ vượt trội hoặc sánh ngang với tổng hợp phương thức đơn hiện đại nhất.Mới đây, CoDi đã có bước tiến mới và đã chính thức có mặt trên nền tảng Microsoft Azure, được sử dụng miễn phí trong 12 tháng.## **CoDi mạnh mẽ như thế nào**CoDi nổi lên như một phần của dự án i-Code đầy tham vọng của Microsoft, một sáng kiến nghiên cứu dành riêng cho việc nâng cao khả năng AI đa phương thức. Khả năng của CoDi trong việc tích hợp liền mạch thông tin từ nhiều nguồn khác nhau và tạo ra đầu ra nhất quán được kỳ vọng sẽ cách mạng hóa nhiều lĩnh vực tương tác giữa con người và máy tính.Một trong những lĩnh vực mà CoDi có thể mang lại sự thay đổi là công nghệ hỗ trợ, cho phép người khuyết tật tương tác với máy tính hiệu quả hơn. Bằng cách tạo nội dung liên tục trên văn bản, hình ảnh, video và âm thanh, CoDi có thể cung cấp cho người dùng trải nghiệm máy tính phong phú và dễ tiếp cận hơn.Ngoài ra, CoDi có khả năng phát minh lại các công cụ học tập tùy chỉnh bằng cách cung cấp một môi trường học tập tương tác toàn diện. Học sinh tương tác với nội dung đa phương thức tích hợp liền mạch thông tin từ nhiều nguồn khác nhau, nâng cao hiểu biết và tương tác với chủ đề.CoDi cũng sẽ cách mạng hóa việc tạo nội dung. Mô hình này có thể tạo đầu ra chất lượng cao trên nhiều phương thức, điều này có thể đơn giản hóa quy trình tạo nội dung và giảm gánh nặng cho người sáng tạo. Cho dù tạo các bài đăng hấp dẫn trên mạng xã hội, tạo bản trình bày đa phương tiện tương tác hay tạo trải nghiệm kể chuyện hấp dẫn, khả năng của CoDi đều có khả năng định hình lại bối cảnh tạo nội dung.Để giải quyết các hạn chế của các mô hình AI đơn phương thức truyền thống, CoDi cung cấp một giải pháp cho quá trình kết hợp các mô hình tổng quát theo phương thức cụ thể một cách tẻ nhạt và chậm chạp.Mô hình mới lạ này sử dụng một chiến lược tạo có thể tổng hợp độc đáo giúp kết nối sự liên kết trong quá trình khuếch tán và tạo điều kiện tạo điều kiện đồng thời tạo ra các phương thức đan xen, chẳng hạn như video và âm thanh được căn chỉnh theo thời gian.Quy trình đào tạo người mẫu của CoDi cũng khá đặc biệt. Nó liên quan đến việc chiếu các phương thức đầu vào như hình ảnh, video, âm thanh và ngôn ngữ vào một không gian ngữ nghĩa chung. Điều này cho phép xử lý linh hoạt các đầu vào đa phương thức và thông qua mô-đun chú ý chéo và bộ mã hóa môi trường, nó có thể tạo đồng thời các kết hợp tùy ý của các phương thức đầu ra.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9bc9f58601-dd1a6f-7649e1) (Ở trên) Kiến trúc mô hình của CoDi: CoDi sử dụng sơ đồ đào tạo nhiều giai đoạn có khả năng chỉ đào tạo trên một số nhiệm vụ tuyến tính nhưng suy ra tất cả các kết hợp phương thức đầu vào và đầu ra.## **丨Một hoặc nhiều đầu vào -> nhiều đầu ra**Các mô hình CoDi có thể sử dụng một hoặc nhiều tín hiệu (bao gồm video, hình ảnh, văn bản hoặc âm thanh) để tạo ra nhiều đầu ra được căn chỉnh, chẳng hạn như video có âm thanh đi kèm.Ví dụ:**1. Văn bản+Hình ảnh+Âm thanh——>Âm thanh+Video**"Gấu bông trên ván trượt, 4k, độ phân giải cao" + hình ảnh Quảng trường Thời đại ở New York + âm thanh trời mưa --> Sau thế hệ CoDi, một đoạn "Gấu bông trượt ván ở Quảng trường Thời đại trong mưa, Kèm theo âm thanh đồng thời của mưa và tiếng ồn đường phố."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-17f537e017-dd1a6f-7649e1) Nó được tạo ra như thế nào?> CoDi có thể cùng nhau tạo bất kỳ sự kết hợp nào giữa video, hình ảnh, âm thanh và văn bản thông qua khuếch tán có thể kết hợp. Trước tiên, CoDi nhận các bản âm thanh để tạo phụ đề văn bản, sau đó nhận hình ảnh cho hình ảnh+âm thanh-âm thanh, sau đó nhận hình ảnh+âm thanh+văn bản để kết hợp thông tin của chúng nhằm tạo ra một hình ảnh+phụ đề chung mới. Cuối cùng, CoDi cũng có thể nhận hình ảnh+âm thanh+văn bản và tạo video+âm thanh.**2 văn bản+âm thanh+hình ảnh ->văn bản+hình ảnh**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6467153927-dd1a6f-7649e1) 1. **3.** **Âm thanh + Hình ảnh -> Văn bản + Hình ảnh**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f959317814-dd1a6f-7649e1) 1. **4. Văn bản+Hình ảnh ——>Văn bản+Hình ảnh**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d32b2de333-dd1a6f-7649e1) **5. Văn bản——>Video+Âm thanh**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcc4d70bb8-dd1a6f-7649e1) **6. Văn bản——>Văn bản+Âm thanh+Hình ảnh**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-247b38d9d6-dd1a6f-7649e1)## **丨Nhiều đầu vào -> một đầu ra****1. Văn bản+Âm thanh——Hình ảnh**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-586363abe2-dd1a6f-7649e1) **2. Văn bản + Hình ảnh -> Hình ảnh**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-77e8f7810d-dd1a6f-7649e1) **3 Văn bản+Âm thanh ->Video**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1799ea0bcd-dd1a6f-7649e1) **4 văn bản + hình ảnh -> video**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e145e766ea-dd1a6f-7649e1) **5. Ngoài ra còn có video + âm thanh -> văn bản, hình ảnh + âm thanh -> âm thanh, văn bản + hình ảnh -> âm thanh...vv**## **丨Một đầu vào——một đầu ra****1 Văn bản -> Hình ảnh**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b57b17518-dd1a6f-7649e1) **2 Âm thanh -> Hình ảnh**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97ced2f7d6-dd1a6f-7649e1) **3 Hình ảnh -> Video**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12e68d0230-dd1a6f-7649e1) **4 Hình ảnh -> Âm thanh**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a34494b67f-dd1a6f-7649e1) **5 Âm thanh -> Văn bản**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f1beb7662f-dd1a6f-7649e1) **6 Hình ảnh -> Văn bản**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5aa0a798f4-dd1a6f-7649e1) Người giới thiệu:***