Mô hình lớn của sơ đồ Wensheng của Apple đã được công bố: khuếch tán matryoshka, hỗ trợ độ phân giải 1024x1024

quen với Khuếch tán ổn định, và bây giờ cuối cùng đã có một mô hình Matryoshka Diffusion, một lần nữa được sản xuất bởi Apple.

Nguồn gốc: Heart of the Machine

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Trong kỷ nguyên của AI tạo ra, các mô hình khuếch tán đã trở thành một công cụ phổ biến cho các ứng dụng AI tạo ra như hình ảnh, video, 3D, âm thanh và tạo văn bản. Tuy nhiên, việc mở rộng mô hình khuếch tán sang miền có độ phân giải cao vẫn là một thách thức lớn, vì mô hình phải mã hóa lại tất cả các đầu vào có độ phân giải cao ở mỗi bước. Giải quyết những thách thức này đòi hỏi phải sử dụng các kiến trúc sâu với các khối chú ý, điều này làm cho việc tối ưu hóa trở nên khó khăn hơn và tiêu tốn nhiều sức mạnh tính toán và bộ nhớ hơn.

Phải làm gì Một số công việc gần đây đã tập trung vào các kiến trúc mạng hiệu quả cho hình ảnh có độ phân giải cao. Tuy nhiên, không có phương pháp hiện có nào thể hiện kết quả vượt quá độ phân giải 512×512 và chất lượng thế hệ tụt hậu so với các phương pháp xếp tầng hoặc tiềm ẩn chính thống.

Hãy lấy OpenAI DALL-E 2, Google IMAGEN và NVIDIA eDiffI làm ví dụ, giúp tiết kiệm sức mạnh tính toán bằng cách học một mô hình độ phân giải thấp duy nhất và nhiều mô hình khuếch tán siêu phân giải, trong đó mỗi thành phần được đào tạo riêng biệt. Mặt khác, các mô hình khuếch tán tiềm ẩn (LDM) chỉ học các mô hình khuếch tán độ phân giải thấp và dựa vào các bộ mã hóa tự động độ phân giải cao được đào tạo riêng. Đối với cả hai kịch bản, quy trình nhiều giai đoạn làm phức tạp quá trình đào tạo và suy luận, thường yêu cầu tinh chỉnh hoặc siêu tham số.

Trong bài báo này, các nhà nghiên cứu đề xuất Mô hình khuếch tán Matryoshka (MDM), một mô hình khuếch tán mới để tạo hình ảnh có độ phân giải cao từ đầu đến cuối. Mã sẽ sớm được phát hành.

Địa chỉ:

Ý tưởng chính được trình bày trong nghiên cứu là thực hiện quá trình khuếch tán chung ở nhiều độ phân giải bằng cách sử dụng kiến trúc UNet lồng nhau như một phần của thế hệ có độ phân giải cao.

Nghiên cứu cho thấy MDM, cùng với kiến trúc UNet lồng nhau, đã đạt được 1) mất đa độ phân giải: cải thiện đáng kể tốc độ hội tụ của khử nhiễu đầu vào có độ phân giải cao; 2) Một kế hoạch đào tạo tiến bộ hiệu quả, bắt đầu bằng việc đào tạo mô hình khuếch tán độ phân giải thấp và dần dần bổ sung đầu vào và đầu ra có độ phân giải cao theo kế hoạch. Kết quả thí nghiệm cho thấy sự kết hợp giữa tổn thất đa độ phân giải và đào tạo tiến bộ có thể đạt được sự cân bằng tốt hơn giữa chi phí đào tạo và chất lượng mô hình.

Nghiên cứu đã đánh giá MDM về mặt tạo hình ảnh có điều kiện lớp cũng như tạo hình ảnh và video có điều kiện văn bản. MDM cho phép đào tạo các mô hình có độ phân giải cao mà không cần tầng hoặc khuếch tán tiềm ẩn. Các nghiên cứu cắt bỏ đã chỉ ra rằng cả mất đa độ phân giải và đào tạo tiến bộ đều cải thiện đáng kể hiệu quả và chất lượng đào tạo.

Chúng ta hãy xem các hình ảnh và video do MDM tạo sau đây.

Tổng quan về phương pháp

Theo các nhà nghiên cứu, mô hình khuếch tán MDM được đào tạo từ đầu đến cuối ở độ phân giải cao trong khi sử dụng hình thành dữ liệu phân cấp. MDM trước tiên khái quát hóa mô hình khuếch tán tiêu chuẩn trong không gian khuếch tán, sau đó đề xuất một kiến trúc lồng nhau chuyên dụng và quy trình đào tạo.

Đầu tiên, chúng ta hãy xem làm thế nào để khái quát hóa mô hình khuếch tán tiêu chuẩn trong không gian mở rộng.

Không giống như các phương pháp tiếp cận theo tầng hoặc tiềm ẩn, MDM học một quá trình khuếch tán duy nhất với cấu trúc phân cấp bằng cách giới thiệu một quá trình khuếch tán đa độ phân giải trong một không gian mở rộng. Điều này được thể hiện trong Hình 2 bên dưới.

Cụ thể, cho một điểm dữ liệu x ∈ R^N, nhà nghiên cứu định nghĩa biến tiềm ẩn phụ thuộc thời gian z_t = z_t^1 , . . . , z_t^R ∈ R^N_1+... NR.

Theo các nhà nghiên cứu, mô hình khuếch tán trong một không gian mở rộng có hai ưu điểm. Đầu tiên, chúng ta thường quan tâm đến đầu ra có độ phân giải đầy đủ z \ _t ^ R trong quá trình suy luận và tất cả các đầu ra có độ phân giải trung bình khác được coi là các biến tiềm ẩn bổ sung z \ _t ^ r, làm tăng thêm độ phức tạp cho phân phối mô hình hóa. Thứ hai, phụ thuộc đa độ phân giải cung cấp cơ hội chia sẻ trọng số và tính toán trên z \ _t ^ r, phân phối lại tính toán theo cách hiệu quả hơn và cho phép đào tạo và suy luận hiệu quả.

Chúng ta hãy xem cách lồng nhauUNet hoạt động.

Tương tự như các mô hình khuếch tán điển hình, các nhà nghiên cứu đã triển khai MDM bằng cách sử dụng cấu trúc mạng UNet, trong đó các kết nối còn lại và các khối tính toán được sử dụng song song để bảo toàn thông tin đầu vào chi tiết. Các khối tính toán ở đây chứa các kết cấu nhiều lớp và các lớp tự chú ý. Các mã cho NestedUNet và UNet tiêu chuẩn như sau.

Ngoài sự đơn giản so với các phương pháp phân cấp khác, NestedUNet cho phép tính toán được phân bổ một cách hiệu quả nhất. Như thể hiện trong Hình 3 dưới đây, các nhà điều tra ban đầu nhận thấy rằng MDM đạt được khả năng mở rộng tốt hơn đáng kể khi hầu hết các tham số và tính toán được phân bổ ở độ phân giải thấp nhất.

Cuối cùng là học.

Các nhà điều tra đã huấn luyện MDM ở nhiều độ phân giải bằng cách sử dụng các mục tiêu khử nhiễu thông thường, như thể hiện trong phương trình (3) dưới đây.

Đào tạo tiến bộ được sử dụng ở đây. Các nhà nghiên cứu đã đào tạo MDM trực tiếp từ đầu đến cuối theo phương trình trên (3) và chứng minh sự hội tụ tốt hơn so với phương pháp cơ sở ban đầu. Họ phát hiện ra rằng việc đào tạo các mô hình có độ phân giải cao đã được tăng tốc đáng kể bằng cách sử dụng một phương pháp đào tạo tiến bộ đơn giản tương tự như được đề xuất trong bài báo GAN.

Phương pháp đào tạo này tránh đào tạo tốn kém, độ phân giải cao ngay từ đầu và tăng tốc độ hội tụ tổng thể. Không chỉ vậy, họ còn kết hợp đào tạo độ phân giải hỗn hợp, đào tạo các mẫu với các độ phân giải cuối cùng khác nhau đồng thời trong một lô duy nhất.

** Thử nghiệm &; Kết quả**

MDM là một công nghệ đa năng cho bất kỳ vấn đề nào có thể dần dần nén kích thước đầu vào. Việc so sánh MDM với phương pháp cơ sở được thể hiện trong Hình 4 dưới đây.

Bảng 1 cho thấy so sánh trên ImageNet (FID-50K) và COCO (FID-30K).

Hình 5, 6 và 7 dưới đây minh họa kết quả của MDM trong việc tạo hình ảnh (Hình 5), chuyển văn bản thành hình ảnh (Hình 6) và chuyển văn bản thành video (Hình 7). Mặc dù được đào tạo trên một bộ dữ liệu tương đối nhỏ, MDM đã chứng minh khả năng zero-shot mạnh mẽ để tạo ra hình ảnh và video có độ phân giải cao.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)