Khi đi du lịch trong những ngày nghỉ lễ, việc chụp ảnh là điều không thể thiếu. Tuy nhiên, hầu hết các bức ảnh chụp ở các danh lam thắng cảnh đều ít nhiều đáng tiếc, hoặc có gì đó thừa ở hậu cảnh, hoặc có gì đó thiếu sót.
Nguồn hình ảnh: Được tạo bởi AI không giới hạn
Có được một hình ảnh “hoàn hảo” là một trong những mục tiêu lâu dài của các nhà nghiên cứu CV. Gần đây, các nhà nghiên cứu từ Google Research và Đại học Cornell đã hợp tác để đề xuất công nghệ “Hoàn thiện hình ảnh xác thực”—RealFill, một mô hình tổng quát để hoàn thiện hình ảnh.
Ưu điểm của mô hình RealFill là chúng có thể được cá nhân hóa với một số lượng nhỏ hình ảnh tham chiếu cảnh mà không cần phải căn chỉnh với hình ảnh mục tiêu và thậm chí có thể khác nhau rất nhiều về góc nhìn, điều kiện ánh sáng, khẩu độ máy ảnh hoặc kiểu hình ảnh . Sau khi quá trình cá nhân hóa hoàn tất, RealFill có thể bổ sung cho hình ảnh mục tiêu bằng nội dung hấp dẫn trực quan theo cách chân thực với cảnh gốc.
* Link giấy:
*Trang dự án:
Mô hình inpainting và outpainting là những công nghệ có thể tạo ra nội dung hình ảnh chất lượng cao và hợp lý ở những vùng không xác định của hình ảnh, tuy nhiên, nội dung do các mô hình này tạo ra chắc chắn không thực tế vì các mô hình này hoạt động trong bối cảnh cảnh thực. . Ngược lại, RealFill tạo ra nội dung "nên" ở đó, giúp kết quả hoàn thiện hình ảnh trở nên chân thực hơn.
Các tác giả đã chỉ ra trong bài báo rằng họ đã xác định một vấn đề hoàn thiện hình ảnh mới - "Hoàn thành hình ảnh xác thực". Khác với khôi phục hình ảnh tổng quát truyền thống (nội dung thay thế vùng bị thiếu có thể không nhất quán với cảnh gốc), mục tiêu của việc hoàn thiện hình ảnh thực là làm cho nội dung hoàn chỉnh trung thực nhất có thể với cảnh gốc, sử dụng nội dung "nên xuất hiện". ở đó". Hoàn thành hình ảnh mục tiêu với nội dung “có thể ở ngoài kia”.
Các tác giả tuyên bố rằng RealFill là phương pháp đầu tiên mở rộng khả năng biểu đạt của các mô hình vẽ hình ảnh tổng hợp bằng cách thêm nhiều điều kiện hơn vào quy trình (tức là thêm hình ảnh tham chiếu).
RealFill vượt trội đáng kể so với các phương pháp hiện có trên tiêu chuẩn hoàn thiện hình ảnh mới bao gồm nhiều tình huống đa dạng và đầy thách thức.
phương pháp
Mục tiêu của RealFill là sử dụng một số lượng nhỏ hình ảnh tham chiếu để hoàn thiện những phần còn thiếu của hình ảnh mục tiêu nhất định trong khi vẫn duy trì tính chân thực nhất có thể. Cụ thể, bạn được cung cấp tối đa 5 hình ảnh tham chiếu và một hình ảnh mục tiêu gần như chụp cùng một cảnh (nhưng có thể có bố cục hoặc hình thức khác).
Đối với một cảnh nhất định, trước tiên, các nhà nghiên cứu đã tạo ra một mô hình tổng quát được cá nhân hóa bằng cách tinh chỉnh mô hình khuếch tán inpainting được đào tạo trước trên các hình ảnh tham chiếu và mục tiêu. Quá trình tinh chỉnh này được thiết kế sao cho mô hình tinh chỉnh không chỉ duy trì hình ảnh tốt trước đó mà còn tìm hiểu nội dung cảnh, ánh sáng và phong cách trong hình ảnh đầu vào. Mô hình tinh chỉnh này sau đó được sử dụng để điền vào các vùng còn thiếu trong ảnh mục tiêu thông qua quy trình lấy mẫu khuếch tán tiêu chuẩn.
Điều đáng chú ý là về giá trị ứng dụng thực tế, mô hình này đặc biệt tập trung vào trường hợp khó khăn hơn, không bị ràng buộc, trong đó hình ảnh mục tiêu và hình ảnh tham chiếu có thể có các góc nhìn, điều kiện môi trường, khẩu độ máy ảnh, kiểu hình ảnh và thậm chí cả chuyển động rất khác nhau. .
Kết quả thực nghiệm
Dựa trên hình ảnh tham chiếu ở bên trái, RealFill có thể mở rộng (uncrop) hoặc sửa chữa (inpaint) hình ảnh mục tiêu ở bên phải. Kết quả được tạo ra không chỉ hấp dẫn về mặt trực quan mà còn nhất quán với hình ảnh tham chiếu, ngay cả khi hình ảnh tham chiếu và hình ảnh mục tiêu ở cùng một góc nhìn, có sự khác biệt lớn về khẩu độ, ánh sáng, kiểu ảnh và chuyển động của vật thể.
Hiệu ứng đầu ra của mô hình RealFill. Với hình ảnh tham chiếu ở bên trái, RealFill có thể mở rộng hình ảnh mục tiêu tương ứng ở bên phải. Các vùng bên trong hộp trắng được cung cấp cho mạng dưới dạng các pixel đã biết, trong khi các vùng bên ngoài hộp trắng được tạo ra. Kết quả cho thấy RealFill có thể tạo ra hình ảnh chất lượng cao trung thực với hình ảnh tham chiếu ngay cả khi có sự khác biệt rất lớn giữa hình ảnh tham chiếu và hình ảnh mục tiêu, bao gồm góc nhìn, khẩu độ, ánh sáng, kiểu hình ảnh và chuyển động của đối tượng. Nguồn: Giấy
Thí nghiệm có kiểm soát
Các nhà nghiên cứu đã so sánh mô hình RealFill với các phương pháp cơ bản khác. Để so sánh, RealFill tạo ra kết quả chất lượng cao và hoạt động tốt hơn về độ trung thực của cảnh cũng như tính nhất quán với hình ảnh tham chiếu.
Vẽ theo ví dụ không thể đạt được độ trung thực cao của cảnh vì nó dựa vào tính năng nhúng CLIP, tính năng này chỉ có thể nắm bắt thông tin ngữ nghĩa cấp cao.
Mặc dù Stable Diffusion Inpainting có thể tạo ra các kết quả có vẻ hợp lý nhưng do khả năng biểu đạt hạn chế nên kết quả cuối cùng được tạo ra không nhất quán với hình ảnh tham chiếu.
So sánh RealFill với hai phương pháp cơ bản khác. Vùng được bao phủ bởi mặt nạ trắng trong suốt là phần chưa sửa đổi của hình ảnh mục tiêu. Nguồn: realfill.github.io
Hạn chế
Các nhà nghiên cứu cũng thảo luận về một số vấn đề và hạn chế tiềm ẩn của mô hình RealFill, bao gồm tốc độ xử lý, khả năng xử lý các thay đổi về quan điểm và khả năng xử lý các tình huống gây khó khăn cho mô hình cơ bản. Đặc biệt:
RealFill yêu cầu quá trình tinh chỉnh dựa trên độ dốc trên hình ảnh đầu vào, khiến nó chạy tương đối chậm.
Khi góc nhìn thay đổi giữa hình ảnh tham chiếu và hình ảnh mục tiêu rất lớn, RealFill thường không thể khôi phục cảnh 3D, đặc biệt khi chỉ có một hình ảnh tham chiếu.
Vì RealFill chủ yếu dựa vào các ưu tiên hình ảnh được kế thừa từ mô hình được đào tạo trước cơ sở nên nó không thể xử lý các tình huống gây khó khăn cho mô hình cơ sở, chẳng hạn như các mô hình khuếch tán ổn định không thể xử lý tốt văn bản.
Cuối cùng, tác giả bày tỏ lòng biết ơn tới các cộng tác viên:
Chúng tôi xin cảm ơn Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin, và Jon Barron vì những cuộc thảo luận và phản hồi có giá trị của họ, đồng thời cũng xin cảm ơn Zeya Peng, Rundi Wu và Shan Nan vì những đóng góp của họ cho bộ dữ liệu đánh giá. Chúng tôi đặc biệt biết ơn Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern và Nicole Brichtova vì những phản hồi và hỗ trợ của họ cho dự án.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Tính xác thực thật đáng kinh ngạc. Google và Cornell đề xuất công nghệ hoàn thiện hình ảnh thật RealFill
Khi đi du lịch trong những ngày nghỉ lễ, việc chụp ảnh là điều không thể thiếu. Tuy nhiên, hầu hết các bức ảnh chụp ở các danh lam thắng cảnh đều ít nhiều đáng tiếc, hoặc có gì đó thừa ở hậu cảnh, hoặc có gì đó thiếu sót.
Có được một hình ảnh “hoàn hảo” là một trong những mục tiêu lâu dài của các nhà nghiên cứu CV. Gần đây, các nhà nghiên cứu từ Google Research và Đại học Cornell đã hợp tác để đề xuất công nghệ “Hoàn thiện hình ảnh xác thực”—RealFill, một mô hình tổng quát để hoàn thiện hình ảnh.
Ưu điểm của mô hình RealFill là chúng có thể được cá nhân hóa với một số lượng nhỏ hình ảnh tham chiếu cảnh mà không cần phải căn chỉnh với hình ảnh mục tiêu và thậm chí có thể khác nhau rất nhiều về góc nhìn, điều kiện ánh sáng, khẩu độ máy ảnh hoặc kiểu hình ảnh . Sau khi quá trình cá nhân hóa hoàn tất, RealFill có thể bổ sung cho hình ảnh mục tiêu bằng nội dung hấp dẫn trực quan theo cách chân thực với cảnh gốc.
Mô hình inpainting và outpainting là những công nghệ có thể tạo ra nội dung hình ảnh chất lượng cao và hợp lý ở những vùng không xác định của hình ảnh, tuy nhiên, nội dung do các mô hình này tạo ra chắc chắn không thực tế vì các mô hình này hoạt động trong bối cảnh cảnh thực. . Ngược lại, RealFill tạo ra nội dung "nên" ở đó, giúp kết quả hoàn thiện hình ảnh trở nên chân thực hơn.
Các tác giả đã chỉ ra trong bài báo rằng họ đã xác định một vấn đề hoàn thiện hình ảnh mới - "Hoàn thành hình ảnh xác thực". Khác với khôi phục hình ảnh tổng quát truyền thống (nội dung thay thế vùng bị thiếu có thể không nhất quán với cảnh gốc), mục tiêu của việc hoàn thiện hình ảnh thực là làm cho nội dung hoàn chỉnh trung thực nhất có thể với cảnh gốc, sử dụng nội dung "nên xuất hiện". ở đó". Hoàn thành hình ảnh mục tiêu với nội dung “có thể ở ngoài kia”.
Các tác giả tuyên bố rằng RealFill là phương pháp đầu tiên mở rộng khả năng biểu đạt của các mô hình vẽ hình ảnh tổng hợp bằng cách thêm nhiều điều kiện hơn vào quy trình (tức là thêm hình ảnh tham chiếu).
RealFill vượt trội đáng kể so với các phương pháp hiện có trên tiêu chuẩn hoàn thiện hình ảnh mới bao gồm nhiều tình huống đa dạng và đầy thách thức.
phương pháp
Mục tiêu của RealFill là sử dụng một số lượng nhỏ hình ảnh tham chiếu để hoàn thiện những phần còn thiếu của hình ảnh mục tiêu nhất định trong khi vẫn duy trì tính chân thực nhất có thể. Cụ thể, bạn được cung cấp tối đa 5 hình ảnh tham chiếu và một hình ảnh mục tiêu gần như chụp cùng một cảnh (nhưng có thể có bố cục hoặc hình thức khác).
Đối với một cảnh nhất định, trước tiên, các nhà nghiên cứu đã tạo ra một mô hình tổng quát được cá nhân hóa bằng cách tinh chỉnh mô hình khuếch tán inpainting được đào tạo trước trên các hình ảnh tham chiếu và mục tiêu. Quá trình tinh chỉnh này được thiết kế sao cho mô hình tinh chỉnh không chỉ duy trì hình ảnh tốt trước đó mà còn tìm hiểu nội dung cảnh, ánh sáng và phong cách trong hình ảnh đầu vào. Mô hình tinh chỉnh này sau đó được sử dụng để điền vào các vùng còn thiếu trong ảnh mục tiêu thông qua quy trình lấy mẫu khuếch tán tiêu chuẩn.
Điều đáng chú ý là về giá trị ứng dụng thực tế, mô hình này đặc biệt tập trung vào trường hợp khó khăn hơn, không bị ràng buộc, trong đó hình ảnh mục tiêu và hình ảnh tham chiếu có thể có các góc nhìn, điều kiện môi trường, khẩu độ máy ảnh, kiểu hình ảnh và thậm chí cả chuyển động rất khác nhau. .
Kết quả thực nghiệm
Dựa trên hình ảnh tham chiếu ở bên trái, RealFill có thể mở rộng (uncrop) hoặc sửa chữa (inpaint) hình ảnh mục tiêu ở bên phải. Kết quả được tạo ra không chỉ hấp dẫn về mặt trực quan mà còn nhất quán với hình ảnh tham chiếu, ngay cả khi hình ảnh tham chiếu và hình ảnh mục tiêu ở cùng một góc nhìn, có sự khác biệt lớn về khẩu độ, ánh sáng, kiểu ảnh và chuyển động của vật thể.
Thí nghiệm có kiểm soát
Các nhà nghiên cứu đã so sánh mô hình RealFill với các phương pháp cơ bản khác. Để so sánh, RealFill tạo ra kết quả chất lượng cao và hoạt động tốt hơn về độ trung thực của cảnh cũng như tính nhất quán với hình ảnh tham chiếu.
Vẽ theo ví dụ không thể đạt được độ trung thực cao của cảnh vì nó dựa vào tính năng nhúng CLIP, tính năng này chỉ có thể nắm bắt thông tin ngữ nghĩa cấp cao.
Mặc dù Stable Diffusion Inpainting có thể tạo ra các kết quả có vẻ hợp lý nhưng do khả năng biểu đạt hạn chế nên kết quả cuối cùng được tạo ra không nhất quán với hình ảnh tham chiếu.
Hạn chế
Các nhà nghiên cứu cũng thảo luận về một số vấn đề và hạn chế tiềm ẩn của mô hình RealFill, bao gồm tốc độ xử lý, khả năng xử lý các thay đổi về quan điểm và khả năng xử lý các tình huống gây khó khăn cho mô hình cơ bản. Đặc biệt:
RealFill yêu cầu quá trình tinh chỉnh dựa trên độ dốc trên hình ảnh đầu vào, khiến nó chạy tương đối chậm.
Khi góc nhìn thay đổi giữa hình ảnh tham chiếu và hình ảnh mục tiêu rất lớn, RealFill thường không thể khôi phục cảnh 3D, đặc biệt khi chỉ có một hình ảnh tham chiếu.
Vì RealFill chủ yếu dựa vào các ưu tiên hình ảnh được kế thừa từ mô hình được đào tạo trước cơ sở nên nó không thể xử lý các tình huống gây khó khăn cho mô hình cơ sở, chẳng hạn như các mô hình khuếch tán ổn định không thể xử lý tốt văn bản.
Chúng tôi xin cảm ơn Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin, và Jon Barron vì những cuộc thảo luận và phản hồi có giá trị của họ, đồng thời cũng xin cảm ơn Zeya Peng, Rundi Wu và Shan Nan vì những đóng góp của họ cho bộ dữ liệu đánh giá. Chúng tôi đặc biệt biết ơn Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern và Nicole Brichtova vì những phản hồi và hỗ trợ của họ cho dự án.