Từ tranh ghép đến hình ảnh có độ phân giải cao, khả năng tạo ra hình ảnh của AI đã trở nên mạnh mẽ hơn, nhưng làm thế nào để đạt được sự cân bằng giữa vẻ đẹp và độ méo?
Các công cụ AI làm cho hình ảnh đẹp hơn thường dẫn đến hiện tượng méo hình, còn khiến hình ảnh trông thật hơn thường thiếu đi vẻ đẹp.
Nguồn hình ảnh: Được tạo bởi AI không giới hạn
Trong các tác phẩm khoa học viễn tưởng và hồi hộp, chúng ta thường thấy cảnh này: một bức ảnh mờ được hiển thị trên màn hình máy tính, sau đó điều tra viên yêu cầu nâng cao hình ảnh, sau đó hình ảnh trở nên rõ ràng một cách kỳ diệu, tiết lộ những manh mối quan trọng.
Điều này có vẻ tuyệt vời, nhưng nó đã là một cốt truyện hoàn toàn hư cấu trong nhiều thập kỷ. Điều đó khó thực hiện ngay cả trong thời kỳ khả năng sáng tạo của AI bắt đầu phát triển: "Nếu bạn chỉ phóng to hình ảnh, nó sẽ trở nên mờ. Sẽ có rất nhiều chi tiết, nhưng tất cả đều sai", Nvidia áp dụng học sâu cho biết Bryan Catanzaro, Phó Chủ tịch Nghiên cứu.
Tuy nhiên, các nhà nghiên cứu gần đây đã bắt đầu kết hợp thuật toán AI vào các công cụ nâng cao hình ảnh, giúp quá trình này trở nên dễ dàng và mạnh mẽ hơn, nhưng vẫn còn những hạn chế đối với dữ liệu có thể được lấy từ bất kỳ hình ảnh nào. Nhưng khi các nhà nghiên cứu tiếp tục vượt qua ranh giới của các thuật toán nâng cao, họ đang tìm ra những cách mới để giải quyết những hạn chế này và thậm chí tìm cách khắc phục chúng.
Trong thập kỷ qua, các nhà nghiên cứu đã bắt đầu nâng cao hình ảnh bằng cách sử dụng các mô hình mạng đối thủ tổng quát (GAN), có khả năng tạo ra những bức ảnh chi tiết và ấn tượng.
Tomer Michaeli, một kỹ sư điện tại Viện Công nghệ Teonion ở Israel cho biết: "Các hình ảnh đột nhiên trông đẹp hơn nhiều. Nhưng ông cũng ngạc nhiên khi thấy rằng những hình ảnh do GAN tạo ra cho thấy mức độ biến dạng cao, một thước đo về chất lượng hình ảnh được nâng cao". hình ảnh. Sự gần gũi với thực tế cơ bản đang được hiển thị. Hình ảnh do GAN tạo ra trông đẹp và tự nhiên nhưng thực chất lại đang "hư cấu" hoặc "ảo tưởng" các chi tiết không chính xác, dẫn đến độ biến dạng cao.
Michaeli nhận thấy rằng lĩnh vực khôi phục ảnh thuộc hai loại chính: Một loại hiển thị hình ảnh đẹp, nhiều trong số đó được tạo bởi GAN. Cái còn lại hiển thị dữ liệu nhưng không có nhiều hình ảnh vì trông không đẹp.
Vào năm 2017, Michaeli và sinh viên tốt nghiệp Yochai Blau đã chính thức khám phá hiệu suất của các thuật toán nâng cao hình ảnh khác nhau về độ méo và chất lượng cảm nhận, sử dụng các thước đo đã biết về chất lượng cảm nhận tương quan với đánh giá chủ quan của con người. Đúng như Michaeli mong đợi, chất lượng hình ảnh của một số thuật toán rất cao, trong khi những thuật toán khác lại rất chính xác với độ méo rất thấp. Nhưng không ai cung cấp những gì tốt nhất cho cả hai thế giới, bạn phải chọn cái này hơn cái kia. Điều này được gọi là sự đánh đổi méo mó về nhận thức.
Michaeli cũng thách thức các nhà nghiên cứu khác đưa ra các thuật toán tạo ra chất lượng hình ảnh tốt nhất ở một mức độ biến dạng nhất định, cho phép so sánh công bằng giữa thuật toán để có hình ảnh đẹp và thuật toán để có số liệu thống kê tốt. Kể từ đó, hàng trăm nhà nghiên cứu AI đã nêu lên mối lo ngại về sự biến dạng và chất lượng cảm nhận của thuật toán của họ, trích dẫn bài báo của Michaeli và Blau mô tả sự đánh đổi này.
Đôi khi tác động của sự đánh đổi méo mó về nhận thức không đáng sợ đến thế. Ví dụ: Nvidia nhận thấy rằng màn hình độ phân giải cao không thể hiển thị tốt một số nội dung hình ảnh có độ phân giải thấp, vì vậy vào tháng 2 năm 2023, hãng đã tung ra một công cụ sử dụng deep learning để cải thiện chất lượng phát trực tuyến video. Trong trường hợp này, các kỹ sư của Nvidia đã chọn chất lượng cảm nhận thay vì độ chính xác, chấp nhận thực tế là khi thuật toán nâng cao độ phân giải của video, nó sẽ tạo ra một số chi tiết hình ảnh không có trong video gốc.
Catanzaro nói: “Mô hình này chỉ là ảo tưởng. Đó chỉ là sự suy đoán thuần túy”. “Không thành vấn đề nếu mô hình siêu phân giải hầu hết đoán sai, miễn là nó nhất quán.”
*Hình ảnh lưu lượng máu trong não chuột (trái) và hình ảnh tương tự sau khi sử dụng công cụ AI để cải thiện chất lượng và độ chính xác của hình ảnh. Nguồn: Junjie Yao, Xiaoyi Zhu, Đại học Duke. *
Đặc biệt, các ứng dụng trong nghiên cứu và y học sẽ đòi hỏi độ chính xác cao hơn. Junjie Yao, kỹ sư y sinh tại Đại học Duke, cho biết: Công nghệ AI đã đạt được tiến bộ đáng kể trong lĩnh vực hình ảnh, nhưng “đôi khi nó có những tác dụng phụ không mong muốn, chẳng hạn như trang bị quá mức hoặc thêm các tính năng sai, vì vậy nó cần phải hết sức thận trọng”.
Năm ngoái, ông đã mô tả trong bài báo của mình về cách sử dụng các công cụ AI để cải thiện các phép đo hiện có về lưu lượng máu não và quá trình trao đổi chất trong khi vẫn vận hành an toàn về mặt chính xác trong việc đánh đổi sự bóp méo nhận thức.
Một cách để khắc phục những hạn chế về lượng dữ liệu có thể được trích xuất từ một hình ảnh là chỉ cần hợp nhất dữ liệu từ nhiều hình ảnh hơn. Trước đây, các nhà nghiên cứu môi trường thông qua hình ảnh vệ tinh đã đạt được một số tiến bộ trong việc tích hợp dữ liệu trực quan từ các nguồn khác nhau: Năm 2021, các nhà nghiên cứu ở Trung Quốc và Vương quốc Anh đã hợp nhất dữ liệu từ hai loại vệ tinh khác nhau để quan sát nạn phá rừng ở lưu vực Congo tốt hơn. Lưu vực Congo là khu rừng mưa nhiệt đới lớn thứ hai trên thế giới và là một trong những khu vực đa dạng sinh học nhất. Các nhà nghiên cứu đã lấy dữ liệu từ hai vệ tinh Landsat đã đo lường nạn phá rừng trong nhiều thập kỷ và sử dụng các kỹ thuật học sâu để cải thiện độ phân giải của hình ảnh từ 30 mét lên 10 mét. Sau đó, họ hợp nhất bộ hình ảnh này với dữ liệu từ hai vệ tinh Sentinel-2, có dãy máy dò hơi khác nhau. Thí nghiệm của họ cho thấy hình ảnh kết hợp này "cho phép phát hiện các khu vực bị nhiễu nhiều hơn từ 11% đến 21% so với khi chỉ sử dụng hình ảnh Sentinel-2 hoặc Landsat-7/8."
Nếu không thể đột phá trực tiếp, Michaeli đề xuất một phương pháp khác nhằm hạn chế cứng rắn sự sẵn có của thông tin. Thay vì tìm kiếm câu trả lời dứt khoát về cách cải thiện hình ảnh chất lượng thấp, mô hình có thể được hiển thị nhiều cách hiểu khác nhau về hình ảnh gốc. Trong bài báo "Siêu phân giải có thể khám phá", ông cho thấy một công cụ nâng cao hình ảnh có thể cung cấp nhiều đề xuất cho người dùng như thế nào. Hình ảnh mờ, độ phân giải thấp của một người mặc áo sơ mi màu xám có thể được tái tạo thành hình ảnh có độ phân giải cao hơn trong đó áo sơ mi có thể có sọc dọc đen trắng, sọc ngang hoặc kẻ sọc, tất cả đều có độ tin cậy như nhau.
Trong một ví dụ khác, Michaeli đã chụp một bức ảnh biển số xe chất lượng thấp và sử dụng tính năng nâng cao hình ảnh AI để cho thấy số 1 trên biển số xe giống số 0 nhất. Nhưng khi hình ảnh được xử lý thông qua một thuật toán khác, có kết thúc mở hơn do Michaeli nghĩ ra, con số trông có vẻ như nhau là 0, 1 hoặc 8. Cách tiếp cận này có thể giúp loại trừ các số khác mà không kết luận nhầm rằng số đó là 0.
Chúng ta có thể giảm thiểu những ảo tưởng này, nhưng nút "tăng cường" giải quyết tội phạm mạnh mẽ đó vẫn chỉ là một giấc mơ.
Trong các lĩnh vực khác nhau, các ngành khác nhau giải quyết sự đánh đổi méo mó về nhận thức theo cách riêng của chúng. Bao nhiêu thông tin có thể được trích xuất từ hình ảnh AI và mức độ tin cậy của những hình ảnh này vẫn là những câu hỏi cốt lõi.
Michaeli nói: “Chúng ta nên nhớ rằng thuật toán chỉ tạo ra các chi tiết để tạo ra những hình ảnh đẹp này.
Link gốc:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Từ tranh ghép đến hình ảnh có độ phân giải cao, khả năng tạo ra hình ảnh của AI đã trở nên mạnh mẽ hơn, nhưng làm thế nào để đạt được sự cân bằng giữa vẻ đẹp và độ méo?
Trong các tác phẩm khoa học viễn tưởng và hồi hộp, chúng ta thường thấy cảnh này: một bức ảnh mờ được hiển thị trên màn hình máy tính, sau đó điều tra viên yêu cầu nâng cao hình ảnh, sau đó hình ảnh trở nên rõ ràng một cách kỳ diệu, tiết lộ những manh mối quan trọng.
Điều này có vẻ tuyệt vời, nhưng nó đã là một cốt truyện hoàn toàn hư cấu trong nhiều thập kỷ. Điều đó khó thực hiện ngay cả trong thời kỳ khả năng sáng tạo của AI bắt đầu phát triển: "Nếu bạn chỉ phóng to hình ảnh, nó sẽ trở nên mờ. Sẽ có rất nhiều chi tiết, nhưng tất cả đều sai", Nvidia áp dụng học sâu cho biết Bryan Catanzaro, Phó Chủ tịch Nghiên cứu.
Tuy nhiên, các nhà nghiên cứu gần đây đã bắt đầu kết hợp thuật toán AI vào các công cụ nâng cao hình ảnh, giúp quá trình này trở nên dễ dàng và mạnh mẽ hơn, nhưng vẫn còn những hạn chế đối với dữ liệu có thể được lấy từ bất kỳ hình ảnh nào. Nhưng khi các nhà nghiên cứu tiếp tục vượt qua ranh giới của các thuật toán nâng cao, họ đang tìm ra những cách mới để giải quyết những hạn chế này và thậm chí tìm cách khắc phục chúng.
Trong thập kỷ qua, các nhà nghiên cứu đã bắt đầu nâng cao hình ảnh bằng cách sử dụng các mô hình mạng đối thủ tổng quát (GAN), có khả năng tạo ra những bức ảnh chi tiết và ấn tượng.
Tomer Michaeli, một kỹ sư điện tại Viện Công nghệ Teonion ở Israel cho biết: "Các hình ảnh đột nhiên trông đẹp hơn nhiều. Nhưng ông cũng ngạc nhiên khi thấy rằng những hình ảnh do GAN tạo ra cho thấy mức độ biến dạng cao, một thước đo về chất lượng hình ảnh được nâng cao". hình ảnh. Sự gần gũi với thực tế cơ bản đang được hiển thị. Hình ảnh do GAN tạo ra trông đẹp và tự nhiên nhưng thực chất lại đang "hư cấu" hoặc "ảo tưởng" các chi tiết không chính xác, dẫn đến độ biến dạng cao.
Michaeli nhận thấy rằng lĩnh vực khôi phục ảnh thuộc hai loại chính: Một loại hiển thị hình ảnh đẹp, nhiều trong số đó được tạo bởi GAN. Cái còn lại hiển thị dữ liệu nhưng không có nhiều hình ảnh vì trông không đẹp.
Vào năm 2017, Michaeli và sinh viên tốt nghiệp Yochai Blau đã chính thức khám phá hiệu suất của các thuật toán nâng cao hình ảnh khác nhau về độ méo và chất lượng cảm nhận, sử dụng các thước đo đã biết về chất lượng cảm nhận tương quan với đánh giá chủ quan của con người. Đúng như Michaeli mong đợi, chất lượng hình ảnh của một số thuật toán rất cao, trong khi những thuật toán khác lại rất chính xác với độ méo rất thấp. Nhưng không ai cung cấp những gì tốt nhất cho cả hai thế giới, bạn phải chọn cái này hơn cái kia. Điều này được gọi là sự đánh đổi méo mó về nhận thức.
Michaeli cũng thách thức các nhà nghiên cứu khác đưa ra các thuật toán tạo ra chất lượng hình ảnh tốt nhất ở một mức độ biến dạng nhất định, cho phép so sánh công bằng giữa thuật toán để có hình ảnh đẹp và thuật toán để có số liệu thống kê tốt. Kể từ đó, hàng trăm nhà nghiên cứu AI đã nêu lên mối lo ngại về sự biến dạng và chất lượng cảm nhận của thuật toán của họ, trích dẫn bài báo của Michaeli và Blau mô tả sự đánh đổi này.
Đôi khi tác động của sự đánh đổi méo mó về nhận thức không đáng sợ đến thế. Ví dụ: Nvidia nhận thấy rằng màn hình độ phân giải cao không thể hiển thị tốt một số nội dung hình ảnh có độ phân giải thấp, vì vậy vào tháng 2 năm 2023, hãng đã tung ra một công cụ sử dụng deep learning để cải thiện chất lượng phát trực tuyến video. Trong trường hợp này, các kỹ sư của Nvidia đã chọn chất lượng cảm nhận thay vì độ chính xác, chấp nhận thực tế là khi thuật toán nâng cao độ phân giải của video, nó sẽ tạo ra một số chi tiết hình ảnh không có trong video gốc.
Catanzaro nói: “Mô hình này chỉ là ảo tưởng. Đó chỉ là sự suy đoán thuần túy”. “Không thành vấn đề nếu mô hình siêu phân giải hầu hết đoán sai, miễn là nó nhất quán.”
Đặc biệt, các ứng dụng trong nghiên cứu và y học sẽ đòi hỏi độ chính xác cao hơn. Junjie Yao, kỹ sư y sinh tại Đại học Duke, cho biết: Công nghệ AI đã đạt được tiến bộ đáng kể trong lĩnh vực hình ảnh, nhưng “đôi khi nó có những tác dụng phụ không mong muốn, chẳng hạn như trang bị quá mức hoặc thêm các tính năng sai, vì vậy nó cần phải hết sức thận trọng”.
Năm ngoái, ông đã mô tả trong bài báo của mình về cách sử dụng các công cụ AI để cải thiện các phép đo hiện có về lưu lượng máu não và quá trình trao đổi chất trong khi vẫn vận hành an toàn về mặt chính xác trong việc đánh đổi sự bóp méo nhận thức.
Một cách để khắc phục những hạn chế về lượng dữ liệu có thể được trích xuất từ một hình ảnh là chỉ cần hợp nhất dữ liệu từ nhiều hình ảnh hơn. Trước đây, các nhà nghiên cứu môi trường thông qua hình ảnh vệ tinh đã đạt được một số tiến bộ trong việc tích hợp dữ liệu trực quan từ các nguồn khác nhau: Năm 2021, các nhà nghiên cứu ở Trung Quốc và Vương quốc Anh đã hợp nhất dữ liệu từ hai loại vệ tinh khác nhau để quan sát nạn phá rừng ở lưu vực Congo tốt hơn. Lưu vực Congo là khu rừng mưa nhiệt đới lớn thứ hai trên thế giới và là một trong những khu vực đa dạng sinh học nhất. Các nhà nghiên cứu đã lấy dữ liệu từ hai vệ tinh Landsat đã đo lường nạn phá rừng trong nhiều thập kỷ và sử dụng các kỹ thuật học sâu để cải thiện độ phân giải của hình ảnh từ 30 mét lên 10 mét. Sau đó, họ hợp nhất bộ hình ảnh này với dữ liệu từ hai vệ tinh Sentinel-2, có dãy máy dò hơi khác nhau. Thí nghiệm của họ cho thấy hình ảnh kết hợp này "cho phép phát hiện các khu vực bị nhiễu nhiều hơn từ 11% đến 21% so với khi chỉ sử dụng hình ảnh Sentinel-2 hoặc Landsat-7/8."
Nếu không thể đột phá trực tiếp, Michaeli đề xuất một phương pháp khác nhằm hạn chế cứng rắn sự sẵn có của thông tin. Thay vì tìm kiếm câu trả lời dứt khoát về cách cải thiện hình ảnh chất lượng thấp, mô hình có thể được hiển thị nhiều cách hiểu khác nhau về hình ảnh gốc. Trong bài báo "Siêu phân giải có thể khám phá", ông cho thấy một công cụ nâng cao hình ảnh có thể cung cấp nhiều đề xuất cho người dùng như thế nào. Hình ảnh mờ, độ phân giải thấp của một người mặc áo sơ mi màu xám có thể được tái tạo thành hình ảnh có độ phân giải cao hơn trong đó áo sơ mi có thể có sọc dọc đen trắng, sọc ngang hoặc kẻ sọc, tất cả đều có độ tin cậy như nhau.
Chúng ta có thể giảm thiểu những ảo tưởng này, nhưng nút "tăng cường" giải quyết tội phạm mạnh mẽ đó vẫn chỉ là một giấc mơ.
Trong các lĩnh vực khác nhau, các ngành khác nhau giải quyết sự đánh đổi méo mó về nhận thức theo cách riêng của chúng. Bao nhiêu thông tin có thể được trích xuất từ hình ảnh AI và mức độ tin cậy của những hình ảnh này vẫn là những câu hỏi cốt lõi.
Michaeli nói: “Chúng ta nên nhớ rằng thuật toán chỉ tạo ra các chi tiết để tạo ra những hình ảnh đẹp này.
Link gốc: