Hãy nhìn xem, chỉ cần kéo nhẹ, bông hồng sẽ bắt đầu chuyển động.
Kéo lá sang trái, cây thông cũng di chuyển theo hướng đó.
Ngoài ra còn có hình ảnh của nhiều đồ vật khác nhau trên thế giới, có thể trở nên sống động ngay lập tức.
Đây là nghiên cứu mới nhất của nhóm Google, biến bàn tay của bạn thành những “ngón tay vàng ma thuật” có thể điều khiển mọi thứ và di chuyển chỉ bằng một cú chạm.
Trong bài báo này, Google đã đề xuất "Động lực hình ảnh tổng hợp", mô hình hóa không gian hình ảnh trước đó và sau đó huấn luyện mô hình để dự đoán "kết cấu chuyển động ngẫu nhiên thần kinh".
Cuối cùng, nó đã được triển khai và thậm chí có thể tạo ra một vòng lặp video vô tận bằng cách tương tác với một hình ảnh duy nhất.
Trong tương lai, trí tưởng tượng của nghệ sĩ sẽ không còn bị giới hạn bởi những khuôn khổ truyền thống và mọi thứ sẽ có thể thực hiện được trong không gian hình ảnh năng động này.
Mọi thứ trong ảnh đều trở nên sống động
Sự chuyển động của mọi thứ trên thế giới là đa phương thức.
Bộ quần áo treo ngoài sân đung đưa theo gió.
Những chiếc đèn lồng lớn màu đỏ treo trên đường đung đưa trong không trung.
Còn có một con mèo con đang ngủ cạnh rèm, bụng phập phồng, lười biếng quá.
Những chuyển động này thường không thể đoán trước được: nến cháy theo một cách nhất định, cây đung đưa trong gió, lá xào xạc...
Nhấc một bức ảnh lên, các nhà nghiên cứu có thể tưởng tượng nó chuyển động như thế nào khi bức ảnh được chụp.
Với sự phát triển hiện nay của các mô hình tổng quát, đặc biệt là các mô hình khuếch tán, có thể mô hình hóa các phân phối rất phong phú và phức tạp.
Điều này làm cho nhiều ứng dụng mà trước đây không thể thực hiện được, chẳng hạn như tạo ra các hình ảnh thực tế tùy ý từ văn bản. Ngoài việc hữu ích trong trường hình ảnh, mô hình khuếch tán còn có thể được sử dụng để mô hình hóa trường video.
Từ đó, nhóm Google trong nghiên cứu này đã mô hình hóa chuyển động tổng quát trước của cảnh trong không gian hình ảnh, tức là chuyển động của tất cả các pixel trong một hình ảnh.
Mô hình được huấn luyện dựa trên quỹ đạo chuyển động được trích xuất tự động từ một số lượng lớn chuỗi video thực.
Dựa trên hình ảnh đầu vào, mô hình được đào tạo dự đoán "kết cấu chuyển động ngẫu nhiên thần kinh": một tập hợp các hệ số chuyển động cơ bản mô tả quỹ đạo tương lai của mỗi pixel.
Các nhà nghiên cứu của Google đã giới hạn phạm vi nghiên cứu của họ ở những cảnh trong thế giới thực với động lực xoay tự nhiên, chẳng hạn như cây và hoa thổi trong gió, vì vậy họ đã chọn chuỗi Fourier làm hàm cơ bản.
Sau đó, một mô hình khuếch tán được sử dụng để dự đoán "kết cấu chuyển động ngẫu nhiên thần kinh." Mô hình này chỉ tạo ra các hệ số cho một tần số tại một thời điểm nhưng phối hợp các dự đoán này trên các dải tần số khác nhau.
Kết cấu không gian tần số thu được có thể được chuyển đổi thành các quỹ đạo chuyển động pixel đường dài dày đặc, có thể được sử dụng để tổng hợp các khung hình trong tương lai và chuyển đổi hình ảnh tĩnh thành hình ảnh động thực tế.
Tiếp theo, chúng ta hãy xem nó được thực hiện như thế nào?
Giới thiệu công nghệ
Dựa trên một hình ảnh duy nhất
, mục tiêu của nhà nghiên cứu là tạo ra một video có độ dài T
, video này có thể hiển thị hình ảnh cây cối, hoa hoặc ngọn nến sống động đung đưa trong gió.
Hệ thống được các nhà nghiên cứu xây dựng bao gồm hai mô-đun: "mô-đun dự đoán hành động" và "mô-đun kết xuất dựa trên hình ảnh".
Đầu tiên, các nhà nghiên cứu sử dụng “mô hình khuếch tán tiềm ẩn” làm hình ảnh đầu vào
Dự đoán kết cấu chuyển động ngẫu nhiên thần kinh
Nó là biểu diễn tần số của quỹ đạo chuyển động của từng pixel trong ảnh đầu vào.
Trong bước thứ hai, phép biến đổi Fourier rời rạc nghịch đảo được sử dụng để chuyển đổi kết cấu chuyển động ngẫu nhiên được dự đoán thành một chuỗi các trường dịch chuyển chuyển động.
。
Các trường dịch chuyển chuyển động này sẽ được sử dụng để xác định vị trí của từng pixel đầu vào ở mỗi bước thời gian trong tương lai.
Với các trường chuyển động được dự đoán này, mô-đun kết xuất của các nhà nghiên cứu sử dụng kỹ thuật kết xuất dựa trên hình ảnh để chọn các đặc điểm mã hóa từ hình ảnh RGB đầu vào và giải mã các đặc điểm đã chọn này thành các khung đầu ra thông qua mạng tổng hợp hình ảnh.
Kết cấu chuyển động ngẫu nhiên thần kinh
kết cấu chuyển động
Trong nghiên cứu trước đây, kết cấu chuyển động đã xác định một loạt bản đồ dịch chuyển 2D thay đổi theo thời gian.
ở đâu, tọa độ mỗi pixel p, từ hình ảnh đầu vào
Vectơ dịch chuyển 2D xác định vị trí của pixel tại thời điểm t trong tương lai.
Để tạo khung tương lai tại thời điểm t, có thể sử dụng bản đồ dịch chuyển tương ứng, từ
Chọn các pixel từ , dẫn đến hình ảnh bị biến dạng về phía trước:
Kết cấu chuyển động ngẫu nhiên
Như đã được chứng minh trước đây trong nghiên cứu đồ họa máy tính, nhiều chuyển động tự nhiên, đặc biệt là chuyển động dao động, có thể được mô tả là sự chồng chất của một tập hợp nhỏ các bộ dao động điều hòa, được biểu thị bằng các tần số, biên độ và pha khác nhau.
Một cách để tạo ra tính ngẫu nhiên trong chuyển động là tích hợp các trường nhiễu. Nhưng như nghiên cứu trước đây đã chỉ ra, việc thêm nhiễu ngẫu nhiên trực tiếp vào miền không gian và thời gian của các trường chuyển động được dự đoán thường dẫn đến hình ảnh động không thực tế hoặc không ổn định.
Hơn nữa, việc sử dụng kết cấu chuyển động trong miền thời gian được xác định ở trên có nghĩa là các trường dịch chuyển T 2D cần được dự đoán để tạo ra phân đoạn video chứa khung T. Để tránh dự đoán biểu diễn đầu ra lớn như vậy, nhiều phương pháp hoạt hình trước đó tạo khung hình video tự động hoặc dự đoán độc lập từng khung hình đầu ra trong tương lai thông qua việc nhúng tạm thời bổ sung.
Tuy nhiên, cả hai chiến lược đều không đảm bảo rằng các khung hình video được tạo nhất quán về mặt thời gian trong thời gian dài và cả hai đều có thể tạo ra các video bị lệch hoặc lệch theo thời gian.
Để giải quyết các vấn đề trên, các nhà nghiên cứu biểu diễn kết cấu chuyển động trên mỗi pixel của cảnh đầu vào trong miền tần số (tức là quỹ đạo chuyển động hoàn chỉnh của tất cả các pixel) và hình thành vấn đề dự đoán chuyển động dưới dạng chuyển đổi hình ảnh sang hình ảnh đa phương thức nhiệm vụ.
Các nhà nghiên cứu đã sử dụng mô hình khuếch tán tiềm ẩn (LDM) để tạo ra kết cấu chuyển động ngẫu nhiên bao gồm phổ chuyển động 2D kênh 4K, trong đó K << T là số tần số được mô hình hóa và ở mỗi tần số, các nhà nghiên cứu cần bốn đại lượng vô hướng để biểu thị các hệ số Fourier phức tạp theo chiều x và y.
Hình ảnh dưới đây cho thấy các kết cấu chuyển động ngẫu nhiên thần kinh này.
Vậy tần số đầu ra K mà các nhà nghiên cứu chỉ ra nên được chọn như thế nào? Nghiên cứu trước đây về hoạt hình thời gian thực đã chỉ ra rằng hầu hết chuyển động dao động tự nhiên chủ yếu bao gồm các thành phần tần số thấp.
Để kiểm tra giả thuyết này, các nhà nghiên cứu đã tính toán phổ công suất trung bình của chuyển động được trích xuất từ 1.000 video clip thực dài 5 giây được lấy mẫu ngẫu nhiên. Như trong hình bên trái bên dưới, nguồn điện chủ yếu tập trung vào các thành phần tần số thấp.
Phổ tần số của một hành động giảm theo cấp số nhân khi tần số tăng dần. Điều này cho thấy rằng hầu hết các hành động rung động tự nhiên thực sự có thể được biểu diễn tốt bằng các thuật ngữ tần số thấp.
Trong thực tế, các nhà nghiên cứu nhận thấy rằng hệ số Fourier K = 16 đầu tiên đủ để tái tạo trung thực các chuyển động tự nhiên nguyên bản trong nhiều video và cảnh thực.
Sử dụng mô hình khuếch tán để dự đoán hành động
Các nhà nghiên cứu đã chọn mô hình khuếch tán tiềm ẩn (LDM) làm cốt lõi của mô-đun dự đoán hành động của các nhà nghiên cứu vì LDM có hiệu quả tính toán cao hơn mô hình khuếch tán không gian pixel trong khi vẫn duy trì chất lượng tạo ra.
Một LDM tiêu chuẩn chủ yếu bao gồm hai mô-đun:
Bộ mã hóa tự động biến thiên (VAE) nén hình ảnh đầu vào vào không gian tiềm ẩn thông qua bộ mã hóa z = E(I), sau đó tái tạo lại đầu vào từ các đặc điểm tiềm ẩn thông qua bộ giải mã I = D(z).
Một mô hình khuếch tán dựa trên U-Net, học cách khử nhiễu lặp đi lặp lại các tính năng tiềm ẩn bắt đầu từ nhiễu ngẫu nhiên Gaussian.
Quá trình đào tạo của các nhà nghiên cứu không được áp dụng cho hình ảnh đầu vào mà cho các kết cấu hành động ngẫu nhiên từ các chuỗi video thực, được mã hóa và sau đó khuếch tán n bước trong một lịch trình phương sai được xác định trước để tạo ra các biến tiềm ẩn nhiễu zn.
Chuẩn hóa thích ứng tần số
Các nhà nghiên cứu đã quan sát thấy một vấn đề trong đó kết cấu hành động ngẫu nhiên có đặc tính phân bố tần số cụ thể. Như được hiển thị trong bảng bên trái của hình ảnh trên, biên độ kết cấu chuyển động của các nhà nghiên cứu dao động từ 0 đến 100 và giảm dần theo cấp số nhân khi tần số tăng.
Vì các mô hình khuếch tán yêu cầu giá trị đầu ra trong khoảng từ 0 đến 1 để huấn luyện và khử nhiễu ổn định nên các nhà nghiên cứu phải chuẩn hóa hệ số S được trích xuất từ video thực trước khi huấn luyện với chúng.
Nếu các nhà nghiên cứu chia tỷ lệ độ lớn của các hệ số S thành [0,1] dựa trên chiều rộng và chiều cao của hình ảnh thì hầu như tất cả các hệ số sẽ gần bằng 0 ở tần số cao hơn, như thể hiện trong hình trên (phải).
Các mô hình được đào tạo trên dữ liệu như vậy có thể tạo ra các hành động không chính xác vì trong quá trình suy luận, ngay cả các lỗi dự đoán nhỏ cũng có thể dẫn đến lỗi tương đối lớn sau khi không chuẩn hóa, khi S được chuẩn hóa có độ lớn của hệ số rất gần bằng 0.
Để giải quyết vấn đề này, các nhà nghiên cứu đã sử dụng một kỹ thuật chuẩn hóa thích ứng tần số đơn giản nhưng hiệu quả. Cụ thể, trước tiên các nhà nghiên cứu đã chuẩn hóa hệ số Fourier ở mỗi tần số một cách độc lập dựa trên số liệu thống kê được tính toán từ tập huấn luyện.
Khử nhiễu phối hợp tần số
Một cách đơn giản để dự đoán kết cấu hành động ngẫu nhiên S với dải tần K là xuất ra một tenxơ có kênh 4K từ U-Net khuếch tán tiêu chuẩn.
Tuy nhiên, việc huấn luyện một mô hình để tạo ra số lượng kênh lớn như vậy thường tạo ra kết quả đầu ra quá mượt mà và không chính xác.
Một cách tiếp cận khác là dự đoán biểu đồ phổ hành động ở từng tần số riêng lẻ một cách độc lập bằng cách đưa các tần số nhúng bổ sung vào LDM, nhưng điều này dẫn đến những dự đoán không liên quan trong miền tần số và do đó các hành động không thực tế.
Do đó, các nhà nghiên cứu đã đề xuất chiến lược khử nhiễu phối hợp theo tần số như trong hình bên dưới. Cụ thể, với hình ảnh đầu vào I0, trước tiên chúng tôi huấn luyện LDM để dự đoán bản đồ kết cấu hành động ngẫu nhiên với bốn kênh cho mỗi tần số riêng lẻ, trong đó chúng tôi đưa các phần nhúng tần số bổ sung vào LDM cùng với các phần nhúng bước thời gian trong mạng.
### Hiển thị dựa trên hình ảnh
Các nhà nghiên cứu mô tả thêm cách hiển thị một khung hình tại thời điểm t trong tương lai bằng cách sử dụng kết cấu chuyển động ngẫu nhiên S được dự đoán cho hình ảnh đầu vào I0 nhất định. Đầu tiên, các nhà nghiên cứu sử dụng miền thời gian nghịch đảo FFT (Biến đổi Fourier nhanh) để tính toán trường quỹ đạo chuyển động tại mỗi điểm pixel p
Các trường quỹ đạo chuyển động này xác định vị trí của từng pixel đầu vào ở mỗi bước thời gian trong tương lai. Để tạo ra các khung hình trong tương lai, các nhà nghiên cứu sử dụng kỹ thuật kết xuất dựa trên hình ảnh có chiều sâu và thực hiện cong vênh về phía trước (tách) bằng cách sử dụng trường chuyển động được dự đoán để làm cong I0 được mã hóa, như minh họa trong hình bên dưới.
Do cong vênh về phía trước có thể gây ra các lỗ hổng trong hình ảnh và nhiều pixel nguồn có thể được ánh xạ tới cùng một vị trí 2D đầu ra, nên các nhà nghiên cứu đã áp dụng chiến lược cong vênh kim tự tháp đặc trưng Softmax được đề xuất trước đây trong nghiên cứu nội suy khung.
Chúng tôi cùng đào tạo mạng tổng hợp và trích xuất tính năng với các khung bắt đầu và khung đích được lấy mẫu ngẫu nhiên từ video thực, trong đó chúng tôi sử dụng trường luồng ước tính từ I0 đến It để làm sai lệch các tính năng được mã hóa của I0 và sử dụng tổn thất nhận thức VGG để dự đoán ˆNó thực hiện giám sát .
Như đã trình bày ở trên, tính năng cong vênh nhận biết chuyển động của chúng tôi tạo ra một khung không có lỗ hoặc tạo tác so với các phương pháp cong vênh trung bình trực tiếp và cong vênh độ sâu đường cơ sở.
Các ứng dụng mở rộng hơn nữa
Các nhà nghiên cứu đã chứng minh thêm ứng dụng thêm hiệu ứng động vào một hình ảnh tĩnh duy nhất bằng cách sử dụng quy trình biểu diễn chuyển động và hoạt ảnh do các nhà nghiên cứu đề xuất.
Hình ảnh thành video
Hệ thống của các nhà nghiên cứu tạo hoạt ảnh cho một hình ảnh tĩnh bằng cách trước tiên dự đoán kết cấu chuyển động ngẫu nhiên thần kinh từ hình ảnh đầu vào và bằng cách áp dụng mô-đun kết xuất dựa trên hình ảnh của nhà nghiên cứu vào trường dịch chuyển chuyển động bắt nguồn từ kết cấu chuyển động ngẫu nhiên.
Bởi vì chúng tôi đã mô hình hóa chuyển động của cảnh một cách rõ ràng, điều này cho phép chúng tôi tạo các video chuyển động chậm bằng cách nội suy tuyến tính các trường dịch chuyển chuyển động và phóng to (hoặc thu nhỏ) chuyển động hoạt hình bằng cách điều chỉnh biên độ của các hệ số kết cấu chuyển động ngẫu nhiên được dự đoán.
** Vòng lặp liền mạch **
Đôi khi, việc tạo video có chuyển động lặp liền mạch sẽ rất hữu ích, nghĩa là không có sự gián đoạn về hình thức hoặc chuyển động giữa phần đầu và phần cuối của video.
Thật không may, rất khó để tìm được một tập hợp lớn các video lặp liền mạch. Do đó, các nhà nghiên cứu đã nghĩ ra một phương pháp sử dụng mô hình khuếch tán chuyển động của các nhà nghiên cứu, vốn đã được huấn luyện trên các video clip không lặp lại thông thường, để tạo ra các video lặp lại liền mạch.
Lấy cảm hứng từ nghiên cứu gần đây về chỉnh sửa hình ảnh có hướng dẫn, phương pháp tiếp cận của các nhà nghiên cứu là kỹ thuật tự hướng dẫn chuyển động sử dụng các ràng buộc vòng lặp rõ ràng để hướng dẫn quá trình lấy mẫu khử nhiễu chuyển động.
Cụ thể, trong mỗi bước khử nhiễu lặp đi lặp lại của giai đoạn suy luận, các nhà nghiên cứu đã đưa vào một tín hiệu hướng dẫn chuyển động bổ sung cùng với hướng dẫn không có bộ phân loại tiêu chuẩn, trong đó chúng tôi buộc mỗi pixel phải ở vị trí khung hình bắt đầu và kết thúc và Tốc độ càng giống nhau càng tốt.
Tạo hoạt ảnh tương tác từ một hình ảnh
Phổ chuyển động không gian hình ảnh trong video được quan sát của một vật thể dao động gần đúng với cơ sở phương thức rung động vật lý của vật thể.
Các hình dạng phương thức nắm bắt động lực dao động của một vật thể ở các tần số khác nhau, do đó, có thể sử dụng các phép chiếu không gian hình ảnh của các kiểu rung của vật thể để mô hình hóa phản ứng của vật thể đối với một lực do người dùng xác định, chẳng hạn như chọc hoặc kéo.
Do đó, các nhà nghiên cứu đã sử dụng một kỹ thuật phân tích phương thức đã được nghiên cứu trước đó, kỹ thuật này giả định rằng chuyển động của một vật thể có thể được giải thích bằng sự chồng chất của một tập hợp các bộ cộng hưởng.
Điều này cho phép các nhà nghiên cứu viết trường dịch chuyển chuyển động hai chiều trong không gian hình ảnh của phản ứng vật lý của đối tượng dưới dạng tổng trọng số của các hệ số phổ Fourier và tọa độ phương thức phức tạp của từng bước thời gian mô phỏng t và thời gian t.
Đánh giá thực nghiệm
Nhóm nghiên cứu đã tiến hành so sánh định lượng giữa phương pháp mới nhất và phương pháp cơ bản trên một tập hợp thử nghiệm các video clip chưa xem.
Người ta nhận thấy rằng phương pháp tiếp cận của Google vượt trội đáng kể so với các đường cơ sở hoạt hình một hình ảnh trước đây về cả chất lượng tổng hợp hình ảnh và video.
Cụ thể, khoảng cách FVD và DT-FVD của Google thấp hơn nhiều, cho thấy video được tạo bằng phương pháp này chân thực hơn và mạch lạc hơn về mặt thời gian.
Hơn nữa, Hình 6 hiển thị khoảng cách FID của cửa sổ trượt và cửa sổ trượt DT-FVD của video được tạo bằng các phương pháp khác nhau.
Vì Google sử dụng cách trình bày kết cấu chuyển động ngẫu nhiên toàn cầu nên cách tiếp cận của Google tạo ra các video nhất quán hơn theo thời gian và không bị trôi hoặc giảm chất lượng theo thời gian.
Ngoài ra, nhóm Google đã tiến hành so sánh chất lượng trực quan giữa phương pháp của chính họ và các video do đường cơ sở tạo ra theo hai cách.
Đầu tiên, lát cắt không gian thời gian Xt của video được tạo được hiển thị, như trong Hình 7.
Động lực của các video do Google tạo tương tự hơn với các mẫu chuyển động được quan sát trong các video tham chiếu thực tương ứng (cột thứ hai). Các đường cơ sở như I2V ngẫu nhiên và MCVD không thể mô phỏng thực tế diện mạo và chuyển động theo thời gian.
Chúng tôi cũng dự đoán hình ảnh bằng cách hình dung
và trường dịch chuyển chuyển động tương ứng của nó tại thời điểm t = 128. So sánh định tính chất lượng của từng khung hình và chuyển động được tạo ra theo các phương pháp khác nhau.
Phương pháp do Google tạo tạo ra các khung có ít hiện tượng giả và biến dạng hơn so với các phương pháp khác, đồng thời các trường chuyển động 2D tương ứng gần giống nhất với các trường dịch chuyển tham chiếu được ước tính từ các video thực tương ứng.
Nghiên cứu cắt bỏ: Theo quan sát từ Bảng 2, tất cả các cấu hình đơn giản hơn hoặc thay thế đều dẫn đến hiệu suất kém hơn so với mô hình đầy đủ.
Giới thiệu về tác giả
Lý Chính Kỳ
Zhengqi Li là nhà khoa học nghiên cứu tại Google Research. Mối quan tâm nghiên cứu của ông bao gồm thị giác máy tính 3D/4D, kết xuất dựa trên hình ảnh và chụp ảnh điện toán, đặc biệt là các hình ảnh và video hoang dã. Anh nhận bằng Tiến sĩ Khoa học Máy tính tại Đại học Cornell, nơi anh được hướng dẫn bởi Noah Snavely.
Ông là người nhận được Giải thưởng Đề cập Danh dự về Bài báo Xuất sắc nhất CVPR 2019, Học bổng Tiến sĩ Google năm 2020, Học bổng Nghiên cứu Adobe năm 2020, Giải thưởng Top 100 Ngôi sao Mới nổi Trung Quốc về Trí tuệ Nhân tạo Toàn cầu năm 2021 và Giải thưởng Danh dự Bài báo Xuất sắc nhất CVPR 2023.
Người giới thiệu:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Với một cái kéo và kéo, bông hồng trở nên sống động! Google đề xuất động lực hình ảnh tổng quát và mọi thứ sẽ tồn tại kể từ bây giờ
Nguồn gốc: Xinzhiyuan
Hãy nhìn xem, chỉ cần kéo nhẹ, bông hồng sẽ bắt đầu chuyển động.
Cuối cùng, nó đã được triển khai và thậm chí có thể tạo ra một vòng lặp video vô tận bằng cách tương tác với một hình ảnh duy nhất.
Trong tương lai, trí tưởng tượng của nghệ sĩ sẽ không còn bị giới hạn bởi những khuôn khổ truyền thống và mọi thứ sẽ có thể thực hiện được trong không gian hình ảnh năng động này.
Mọi thứ trong ảnh đều trở nên sống động
Sự chuyển động của mọi thứ trên thế giới là đa phương thức.
Bộ quần áo treo ngoài sân đung đưa theo gió.
Nhấc một bức ảnh lên, các nhà nghiên cứu có thể tưởng tượng nó chuyển động như thế nào khi bức ảnh được chụp.
Với sự phát triển hiện nay của các mô hình tổng quát, đặc biệt là các mô hình khuếch tán, có thể mô hình hóa các phân phối rất phong phú và phức tạp.
Điều này làm cho nhiều ứng dụng mà trước đây không thể thực hiện được, chẳng hạn như tạo ra các hình ảnh thực tế tùy ý từ văn bản. Ngoài việc hữu ích trong trường hình ảnh, mô hình khuếch tán còn có thể được sử dụng để mô hình hóa trường video.
Mô hình được huấn luyện dựa trên quỹ đạo chuyển động được trích xuất tự động từ một số lượng lớn chuỗi video thực.
Dựa trên hình ảnh đầu vào, mô hình được đào tạo dự đoán "kết cấu chuyển động ngẫu nhiên thần kinh": một tập hợp các hệ số chuyển động cơ bản mô tả quỹ đạo tương lai của mỗi pixel.
Sau đó, một mô hình khuếch tán được sử dụng để dự đoán "kết cấu chuyển động ngẫu nhiên thần kinh." Mô hình này chỉ tạo ra các hệ số cho một tần số tại một thời điểm nhưng phối hợp các dự đoán này trên các dải tần số khác nhau.
Kết cấu không gian tần số thu được có thể được chuyển đổi thành các quỹ đạo chuyển động pixel đường dài dày đặc, có thể được sử dụng để tổng hợp các khung hình trong tương lai và chuyển đổi hình ảnh tĩnh thành hình ảnh động thực tế.
Giới thiệu công nghệ
Dựa trên một hình ảnh duy nhất
Hệ thống được các nhà nghiên cứu xây dựng bao gồm hai mô-đun: "mô-đun dự đoán hành động" và "mô-đun kết xuất dựa trên hình ảnh".
Đầu tiên, các nhà nghiên cứu sử dụng “mô hình khuếch tán tiềm ẩn” làm hình ảnh đầu vào
Trong bước thứ hai, phép biến đổi Fourier rời rạc nghịch đảo được sử dụng để chuyển đổi kết cấu chuyển động ngẫu nhiên được dự đoán thành một chuỗi các trường dịch chuyển chuyển động.
Các trường dịch chuyển chuyển động này sẽ được sử dụng để xác định vị trí của từng pixel đầu vào ở mỗi bước thời gian trong tương lai.
Với các trường chuyển động được dự đoán này, mô-đun kết xuất của các nhà nghiên cứu sử dụng kỹ thuật kết xuất dựa trên hình ảnh để chọn các đặc điểm mã hóa từ hình ảnh RGB đầu vào và giải mã các đặc điểm đã chọn này thành các khung đầu ra thông qua mạng tổng hợp hình ảnh.
Kết cấu chuyển động ngẫu nhiên thần kinh
kết cấu chuyển động
Trong nghiên cứu trước đây, kết cấu chuyển động đã xác định một loạt bản đồ dịch chuyển 2D thay đổi theo thời gian.
Để tạo khung tương lai tại thời điểm t, có thể sử dụng bản đồ dịch chuyển tương ứng, từ
Như đã được chứng minh trước đây trong nghiên cứu đồ họa máy tính, nhiều chuyển động tự nhiên, đặc biệt là chuyển động dao động, có thể được mô tả là sự chồng chất của một tập hợp nhỏ các bộ dao động điều hòa, được biểu thị bằng các tần số, biên độ và pha khác nhau.
Một cách để tạo ra tính ngẫu nhiên trong chuyển động là tích hợp các trường nhiễu. Nhưng như nghiên cứu trước đây đã chỉ ra, việc thêm nhiễu ngẫu nhiên trực tiếp vào miền không gian và thời gian của các trường chuyển động được dự đoán thường dẫn đến hình ảnh động không thực tế hoặc không ổn định.
Hơn nữa, việc sử dụng kết cấu chuyển động trong miền thời gian được xác định ở trên có nghĩa là các trường dịch chuyển T 2D cần được dự đoán để tạo ra phân đoạn video chứa khung T. Để tránh dự đoán biểu diễn đầu ra lớn như vậy, nhiều phương pháp hoạt hình trước đó tạo khung hình video tự động hoặc dự đoán độc lập từng khung hình đầu ra trong tương lai thông qua việc nhúng tạm thời bổ sung.
Tuy nhiên, cả hai chiến lược đều không đảm bảo rằng các khung hình video được tạo nhất quán về mặt thời gian trong thời gian dài và cả hai đều có thể tạo ra các video bị lệch hoặc lệch theo thời gian.
Để giải quyết các vấn đề trên, các nhà nghiên cứu biểu diễn kết cấu chuyển động trên mỗi pixel của cảnh đầu vào trong miền tần số (tức là quỹ đạo chuyển động hoàn chỉnh của tất cả các pixel) và hình thành vấn đề dự đoán chuyển động dưới dạng chuyển đổi hình ảnh sang hình ảnh đa phương thức nhiệm vụ.
Các nhà nghiên cứu đã sử dụng mô hình khuếch tán tiềm ẩn (LDM) để tạo ra kết cấu chuyển động ngẫu nhiên bao gồm phổ chuyển động 2D kênh 4K, trong đó K << T là số tần số được mô hình hóa và ở mỗi tần số, các nhà nghiên cứu cần bốn đại lượng vô hướng để biểu thị các hệ số Fourier phức tạp theo chiều x và y.
Hình ảnh dưới đây cho thấy các kết cấu chuyển động ngẫu nhiên thần kinh này.
Để kiểm tra giả thuyết này, các nhà nghiên cứu đã tính toán phổ công suất trung bình của chuyển động được trích xuất từ 1.000 video clip thực dài 5 giây được lấy mẫu ngẫu nhiên. Như trong hình bên trái bên dưới, nguồn điện chủ yếu tập trung vào các thành phần tần số thấp.
Trong thực tế, các nhà nghiên cứu nhận thấy rằng hệ số Fourier K = 16 đầu tiên đủ để tái tạo trung thực các chuyển động tự nhiên nguyên bản trong nhiều video và cảnh thực.
Sử dụng mô hình khuếch tán để dự đoán hành động
Các nhà nghiên cứu đã chọn mô hình khuếch tán tiềm ẩn (LDM) làm cốt lõi của mô-đun dự đoán hành động của các nhà nghiên cứu vì LDM có hiệu quả tính toán cao hơn mô hình khuếch tán không gian pixel trong khi vẫn duy trì chất lượng tạo ra.
Một LDM tiêu chuẩn chủ yếu bao gồm hai mô-đun:
Bộ mã hóa tự động biến thiên (VAE) nén hình ảnh đầu vào vào không gian tiềm ẩn thông qua bộ mã hóa z = E(I), sau đó tái tạo lại đầu vào từ các đặc điểm tiềm ẩn thông qua bộ giải mã I = D(z).
Một mô hình khuếch tán dựa trên U-Net, học cách khử nhiễu lặp đi lặp lại các tính năng tiềm ẩn bắt đầu từ nhiễu ngẫu nhiên Gaussian.
Quá trình đào tạo của các nhà nghiên cứu không được áp dụng cho hình ảnh đầu vào mà cho các kết cấu hành động ngẫu nhiên từ các chuỗi video thực, được mã hóa và sau đó khuếch tán n bước trong một lịch trình phương sai được xác định trước để tạo ra các biến tiềm ẩn nhiễu zn.
Chuẩn hóa thích ứng tần số
Các nhà nghiên cứu đã quan sát thấy một vấn đề trong đó kết cấu hành động ngẫu nhiên có đặc tính phân bố tần số cụ thể. Như được hiển thị trong bảng bên trái của hình ảnh trên, biên độ kết cấu chuyển động của các nhà nghiên cứu dao động từ 0 đến 100 và giảm dần theo cấp số nhân khi tần số tăng.
Vì các mô hình khuếch tán yêu cầu giá trị đầu ra trong khoảng từ 0 đến 1 để huấn luyện và khử nhiễu ổn định nên các nhà nghiên cứu phải chuẩn hóa hệ số S được trích xuất từ video thực trước khi huấn luyện với chúng.
Nếu các nhà nghiên cứu chia tỷ lệ độ lớn của các hệ số S thành [0,1] dựa trên chiều rộng và chiều cao của hình ảnh thì hầu như tất cả các hệ số sẽ gần bằng 0 ở tần số cao hơn, như thể hiện trong hình trên (phải).
Các mô hình được đào tạo trên dữ liệu như vậy có thể tạo ra các hành động không chính xác vì trong quá trình suy luận, ngay cả các lỗi dự đoán nhỏ cũng có thể dẫn đến lỗi tương đối lớn sau khi không chuẩn hóa, khi S được chuẩn hóa có độ lớn của hệ số rất gần bằng 0.
Để giải quyết vấn đề này, các nhà nghiên cứu đã sử dụng một kỹ thuật chuẩn hóa thích ứng tần số đơn giản nhưng hiệu quả. Cụ thể, trước tiên các nhà nghiên cứu đã chuẩn hóa hệ số Fourier ở mỗi tần số một cách độc lập dựa trên số liệu thống kê được tính toán từ tập huấn luyện.
Khử nhiễu phối hợp tần số
Một cách đơn giản để dự đoán kết cấu hành động ngẫu nhiên S với dải tần K là xuất ra một tenxơ có kênh 4K từ U-Net khuếch tán tiêu chuẩn.
Tuy nhiên, việc huấn luyện một mô hình để tạo ra số lượng kênh lớn như vậy thường tạo ra kết quả đầu ra quá mượt mà và không chính xác.
Một cách tiếp cận khác là dự đoán biểu đồ phổ hành động ở từng tần số riêng lẻ một cách độc lập bằng cách đưa các tần số nhúng bổ sung vào LDM, nhưng điều này dẫn đến những dự đoán không liên quan trong miền tần số và do đó các hành động không thực tế.
Do đó, các nhà nghiên cứu đã đề xuất chiến lược khử nhiễu phối hợp theo tần số như trong hình bên dưới. Cụ thể, với hình ảnh đầu vào I0, trước tiên chúng tôi huấn luyện LDM để dự đoán bản đồ kết cấu hành động ngẫu nhiên với bốn kênh cho mỗi tần số riêng lẻ, trong đó chúng tôi đưa các phần nhúng tần số bổ sung vào LDM cùng với các phần nhúng bước thời gian trong mạng.
Các nhà nghiên cứu mô tả thêm cách hiển thị một khung hình tại thời điểm t trong tương lai bằng cách sử dụng kết cấu chuyển động ngẫu nhiên S được dự đoán cho hình ảnh đầu vào I0 nhất định. Đầu tiên, các nhà nghiên cứu sử dụng miền thời gian nghịch đảo FFT (Biến đổi Fourier nhanh) để tính toán trường quỹ đạo chuyển động tại mỗi điểm pixel p
Chúng tôi cùng đào tạo mạng tổng hợp và trích xuất tính năng với các khung bắt đầu và khung đích được lấy mẫu ngẫu nhiên từ video thực, trong đó chúng tôi sử dụng trường luồng ước tính từ I0 đến It để làm sai lệch các tính năng được mã hóa của I0 và sử dụng tổn thất nhận thức VGG để dự đoán ˆNó thực hiện giám sát .
Các ứng dụng mở rộng hơn nữa
Các nhà nghiên cứu đã chứng minh thêm ứng dụng thêm hiệu ứng động vào một hình ảnh tĩnh duy nhất bằng cách sử dụng quy trình biểu diễn chuyển động và hoạt ảnh do các nhà nghiên cứu đề xuất.
Hình ảnh thành video
Hệ thống của các nhà nghiên cứu tạo hoạt ảnh cho một hình ảnh tĩnh bằng cách trước tiên dự đoán kết cấu chuyển động ngẫu nhiên thần kinh từ hình ảnh đầu vào và bằng cách áp dụng mô-đun kết xuất dựa trên hình ảnh của nhà nghiên cứu vào trường dịch chuyển chuyển động bắt nguồn từ kết cấu chuyển động ngẫu nhiên.
Bởi vì chúng tôi đã mô hình hóa chuyển động của cảnh một cách rõ ràng, điều này cho phép chúng tôi tạo các video chuyển động chậm bằng cách nội suy tuyến tính các trường dịch chuyển chuyển động và phóng to (hoặc thu nhỏ) chuyển động hoạt hình bằng cách điều chỉnh biên độ của các hệ số kết cấu chuyển động ngẫu nhiên được dự đoán.
** Vòng lặp liền mạch **
Đôi khi, việc tạo video có chuyển động lặp liền mạch sẽ rất hữu ích, nghĩa là không có sự gián đoạn về hình thức hoặc chuyển động giữa phần đầu và phần cuối của video.
Thật không may, rất khó để tìm được một tập hợp lớn các video lặp liền mạch. Do đó, các nhà nghiên cứu đã nghĩ ra một phương pháp sử dụng mô hình khuếch tán chuyển động của các nhà nghiên cứu, vốn đã được huấn luyện trên các video clip không lặp lại thông thường, để tạo ra các video lặp lại liền mạch.
Lấy cảm hứng từ nghiên cứu gần đây về chỉnh sửa hình ảnh có hướng dẫn, phương pháp tiếp cận của các nhà nghiên cứu là kỹ thuật tự hướng dẫn chuyển động sử dụng các ràng buộc vòng lặp rõ ràng để hướng dẫn quá trình lấy mẫu khử nhiễu chuyển động.
Cụ thể, trong mỗi bước khử nhiễu lặp đi lặp lại của giai đoạn suy luận, các nhà nghiên cứu đã đưa vào một tín hiệu hướng dẫn chuyển động bổ sung cùng với hướng dẫn không có bộ phân loại tiêu chuẩn, trong đó chúng tôi buộc mỗi pixel phải ở vị trí khung hình bắt đầu và kết thúc và Tốc độ càng giống nhau càng tốt.
Tạo hoạt ảnh tương tác từ một hình ảnh
Phổ chuyển động không gian hình ảnh trong video được quan sát của một vật thể dao động gần đúng với cơ sở phương thức rung động vật lý của vật thể.
Các hình dạng phương thức nắm bắt động lực dao động của một vật thể ở các tần số khác nhau, do đó, có thể sử dụng các phép chiếu không gian hình ảnh của các kiểu rung của vật thể để mô hình hóa phản ứng của vật thể đối với một lực do người dùng xác định, chẳng hạn như chọc hoặc kéo.
Do đó, các nhà nghiên cứu đã sử dụng một kỹ thuật phân tích phương thức đã được nghiên cứu trước đó, kỹ thuật này giả định rằng chuyển động của một vật thể có thể được giải thích bằng sự chồng chất của một tập hợp các bộ cộng hưởng.
Điều này cho phép các nhà nghiên cứu viết trường dịch chuyển chuyển động hai chiều trong không gian hình ảnh của phản ứng vật lý của đối tượng dưới dạng tổng trọng số của các hệ số phổ Fourier và tọa độ phương thức phức tạp của từng bước thời gian mô phỏng t và thời gian t.
Đánh giá thực nghiệm
Nhóm nghiên cứu đã tiến hành so sánh định lượng giữa phương pháp mới nhất và phương pháp cơ bản trên một tập hợp thử nghiệm các video clip chưa xem.
Người ta nhận thấy rằng phương pháp tiếp cận của Google vượt trội đáng kể so với các đường cơ sở hoạt hình một hình ảnh trước đây về cả chất lượng tổng hợp hình ảnh và video.
Cụ thể, khoảng cách FVD và DT-FVD của Google thấp hơn nhiều, cho thấy video được tạo bằng phương pháp này chân thực hơn và mạch lạc hơn về mặt thời gian.
Vì Google sử dụng cách trình bày kết cấu chuyển động ngẫu nhiên toàn cầu nên cách tiếp cận của Google tạo ra các video nhất quán hơn theo thời gian và không bị trôi hoặc giảm chất lượng theo thời gian.
Đầu tiên, lát cắt không gian thời gian Xt của video được tạo được hiển thị, như trong Hình 7.
Động lực của các video do Google tạo tương tự hơn với các mẫu chuyển động được quan sát trong các video tham chiếu thực tương ứng (cột thứ hai). Các đường cơ sở như I2V ngẫu nhiên và MCVD không thể mô phỏng thực tế diện mạo và chuyển động theo thời gian.
Phương pháp do Google tạo tạo ra các khung có ít hiện tượng giả và biến dạng hơn so với các phương pháp khác, đồng thời các trường chuyển động 2D tương ứng gần giống nhất với các trường dịch chuyển tham chiếu được ước tính từ các video thực tương ứng.
Giới thiệu về tác giả
Lý Chính Kỳ
Ông là người nhận được Giải thưởng Đề cập Danh dự về Bài báo Xuất sắc nhất CVPR 2019, Học bổng Tiến sĩ Google năm 2020, Học bổng Nghiên cứu Adobe năm 2020, Giải thưởng Top 100 Ngôi sao Mới nổi Trung Quốc về Trí tuệ Nhân tạo Toàn cầu năm 2021 và Giải thưởng Danh dự Bài báo Xuất sắc nhất CVPR 2023.
Người giới thiệu: