Hàng chục triệu người theo dõi hình ảnh "em bé bị cháy"! Giáo sư Berkeley bác bỏ tin đồn rằng máy dò hình ảnh AI là vô dụng

2023-10-15 08:45:32

Nguồn bài viết: Shin Ji Yuan

Không phải vô cớ mà AI không thể đánh bại AI. Gần đây, hàng chục triệu người đã xem những bức ảnh về cái chết của trẻ sơ sinh và các công cụ phát hiện AI vẫn chưa thể đưa ra câu trả lời nhất quán.

Máy dò hình ảnh AI được rửa lại!

Gần đây, một số lượng lớn các bức ảnh về các cuộc xung đột ở Trung Đông đã được công bố trên Internet, cho thế giới thấy cuộc sống mong manh và bất lực như thế nào trong những điều kiện khắc nghiệt như vậy.

Trong số đó, một bức ảnh của một "em bé bị cháy" là quá tàn nhẫn để trở thành sự thật.

Vì vậy, ai đó đã đưa các bức ảnh vào máy dò hình ảnh AI để phát hiện xem những bức ảnh này có phải do AI tạo ra hay không.

Chắc chắn, bức ảnh được xác định là "do AI tạo ra" bởi máy dò AI Optic.

Trên 4chan, thậm chí còn có một "bức tranh gốc", và vị trí ban đầu của cơ thể thực sự là một.

Vì vậy, cư dân mạng tức giận đi đến cuối dòng tweet của nhà xuất bản, tấn công anh ta vì đã sử dụng những bức ảnh do AI tạo ra để lan truyền sự hoảng loạn ngày tận thế giả tạo.

Dòng tweet, tin rằng bức ảnh được tạo ra bởi AI, đã được 21 triệu người đọc trong vòng chưa đầy 2 ngày.

Nhưng ngay sau đó, cư dân mạng phát hiện ra rằng họ đặt các bức ảnh trên cùng một máy dò AI và kết quả gần như ngẫu nhiên, cả AI và con người.

Ai đó đã phát hiện ra rằng miễn là cùng một hình ảnh bị cắt, hoặc màu nền được thay đổi thành đen trắng, máy dò sẽ nghĩ rằng hình ảnh được chụp bởi con người.

Thậm chí, đôi khi khi máy dò "tung đồng xu", đồng xu sẽ đứng lên...

Vậy biểu đồ này có được tạo ra bởi AI không?

Cuối cùng, quan chức phát hiện AI cũng đã tweet về sự cố này, tin rằng họ không có cách nào để xác định liệu bức ảnh có được tạo ra bởi AI hay không và hy vọng rằng mọi người sẽ thảo luận hợp lý.

Máy dò ảnh AI, nó không đáng tin cậy như thế nào?

Hany Farid, giáo sư tại UC Berkeley và là một trong những chuyên gia hàng đầu thế giới về xử lý hình ảnh kỹ thuật số, cho biết hình ảnh không cho thấy dấu hiệu nào cho thấy nó được tạo ra bởi AI.

"Một trong những vấn đề lớn nhất với trình tạo hình ảnh AI là hình dạng và đường thẳng có cấu trúc cao", Farid nói. "Nếu bạn nhìn vào chân và ốc vít và mọi thứ trông hoàn hảo, gần như không thể để hình ảnh được tạo ra bởi AI."

Ví dụ, trong bức ảnh nổi tiếng này của "SpongeBob SquarePants made 9/1", các đường thẳng của tòa tháp đôi bên ngoài cửa sổ không thẳng và các bảng điều khiển trên máy bay được xoắn lại với nhau, trông giống như "A trong A".

"Chúng tôi có thể thấy trong bức ảnh đó rằng cấu trúc của vật thể là chính xác, bóng tối là chính xác, không có hiện vật - điều đó khiến tôi tin rằng bức tranh phải hoàn toàn có thật", Farid nói.

Farid cũng xác định hình ảnh thông qua các máy dò hình ảnh AI khác của riêng mình và bốn công cụ phát hiện hình ảnh AI khác cũng cho rằng hình ảnh không phải do AI tạo ra.

"Máy dò AI là một công cụ, nhưng nó chỉ là một phần của bộ công cụ", Farid nói. Người dùng cần chạy một loạt các thử nghiệm trên toàn bộ hình ảnh và không thể có được câu trả lời chỉ bằng một nút bấm."

Và công cụ phát hiện AI Optic không đưa ra chi tiết cụ thể về công nghệ phát hiện của riêng mình.

Trang web Optic cũng tuyên bố rằng "máy dò AI có thể tạo ra kết quả không chính xác".

Công nghệ phát hiện hình ảnh AI

Giáo sư Farid đã viết một bài báo vào năm ngoái về cách đánh giá tính nhất quán của hình ảnh trong các công cụ viết tiểu sử AI.

Bằng cách đánh giá tính nhất quán trên hình ảnh, nó có thể giúp xác định xem hình ảnh có được tạo ra bởi AI hay không.

Liên kết giấy:

Giáo sư bắt đầu bằng cách phác thảo ba phương pháp phân tích dựa trên vật lý có liên quan, mỗi phương pháp vẽ trên cùng một hình học phối cảnh cơ bản vốn có trong quá trình hình thành hình ảnh.

Điểm biến mất

Các đường lùi song song hội tụ tại một điểm biến mất.

瓷砖之间的线图1(a) là song song. Khi chụp ảnh, tất cả các đường này đều hội tụ tại một điểm biến mất. Nếu các đường thẳng song song trong cảnh cách xa ống kính về chiều sâu, thì có một điểm biến mất, mặc dù nó có thể nằm ngoài ảnh.

Nếu các đường thẳng song song trong cảnh không lùi sâu, nghĩa là, nếu chúng song song hoàn hảo với cảm biến ống kính (ở bất kỳ khoảng cách nào), các đường thẳng song song sẽ được chụp ảnh dưới dạng các đường thẳng song song, và vì mục đích thực tế, điểm biến mất có thể được coi là ở vô cực. Hình học này bắt nguồn từ những điều cơ bản của phép chiếu phối cảnh.

Dưới hình chiếu phối cảnh, các điểm (X, Y, Z) trong cảnh được chụp đến các điểm (f X/Z, f Y/Z), trong đó f là độ dài tiêu cự của ống kính.

Vì vị trí của điểm trong ảnh tỷ lệ nghịch với khoảng cách Z, điểm chiếu được nén như một hàm của khoảng cách, dẫn đến sự hội tụ của các đường trong ảnh;

Các đường thẳng song song trên các mặt phẳng song song hội tụ đến cùng một điểm biến mất

Hộp ở xa được căn chỉnh với các viên gạch trên sàn trong Hình 1 (b) sao cho các cạnh của hộp song song với đường giữa các viên gạch. Bởi vì các đường thẳng song song trên các mặt phẳng song song chia sẻ một điểm biến mất, điểm biến mất là như nhau ở bên cạnh hộp và trên sàn gạch;

Điểm biến mất của tất cả các đường trên máy bay nằm trên đường biến mất.

Nhiều nhóm đường thẳng song song, mỗi nhóm hội tụ đến một điểm biến mất khác nhau, như thể hiện trong Hình 1 (c). Nếu các nhóm đường thẳng song song trải dài trên cùng một mặt phẳng trong cảnh, các điểm biến mất của chúng sẽ nằm trên đường biến mất. Hướng của đường biến mất được xác định bởi chuyển động quay của thấu kính so với mặt phẳng mà đường thẳng song song đi qua

Bóng

Hơi ngạc nhiên, hình học tương tự đằng sau điểm biến mất cũng hoạt động để đổ bóng.

Hình ảnh trên cho thấy ba tia kết nối các điểm trên hộp và các đối tác của chúng trên bóng đúc. Mở rộng ranh giới hình ảnh, người ta thấy rằng ba tia giao nhau tại một điểm tương ứng với phép chiếu của nguồn sáng chiếu sáng cảnh.

Ràng buộc hình học này liên quan đến bóng, vật thể và ánh sáng giữ bất kể vị trí và hướng của bề mặt mà bóng đổ trên đó, cho dù nguồn sáng ở gần (đèn bàn) hay xa (mặt trời).

Tất nhiên, phân tích giả định rằng cảnh được chiếu sáng bởi một nguồn sáng chính duy nhất, điều này thể hiện rõ từ sự hiện diện của chỉ một bóng đổ duy nhất trên mỗi vật thể.

Trong ví dụ bên trên, nguồn sáng chiếu sáng cảnh nằm ở phía trước ống kính, do đó hình chiếu của nguồn sáng nằm ở nửa trên của mặt phẳng hình ảnh.

Tuy nhiên, nếu ánh sáng ở phía sau ống kính, hình chiếu của nguồn sáng sẽ nằm ở nửa dưới của mặt phẳng hình ảnh. Do sự đảo ngược này, bóng của ràng buộc đối tượng cũng phải được đảo ngược.

Do đó, phân tích đổ bóng của hình ảnh phải xem xét ba khả năng:

(1) Ánh sáng nằm ở phía trước ống kính, hình chiếu của nguồn sáng nằm ở phần trên của mặt phẳng hình ảnh, và giới hạn được neo vào bóng đổ và bao quanh vật thể;

(2) ánh sáng ở phía sau ống kính, và nguồn sáng được chiếu ở nửa dưới của mặt phẳng hình ảnh, hạn chế neo vào vật thể và bao phủ bóng đổ;

(3) Ánh sáng nằm ngay phía trên hoặc bên dưới tâm ống kính, hình chiếu của nguồn sáng ở vô cực, và các ràng buộc sẽ giao nhau ở vô cực. Nếu bất kỳ trường hợp nào trong số này dẫn đến giao điểm chung của tất cả các ràng buộc, thì việc đổ bóng là hợp lý về mặt vật lý.

Phản ánh

Cảnh thể hiện trong Hình 2 bên dưới cho thấy ba hộp được phản chiếu trong gương phẳng.

Nửa dưới của sơ đồ này cho thấy mối quan hệ hình học giữa hộp thực và hộp ảo.

Đường màu cam đại diện cho gương, nằm ở điểm giữa giữa hai bộ hộp. Đường màu vàng kết nối các điểm tương ứng trên các hộp thực và ảo. Các đường này song song với nhau và vuông góc với gương.

Bây giờ hãy xem xét các đường thẳng song song này xuất hiện như thế nào khi chúng được đặt chồng lên cảnh. Khi nhìn từ mặt phẳng gương, các đường thẳng song song không còn song song. Thay vào đó, do phép chiếu phối cảnh, các đường thẳng song song này hội tụ đến một điểm, giống như các đường song song trên thế giới hội tụ đến một điểm biến mất.

Bởi vì các đường kết nối các điểm tương ứng trong cảnh và sự phản chiếu của chúng luôn song song, các đường thẳng phải có một giao điểm chung trong ảnh để hợp lý về mặt vật lý.

Phân tích phiên bản

Hình 3 ở trên cho thấy ba ví dụ tiêu biểu về hình ảnh tổng hợp AI và phân tích tính nhất quán phối cảnh hình học của sàn và mặt bàn.

Mỗi hình ảnh (trong vòng một vài pixel) nắm bắt chính xác hình học phối cảnh của sàn gạch làm bằng chứng về một điểm biến mất nhất quán (được hiển thị bằng màu xanh lam). Tuy nhiên, điểm biến mất của mặt bàn song song (được hiển thị bằng màu lục lam) không phù hợp về mặt hình học với điểm biến mất của mặt bàn.

Căn chỉnh gạch cho phù hợp. Ngay cả khi mặt bàn không song song với gạch, điểm biến mất màu lục lam phải nằm trên đường biến mất (được hiển thị bằng màu đỏ) được xác định bởi điểm biến mất của sàn gạch. Lưu ý rằng đối với hình ảnh ở góc trên bên phải của Hình 3, các đường ngang trên sàn gạch gần như song song, do đó các điểm biến mất tương ứng nằm ở vô cực và do đó không giao nhau.

Mặc dù các điểm biến mất trong những hình ảnh này là nhất quán cục bộ, nhưng chúng không nhất quán trên toàn cầu. Trong mỗi hình ảnh trong số 25 hình ảnh nhà bếp tổng hợp, cùng một mẫu đã được tìm thấy.

Hình ảnh trên là một hình ảnh vuông được tạo ra với một lời nhắc và có một sự không nhất quán rõ ràng trong bóng tối.

Hình 8 ở trên cho thấy kết quả của việc áp dụng phân tích hình học cho hình ảnh do AI tạo ra có chứa phản xạ khá chính xác.

Mặc dù những phản xạ này là hợp lý trực quan, nhưng chúng không nhất quán về mặt hình học.

Không giống như bóng đổ và hình học trong các phần trước, DALL · E-2 rất khó để tổng hợp các phản xạ hợp lý, có lẽ vì những phản xạ như vậy ít phổ biến hơn trong bộ dữ liệu hình ảnh đào tạo của nó.

Dựa trên những hiểu biết này về những hạn chế của hình ảnh do AI tạo ra, sẽ rất hữu ích để xác định xem hình ảnh có được tổng hợp bởi AI hay không thông qua việc phát hiện tính nhất quán của hình ảnh.

Nhận dạng hình ảnh khó, AI đánh bại AI

Trình tạo hình ảnh AI không ngừng phát triển.

Trong nửa đầu năm, Midjourney bùng nổ và có thể tạo ra những bức ảnh đủ chân thực, nhưng đã đánh lừa nhiều người.

Vị giáo hoàng 86 tuổi đội một chiếc mũ dưa trắng, một chiếc áo khoác trắng loe và một chiếc vòng cổ chéo bằng kim loại được lộ ra, cộng với một biểu hiện nghiêm túc.

Vào thời điểm đó, ngay sau khi bức ảnh được công bố, nó đã đánh lừa tất cả mọi người trên mạng xã hội, và được nhiều cư dân mạng điên cuồng chuyển tiếp, và một số thậm chí còn gọi giáo hoàng là quá thời thượng.

Khi mọi người tin vào điều đó, ai đó đột nhiên chỉ ra rằng nó được tạo ra bởi AI, và nhiều người ngay lập tức chết lặng.

Đây chỉ là một trong những hạt dẻ, và nhiều hình ảnh sai lệch khác nhau như Barra, CEO của bạn gái mới của Musk GM, đã đạt đến mức độ thực tế giả.

Vụ việc này trực tiếp khiến Musk, đồng sáng lập Apple Stephen Wozniak và các nhà lãnh đạo công nghệ khác kêu gọi đình chỉ nghiên cứu và phát triển AI.

Mặc dù việc tạo ra AI rất thú vị và thuận tiện, nhưng nó gây ra rủi ro cho toàn ngành.

Nếu không nhỏ, nó sẽ bị những người có động cơ thầm kín lợi dụng để tung tin sai sự thật, xâm phạm quyền sở hữu trí tuệ hoặc sử dụng nó để tạo ra "ảnh trái cây"...

Trong vài tháng tới, Midjourney sẽ phát hành phiên bản V6 mới nhất, đã được hoàn thiện về mặt tạo hình ảnh.

Các trình tạo hình ảnh AI khác cũng đang lặp lại nhanh chóng. Cách đây một thời gian, OpenAI vừa phát hành DALL· E 3, đồng thời tạo hình ảnh Microsoft Bing cũng sử dụng DALL· E 3。

Tất nhiên, các nhà nghiên cứu cũng đang cố gắng xây dựng các công cụ có thể phân biệt hình ảnh, điều quan trọng là làm thế nào để theo kịp tốc độ của trình tạo hình ảnh AI?

Cuộc thi công cụ kiểm tra AI

Giờ đây, hơn một chục công ty đã cung cấp các công cụ để xác định xem hình ảnh có được tạo ra bởi AI hay không và tên của họ bao gồm Sensity AI (phát hiện deepfasity), Fictitious.AI (phát hiện đạo văn), Originality.AI, v.v.

Công ty tin cậy và an toàn trí tuệ nhân tạo Optic đã ra mắt trang web "AI or Not".

Trên trang web này, bạn có thể tải lên ảnh hoặc dán URL hình ảnh và trang web sẽ tự động xác định xem ảnh có được tạo bởi AI hay không. Không có giới hạn về số lượng hình ảnh bạn có thể tải lên.

Ngoài ra, bạn có thể đăng hoặc retweet một hình ảnh trên tài khoản Twitter của Optic @optic \ _xyz hoặc thêm #aiornot và bạn sẽ nhận được câu trả lời với tỷ lệ phần trăm tin cậy của hình ảnh.

Andrey Doronichev, giám đốc điều hành của công ty, cho biết các công cụ AI của Optical có thể kiểm tra từng hình ảnh để tìm các hiện vật vô hình bằng mắt người, chẳng hạn như thay đổi độ sáng và màu sắc trong hình ảnh.

Đáng ngạc nhiên, công cụ này có tỷ lệ chính xác là 95%.

Tuy nhiên, với việc nâng cấp và lặp lại các công cụ tạo hình ảnh AI như Midjourney, tỷ lệ chính xác của "AI or Not" giảm xuống còn 88,9%.

Ví dụ, trong bức ảnh của Giáo hoàng, AI tin rằng có 87% xác suất con người sẽ làm điều đó.

Hình ảnh của Đức Giáo Hoàng trong chiếc áo khoác trắng đã bị đánh lừa trước khi cập nhật Optic

Trên thực tế, một số cư dân mạng nói rằng nếu bạn nhìn kỹ vào bức ảnh này, bạn sẽ tìm thấy những dấu hiệu rõ ràng được tạo ra bởi trí tuệ nhân tạo, bao gồm một số khu vực chi tiết rõ ràng bị mờ:

Bàn tay dường như không hoàn chỉnh đang cố gắng nắm bắt thứ gì đó không hoàn toàn giống với một tách cà phê với một vết bẩn bên cạnh nó
Thánh giá được đeo bởi Đức Giáo Hoàng không có hình dạng của một góc vuông, nhưng cũng có một bản khắc của một Chúa Giêsu đang ngồi dường như được chạm khắc từ đất sét
Kính không phù hợp với bóng của khuôn mặt

Những điểm này đều chỉ ra rằng điều này được tạo ra bởi trí tuệ nhân tạo. Nó chỉ hiểu bề mặt của thực tế, nhưng không phải là các quy tắc cơ bản chi phối cách các đối tượng vật lý tương tác.

Ngoài các công cụ của Optic, Hive, một công ty AI gắn thẻ nội dung, gần đây đã cập nhật trình phát hiện nội dung miễn phí do AI tạo ra của riêng mình.

Công cụ AI được đào tạo trên hàng triệu hình ảnh từ DALL-E, Stable Diffusion và Midjourney.

Hive hy vọng nó sẽ phát hiện chính xác khoảng 95% hình ảnh do AI tạo ra, đặc biệt là hình ảnh được chia sẻ lan truyền trực tuyến, thường tốt hơn so với nhận dạng hình ảnh khác.

CEO Kevin Guo cho biết, khi mọi người chia sẻ hình ảnh AI, họ chọn những hình ảnh giả thật nhất, để mọi người có thể phân biệt đâu là thật.

Hình ảnh bên trái là hình ảnh do AI tạo ra có thể được phân biệt từ hai ngón tay và năm ngón tay cao, trong khi hình ảnh thực trông giống như trong một bức ảnh iStock thông thường được hiển thị ở bên phải.

Giống như Optic, Hive không phát hiện được hình ảnh từ Bing Image Creator.

Tuy nhiên, các công cụ phát hiện này không bị trì trệ và chúng sẽ được cập nhật và nâng cấp khi mô hình hình ảnh AI được lặp lại.

Trên thực tế, nhận dạng hình ảnh AI không chỉ có thể dựa vào các công cụ phát hiện trong ngành để hoàn thành mà còn thiết lập lan can bảo vệ khi đào tạo mô hình.

Nhiều trình tạo hình ảnh trí tuệ nhân tạo cũng có một "danh sách đen" giới hạn liệu một số nội dung có thể được tạo ra hay không.

Ví dụ: Bing Image Creator gắn cờ và chặn lời nhắc từ những người dùng yêu cầu nó tạo hình ảnh của các nhân vật nổi tiếng của công chúng.

Midjourney có "người kiểm duyệt con người" và đang triển khai một cách sử dụng thuật toán để kiểm duyệt các yêu cầu của người dùng.

Và DALL· Theo báo cáo kỹ thuật E 3, khi bạn yêu cầu ChatGPT tạo ra một số "bản đồ trái cây", hoặc hình ảnh liên quan đến đen trắng, đầu vào được viết lại trực tiếp.

Thêm hình mờ vào AI, các nhà sản xuất lớn đang làm

Ngoài ra, watermarking kỹ thuật số cũng là một trong những phương tiện quan trọng để tăng cường bảo mật AI và những gã khổng lồ công nghệ như Microsoft và Google đã được sử dụng trong các sản phẩm.

Microsoft đã giới thiệu DALL· tại Hội nghị Surface vào tháng Chín. E 3 may mắn với khả năng tạo hình ảnh của Bing.

Đồng thời, để đảm bảo rằng hình ảnh không bị lạm dụng, nhóm Microsoft sử dụng các phương pháp mã hóa để tạo hình mờ vô hình cho mỗi hình ảnh, bao gồm cả thời gian và ngày tạo.

Bất cứ ai cũng có thể nhấp vào từng hình ảnh và dễ dàng xác định xem nó có được tạo ra bởi AI hay không.

Meta cũng có mã nguồn mở Stable Signature, nhúng hình mờ kỹ thuật số trực tiếp vào hình ảnh do AI tự động tạo ra.

Địa chỉ giấy:

Điều đáng nói là hình mờ kỹ thuật số do Stable Signature tạo ra không bị ảnh hưởng bởi các hoạt động phá hoại như cắt, nén, thay đổi màu sắc, v.v. và có thể được truy ngược trở lại nguồn gốc của hình ảnh.

Nó có thể được áp dụng cho các mô hình như khuếch tán và GAN, chẳng hạn như khuếch tán ổn định.

Và Google, trên Google Cloud Next, cũng đã phát hành SynthID làm mờ hình ảnh do AI tạo ra và phát hiện và xác định chúng.

SynthID sử dụng hai mô hình học sâu, một cho watermarking và một để nhận dạng. Chúng có thể được đào tạo cùng nhau trên một tập hợp các hình ảnh khác nhau.

Mô hình kết hợp được tối ưu hóa cho một loạt các mục tiêu, bao gồm xác định chính xác nội dung có hình mờ và cải thiện việc che giấu hình mờ bằng cách căn chỉnh trực quan hình mờ với nội dung gốc.

Hình mờ kỹ thuật số được tạo bởi SynthID được nhúng trực tiếp vào các pixel của hình ảnh và mắt người không thể nhận ra. Nhưng SynthID có thể phát hiện và xác định chúng.

SynthID có thể giúp đánh giá khả năng hình ảnh được tạo bởi Imagen

Amit Roy-Chowdhury, giáo sư kỹ thuật điện và máy tính tại Đại học California, Riverside, nói rằng bằng cách nhìn kỹ vào nền hình ảnh, chúng ta có thể phát hiện hình ảnh giả tốt hơn bằng chính mắt mình.

Tuy nhiên, ở thời điểm hiện tại khi các mô hình AI đang tăng tốc lặp lại, quá khó để có một "con mắt vàng".

Tài nguyên:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

3 thích

Phần thưởng
3
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1CandyDrop Airdrop Event 6.0
17k Phổ biến
2White House Crypto Report
35k Phổ biến
3Join Alpha RION Airdrop to Earn $40
9k Phổ biến
4Fed Holds Rates Decision
8k Phổ biến
5July Spark Program TOP 10 Creators Announced
2k Phổ biến

Ghim

sơ đồ trang web