Midjourney và Stable Difusion đã đạt được thành công lớn trong việc kiếm tiền thương mại và hạ cánh dựa trên kịch bản, điều này đã cho phép OpenAI nhìn thấy các cơ hội kinh doanh mới và ra mắt DALL · Một trong những lý do quan trọng cho E 3.
Tuần trước, OpenAI đã công bố sự sẵn có đầy đủ của mô hình đồ thị Vensheng DALL · trong số người dùng ChatGPT Plus và Enterprise Edition. E3, đồng thời là một bản phát hành hiếm hoi của các tài liệu nghiên cứu.
DALL· E 3 và hai thế hệ trước của DALL· E、DALL· So với E 2, nó đã đạt được một bước nhảy vọt về chất lượng về chất lượng hiểu ngữ nghĩa, chất lượng hình ảnh, sửa đổi hình ảnh, giải thích hình ảnh, nhập văn bản dài, v.v., đặc biệt là kết hợp với ChatGPT, trở thành một ứng dụng át chủ bài mới của OpenAI.
Địa chỉ giấy:
"Cộng đồng mở AIGC" sau đây sẽ dựa trên DALL· Bài báo E3 giải thích các nguyên tắc kỹ thuật chính và chức năng của từng mô-đun.
Các nhà nghiên cứu phát hiện ra rằng các mô hình hình ảnh được tạo bằng văn bản thường gặp nhiều khó khăn khác nhau trong việc theo dõi các mô tả hình ảnh chi tiết, bỏ qua các từ trong lời nhắc hoặc gây nhầm lẫn ý nghĩa của chúng, do chất lượng mô tả hình ảnh kém trong tập dữ liệu đào tạo.
Để kiểm tra giả thuyết này, trước tiên các nhà nghiên cứu đã đào tạo một mô hình tạo chú thích cho hình ảnh mô tả. Mô hình được đào tạo cẩn thận để tạo ra các mô tả chi tiết và chính xác cho hình ảnh.
Sau khi sử dụng mô hình này để tái tạo mô tả cho tập dữ liệu đào tạo, các nhà nghiên cứu đã so sánh nhiều mô hình hình ảnh được tạo bằng văn bản được đào tạo trên mô tả ban đầu và mô tả mới được tạo.
Kết quả cho thấy mô hình được đào tạo trên mô tả mới tốt hơn đáng kể so với mô hình mô tả ban đầu trong việc làm theo lời nhắc. Phương pháp này sau đó đã được đào tạo trên các bộ dữ liệu quy mô lớn – DALL-E 3.
Từ góc độ kiến trúc kỹ thuật của DALL-E 3, nó chủ yếu được chia thành hai mô-đun: tạo mô tả hình ảnh và tạo hình ảnh.
** Mô tả hình ảnh Mô-đun tạo **
Mô-đun này sử dụng bộ mã hóa hình ảnh CLIP (Đào tạo trước ngôn ngữ tương phản) và Mô hình ngôn ngữ GPT (GPT-4) để tạo mô tả văn bản chi tiết cho từng hình ảnh.
Bằng cách xây dựng các bộ dữ liệu mô tả đối tượng quy mô nhỏ, bộ dữ liệu mô tả chi tiết quy mô lớn và thiết lập các quy tắc tạo, các nhà nghiên cứu tăng đáng kể lượng thông tin mô tả hình ảnh đầu ra của mô-đun và cung cấp hỗ trợ mạnh mẽ cho việc tạo hình ảnh tiếp theo. Các chức năng chính của mỗi mô-đun như sau:
**1) Bộ mã hóa hình ảnh CLIP **
CLIP là một mô hình đối sánh văn bản hình ảnh được đào tạo mã hóa hình ảnh thành một vectơ có độ dài cố định có chứa thông tin ngữ nghĩa của hình ảnh. DALL-E 3 sử dụng bộ mã hóa hình ảnh của CLIP để mã hóa hình ảnh đào tạo thành vectơ tính năng hình ảnh như một phần của đầu vào tạo văn bản có điều kiện.
**2) Mô hình ngôn ngữ GPT **
DALL-E 3 xây dựng một mô hình ngôn ngữ dựa trên kiến trúc GPT và học cách tạo ra các mô tả văn bản mạch lạc bằng cách tối đa hóa xác suất chung của các chuỗi văn bản lấy mẫu ngẫu nhiên.
3) Tạo văn bản có điều kiện
Bằng cách kết hợp hai điều trên, vectơ tính năng hình ảnh được nhập vào mô hình ngôn ngữ GPT cùng với chuỗi từ trước đó và việc tạo văn bản có điều kiện của hình ảnh có thể được thực hiện. Thông qua đào tạo, mô-đun học cách tạo mô tả Deive chi tiết cho từng hình ảnh.
**4) Tối ưu hóa đào tạo **
Mặc dù cơ sở hạ tầng cho DALL-E 3 đã được hoàn thành, kết quả đào tạo trực tiếp không đủ lý tưởng để tạo ra các mô tả chi tiết. Do đó, các nhà nghiên cứu đã thực hiện các tối ưu hóa kỹ thuật sau:
* Xây dựng các bộ dữ liệu quy mô nhỏ, đặc biệt thu thập các mô tả chi tiết về các đối tượng, tinh chỉnh các mô hình ngôn ngữ và có xu hướng mô tả các đối tượng hình ảnh.
Xây dựng bộ dữ liệu mô tả chi tiết quy mô lớn, mô tả các khía cạnh khác nhau như chủ đề, nền, màu sắc, văn bản, v.v. và cải thiện hơn nữa chất lượng mô tả thông qua tinh chỉnh.
Đặt các quy tắc như độ dài và kiểu mô tả được tạo để ngăn các mô hình ngôn ngữ đi chệch khỏi phong cách của con người.
Mô-đun tạo hình ảnh
Mô-đun này trước tiên sử dụng VAE để nén hình ảnh có độ phân giải cao thành các vectơ chiều thấp để giảm khó khăn trong học tập. Văn bản sau đó được mã hóa thành các vectơ bằng cách sử dụng Biến áp T5 và được đưa vào mô hình khuếch tán thông qua lớp GroupNorm để hướng dẫn hướng tạo hình ảnh.
Các nhà nghiên cứu tin rằng việc bổ sung mô hình Diffusion giúp tăng cường đáng kể hiệu ứng tạo chi tiết hình ảnh. Quy trình cụ thể như sau:
**1) Nén hình ảnh **
Hình ảnh có độ phân giải cao trước tiên được nén thành các vectơ chiều thấp bằng mô hình VAE để giảm độ khó tạo ảnh. DALL-E 3 sử dụng lấy mẫu xuống 8x và hình ảnh 256px được nén thành vectơ tiềm ẩn kích thước 32x32.
**2) Bộ mã hóa văn bản **
Sử dụng các mạng như T5 Transformer để mã hóa lời nhắc văn bản thành vectơ để tiêm vào các mô hình tạo hình ảnh.
3)Khuếch tán tiềm ẩn
Đây là kỹ thuật cốt lõi của việc tạo ảnh, phân tách vấn đề tạo hình ảnh thành nhiều nhiễu loạn quy mô nhỏ của vectơ nhiễu, dần dần tiếp cận hình ảnh mục tiêu. Điều quan trọng là thiết kế các quy trình tiến và đảo ngược thích hợp.
Tiêm văn bản **
Vectơ văn bản được mã hóa được đưa vào mô hình Khuếch tán tiềm ẩn thông qua lớp GroupNorm để hướng dẫn hướng tạo hình ảnh cho mỗi vòng lặp.
**5) Tối ưu hóa đào tạo **
Các nhà nghiên cứu phát hiện ra rằng việc đào tạo một mô hình khuếch tán bổ sung trên không gian tiềm ẩn hình ảnh nén có thể cải thiện hơn nữa chất lượng tạo chi tiết. Đây là một trong những lý do tại sao DALL-E 3 tạo ra hình ảnh chất lượng tốt hơn so với hai thế hệ trước.
Dữ liệu đánh giá CLIP
Đầu tiên, các nhà nghiên cứu sử dụng mô hình CLIP để tính toán sự giống nhau giữa hình ảnh do DALL-E 3 tạo ra và văn bản mô tả ban đầu, nghĩa là điểm CLIP. Họ chọn ngẫu nhiên 4096 mô tả hình ảnh từ tập dữ liệu MSCOCO làm văn bản nhắc, yêu cầu DALL-E 2, DALL-E 3 và Stable Diffusion XL tạo ra hình ảnh tương ứng, sau đó tính điểm CLIP trung bình của ba hình ảnh.
Kết quả cho thấy điểm CLIP của DALL-E 3 đạt 32,0, vượt trội so với 31,4 của DALL-E 2 và 30,5 của Stable Diffusion XL.
Điều này cho thấy hình ảnh được tạo bởi DALL-E 3 phù hợp hơn với văn bản mô tả ban đầu và văn bản hướng dẫn tạo hình ảnh tốt hơn.
Dữ liệu đánh giá Drawbench
Hiệu suất của các mô hình được so sánh trên tập dữ liệu Drawbench. Tập dữ liệu chứa nhiều lời nhắc văn bản mong manh, kiểm tra sự hiểu biết của mô hình về lời nhắc.
Các nhà nghiên cứu đã sử dụng GPT-V, một mô hình ngôn ngữ hình ảnh, để tự động đánh giá tính chính xác của các hình ảnh được tạo ra.
Trong thử nghiệm phụ của lời nhắc văn bản ngắn, tỷ lệ hình ảnh được tạo chính xác bởi DALL-E 3 đạt 70,4%, vượt quá đáng kể 49% DALL-E 2 và 46,9% của Stable Diffusion XL.
Trên lời nhắc văn bản dài, DALL-E 3 cũng nhận được 81% chính xác, tiếp tục vượt trội so với các mô hình khác.
** Đánh giá T2I-CompBench **
Thông qua thử nghiệm phụ tương quan trong T2I-CompBench, khả năng của mô hình để xử lý các lời nhắc lớp kết hợp được điều tra. Trong ba thử nghiệm liên kết màu, liên kết hình dạng và liên kết kết cấu, DALL-E 3 đứng đầu trong số các mô hình về tỷ lệ ràng buộc chính xác, thể hiện đầy đủ khả năng hiểu các tín hiệu kết hợp.
** Đánh giá thủ công **
Các nhà nghiên cứu cũng mời con người đánh giá các mẫu được tạo ra về các tín hiệu sau, sự gắn kết phong cách, v.v. Trong một đánh giá về 170 mẹo, DALL-E 3 vượt trội hơn đáng kể so với Midjourney và Stable Diffusion XL.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Giải thích mô hình đồ thị văn học mạnh nhất của OpenAI — DALL · E 3 ·
Nguồn gốc: Cộng đồng mở AIGC
Midjourney và Stable Difusion đã đạt được thành công lớn trong việc kiếm tiền thương mại và hạ cánh dựa trên kịch bản, điều này đã cho phép OpenAI nhìn thấy các cơ hội kinh doanh mới và ra mắt DALL · Một trong những lý do quan trọng cho E 3.
Tuần trước, OpenAI đã công bố sự sẵn có đầy đủ của mô hình đồ thị Vensheng DALL · trong số người dùng ChatGPT Plus và Enterprise Edition. E3, đồng thời là một bản phát hành hiếm hoi của các tài liệu nghiên cứu.
DALL· E 3 và hai thế hệ trước của DALL· E、DALL· So với E 2, nó đã đạt được một bước nhảy vọt về chất lượng về chất lượng hiểu ngữ nghĩa, chất lượng hình ảnh, sửa đổi hình ảnh, giải thích hình ảnh, nhập văn bản dài, v.v., đặc biệt là kết hợp với ChatGPT, trở thành một ứng dụng át chủ bài mới của OpenAI.
Địa chỉ giấy:
Các nhà nghiên cứu phát hiện ra rằng các mô hình hình ảnh được tạo bằng văn bản thường gặp nhiều khó khăn khác nhau trong việc theo dõi các mô tả hình ảnh chi tiết, bỏ qua các từ trong lời nhắc hoặc gây nhầm lẫn ý nghĩa của chúng, do chất lượng mô tả hình ảnh kém trong tập dữ liệu đào tạo.
Để kiểm tra giả thuyết này, trước tiên các nhà nghiên cứu đã đào tạo một mô hình tạo chú thích cho hình ảnh mô tả. Mô hình được đào tạo cẩn thận để tạo ra các mô tả chi tiết và chính xác cho hình ảnh.
Kết quả cho thấy mô hình được đào tạo trên mô tả mới tốt hơn đáng kể so với mô hình mô tả ban đầu trong việc làm theo lời nhắc. Phương pháp này sau đó đã được đào tạo trên các bộ dữ liệu quy mô lớn – DALL-E 3.
** Mô tả hình ảnh Mô-đun tạo **
Mô-đun này sử dụng bộ mã hóa hình ảnh CLIP (Đào tạo trước ngôn ngữ tương phản) và Mô hình ngôn ngữ GPT (GPT-4) để tạo mô tả văn bản chi tiết cho từng hình ảnh.
Bằng cách xây dựng các bộ dữ liệu mô tả đối tượng quy mô nhỏ, bộ dữ liệu mô tả chi tiết quy mô lớn và thiết lập các quy tắc tạo, các nhà nghiên cứu tăng đáng kể lượng thông tin mô tả hình ảnh đầu ra của mô-đun và cung cấp hỗ trợ mạnh mẽ cho việc tạo hình ảnh tiếp theo. Các chức năng chính của mỗi mô-đun như sau:
**1) Bộ mã hóa hình ảnh CLIP **
CLIP là một mô hình đối sánh văn bản hình ảnh được đào tạo mã hóa hình ảnh thành một vectơ có độ dài cố định có chứa thông tin ngữ nghĩa của hình ảnh. DALL-E 3 sử dụng bộ mã hóa hình ảnh của CLIP để mã hóa hình ảnh đào tạo thành vectơ tính năng hình ảnh như một phần của đầu vào tạo văn bản có điều kiện.
**2) Mô hình ngôn ngữ GPT **
DALL-E 3 xây dựng một mô hình ngôn ngữ dựa trên kiến trúc GPT và học cách tạo ra các mô tả văn bản mạch lạc bằng cách tối đa hóa xác suất chung của các chuỗi văn bản lấy mẫu ngẫu nhiên.
Bằng cách kết hợp hai điều trên, vectơ tính năng hình ảnh được nhập vào mô hình ngôn ngữ GPT cùng với chuỗi từ trước đó và việc tạo văn bản có điều kiện của hình ảnh có thể được thực hiện. Thông qua đào tạo, mô-đun học cách tạo mô tả Deive chi tiết cho từng hình ảnh.
**4) Tối ưu hóa đào tạo **
Mặc dù cơ sở hạ tầng cho DALL-E 3 đã được hoàn thành, kết quả đào tạo trực tiếp không đủ lý tưởng để tạo ra các mô tả chi tiết. Do đó, các nhà nghiên cứu đã thực hiện các tối ưu hóa kỹ thuật sau:
Mô-đun tạo hình ảnh
Mô-đun này trước tiên sử dụng VAE để nén hình ảnh có độ phân giải cao thành các vectơ chiều thấp để giảm khó khăn trong học tập. Văn bản sau đó được mã hóa thành các vectơ bằng cách sử dụng Biến áp T5 và được đưa vào mô hình khuếch tán thông qua lớp GroupNorm để hướng dẫn hướng tạo hình ảnh.
Các nhà nghiên cứu tin rằng việc bổ sung mô hình Diffusion giúp tăng cường đáng kể hiệu ứng tạo chi tiết hình ảnh. Quy trình cụ thể như sau:
**1) Nén hình ảnh **
Hình ảnh có độ phân giải cao trước tiên được nén thành các vectơ chiều thấp bằng mô hình VAE để giảm độ khó tạo ảnh. DALL-E 3 sử dụng lấy mẫu xuống 8x và hình ảnh 256px được nén thành vectơ tiềm ẩn kích thước 32x32.
**2) Bộ mã hóa văn bản **
Sử dụng các mạng như T5 Transformer để mã hóa lời nhắc văn bản thành vectơ để tiêm vào các mô hình tạo hình ảnh.
Đây là kỹ thuật cốt lõi của việc tạo ảnh, phân tách vấn đề tạo hình ảnh thành nhiều nhiễu loạn quy mô nhỏ của vectơ nhiễu, dần dần tiếp cận hình ảnh mục tiêu. Điều quan trọng là thiết kế các quy trình tiến và đảo ngược thích hợp.
Vectơ văn bản được mã hóa được đưa vào mô hình Khuếch tán tiềm ẩn thông qua lớp GroupNorm để hướng dẫn hướng tạo hình ảnh cho mỗi vòng lặp.
**5) Tối ưu hóa đào tạo **
Các nhà nghiên cứu phát hiện ra rằng việc đào tạo một mô hình khuếch tán bổ sung trên không gian tiềm ẩn hình ảnh nén có thể cải thiện hơn nữa chất lượng tạo chi tiết. Đây là một trong những lý do tại sao DALL-E 3 tạo ra hình ảnh chất lượng tốt hơn so với hai thế hệ trước.
Dữ liệu đánh giá CLIP
Đầu tiên, các nhà nghiên cứu sử dụng mô hình CLIP để tính toán sự giống nhau giữa hình ảnh do DALL-E 3 tạo ra và văn bản mô tả ban đầu, nghĩa là điểm CLIP. Họ chọn ngẫu nhiên 4096 mô tả hình ảnh từ tập dữ liệu MSCOCO làm văn bản nhắc, yêu cầu DALL-E 2, DALL-E 3 và Stable Diffusion XL tạo ra hình ảnh tương ứng, sau đó tính điểm CLIP trung bình của ba hình ảnh.
Điều này cho thấy hình ảnh được tạo bởi DALL-E 3 phù hợp hơn với văn bản mô tả ban đầu và văn bản hướng dẫn tạo hình ảnh tốt hơn.
Dữ liệu đánh giá Drawbench
Hiệu suất của các mô hình được so sánh trên tập dữ liệu Drawbench. Tập dữ liệu chứa nhiều lời nhắc văn bản mong manh, kiểm tra sự hiểu biết của mô hình về lời nhắc.
Các nhà nghiên cứu đã sử dụng GPT-V, một mô hình ngôn ngữ hình ảnh, để tự động đánh giá tính chính xác của các hình ảnh được tạo ra.
Trên lời nhắc văn bản dài, DALL-E 3 cũng nhận được 81% chính xác, tiếp tục vượt trội so với các mô hình khác.
** Đánh giá T2I-CompBench **
Thông qua thử nghiệm phụ tương quan trong T2I-CompBench, khả năng của mô hình để xử lý các lời nhắc lớp kết hợp được điều tra. Trong ba thử nghiệm liên kết màu, liên kết hình dạng và liên kết kết cấu, DALL-E 3 đứng đầu trong số các mô hình về tỷ lệ ràng buộc chính xác, thể hiện đầy đủ khả năng hiểu các tín hiệu kết hợp.
** Đánh giá thủ công **
Các nhà nghiên cứu cũng mời con người đánh giá các mẫu được tạo ra về các tín hiệu sau, sự gắn kết phong cách, v.v. Trong một đánh giá về 170 mẹo, DALL-E 3 vượt trội hơn đáng kể so với Midjourney và Stable Diffusion XL.