Cựu sinh viên Đại học Bắc Kinh làm việc cùng nhau, Meta phát hành mô hình đa phương thức duy nhất đầu tiên trong lịch sử! Mô hình 7B đã đánh bại Diffusion và vấn đề vẽ tay hoàn hảo đã được giải quyết hoàn hảo.
Meta lại ở đây!
Mới đây, Meta đã ra mắt mô hình đa phương thức dựa trên Transformer - CM3leon, mô hình này đã tạo ra những bước đột phá tuyệt đối trong lĩnh vực hiểu đồ thị và hình ảnh Vincent, và có thể được gọi là mô hình tốt nhất của loại hình này.
Hơn nữa, sự kết hợp nhiều phương thức này vào một mô hình duy nhất là điều chưa từng có trong các hệ thống AI đã được tiết lộ trước đây.
Rõ ràng, nghiên cứu này của Meta xác định một tiêu chuẩn mới cho AI đa phương thức, điều này cho thấy hệ thống AI hoàn toàn có thể tự do chuyển đổi trong các tác vụ như hiểu, chỉnh sửa và tạo hình ảnh, video và văn bản.
Trong khi đó, sự ra mắt của CM3leon chính thức đánh dấu lần đầu tiên một mô hình tự hồi quy phù hợp với hiệu suất của các mô hình khuếch tán tổng quát hàng đầu trên các điểm chuẩn chính.
Địa chỉ giấy tờ:
Trước đó, 3 mẫu star được chú ý nhiều nhất trong lĩnh vực đồ thị Vincent là Stable Diffusion, DALL-E và Midjourney. Kỹ thuật biểu đồ Vinsen về cơ bản dựa trên mô hình khuếch tán.
Nhưng ý nghĩa mang tính cách mạng của CM3leon là nó sử dụng một công nghệ hoàn toàn khác - một mô hình tự hồi quy dựa trên tokenizer.
Kết quả cho thấy mô hình tự hồi quy dựa trên tokenizer không chỉ hiệu quả hơn phương pháp dựa trên mô hình khuếch tán và đạt được SOTA trong trường đồ thị Vincentian mà còn yêu cầu tính toán đào tạo ít hơn năm lần so với phương pháp dựa trên Transformer trước đây !
Hãy sẵn sàng, một làn sóng hiệu ứng thú vị đang đến
Chỉ nhìn vào các chỉ số hiệu suất thô không thể giải thích bất cứ điều gì.
Trường hợp CM3leon thực sự tỏa sáng là xử lý các tác vụ chỉnh sửa hình ảnh và lời nhắc phức tạp hơn.
Hình ảnh được hiển thị chính xác với kết quả tuyệt đẹp
Ví dụ: nó có thể hiển thị chính xác hình ảnh từ các tín hiệu như “cây xương rồng nhỏ ở sa mạc Sahara đội mũ rơm và đeo kính râm neon”.
Tuỳ ý, chỉnh sửa ảnh theo ý muốn
CM3leon cũng có một khả năng duy nhất để chỉnh sửa các hình ảnh hiện có dựa trên các hướng dẫn văn bản dạng tự do, chẳng hạn như thay đổi màu sắc của bầu trời hoặc thêm các đối tượng tại các vị trí cụ thể.
Các chức năng trên vượt xa các hiệu ứng mà các mẫu như DALL-E 2 có thể đạt được.
Mô hình đơn đa phương thức chưa từng có
Kiến trúc linh hoạt của CM3leon cho phép nó chuyển đổi tự do và mượt mà giữa các tác vụ văn bản, hình ảnh và bố cục.
Ngoài khả năng của sơ đồ Vincent, CM3leon có thể tạo chú thích cho hình ảnh, trả lời câu hỏi về nội dung hình ảnh và thậm chí tạo hình ảnh từ mô tả văn bản của hộp giới hạn và bản đồ phân đoạn.
Sự kết hợp các phương thức này thành một mô hình duy nhất là điều chưa từng có trong các hệ thống AI đã được tiết lộ trước đây.
: Con chó đang cầm gì? Người mẫu đáp: thanh.
: Mô tả chi tiết hình ảnh đã cho. Người mẫu trả lời: Trong hình ảnh này, một con chó đang ngậm một cây gậy trong miệng. Có cỏ trên mặt đất. Hình ảnh có cây trong nền.
Đưa ra mô tả văn bản của phân đoạn hộp giới hạn hình ảnh, cho biết vị trí cần có nhóm và gương trong hình ảnh, CM3leon có thể tạo hình ảnh tương ứng một cách chính xác.
Độ phân giải siêu cao
Một nền tảng siêu phân giải riêng biệt có thể được tích hợp với đầu ra CM3leon, giúp tăng đáng kể độ phân giải và chi tiết.
Vào "một hòn đảo nhỏ hình tròn giữa hồ, xung quanh hồ có rừng cây, độ tương phản cao"——
Giải quyết vấn đề của họa sĩ AI
Ngay cả vấn đề lâu nay về việc AI không thể vẽ tay cũng được CM3leon giải quyết dễ dàng.
Mô hình hồi quy tự động đánh bại Diffusion lần đầu tiên?
Trong lĩnh vực sơ đồ Vincent đã trở nên phổ biến trong những năm gần đây, Midjourney, DALL-E 2 và Stable Diffusion đều sử dụng công nghệ khuếch tán. Mặc dù kỹ thuật Khuếch tán tạo ra kết quả tuyệt vời, nhưng nó đòi hỏi nhiều tính toán, khiến nó tốn nhiều công sức tính toán, chạy tốn kém và thường thiếu tốc độ cần thiết cho các ứng dụng thời gian thực.
Thật thú vị, OpenAI muốn khám phá khả năng của Transformer dưới dạng tạo hình ảnh thông qua một mô hình có tên Image GPT vài năm trước. Nhưng cuối cùng nó đã từ bỏ ý tưởng để ủng hộ Diffusion.
CM3leon có cách tiếp cận hoàn toàn khác. Là một mô hình dựa trên Máy biến áp, nó tận dụng cơ chế chú ý để cân nhắc mức độ liên quan của dữ liệu đầu vào (dù là văn bản hay hình ảnh).
Sự khác biệt về kiến trúc này cho phép CM3leon đạt được tốc độ đào tạo nhanh hơn và song song hóa tốt hơn, do đó hiệu quả hơn các phương pháp dựa trên khuếch tán truyền thống.
Chỉ với một TPU duy nhất, CM3leon được đào tạo hiệu quả trên bộ dữ liệu hình ảnh và đạt được điểm FID là 4,88 trên bộ dữ liệu MS-COCO, vượt qua mô hình chuyển văn bản thành hình ảnh của Google Parti.
Đồng thời, hiệu quả của CM3leon cao hơn 5 lần so với kiến trúc Transformer tương tự.
Lý do tại sao CM3leon thành công như vậy có thể là do phương pháp đào tạo và kiến trúc độc đáo của nó.
Chìa khóa cho hiệu suất mạnh mẽ của nó là kỹ thuật tinh chỉnh có giám sát (SFT).
SFT trước đây đã được sử dụng để đào tạo các mô hình tạo văn bản như ChatGPT để đạt hiệu quả tốt, nhưng Meta lập luận rằng nó cũng có thể hữu ích khi áp dụng cho hình ảnh.
Trên thực tế, hướng dẫn tinh chỉnh đã cải thiện hiệu suất của CM3Leon không chỉ trong việc tạo hình ảnh mà còn trong việc viết chú thích hình ảnh, cho phép nó trả lời các câu hỏi về hình ảnh và cải thiện hiệu suất của hình ảnh bằng cách thực hiện theo các hướng dẫn bằng văn bản, chẳng hạn như "Thay đổi màu sắc của bầu trời thành sáng xanh." ”) để chỉnh sửa hình ảnh.
CM3leon chỉ sử dụng kiến trúc bộ giải mã-biến áp, tương tự như các mô hình dựa trên văn bản đã thiết lập, nhưng thêm khả năng xử lý văn bản và hình ảnh.
Quá trình đào tạo bao gồm tăng cường truy xuất, cũng như tinh chỉnh hướng dẫn qua các tác vụ tạo văn bản và hình ảnh khác nhau.
Bằng cách áp dụng các kỹ thuật tinh chỉnh có giám sát đa phương thức, Meta cải thiện đáng kể hiệu suất của CM3leon trong chú thích hình ảnh, QA trực quan và chỉnh sửa văn bản.
Mặc dù CM3leon chỉ được đào tạo trên 3 tỷ mã thông báo văn bản, nhưng nó phù hợp hoặc thậm chí vượt qua kết quả của các mô hình khác được đào tạo trên 100 tỷ mã thông báo.
Là mô hình đa phương thức đầu tiên được điều chỉnh theo cách tương tự như mô hình ngôn ngữ văn bản, Meta kết hợp giai đoạn đào tạo trước tăng cường truy xuất quy mô lớn và giai đoạn tinh chỉnh (SFT) được giám sát đa tác vụ thứ hai trong CM3leon.
CM3leon hoạt động như thế nào
Với các khả năng của CM3leon, các công cụ tạo hình ảnh có thể tạo ra các hình ảnh nhất quán hơn, tuân theo các tín hiệu đầu vào tốt hơn.
Sau đây là minh họa về khả năng của CM3leon trong các tác vụ khác nhau, tất cả đều được hoàn thành bởi một mẫu duy nhất:
tạo văn bản thành hình ảnh
Chỉnh sửa hình ảnh dựa trên văn bản (ví dụ: "thay đổi màu của bầu trời thành màu xanh sáng") là một thách thức vì nó yêu cầu người mẫu hiểu cả hướng dẫn bằng văn bản và nội dung trực quan.
Đặc biệt là khi các đối tượng phức tạp có liên quan hoặc khi gợi ý chứa nhiều ràng buộc phải có trong đầu ra.
Từ văn bản nhắc nhở với cấu trúc tổng hợp cao, CM3leon có thể tạo ra một hình ảnh để theo dõi.
(1) Cây xương rồng nhỏ đội mũ rơm và đeo kính râm neon trên sa mạc Sahara (2) Cận cảnh bàn tay con người (3) Nhân vật chính gấu trúc trong anime chuẩn bị tham gia vào một trận chiến hoành tráng với thanh kiếm katana (4) được thể hiện theo phong cách giả tưởng Dấu hiệu dừng với "1991" được viết trên đó
Chỉnh sửa hình ảnh dựa trên văn bản
Đưa ra một hình ảnh và lời nhắc văn bản, CM3leon có thể chỉnh sửa hình ảnh theo hướng dẫn trong văn bản.
Do tính tổng quát của mô hình CM3leon, điều này đạt được với cùng một mô hình với các tác vụ khác, không giống như các mô hình trước đó (chẳng hạn như InstructPix2Pix) chỉ được tinh chỉnh để chỉnh sửa hình ảnh dựa trên văn bản.
Đồng thời, mô hình CM3leon cũng có thể tạo các mô tả ngắn hoặc dài và trả lời các câu hỏi về hình ảnh dựa trên một loạt lời nhắc khác nhau.
Lấy một hạt dẻ.
gợi ý:
Câu hỏi: Hai đối tượng này có điểm gì giống nhau?
Bối cảnh: Chọn câu trả lời đúng nhất.
Tùy chọn: (A) Sáng bóng (B) Mặn
Trả lời: Hãy suy nghĩ từng bước:
Đầu ra CM3Leon:
Nghĩ về từng đối tượng. Khoai tây chiên có vị mặn. Bánh quy có vị mặn. Vì vậy, câu trả lời là (B).
- gợi ý:
Mô tả chi tiết tất cả các đối tượng trong một hình ảnh nhất định.
Đầu ra CM3Leon:
Một dấu hiệu đường phố ngồi trên một cột kim loại. Logo có màu xanh lam với dòng chữ màu trắng trên đó. Có một đèn đỏ trên cột. Bầu trời trong xanh. Có những chiếc xe đậu trên đường phố. Có cây cối hai bên đường. Có những tòa nhà ở hai bên đường.
Tương tự, CM3leon có thể dễ dàng xử lý "câu hỏi và câu trả lời bằng hình ảnh" sau đây.
Để tìm hiểu thêm về CM3leon, Meta đánh giá theo kinh nghiệm các mô hình được điều chỉnh theo hướng dẫn về các tác vụ tạo chú thích hình ảnh và trả lời câu hỏi trực quan, đồng thời so sánh chúng với các điểm chuẩn SOTA trước đó.
So với Flamingo (100B) và OpenFlamingo (40B), dữ liệu văn bản của mô hình CM3leon ít hơn đáng kể (khoảng 3B token).
Nhưng về mô tả hình ảnh MS-COCO và trả lời câu hỏi VQA2, CM3leon đã đạt được hiệu suất tương tự như OpenFlamingo mẫu không và thậm chí đánh bại Flamingo gần 10 điểm phần trăm trong nhiệm vụ VizWiz.
Chỉnh sửa hình ảnh theo hướng dẫn cấu trúc
Chỉnh sửa hình ảnh theo hướng dẫn cấu trúc nhằm mục đích hiểu và giải thích các hướng dẫn bằng văn bản được cung cấp cùng với thông tin về cấu trúc hoặc bố cục.
Điều này cho phép các mô hình CM3leon tạo các phần tổng hợp hình ảnh phù hợp về mặt ngữ cảnh và nhất quán trực quan trong khi tuân thủ các hướng dẫn về cấu trúc hoặc bố cục đã cho.
Trong một hình ảnh chỉ chứa các phân đoạn (không có danh mục văn bản), hãy tạo một hình ảnh. Đầu vào ở đây đại diện cho hình ảnh mà phân đoạn được trích xuất.
Giải pháp tối ưu
Ngoài ra, có một thủ thuật phổ biến trong lĩnh vực tạo hình ảnh - sử dụng giai đoạn siêu phân giải được đào tạo riêng để tạo ra hình ảnh có độ phân giải cao hơn từ đầu ra của mô hình ban đầu.
Đối với loại tác vụ tạo văn bản thành hình ảnh này, CM3leon cũng thực hiện rất tốt.
(1) Một tách cà phê bốc hơi với những ngọn núi phía sau, nghỉ ngơi trên đường
(2) Lúc hoàng hôn, đại lộ đẹp và hùng vĩ
(3) Một hòn đảo hình tròn ở giữa hồ được bao quanh bởi rừng cây
Và một số thế hệ phong cách "tưởng tượng".
(1) Rùa bơi dưới nước (2) Voi bơi dưới nước (2) Đàn cừu
Cách xây dựng CM3Leon
Kết cấu
Về mặt kiến trúc, CM3Leon sử dụng Biến áp chỉ có bộ giải mã tương tự như mô hình văn bản trưởng thành.
Nhưng điểm khác biệt là CM3Leon có thể nhập và tạo văn bản và hình ảnh.
xe lửa
Bằng cách áp dụng công nghệ nâng cao truy xuất đào tạo được đề xuất trong bài báo "Mô hình hóa ngôn ngữ đa phương thức tăng cường lại", Meta cải thiện đáng kể hiệu quả và khả năng kiểm soát của mô hình CM3Leon.
Đồng thời, Meta cũng tinh chỉnh mô hình CM3Leon trên nhiều tác vụ tạo ảnh và văn bản khác nhau.
Bên trái: đầu vào chung cho các tác vụ khác nhau; bên phải: đầu ra mô hình tương ứng. Trong quá trình đào tạo, Meta kết hợp các đầu vào và đầu ra của mô hình và đào tạo với cùng mục tiêu như trong giai đoạn tiền đào tạo.
Khi ngành công nghiệp AI tiếp tục phát triển, các mô hình tổng quát như CM3Leon ngày càng trở nên phức tạp hơn.
Các mô hình này tìm hiểu mối quan hệ giữa tầm nhìn và văn bản bằng cách đào tạo trên hàng triệu hình ảnh ví dụ, nhưng chúng cũng có thể phản ánh những sai lệch có trong dữ liệu đào tạo.
Do đó, Meta sử dụng bộ dữ liệu được cấp phép để đào tạo CM3Leon.
Kết quả cũng chứng minh rằng CM3Leon vẫn đạt được hiệu suất cao mặc dù việc phân phối dữ liệu khá khác so với các mô hình trước đó.
Về vấn đề này, Meta hy vọng rằng thông qua nỗ lực chung của mọi người, có thể tạo ra một mô hình chính xác, công bằng và hợp lý hơn.
Mở đường cho các mô hình ngôn ngữ đa phương thức
Nhìn chung, Meta tin rằng hiệu suất tuyệt vời của CM3Leon trong các tác vụ khác nhau là một bước quan trọng để tạo và hiểu hình ảnh thực tế hơn.
Và một mô hình như vậy cuối cùng có thể giúp nâng cao khả năng sáng tạo và đạt được các ứng dụng tốt hơn trong siêu vũ trụ.
Giới thiệu về tác giả
Lili Yu, Bowen Shi và Ramakanth Pasunuru là đồng tác giả của bài báo.
Trong số đó, Lili Yu có bằng cử nhân tại Khoa Vật lý của Đại học Bắc Kinh và bằng tiến sĩ về kỹ thuật điện và khoa học máy tính của MIT.
Người giới thiệu:
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Meta định nghĩa lại đa phương thức! Các cựu sinh viên Đại học Bắc Kinh làm việc cùng nhau, mô hình đồ thị Vincent 7 tỷ tham số đánh bại Diffusion
Nguồn: Xinzhiyuan
Meta lại ở đây!
Mới đây, Meta đã ra mắt mô hình đa phương thức dựa trên Transformer - CM3leon, mô hình này đã tạo ra những bước đột phá tuyệt đối trong lĩnh vực hiểu đồ thị và hình ảnh Vincent, và có thể được gọi là mô hình tốt nhất của loại hình này.
Hơn nữa, sự kết hợp nhiều phương thức này vào một mô hình duy nhất là điều chưa từng có trong các hệ thống AI đã được tiết lộ trước đây.
Trong khi đó, sự ra mắt của CM3leon chính thức đánh dấu lần đầu tiên một mô hình tự hồi quy phù hợp với hiệu suất của các mô hình khuếch tán tổng quát hàng đầu trên các điểm chuẩn chính.
Trước đó, 3 mẫu star được chú ý nhiều nhất trong lĩnh vực đồ thị Vincent là Stable Diffusion, DALL-E và Midjourney. Kỹ thuật biểu đồ Vinsen về cơ bản dựa trên mô hình khuếch tán.
Nhưng ý nghĩa mang tính cách mạng của CM3leon là nó sử dụng một công nghệ hoàn toàn khác - một mô hình tự hồi quy dựa trên tokenizer.
Kết quả cho thấy mô hình tự hồi quy dựa trên tokenizer không chỉ hiệu quả hơn phương pháp dựa trên mô hình khuếch tán và đạt được SOTA trong trường đồ thị Vincentian mà còn yêu cầu tính toán đào tạo ít hơn năm lần so với phương pháp dựa trên Transformer trước đây !
Hãy sẵn sàng, một làn sóng hiệu ứng thú vị đang đến
Chỉ nhìn vào các chỉ số hiệu suất thô không thể giải thích bất cứ điều gì.
Trường hợp CM3leon thực sự tỏa sáng là xử lý các tác vụ chỉnh sửa hình ảnh và lời nhắc phức tạp hơn.
Hình ảnh được hiển thị chính xác với kết quả tuyệt đẹp
Ví dụ: nó có thể hiển thị chính xác hình ảnh từ các tín hiệu như “cây xương rồng nhỏ ở sa mạc Sahara đội mũ rơm và đeo kính râm neon”.
CM3leon cũng có một khả năng duy nhất để chỉnh sửa các hình ảnh hiện có dựa trên các hướng dẫn văn bản dạng tự do, chẳng hạn như thay đổi màu sắc của bầu trời hoặc thêm các đối tượng tại các vị trí cụ thể.
Các chức năng trên vượt xa các hiệu ứng mà các mẫu như DALL-E 2 có thể đạt được.
Kiến trúc linh hoạt của CM3leon cho phép nó chuyển đổi tự do và mượt mà giữa các tác vụ văn bản, hình ảnh và bố cục.
Ngoài khả năng của sơ đồ Vincent, CM3leon có thể tạo chú thích cho hình ảnh, trả lời câu hỏi về nội dung hình ảnh và thậm chí tạo hình ảnh từ mô tả văn bản của hộp giới hạn và bản đồ phân đoạn.
Sự kết hợp các phương thức này thành một mô hình duy nhất là điều chưa từng có trong các hệ thống AI đã được tiết lộ trước đây.
: Con chó đang cầm gì? Người mẫu đáp: thanh.
: Mô tả chi tiết hình ảnh đã cho. Người mẫu trả lời: Trong hình ảnh này, một con chó đang ngậm một cây gậy trong miệng. Có cỏ trên mặt đất. Hình ảnh có cây trong nền.
Một nền tảng siêu phân giải riêng biệt có thể được tích hợp với đầu ra CM3leon, giúp tăng đáng kể độ phân giải và chi tiết.
Vào "một hòn đảo nhỏ hình tròn giữa hồ, xung quanh hồ có rừng cây, độ tương phản cao"——
Ngay cả vấn đề lâu nay về việc AI không thể vẽ tay cũng được CM3leon giải quyết dễ dàng.
Mô hình hồi quy tự động đánh bại Diffusion lần đầu tiên?
Trong lĩnh vực sơ đồ Vincent đã trở nên phổ biến trong những năm gần đây, Midjourney, DALL-E 2 và Stable Diffusion đều sử dụng công nghệ khuếch tán. Mặc dù kỹ thuật Khuếch tán tạo ra kết quả tuyệt vời, nhưng nó đòi hỏi nhiều tính toán, khiến nó tốn nhiều công sức tính toán, chạy tốn kém và thường thiếu tốc độ cần thiết cho các ứng dụng thời gian thực.
Thật thú vị, OpenAI muốn khám phá khả năng của Transformer dưới dạng tạo hình ảnh thông qua một mô hình có tên Image GPT vài năm trước. Nhưng cuối cùng nó đã từ bỏ ý tưởng để ủng hộ Diffusion.
CM3leon có cách tiếp cận hoàn toàn khác. Là một mô hình dựa trên Máy biến áp, nó tận dụng cơ chế chú ý để cân nhắc mức độ liên quan của dữ liệu đầu vào (dù là văn bản hay hình ảnh).
Sự khác biệt về kiến trúc này cho phép CM3leon đạt được tốc độ đào tạo nhanh hơn và song song hóa tốt hơn, do đó hiệu quả hơn các phương pháp dựa trên khuếch tán truyền thống.
Chỉ với một TPU duy nhất, CM3leon được đào tạo hiệu quả trên bộ dữ liệu hình ảnh và đạt được điểm FID là 4,88 trên bộ dữ liệu MS-COCO, vượt qua mô hình chuyển văn bản thành hình ảnh của Google Parti.
Đồng thời, hiệu quả của CM3leon cao hơn 5 lần so với kiến trúc Transformer tương tự.
Chìa khóa cho hiệu suất mạnh mẽ của nó là kỹ thuật tinh chỉnh có giám sát (SFT).
SFT trước đây đã được sử dụng để đào tạo các mô hình tạo văn bản như ChatGPT để đạt hiệu quả tốt, nhưng Meta lập luận rằng nó cũng có thể hữu ích khi áp dụng cho hình ảnh.
Trên thực tế, hướng dẫn tinh chỉnh đã cải thiện hiệu suất của CM3Leon không chỉ trong việc tạo hình ảnh mà còn trong việc viết chú thích hình ảnh, cho phép nó trả lời các câu hỏi về hình ảnh và cải thiện hiệu suất của hình ảnh bằng cách thực hiện theo các hướng dẫn bằng văn bản, chẳng hạn như "Thay đổi màu sắc của bầu trời thành sáng xanh." ”) để chỉnh sửa hình ảnh.
CM3leon chỉ sử dụng kiến trúc bộ giải mã-biến áp, tương tự như các mô hình dựa trên văn bản đã thiết lập, nhưng thêm khả năng xử lý văn bản và hình ảnh.
Quá trình đào tạo bao gồm tăng cường truy xuất, cũng như tinh chỉnh hướng dẫn qua các tác vụ tạo văn bản và hình ảnh khác nhau.
Bằng cách áp dụng các kỹ thuật tinh chỉnh có giám sát đa phương thức, Meta cải thiện đáng kể hiệu suất của CM3leon trong chú thích hình ảnh, QA trực quan và chỉnh sửa văn bản.
Mặc dù CM3leon chỉ được đào tạo trên 3 tỷ mã thông báo văn bản, nhưng nó phù hợp hoặc thậm chí vượt qua kết quả của các mô hình khác được đào tạo trên 100 tỷ mã thông báo.
Là mô hình đa phương thức đầu tiên được điều chỉnh theo cách tương tự như mô hình ngôn ngữ văn bản, Meta kết hợp giai đoạn đào tạo trước tăng cường truy xuất quy mô lớn và giai đoạn tinh chỉnh (SFT) được giám sát đa tác vụ thứ hai trong CM3leon.
CM3leon hoạt động như thế nào
Với các khả năng của CM3leon, các công cụ tạo hình ảnh có thể tạo ra các hình ảnh nhất quán hơn, tuân theo các tín hiệu đầu vào tốt hơn.
Sau đây là minh họa về khả năng của CM3leon trong các tác vụ khác nhau, tất cả đều được hoàn thành bởi một mẫu duy nhất:
tạo văn bản thành hình ảnh
Chỉnh sửa hình ảnh dựa trên văn bản (ví dụ: "thay đổi màu của bầu trời thành màu xanh sáng") là một thách thức vì nó yêu cầu người mẫu hiểu cả hướng dẫn bằng văn bản và nội dung trực quan.
Đặc biệt là khi các đối tượng phức tạp có liên quan hoặc khi gợi ý chứa nhiều ràng buộc phải có trong đầu ra.
Từ văn bản nhắc nhở với cấu trúc tổng hợp cao, CM3leon có thể tạo ra một hình ảnh để theo dõi.
Chỉnh sửa hình ảnh dựa trên văn bản
Đưa ra một hình ảnh và lời nhắc văn bản, CM3leon có thể chỉnh sửa hình ảnh theo hướng dẫn trong văn bản.
Do tính tổng quát của mô hình CM3leon, điều này đạt được với cùng một mô hình với các tác vụ khác, không giống như các mô hình trước đó (chẳng hạn như InstructPix2Pix) chỉ được tinh chỉnh để chỉnh sửa hình ảnh dựa trên văn bản.
Lấy một hạt dẻ.
Câu hỏi: Hai đối tượng này có điểm gì giống nhau?
Bối cảnh: Chọn câu trả lời đúng nhất.
Tùy chọn: (A) Sáng bóng (B) Mặn
Trả lời: Hãy suy nghĩ từng bước:
Nghĩ về từng đối tượng. Khoai tây chiên có vị mặn. Bánh quy có vị mặn. Vì vậy, câu trả lời là (B).
Mô tả chi tiết tất cả các đối tượng trong một hình ảnh nhất định.
Một dấu hiệu đường phố ngồi trên một cột kim loại. Logo có màu xanh lam với dòng chữ màu trắng trên đó. Có một đèn đỏ trên cột. Bầu trời trong xanh. Có những chiếc xe đậu trên đường phố. Có cây cối hai bên đường. Có những tòa nhà ở hai bên đường.
So với Flamingo (100B) và OpenFlamingo (40B), dữ liệu văn bản của mô hình CM3leon ít hơn đáng kể (khoảng 3B token).
Nhưng về mô tả hình ảnh MS-COCO và trả lời câu hỏi VQA2, CM3leon đã đạt được hiệu suất tương tự như OpenFlamingo mẫu không và thậm chí đánh bại Flamingo gần 10 điểm phần trăm trong nhiệm vụ VizWiz.
Chỉnh sửa hình ảnh theo hướng dẫn cấu trúc nhằm mục đích hiểu và giải thích các hướng dẫn bằng văn bản được cung cấp cùng với thông tin về cấu trúc hoặc bố cục.
Điều này cho phép các mô hình CM3leon tạo các phần tổng hợp hình ảnh phù hợp về mặt ngữ cảnh và nhất quán trực quan trong khi tuân thủ các hướng dẫn về cấu trúc hoặc bố cục đã cho.
Trong một hình ảnh chỉ chứa các phân đoạn (không có danh mục văn bản), hãy tạo một hình ảnh. Đầu vào ở đây đại diện cho hình ảnh mà phân đoạn được trích xuất.
Ngoài ra, có một thủ thuật phổ biến trong lĩnh vực tạo hình ảnh - sử dụng giai đoạn siêu phân giải được đào tạo riêng để tạo ra hình ảnh có độ phân giải cao hơn từ đầu ra của mô hình ban đầu.
Đối với loại tác vụ tạo văn bản thành hình ảnh này, CM3leon cũng thực hiện rất tốt.
(2) Lúc hoàng hôn, đại lộ đẹp và hùng vĩ
(3) Một hòn đảo hình tròn ở giữa hồ được bao quanh bởi rừng cây
Và một số thế hệ phong cách "tưởng tượng".
Cách xây dựng CM3Leon
Kết cấu
Về mặt kiến trúc, CM3Leon sử dụng Biến áp chỉ có bộ giải mã tương tự như mô hình văn bản trưởng thành.
Nhưng điểm khác biệt là CM3Leon có thể nhập và tạo văn bản và hình ảnh.
xe lửa
Bằng cách áp dụng công nghệ nâng cao truy xuất đào tạo được đề xuất trong bài báo "Mô hình hóa ngôn ngữ đa phương thức tăng cường lại", Meta cải thiện đáng kể hiệu quả và khả năng kiểm soát của mô hình CM3Leon.
Đồng thời, Meta cũng tinh chỉnh mô hình CM3Leon trên nhiều tác vụ tạo ảnh và văn bản khác nhau.
Khi ngành công nghiệp AI tiếp tục phát triển, các mô hình tổng quát như CM3Leon ngày càng trở nên phức tạp hơn.
Các mô hình này tìm hiểu mối quan hệ giữa tầm nhìn và văn bản bằng cách đào tạo trên hàng triệu hình ảnh ví dụ, nhưng chúng cũng có thể phản ánh những sai lệch có trong dữ liệu đào tạo.
Do đó, Meta sử dụng bộ dữ liệu được cấp phép để đào tạo CM3Leon.
Kết quả cũng chứng minh rằng CM3Leon vẫn đạt được hiệu suất cao mặc dù việc phân phối dữ liệu khá khác so với các mô hình trước đó.
Về vấn đề này, Meta hy vọng rằng thông qua nỗ lực chung của mọi người, có thể tạo ra một mô hình chính xác, công bằng và hợp lý hơn.
Mở đường cho các mô hình ngôn ngữ đa phương thức
Nhìn chung, Meta tin rằng hiệu suất tuyệt vời của CM3Leon trong các tác vụ khác nhau là một bước quan trọng để tạo và hiểu hình ảnh thực tế hơn.
Và một mô hình như vậy cuối cùng có thể giúp nâng cao khả năng sáng tạo và đạt được các ứng dụng tốt hơn trong siêu vũ trụ.
Giới thiệu về tác giả
Lili Yu, Bowen Shi và Ramakanth Pasunuru là đồng tác giả của bài báo.
Trong số đó, Lili Yu có bằng cử nhân tại Khoa Vật lý của Đại học Bắc Kinh và bằng tiến sĩ về kỹ thuật điện và khoa học máy tính của MIT.