Trong thế hệ hình ảnh và video, mô hình ngôn ngữ lần đầu tiên đánh bại mô hình khuếch tán và tokenizer là chìa khóa

Tại sao các mô hình ngôn ngữ lại tụt hậu so với các mô hình khuếch tán về mặt tạo hình ảnh? Nghiên cứu từ Google, CMU cho thấy tokenizer là chìa khóa.

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Các mô hình ngôn ngữ lớn (LLM hoặc LM) bắt đầu tạo ra ngôn ngữ, nhưng theo thời gian, chúng đã có thể tạo nội dung theo nhiều phương thức và trở nên thống trị về âm thanh, lời nói, tạo mã, ứng dụng y tế, robot và hơn thế nữa.

Tất nhiên, LM cũng có thể tạo ra hình ảnh và video. Trong quá trình này, các pixel hình ảnh được ánh xạ bởi các tokenizer trực quan thành một loạt các token rời rạc. Các mã thông báo này sau đó được đưa vào máy biến áp LM và được sử dụng để tạo mô hình giống như một từ vựng. Mặc dù LM đã có những tiến bộ đáng kể trong việc tạo ra hình ảnh, LM vẫn hoạt động kém hơn các mô hình khuếch tán. Ví dụ: khi được đánh giá trên tập dữ liệu ImageNet, điểm chuẩn vàng để tạo hình ảnh, mô hình ngôn ngữ tốt nhất hoạt động kém hơn 48% so với mô hình khuếch tán (FID 3.41 so với 1.79 khi tạo hình ảnh ở độ phân giải 256ˆ256).

Tại sao các mô hình ngôn ngữ tụt hậu so với các mô hình khuếch tán về mặt tạo hình ảnh? Các nhà nghiên cứu từ Google, CMU, tin rằng lý do chính là thiếu một đại diện trực quan tốt, tương tự như hệ thống ngôn ngữ tự nhiên của chúng ta, để mô hình hóa hiệu quả thế giới thị giác. Để xác nhận giả thuyết này, họ đã tiến hành một nghiên cứu.

Liên kết giấy:

Nghiên cứu này cho thấy rằng với mã thông báo trực quan tốt, các mô hình ngôn ngữ che giấu vượt trội hơn các mô hình khuếch tán SOTA về độ trung thực và hiệu quả của điểm chuẩn hình ảnh và video cho cùng một dữ liệu đào tạo, kích thước mô hình tương đương và ngân sách đào tạo. Đây là bằng chứng đầu tiên cho thấy một mô hình ngôn ngữ đánh bại một mô hình khuếch tán trên điểm chuẩn ImageNet mang tính biểu tượng.

Cần nhấn mạnh rằng mục đích của các nhà nghiên cứu không phải là để khẳng định liệu mô hình ngôn ngữ có vượt trội so với các mô hình khác hay không, mà là để thúc đẩy việc khám phá các phương pháp mã hóa trực quan LLM. Sự khác biệt cơ bản giữa LLM và các mô hình khác, chẳng hạn như mô hình khuếch tán, là LLM sử dụng định dạng tiềm ẩn rời rạc, tức là các mã thông báo thu được từ việc trực quan hóa các tokenizer. Nghiên cứu này cho thấy không nên bỏ qua giá trị của các mã thông báo trực quan rời rạc này vì những ưu điểm sau của chúng:

  1. Khả năng tương thích với LLM. Ưu điểm chính của biểu diễn mã thông báo là nó có cùng hình thức với mã thông báo ngôn ngữ, cho phép nó trực tiếp tận dụng các tối ưu hóa mà cộng đồng đã thực hiện trong nhiều năm để phát triển LLM, bao gồm đào tạo và suy luận nhanh hơn, tiến bộ trong cơ sở hạ tầng mô hình, cách mở rộng mô hình và đổi mới như tối ưu hóa GPU / TPU. Thống nhất tầm nhìn và ngôn ngữ thông qua cùng một không gian mã thông báo có thể đặt nền tảng cho một LLM đa phương thức thực sự có thể được hiểu, tạo và lý luận trong môi trường thị giác của chúng tôi.

  2. Biểu diễn nén. Mã thông báo rời rạc có thể cung cấp một góc nhìn mới về nén video. Mã thông báo trực quan có thể được sử dụng như một định dạng nén video mới để giảm dung lượng lưu trữ đĩa và băng thông bị chiếm dụng bởi dữ liệu trong quá trình truyền qua Internet. Không giống như các pixel RGB nén, các mã thông báo này có thể được đưa trực tiếp vào mô hình tạo ra, bỏ qua các bước giải nén và mã hóa tiềm năng truyền thống. Điều này có thể tăng tốc độ xử lý xây dựng các ứng dụng video, điều này đặc biệt có lợi trong các kịch bản điện toán biên.

  3. Lợi thế hiểu biết trực quan. Các nghiên cứu trước đây đã chỉ ra rằng các mã thông báo rời rạc có giá trị như các mục tiêu trước khi đào tạo trong học tập đại diện tự giám sát, như đã thảo luận trong BEiT và BEVT. Ngoài ra, nghiên cứu cho thấy việc sử dụng mã thông báo làm đầu vào mô hình giúp cải thiện tính mạnh mẽ và khái quát hóa.

Trong bài báo này, các nhà nghiên cứu đề xuất một mã thông báo video có tên MAGVIT-v2, nhằm mục đích ánh xạ video (và hình ảnh) thành các mã thông báo rời rạc nhỏ gọn.

Mô hình này dựa trên SOTA video tokenizer – MAGVIT trong framework VQ-VAE. Dựa trên điều này, các nhà nghiên cứu đề xuất hai công nghệ mới: 1) một phương pháp định lượng không cần tra cứu mới giúp bạn có thể học một số lượng lớn từ để cải thiện chất lượng tạo mô hình ngôn ngữ; 2) Thông qua phân tích thực nghiệm sâu rộng, họ đã xác định các sửa đổi đối với MAGVIT không chỉ cải thiện chất lượng xây dựng mà còn cho phép hình ảnh và video được mã hóa bằng cách sử dụng từ vựng được chia sẻ.

Kết quả thử nghiệm cho thấy mô hình mới vượt trội hơn so với mã thông báo video hoạt động tốt nhất trước đó, MAGVIT, trong ba lĩnh vực chính. Đầu tiên, mô hình mới cải thiện đáng kể chất lượng xây dựng của MAGVIT, làm mới SOTA trên các điểm chuẩn hình ảnh và video phổ biến. Thứ hai, các nghiên cứu người dùng đã chỉ ra rằng chất lượng nén của nó vượt quá MAGVIT và tiêu chuẩn nén video hiện tại HEVC. Hơn nữa, nó có thể so sánh với codec video thế hệ tiếp theo VVC. Cuối cùng, các nhà nghiên cứu đã chỉ ra rằng mã thông báo mới của họ hoạt động mạnh hơn trong nhiệm vụ hiểu video với hai cài đặt và ba bộ dữ liệu so với MAGVIT.

Giới thiệu phương pháp

Bài viết này giới thiệu một mã thông báo video mới nhằm mục đích ánh xạ động không gian thời gian trong các cảnh trực quan thành các mã thông báo rời rạc nhỏ gọn phù hợp với các mô hình ngôn ngữ. Ngoài ra, phương pháp xây dựng trên MAGVIT.

Nghiên cứu sau đó nhấn mạnh hai thiết kế mới: Lookup-Free Quantization (LFQ) và cải tiến cho mô hình tokenizer.

Không tra cứu lượng tử hóa

Gần đây, mô hình VQ-VAE đã có những tiến bộ vượt bậc, nhưng một nhược điểm của phương pháp này là mối quan hệ giữa việc nâng cao chất lượng tái thiết và chất lượng thế hệ tiếp theo chưa rõ ràng. Nhiều người lầm tưởng rằng cải thiện tái thiết tương đương với việc cải thiện việc tạo ra các mô hình ngôn ngữ, ví dụ, mở rộng vốn từ vựng có thể cải thiện chất lượng tái tạo. Tuy nhiên, cải tiến này chỉ áp dụng cho việc tạo ra vốn từ vựng nhỏ, điều này có thể làm tổn thương hiệu suất của mô hình ngôn ngữ khi vốn từ vựng rất lớn.

Bài viết này giảm kích thước nhúng sách mã VQ-VAE xuống 0, đó là sách mã

được thay thế bằng một tập hợp các số nguyên

trong đó

Không giống như mô hình VQ-VAE, thiết kế mới này loại bỏ hoàn toàn nhu cầu tra cứu nhúng, do đó có tên LFQ. Bài báo này cho thấy LFQ có thể cải thiện chất lượng tạo mô hình ngôn ngữ bằng cách tăng vốn từ vựng. Như được thể hiện bằng đường cong màu xanh lam trong Hình 1, cả tái tạo và tạo ra đều cải thiện khi vốn từ vựng tăng lên — một đặc điểm không được quan sát thấy trong các phương pháp VQ-VAE hiện tại.

Cho đến nay, có rất nhiều phương pháp LFQ có sẵn, nhưng bài viết này thảo luận về một biến thể đơn giản. Cụ thể, không gian tiềm ẩn của LFQ được phân tách thành các tích Descartes của các biến đơn chiều, tức là

。 Giả sử cho một vectơ tính năng

, biểu diễn định lượng từng chiều của q (z) thu được từ những điều sau đây:

Đối với LFQ, chỉ số token cho q (z) là:

Ngoài ra, bài viết này cũng bổ sung hình phạt entropy trong quá trình đào tạo:

** Cải tiến mô hình Visual Tokenizer **

Hình ảnh liên kết - mã thông báo video. Để xây dựng một tokenizer hình ảnh-video liên kết, một thiết kế mới là cần thiết. Bài viết này cho thấy CNN 3D hoạt động tốt hơn các máy biến áp không gian.

Bài viết này khám phá hai lựa chọn thiết kế khả thi, chẳng hạn như Hình 2b kết hợp C-ViViT với MAGVIT; Hình 2c sử dụng tích chập 3D nhân quả tạm thời thay cho CNN 3D thông thường.

Bảng 5a so sánh thiết kế trong Hình 2 theo kinh nghiệm và thấy rằng CNN 3D nhân quả hoạt động tốt nhất.

Ngoài việc sử dụng lớp CNN 3D nhân quả, các sửa đổi kiến trúc khác đã được thực hiện để cải thiện hiệu suất MAGVIT, chẳng hạn như thay đổi bộ mã hóa downsampler từ gộp trung bình sang tích chập bước; Một ví dụ khác là thêm một lớp chuẩn hóa nhóm thích ứng trước khối còn lại của mỗi độ phân giải trong bộ giải mã.

Kết quả thí nghiệm

Các thử nghiệm xác minh hiệu suất của tokenizer được đề xuất trong bài báo này từ ba phần: tạo video và hình ảnh, nén video và nhận dạng chuyển động. Hình 3 so sánh trực quan kết quả của Tokenizer với các nghiên cứu trước đó.

Tạo video. Bảng 1 cho thấy mô hình này vượt qua tất cả các nghệ thuật trước đó trong cả hai điểm chuẩn, chứng minh rằng mã thông báo hình ảnh tốt đóng một vai trò quan trọng trong việc cho phép LM tạo ra video chất lượng cao.

Hình 4 cho thấy một mẫu định tính của mô hình.

Tạo hình ảnh. Trong bài báo này, kết quả tạo hình ảnh của MAGVIT-v2 được đánh giá theo cài đặt điều kiện lớp ImageNet tiêu chuẩn. Kết quả cho thấy mô hình được đề xuất vượt trội hơn mô hình khuếch tán hoạt động tốt nhất về chất lượng lấy mẫu (ID và IS) và hiệu quả thời gian suy luận (bước lấy mẫu).

Hình 5 cho thấy sự trực quan.

Nén video. Kết quả được hiển thị trong Bảng 3 và mô hình hoạt động tốt hơn MAGVIT trên tất cả các chỉ số và vượt trội hơn tất cả các phương pháp trên LPIPS.

Video hiểu. Như thể hiện trong Bảng 4, MAGVIT-v2 vượt trội hơn MAGVIT tốt nhất trước đó trong các đánh giá này.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)