Hình minh họa trên giấy cũng có thể được tạo tự động, sử dụng mô hình khuếch tán và được ICLR chấp nhận

Nếu không cần vẽ các biểu đồ trong bài báo, liệu có thuận tiện cho người nghiên cứu? Một số người đã khám phá khía cạnh này, sử dụng mô tả văn bản để tạo biểu đồ giấy và kết quả khá ấn tượng!

Biên tập: Du Wei, Zi Wen

Nguồn hình ảnh: Được tạo bởi Unbounded AI

AI sáng tạo đã trở nên phổ biến trong cộng đồng trí tuệ nhân tạo, cho dù đó là cá nhân hay doanh nghiệp, họ đều mong muốn tạo ra các ứng dụng chuyển đổi phương thức liên quan, chẳng hạn như sơ đồ Wensheng, video Wensheng, nhạc Wensheng, v.v.

Gần đây, một số nhà nghiên cứu từ các tổ chức nghiên cứu như ServiceNow Research và LIVIA đã cố gắng tạo ra các biểu đồ trong bài báo dựa trên các mô tả văn bản. Để đạt được mục tiêu này, họ đã đề xuất một phương pháp FigGen mới và các bài báo liên quan cũng được ICLR 2023 đưa vào dưới dạng Tiny Paper.

Địa chỉ giấy tờ:

Một số người có thể hỏi, có gì khó khăn khi tạo ra các biểu đồ trong bài báo? Điều này giúp nghiên cứu khoa học như thế nào?

Việc tạo biểu đồ khoa học giúp phổ biến kết quả nghiên cứu một cách ngắn gọn và dễ hiểu, và việc tạo biểu đồ tự động có thể mang lại nhiều lợi ích cho các nhà nghiên cứu, chẳng hạn như tiết kiệm thời gian và công sức trong việc thiết kế biểu đồ từ đầu. Hơn nữa, việc thiết kế các số liệu trực quan hấp dẫn và dễ hiểu có thể làm cho bài báo dễ tiếp cận hơn với nhiều người hơn.

Tuy nhiên, việc tạo sơ đồ cũng phải đối mặt với một số thách thức, cần thể hiện các mối quan hệ phức tạp giữa các thành phần rời rạc như hộp, mũi tên và văn bản. Không giống như tạo hình ảnh tự nhiên, các khái niệm trong biểu đồ giấy có thể có các cách biểu diễn khác nhau, đòi hỏi sự hiểu biết chi tiết, ví dụ: tạo biểu đồ mạng nơ-ron liên quan đến các vấn đề khó đặt ra với phương sai cao.

Do đó, các nhà nghiên cứu trong bài báo này đào tạo một mô hình tổng quát trên tập dữ liệu gồm các cặp sơ đồ giấy, nắm bắt mối quan hệ giữa các thành phần sơ đồ và văn bản tương ứng trong bài báo. Điều này đòi hỏi phải xử lý các mô tả văn bản có độ dài và kỹ thuật cao khác nhau, các kiểu biểu đồ khác nhau, tỷ lệ khung hình của hình ảnh cũng như phông chữ, kích thước và hướng hiển thị văn bản.

Trong quy trình triển khai cụ thể, các nhà nghiên cứu đã lấy cảm hứng từ những thành tựu chuyển văn bản thành hình ảnh gần đây, sử dụng mô hình khuếch tán để tạo biểu đồ và đề xuất một mô hình khuếch tán tiềm năng để tạo biểu đồ nghiên cứu khoa học từ mô tả văn bản—— FigGen.

Điều gì là duy nhất về mô hình khuếch tán này? Hãy chuyển sang các chi tiết.

Mô hình và phương pháp

Các nhà nghiên cứu đã đào tạo một mô hình khuếch tán tiềm ẩn từ đầu.

Đầu tiên, bộ mã hóa tự động hình ảnh được học để ánh xạ hình ảnh thành các biểu diễn tiềm ẩn được nén. Bộ mã hóa hình ảnh sử dụng mất KL và mất cảm giác OCR. Bộ mã hóa văn bản được sử dụng để điều chỉnh được học từ đầu đến cuối trong quá trình đào tạo mô hình khuếch tán này. Bảng 3 dưới đây cho thấy các tham số chi tiết của kiến trúc bộ mã hóa tự động hình ảnh.

Sau đó, mô hình khuếch tán tương tác trực tiếp trong không gian tiềm ẩn, thực hiện lập lịch chuyển tiếp bị hỏng dữ liệu, đồng thời học cách khôi phục quy trình bằng U-Net khử nhiễu có điều kiện theo thời gian và văn bản.

Đối với bộ dữ liệu, các nhà nghiên cứu đã sử dụng Paper2Fig100k, bao gồm các cặp văn bản-biểu đồ từ các bài báo và chứa 81.194 mẫu đào tạo và 21.259 mẫu xác thực. Hình 1 bên dưới là một ví dụ về biểu đồ được tạo bằng mô tả văn bản trong bộ thử nghiệm Paper2Fig100k.

Chi tiết mô hình

Đầu tiên là bộ mã hóa hình ảnh. Trong giai đoạn đầu tiên, bộ mã hóa hình ảnh tự động học cách ánh xạ từ không gian pixel sang biểu diễn tiềm ẩn được nén, giúp đào tạo mô hình khuếch tán nhanh hơn. Bộ mã hóa hình ảnh cũng cần học cách ánh xạ hình ảnh bên dưới trở lại không gian pixel mà không làm mất các chi tiết quan trọng của biểu đồ (chẳng hạn như chất lượng kết xuất văn bản).

Để đạt được mục tiêu này, chúng tôi xác định một codec tích chập nút cổ chai giúp lấy mẫu hình ảnh xuống theo hệ số f=8. Bộ mã hóa được đào tạo để giảm thiểu tổn thất KL, tổn thất cảm nhận VGG và tổn thất cảm nhận OCR với phân phối Gaussian.

Thứ hai là bộ mã hóa văn bản. Các nhà nghiên cứu phát hiện ra rằng các bộ mã hóa văn bản đa năng không phù hợp lắm với nhiệm vụ tạo biểu đồ. Do đó, họ xác định một máy biến áp Bert được đào tạo từ đầu trong quá trình khuếch tán với kích thước kênh nhúng là 512, đây cũng là kích thước nhúng điều chỉnh các lớp chú ý chéo của U-Net. Các nhà nghiên cứu cũng khám phá sự thay đổi của số lớp máy biến áp trong các cài đặt khác nhau (8, 32 và 128).

Cuối cùng là mô hình khuếch tán tiềm ẩn. Bảng 2 dưới đây cho thấy kiến trúc mạng của U-Net. Chúng tôi thực hiện quy trình khuếch tán trên một biểu diễn tiềm ẩn tương đương về mặt nhận thức của một hình ảnh có kích thước đầu vào được nén thành 64x64x4, làm cho mô hình khuếch tán nhanh hơn. Họ đã xác định 1.000 bước khuếch tán và lịch trình nhiễu tuyến tính.

Chi tiết đào tạo

Để đào tạo bộ mã hóa tự động hình ảnh, các nhà nghiên cứu đã sử dụng trình tối ưu hóa Adam với kích thước lô hiệu quả gồm 4 mẫu và tốc độ học tập là 4,5e−6, sử dụng bốn cạc đồ họa NVIDIA V100 12GB. Để đạt được sự ổn định trong đào tạo, họ khởi động mô hình trong 50 nghìn lần lặp lại mà không cần sử dụng bộ phân biệt đối xử.

Để đào tạo mô hình khuếch tán tiềm ẩn, chúng tôi cũng sử dụng trình tối ưu hóa Adam với kích thước lô hiệu quả là 32 và tốc độ học tập là 1e−4. Khi đào tạo mô hình trên bộ dữ liệu Paper2Fig100k, họ đã sử dụng tám card đồ họa Nvidia A100 80GB.

Kết quả thực nghiệm

Trong quá trình tạo, các nhà nghiên cứu đã sử dụng bộ lấy mẫu DDIM với 200 bước và tạo 12.000 mẫu cho mỗi kiểu để tính toán FID, IS, KID và OCR-SIM1. Steady sử dụng hướng dẫn không phân loại (CFG) để kiểm tra sự điều chỉnh quá mức.

Bảng 1 dưới đây cho thấy kết quả của các bộ mã hóa văn bản khác nhau. Có thể thấy rằng bộ mã hóa văn bản lớn tạo ra kết quả định tính tốt nhất và việc tạo điều kiện có thể được cải thiện bằng cách tăng kích thước của CFG. Mặc dù các mẫu định tính không đủ chất lượng để giải quyết vấn đề, nhưng FigGen đã nắm bắt được mối quan hệ giữa văn bản và hình ảnh.

Hình 2 bên dưới hiển thị các mẫu FigGen bổ sung được tạo khi điều chỉnh các tham số Hướng dẫn không phân loại (CFG). Các nhà nghiên cứu quan sát thấy rằng việc tăng kích thước của CFG (cũng đã được định lượng) dẫn đến cải thiện chất lượng hình ảnh.

Hình 3 dưới đây cho thấy một số ví dụ khác về thế hệ FigGen. Hãy lưu ý đến sự thay đổi về độ dài giữa các mẫu, cũng như trình độ kỹ thuật của mô tả văn bản, điều này ảnh hưởng chặt chẽ đến mức độ khó khăn của mô hình trong việc tạo ra hình ảnh dễ hiểu một cách chính xác.

Tuy nhiên, các nhà nghiên cứu cũng thừa nhận rằng mặc dù các biểu đồ được tạo ra này không thể cung cấp trợ giúp thiết thực cho các tác giả của bài báo, nhưng chúng vẫn là một hướng khám phá đầy hứa hẹn.

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)