Makaledeki grafiklerin çizilmesi gerekmiyorsa araştırmacılar için bir kolaylık olur mu? Bazı insanlar, kağıt grafikler oluşturmak için metin açıklamalarını kullanarak bu yönü araştırdılar ve sonuçlar oldukça etkileyici!
Editörler: Du Wei, Zi Wen
Görsel kaynağı: Unbounded AI tarafından oluşturuldu
Üretken yapay zeka, yapay zeka topluluğunda popüler hale geldi. İster bireysel ister kurumsal olsun, hepsi Wensheng diyagramı, Wensheng videosu, Wensheng müziği vb. gibi ilgili modal dönüşüm uygulamaları oluşturmaya hevesli.
Son zamanlarda, ServiceNow Research ve LIVIA gibi araştırma kurumlarından birkaç araştırmacı, metin açıklamalarına dayalı olarak makalelerde grafikler oluşturmaya çalıştı. Bu amaçla FigGen'in yeni bir yöntemini önerdiler ve ilgili makaleler ICLR 2023 tarafından Tiny Paper olarak da dahil edildi.
Kağıt adresi:
Bazı insanlar, kağıttaki grafikleri oluşturmanın nesi bu kadar zor diye sorabilir. Bu bilimsel araştırmaya nasıl yardımcı olur?
Bilimsel grafik oluşturma, araştırma sonuçlarını özlü ve anlaşılır bir şekilde yaymaya yardımcı olur ve otomatik grafik oluşturma, araştırmacılara sıfırdan grafik tasarlamada zamandan ve emekten tasarruf etmek gibi birçok avantaj sağlayabilir. Ayrıca görsel olarak çekici ve anlaşılır şekiller tasarlamak, kağıdın daha fazla kişiye ulaşmasını sağlayabilir.
Bununla birlikte, diyagramlar oluşturmak, kutular, oklar ve metin gibi ayrık bileşenler arasındaki karmaşık ilişkileri temsil etmesi gereken bazı zorluklarla da karşı karşıyadır. Doğal görüntülerin üretilmesinden farklı olarak, kağıt grafiklerdeki kavramlar farklı temsillere sahip olabilir ve bu da ince taneli bir anlayış gerektirir; örneğin, bir sinir ağı grafiği oluşturmak, yüksek varyansa sahip kötü konumlanmış problemler içerir.
Bu nedenle, bu makaledeki araştırmacılar, diyagram bileşenleri ile kağıttaki ilgili metin arasındaki ilişkiyi yakalayan, kağıt diyagram çiftlerinden oluşan bir veri kümesi üzerinde üretken bir model geliştiriyor. Bu, değişen uzunluklar ve son derece teknik metin açıklamaları, değişen grafik stilleri, görüntü en boy oranları ve metin işleme yazı tipleri, boyutları ve yönleriyle uğraşmayı gerektirir.
Spesifik uygulama sürecinde araştırmacılar, grafikler oluşturmak için yayılma modelini kullanarak son metinden görüntüye başarılardan ilham aldılar ve metin açıklamalarından bilimsel araştırma grafikleri oluşturmak için potansiyel bir yayılma modeli önerdiler ——FigGen.
Bu difüzyon modelinde benzersiz olan nedir? Ayrıntılara geçelim.
Model ve yöntem
Araştırmacılar, gizli bir difüzyon modelini sıfırdan eğitti.
Bir görüntü otomatik kodlayıcı, önce görüntüleri sıkıştırılmış gizli temsillere eşlemek için öğrenilir. Görüntü kodlayıcılar, KL kaybı ve OCR algısal kaybı kullanır. Ayarlama için kullanılan metin kodlayıcı, bu difüzyon modelinin eğitimi sırasında uçtan uca öğrenilir. Aşağıdaki Tablo 3, görüntü otomatik kodlayıcı mimarisinin ayrıntılı parametrelerini göstermektedir.
Difüzyon modeli daha sonra, geçici ve metinsel koşullu bir gürültü giderici U-Net ile süreci kurtarmayı öğrenirken, veri-bozulmuş ileri programlama gerçekleştirerek doğrudan gizli alanda etkileşime girer.
Veri kümesine gelince, araştırmacılar kağıtlardan alınan grafik-metin çiftlerinden oluşan ve 81.194 eğitim örneği ve 21.259 doğrulama örneği içeren Paper2Fig100k'yi kullandılar. Aşağıdaki Şekil 1, Paper2Fig100k test setindeki metin açıklamaları kullanılarak oluşturulmuş bir grafik örneğidir.
Model ayrıntıları
İlki, görüntü kodlayıcıdır. İlk aşamada, görüntü otomatik kodlayıcı, piksel alanından sıkıştırılmış gizli gösterime bir eşleme öğrenerek difüzyon modeli eğitimini daha hızlı hale getirir. Görüntü kodlayıcıların ayrıca, grafiğin önemli ayrıntılarını (metin oluşturma kalitesi gibi) kaybetmeden temel görüntüyü piksel alanına geri eşlemeyi öğrenmesi gerekir.
Bu amaçla, görüntüleri f=8 faktörü ile altörnekleyen bir darboğaz evrişimli codec tanımlıyoruz. Kodlayıcı, Gauss dağılımı ile KL kaybını, VGG algısal kaybını ve OCR algısal kaybını en aza indirecek şekilde eğitilmiştir.
İkincisi, metin kodlayıcıdır. Araştırmacılar, genel amaçlı metin kodlayıcıların grafik oluşturma görevi için pek uygun olmadığını bulmuşlardır. Bu nedenle, aynı zamanda U-Net'in çapraz dikkat katmanlarını düzenleyen gömme boyutu olan 512'lik bir gömme kanal boyutu ile difüzyon sırasında sıfırdan eğitilmiş bir Bert transformatörü tanımlarlar. Araştırmacılar ayrıca farklı ayarlar (8, 32 ve 128) altında trafo katmanlarının sayısındaki değişimi de araştırdılar.
Son olarak gizli difüzyon modeli var. Aşağıdaki Tablo 2, U-Net'in ağ mimarisini göstermektedir. Yayılma sürecini, girdi boyutu 64x64x4'e sıkıştırılmış bir görüntünün algısal olarak eşdeğer gizli temsili üzerinde gerçekleştirerek, yayılma modelini daha hızlı hale getiriyoruz. 1.000 difüzyon adımı ve doğrusal bir gürültü programı tanımladılar.
Eğitim Ayrıntıları
Görüntü otomatik kodlayıcıyı eğitmek için araştırmacılar, dört adet 12 GB NVIDIA V100 grafik kartı kullanarak, 4 örneklik etkili parti boyutuna ve 4,5e−6 öğrenme hızına sahip bir Adam iyileştirici kullandı. Eğitim stabilitesini elde etmek için, ayrımcıyı kullanmadan modeli 50 bin yinelemede ısıtırlar.
Gizli difüzyon modelini eğitmek için, 32 etkili parti boyutu ve 1e−4 öğrenme oranı ile Adam iyileştiriciyi de kullanıyoruz. Modeli Paper2Fig100k veri kümesi üzerinde eğitirken, sekiz adet 80 GB Nvidia A100 grafik kartı kullandılar.
Deneysel sonuçlar
Üretim sürecinde, araştırmacılar 200 adımlı bir DDIM örnekleyiciyi benimsedi ve FID, IS, KID ve OCR-SIM1'i hesaplamak için her model için 12.000 örnek oluşturdu. Steady, aşırı düzenlemeyi test etmek için sınıflandırıcıdan bağımsız rehberlik (CFG) kullanır.
Aşağıdaki Tablo 1, farklı metin kodlayıcıların sonuçlarını göstermektedir. Büyük metin kodlayıcının en iyi niteliksel sonuçları ürettiği ve CFG'nin boyutunu artırarak koşullu oluşturmanın iyileştirilebileceği görülebilir. Niteliksel örnekler sorunu çözmek için yeterli kalitede olmasa da, FigGen metin ve resimler arasındaki ilişkiyi kavramıştır.
Aşağıdaki Şekil 2, Classifier-Free Guidance (CFG) parametrelerini ayarlarken oluşturulan ek FigGen örneklerini göstermektedir. Araştırmacılar, CFG'nin boyutunu artırmanın (ki bu da ölçüldü) görüntü kalitesinde bir iyileşmeyle sonuçlandığını gözlemledi.
Aşağıdaki Şekil 3, FigGen üretiminin bazı başka örneklerini göstermektedir. Modelin anlaşılır görüntüleri doğru bir şekilde oluşturmasının ne kadar zor olduğunu yakından etkileyen metin açıklamasının teknik düzeyinin yanı sıra örnekler arasındaki uzunluk farklılıklarının farkında olun.
Bununla birlikte, araştırmacılar, oluşturulan bu çizelgelerin makalenin yazarlarına pratik yardım sağlayamasa da, yine de umut verici bir keşif yönü olduklarını da kabul ediyorlar.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Kağıt çizimler de difüzyon modeli kullanılarak otomatik olarak oluşturulabilir ve ICLR tarafından kabul edilebilir.
Editörler: Du Wei, Zi Wen
Üretken yapay zeka, yapay zeka topluluğunda popüler hale geldi. İster bireysel ister kurumsal olsun, hepsi Wensheng diyagramı, Wensheng videosu, Wensheng müziği vb. gibi ilgili modal dönüşüm uygulamaları oluşturmaya hevesli.
Son zamanlarda, ServiceNow Research ve LIVIA gibi araştırma kurumlarından birkaç araştırmacı, metin açıklamalarına dayalı olarak makalelerde grafikler oluşturmaya çalıştı. Bu amaçla FigGen'in yeni bir yöntemini önerdiler ve ilgili makaleler ICLR 2023 tarafından Tiny Paper olarak da dahil edildi.
Bazı insanlar, kağıttaki grafikleri oluşturmanın nesi bu kadar zor diye sorabilir. Bu bilimsel araştırmaya nasıl yardımcı olur?
Bilimsel grafik oluşturma, araştırma sonuçlarını özlü ve anlaşılır bir şekilde yaymaya yardımcı olur ve otomatik grafik oluşturma, araştırmacılara sıfırdan grafik tasarlamada zamandan ve emekten tasarruf etmek gibi birçok avantaj sağlayabilir. Ayrıca görsel olarak çekici ve anlaşılır şekiller tasarlamak, kağıdın daha fazla kişiye ulaşmasını sağlayabilir.
Bununla birlikte, diyagramlar oluşturmak, kutular, oklar ve metin gibi ayrık bileşenler arasındaki karmaşık ilişkileri temsil etmesi gereken bazı zorluklarla da karşı karşıyadır. Doğal görüntülerin üretilmesinden farklı olarak, kağıt grafiklerdeki kavramlar farklı temsillere sahip olabilir ve bu da ince taneli bir anlayış gerektirir; örneğin, bir sinir ağı grafiği oluşturmak, yüksek varyansa sahip kötü konumlanmış problemler içerir.
Bu nedenle, bu makaledeki araştırmacılar, diyagram bileşenleri ile kağıttaki ilgili metin arasındaki ilişkiyi yakalayan, kağıt diyagram çiftlerinden oluşan bir veri kümesi üzerinde üretken bir model geliştiriyor. Bu, değişen uzunluklar ve son derece teknik metin açıklamaları, değişen grafik stilleri, görüntü en boy oranları ve metin işleme yazı tipleri, boyutları ve yönleriyle uğraşmayı gerektirir.
Spesifik uygulama sürecinde araştırmacılar, grafikler oluşturmak için yayılma modelini kullanarak son metinden görüntüye başarılardan ilham aldılar ve metin açıklamalarından bilimsel araştırma grafikleri oluşturmak için potansiyel bir yayılma modeli önerdiler ——FigGen.
Bu difüzyon modelinde benzersiz olan nedir? Ayrıntılara geçelim.
Model ve yöntem
Araştırmacılar, gizli bir difüzyon modelini sıfırdan eğitti.
Bir görüntü otomatik kodlayıcı, önce görüntüleri sıkıştırılmış gizli temsillere eşlemek için öğrenilir. Görüntü kodlayıcılar, KL kaybı ve OCR algısal kaybı kullanır. Ayarlama için kullanılan metin kodlayıcı, bu difüzyon modelinin eğitimi sırasında uçtan uca öğrenilir. Aşağıdaki Tablo 3, görüntü otomatik kodlayıcı mimarisinin ayrıntılı parametrelerini göstermektedir.
Difüzyon modeli daha sonra, geçici ve metinsel koşullu bir gürültü giderici U-Net ile süreci kurtarmayı öğrenirken, veri-bozulmuş ileri programlama gerçekleştirerek doğrudan gizli alanda etkileşime girer.
İlki, görüntü kodlayıcıdır. İlk aşamada, görüntü otomatik kodlayıcı, piksel alanından sıkıştırılmış gizli gösterime bir eşleme öğrenerek difüzyon modeli eğitimini daha hızlı hale getirir. Görüntü kodlayıcıların ayrıca, grafiğin önemli ayrıntılarını (metin oluşturma kalitesi gibi) kaybetmeden temel görüntüyü piksel alanına geri eşlemeyi öğrenmesi gerekir.
Bu amaçla, görüntüleri f=8 faktörü ile altörnekleyen bir darboğaz evrişimli codec tanımlıyoruz. Kodlayıcı, Gauss dağılımı ile KL kaybını, VGG algısal kaybını ve OCR algısal kaybını en aza indirecek şekilde eğitilmiştir.
İkincisi, metin kodlayıcıdır. Araştırmacılar, genel amaçlı metin kodlayıcıların grafik oluşturma görevi için pek uygun olmadığını bulmuşlardır. Bu nedenle, aynı zamanda U-Net'in çapraz dikkat katmanlarını düzenleyen gömme boyutu olan 512'lik bir gömme kanal boyutu ile difüzyon sırasında sıfırdan eğitilmiş bir Bert transformatörü tanımlarlar. Araştırmacılar ayrıca farklı ayarlar (8, 32 ve 128) altında trafo katmanlarının sayısındaki değişimi de araştırdılar.
Son olarak gizli difüzyon modeli var. Aşağıdaki Tablo 2, U-Net'in ağ mimarisini göstermektedir. Yayılma sürecini, girdi boyutu 64x64x4'e sıkıştırılmış bir görüntünün algısal olarak eşdeğer gizli temsili üzerinde gerçekleştirerek, yayılma modelini daha hızlı hale getiriyoruz. 1.000 difüzyon adımı ve doğrusal bir gürültü programı tanımladılar.
Görüntü otomatik kodlayıcıyı eğitmek için araştırmacılar, dört adet 12 GB NVIDIA V100 grafik kartı kullanarak, 4 örneklik etkili parti boyutuna ve 4,5e−6 öğrenme hızına sahip bir Adam iyileştirici kullandı. Eğitim stabilitesini elde etmek için, ayrımcıyı kullanmadan modeli 50 bin yinelemede ısıtırlar.
Gizli difüzyon modelini eğitmek için, 32 etkili parti boyutu ve 1e−4 öğrenme oranı ile Adam iyileştiriciyi de kullanıyoruz. Modeli Paper2Fig100k veri kümesi üzerinde eğitirken, sekiz adet 80 GB Nvidia A100 grafik kartı kullandılar.
Deneysel sonuçlar
Üretim sürecinde, araştırmacılar 200 adımlı bir DDIM örnekleyiciyi benimsedi ve FID, IS, KID ve OCR-SIM1'i hesaplamak için her model için 12.000 örnek oluşturdu. Steady, aşırı düzenlemeyi test etmek için sınıflandırıcıdan bağımsız rehberlik (CFG) kullanır.
Aşağıdaki Tablo 1, farklı metin kodlayıcıların sonuçlarını göstermektedir. Büyük metin kodlayıcının en iyi niteliksel sonuçları ürettiği ve CFG'nin boyutunu artırarak koşullu oluşturmanın iyileştirilebileceği görülebilir. Niteliksel örnekler sorunu çözmek için yeterli kalitede olmasa da, FigGen metin ve resimler arasındaki ilişkiyi kavramıştır.