Si les graphiques de l'article n'ont pas besoin d'être dessinés, est-ce une commodité pour les chercheurs ? Certaines personnes ont exploré cet aspect, en utilisant des descriptions textuelles pour générer des graphiques papier, et les résultats sont assez impressionnants !
Éditeurs : Du Wei, Zi Wen
Source de l'image : générée par l'IA illimitée
L'IA générative est devenue populaire dans la communauté de l'intelligence artificielle. Qu'il s'agisse d'un individu ou d'une entreprise, ils souhaitent tous créer des applications de transformation modale connexes, telles que le diagramme de Wensheng, la vidéo Wensheng, la musique Wensheng, etc.
Récemment, plusieurs chercheurs d'institutions de recherche telles que ServiceNow Research et LIVIA ont tenté de générer des graphiques dans des articles basés sur des descriptions textuelles. À cette fin, ils ont proposé une nouvelle méthode de FigGen, et des articles connexes ont également été inclus en tant que Tiny Paper par ICLR 2023.
Adresse papier :
Certaines personnes peuvent se demander, qu'est-ce qui est si difficile dans la génération des graphiques dans le papier ? Comment cela aide-t-il la recherche scientifique ?
La génération de graphes scientifiques aide à diffuser les résultats de la recherche de manière concise et compréhensible, et la génération automatique de graphes peut apporter de nombreux avantages aux chercheurs, comme un gain de temps et d'efforts dans la conception de graphes à partir de zéro. De plus, la conception de figures visuellement attrayantes et compréhensibles peut rendre le papier plus accessible à un plus grand nombre de personnes.
Cependant, la génération de diagrammes est également confrontée à certains défis, qui doivent représenter des relations complexes entre des composants discrets tels que des cases, des flèches et du texte. Contrairement à la génération d'images naturelles, les concepts dans les graphiques papier peuvent avoir des représentations différentes, nécessitant une compréhension fine, par exemple, la génération d'un graphique de réseau neuronal implique des problèmes mal posés avec une variance élevée.
Par conséquent, les chercheurs de cet article forment un modèle génératif sur un ensemble de données de paires de diagrammes papier, capturant la relation entre les composants du diagramme et le texte correspondant dans l'article. Cela nécessite de gérer des longueurs variables et des descriptions de texte hautement techniques, des styles de graphique variés, des rapports d'aspect d'image et des polices, tailles et orientations de rendu de texte.
Dans le processus de mise en œuvre spécifique, les chercheurs se sont inspirés des réalisations récentes du texte à l'image, en utilisant le modèle de diffusion pour générer des graphiques, et ont proposé un modèle de diffusion potentiel pour générer des graphiques de recherche scientifique à partir de descriptions textuelles——FigGen.
En quoi ce modèle de diffusion est-il unique ? Passons aux détails.
Modèle et méthode
Les chercheurs ont formé un modèle de diffusion latente à partir de zéro.
Un auto-encodeur d'image est d'abord appris à mapper des images dans des représentations latentes compressées. Les encodeurs d'image utilisent la perte KL et la perte de perception OCR. L'encodeur de texte utilisé pour le réglage est appris de bout en bout lors de l'apprentissage de ce modèle de diffusion. Le tableau 3 ci-dessous présente les paramètres détaillés de l'architecture de l'auto-encodeur d'image.
Le modèle de diffusion interagit alors directement dans l'espace latent, effectuant un ordonnancement en avant corrompu par les données, tout en apprenant à récupérer le processus avec un U-Net de débruitage conditionnel temporel et textuel.
En ce qui concerne l'ensemble de données, les chercheurs ont utilisé Paper2Fig100k, qui se compose de paires graphique-texte d'articles et contient 81 194 échantillons d'apprentissage et 21 259 échantillons de validation. La figure 1 ci-dessous est un exemple de graphique généré à l'aide de descriptions textuelles dans l'ensemble de test Paper2Fig100k.
Détails du modèle
Le premier est l'encodeur d'image. Dans la première étape, l'auto-encodeur d'image apprend un mappage de l'espace de pixels à la représentation latente compressée, ce qui accélère l'apprentissage du modèle de diffusion. Les encodeurs d'images doivent également apprendre à mapper l'image sous-jacente dans l'espace pixel sans perdre des détails importants du graphique (comme la qualité de rendu du texte).
À cette fin, nous définissons un codec convolutif goulot d'étranglement qui sous-échantillonne les images d'un facteur f=8. L'encodeur est formé pour minimiser la perte de KL, la perte de perception VGG et la perte de perception OCR avec une distribution gaussienne.
Le deuxième est l'encodeur de texte. Les chercheurs ont découvert que les encodeurs de texte à usage général ne sont pas bien adaptés à la tâche de génération de graphiques. Ils définissent donc un transformateur Bert formé à partir de zéro lors de la diffusion avec une taille de canal d'intégration de 512, qui est également la taille d'intégration qui régule les couches d'attention croisée d'U-Net. Les chercheurs ont également exploré la variation du nombre de couches de transformateur sous différents paramètres (8, 32 et 128).
Enfin, il y a le modèle de diffusion latente. Le tableau 2 ci-dessous montre l'architecture réseau de U-Net. Nous effectuons le processus de diffusion sur une représentation latente perceptuellement équivalente d'une image dont la taille d'entrée est compressée à 64x64x4, ce qui rend le modèle de diffusion plus rapide. Ils ont défini 1 000 étapes de diffusion et un programme de bruit linéaire.
Détails de la formation
Pour former l'auto-encodeur d'image, les chercheurs ont utilisé un optimiseur Adam avec une taille de lot effective de 4 échantillons et un taux d'apprentissage de 4,5e−6, en utilisant quatre cartes graphiques NVIDIA V100 de 12 Go. Pour atteindre la stabilité de l'entraînement, ils réchauffent le modèle en 50 000 itérations sans utiliser le discriminateur.
Pour former le modèle de diffusion latente, nous utilisons également l'optimiseur Adam avec une taille de lot effective de 32 et un taux d'apprentissage de 1e−4. Lors de la formation du modèle sur l'ensemble de données Paper2Fig100k, ils ont utilisé huit cartes graphiques Nvidia A100 de 80 Go.
Résultats expérimentaux
Dans le processus de génération, les chercheurs ont adopté un échantillonneur DDIM à 200 étapes et ont généré 12 000 échantillons pour chaque modèle afin de calculer FID, IS, KID et OCR-SIM1. Steady utilise le guidage sans classificateur (CFG) pour tester la surrégulation.
Le tableau 1 ci-dessous montre les résultats de différents encodeurs de texte. On peut voir que le grand encodeur de texte produit les meilleurs résultats qualitatifs, et la génération conditionnelle peut être améliorée en augmentant la taille du CFG. Bien que les échantillons qualitatifs ne soient pas de qualité suffisante pour résoudre le problème, FigGen a saisi la relation entre le texte et les images.
La figure 2 ci-dessous montre des échantillons FigGen supplémentaires générés lors du réglage des paramètres de guidage sans classificateur (CFG). Les chercheurs ont observé que l'augmentation de la taille du CFG (qui était également quantifiée) entraînait une amélioration de la qualité de l'image.
La figure 3 ci-dessous montre quelques exemples supplémentaires de génération de FigGen. Soyez conscient de la variation de longueur entre les échantillons, ainsi que du niveau technique de la description du texte, qui affecte étroitement la difficulté pour le modèle de générer correctement des images intelligibles.
Cependant, les chercheurs admettent également que bien que ces graphiques générés ne puissent pas fournir une aide pratique aux auteurs de l'article, ils constituent toujours une direction d'exploration prometteuse.
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Les illustrations papier peuvent également être générées automatiquement, en utilisant le modèle de diffusion, et acceptées par l'ICLR
Éditeurs : Du Wei, Zi Wen
L'IA générative est devenue populaire dans la communauté de l'intelligence artificielle. Qu'il s'agisse d'un individu ou d'une entreprise, ils souhaitent tous créer des applications de transformation modale connexes, telles que le diagramme de Wensheng, la vidéo Wensheng, la musique Wensheng, etc.
Récemment, plusieurs chercheurs d'institutions de recherche telles que ServiceNow Research et LIVIA ont tenté de générer des graphiques dans des articles basés sur des descriptions textuelles. À cette fin, ils ont proposé une nouvelle méthode de FigGen, et des articles connexes ont également été inclus en tant que Tiny Paper par ICLR 2023.
Certaines personnes peuvent se demander, qu'est-ce qui est si difficile dans la génération des graphiques dans le papier ? Comment cela aide-t-il la recherche scientifique ?
La génération de graphes scientifiques aide à diffuser les résultats de la recherche de manière concise et compréhensible, et la génération automatique de graphes peut apporter de nombreux avantages aux chercheurs, comme un gain de temps et d'efforts dans la conception de graphes à partir de zéro. De plus, la conception de figures visuellement attrayantes et compréhensibles peut rendre le papier plus accessible à un plus grand nombre de personnes.
Cependant, la génération de diagrammes est également confrontée à certains défis, qui doivent représenter des relations complexes entre des composants discrets tels que des cases, des flèches et du texte. Contrairement à la génération d'images naturelles, les concepts dans les graphiques papier peuvent avoir des représentations différentes, nécessitant une compréhension fine, par exemple, la génération d'un graphique de réseau neuronal implique des problèmes mal posés avec une variance élevée.
Par conséquent, les chercheurs de cet article forment un modèle génératif sur un ensemble de données de paires de diagrammes papier, capturant la relation entre les composants du diagramme et le texte correspondant dans l'article. Cela nécessite de gérer des longueurs variables et des descriptions de texte hautement techniques, des styles de graphique variés, des rapports d'aspect d'image et des polices, tailles et orientations de rendu de texte.
Dans le processus de mise en œuvre spécifique, les chercheurs se sont inspirés des réalisations récentes du texte à l'image, en utilisant le modèle de diffusion pour générer des graphiques, et ont proposé un modèle de diffusion potentiel pour générer des graphiques de recherche scientifique à partir de descriptions textuelles——FigGen.
En quoi ce modèle de diffusion est-il unique ? Passons aux détails.
Modèle et méthode
Les chercheurs ont formé un modèle de diffusion latente à partir de zéro.
Un auto-encodeur d'image est d'abord appris à mapper des images dans des représentations latentes compressées. Les encodeurs d'image utilisent la perte KL et la perte de perception OCR. L'encodeur de texte utilisé pour le réglage est appris de bout en bout lors de l'apprentissage de ce modèle de diffusion. Le tableau 3 ci-dessous présente les paramètres détaillés de l'architecture de l'auto-encodeur d'image.
Le modèle de diffusion interagit alors directement dans l'espace latent, effectuant un ordonnancement en avant corrompu par les données, tout en apprenant à récupérer le processus avec un U-Net de débruitage conditionnel temporel et textuel.
Le premier est l'encodeur d'image. Dans la première étape, l'auto-encodeur d'image apprend un mappage de l'espace de pixels à la représentation latente compressée, ce qui accélère l'apprentissage du modèle de diffusion. Les encodeurs d'images doivent également apprendre à mapper l'image sous-jacente dans l'espace pixel sans perdre des détails importants du graphique (comme la qualité de rendu du texte).
À cette fin, nous définissons un codec convolutif goulot d'étranglement qui sous-échantillonne les images d'un facteur f=8. L'encodeur est formé pour minimiser la perte de KL, la perte de perception VGG et la perte de perception OCR avec une distribution gaussienne.
Le deuxième est l'encodeur de texte. Les chercheurs ont découvert que les encodeurs de texte à usage général ne sont pas bien adaptés à la tâche de génération de graphiques. Ils définissent donc un transformateur Bert formé à partir de zéro lors de la diffusion avec une taille de canal d'intégration de 512, qui est également la taille d'intégration qui régule les couches d'attention croisée d'U-Net. Les chercheurs ont également exploré la variation du nombre de couches de transformateur sous différents paramètres (8, 32 et 128).
Enfin, il y a le modèle de diffusion latente. Le tableau 2 ci-dessous montre l'architecture réseau de U-Net. Nous effectuons le processus de diffusion sur une représentation latente perceptuellement équivalente d'une image dont la taille d'entrée est compressée à 64x64x4, ce qui rend le modèle de diffusion plus rapide. Ils ont défini 1 000 étapes de diffusion et un programme de bruit linéaire.
Pour former l'auto-encodeur d'image, les chercheurs ont utilisé un optimiseur Adam avec une taille de lot effective de 4 échantillons et un taux d'apprentissage de 4,5e−6, en utilisant quatre cartes graphiques NVIDIA V100 de 12 Go. Pour atteindre la stabilité de l'entraînement, ils réchauffent le modèle en 50 000 itérations sans utiliser le discriminateur.
Pour former le modèle de diffusion latente, nous utilisons également l'optimiseur Adam avec une taille de lot effective de 32 et un taux d'apprentissage de 1e−4. Lors de la formation du modèle sur l'ensemble de données Paper2Fig100k, ils ont utilisé huit cartes graphiques Nvidia A100 de 80 Go.
Résultats expérimentaux
Dans le processus de génération, les chercheurs ont adopté un échantillonneur DDIM à 200 étapes et ont généré 12 000 échantillons pour chaque modèle afin de calculer FID, IS, KID et OCR-SIM1. Steady utilise le guidage sans classificateur (CFG) pour tester la surrégulation.
Le tableau 1 ci-dessous montre les résultats de différents encodeurs de texte. On peut voir que le grand encodeur de texte produit les meilleurs résultats qualitatifs, et la génération conditionnelle peut être améliorée en augmentant la taille du CFG. Bien que les échantillons qualitatifs ne soient pas de qualité suffisante pour résoudre le problème, FigGen a saisi la relation entre le texte et les images.