Le Roi des Transformateurs est de retour ! Sans modifier aucun module, la prévision chronométrée conduit à tous les niveaux

2023-10-19 08:55:30

Source originale : Shin Ji Yuan

Source de l’image : Généré par Unbounded AI

Ces dernières années, Transformer a fait des percées continues dans les tâches de traitement du langage naturel et de vision par ordinateur, et est devenu un modèle de base dans le domaine de l’apprentissage profond.

Inspirées par cela, de nombreuses variantes du modèle Transformer ont été proposées dans le domaine des séries temporelles.

Cependant, un nombre croissant d’études récentes ont montré que l’utilisation d’un simple modèle prédictif basé sur des couches linéaires peut obtenir de meilleurs résultats que tous les types de transformateurs magiques.

Récemment, en réponse à des questions sur l’efficacité de Transformer dans le domaine de la prévision des séries chronologiques, le laboratoire d’apprentissage automatique de l’école de logiciels de l’Université Tsinghua et des chercheurs d’Ant Group ont publié conjointement un travail de prévision des séries chronologiques, qui a suscité des discussions animées sur Reddit et d’autres forums.

Parmi eux, l’iTransformer proposé par l’auteur, en tenant compte des caractéristiques des données des séries temporelles multidimensionnelles, ne modifie aucun module Transformer, mais casse la structure conventionnelle du modèle, et a atteint une avance complète dans les tâches complexes de prédiction de séries temporelles, en essayant de résoudre les problèmes des données de séries temporelles de modélisation Transformer.

Adresse papier :

Mise en œuvre du code :

Avec la bénédiction d’iTransformer, Transformer a effectué une inversion complète de la tâche de prédiction des séries chronologiques.

Contexte du problème

Les données de séries chronologiques réelles ont tendance à être multidimensionnelles, incluant des dimensions variables en plus de la dimension temporelle.

Chaque variable peut représenter une grandeur physique observée différente, comme plusieurs indicateurs météorologiques utilisés dans les prévisions météorologiques (vitesse du vent, température, humidité, pression atmosphérique, etc.), ou elle peut représenter différents sujets d’observation, tels que la production horaire d’électricité de différents équipements dans une centrale électrique.

En général, différentes variables ont des significations physiques complètement différentes, et même si la sémantique est la même, leurs unités de mesure peuvent être complètement différentes.

Dans le passé, les modèles prédictifs basés sur Transformer intégraient généralement plusieurs variables au même moment dans le jeton temporel, utilisaient un réseau de rétroaction pour coder les caractéristiques de chaque moment et utilisaient le module d’attention pour apprendre la corrélation entre différents moments.

Cependant, cette approche peut présenter les problèmes suivants :

Idées de conception

Contrairement à chaque mot (Token) en langage naturel avec des informations sémantiques indépendantes fortes, chaque « Temporal Token » vu dans la perspective du Transformer existant manque souvent de sémanticité sur la même séquence de données de séries temporelles, et fait face à des problèmes tels que le non-alignement des horodatages et des champs réceptifs trop petits.

En d’autres termes, les capacités de modélisation des transformateurs traditionnels sur les séries temporelles ont été considérablement affaiblies.

À cette fin, les auteurs proposent une toute nouvelle perspective de l’inversion.

Comme le montre la figure ci-dessous, en inversant le module d’origine de Transformer, iTransformer mappe d’abord toute la séquence de la même variable dans une représentation de caractéristique de grande dimension (iate Token), et le vecteur de caractéristique obtenu prend la variable comme corps principal décrit et dépeint indépendamment le processus historique qu’elle reflète.

Après cela, le module d’attention peut naturellement modéliser la corrélation multiple, et le réseau feedforward encode les caractéristiques des observations historiques couche par couche dans la dimension temporelle, et mappe les caractéristiques apprises dans les prédictions futures.

En revanche, LayerNorm, qui n’a pas été exploré en profondeur sur les données de séries chronologiques dans le passé, jouera également un rôle crucial dans l’élimination des différences de distribution entre les variables.

iTransformer

Structure générale

Contrairement à la structure plus complexe de l’encodeur-décodeur utilisée dans les précédents modèles de prédiction Transformer, iTransformer ne contient que des encodeurs, y compris des couches d’intégration, des couches de projection (Projector) et des modules Transformer empilables (TrmBlock).

Représentation des caractéristiques des variables de modélisation

Pour une série temporelle multidimensionnelle avec une longueur temporelle et un certain nombre de variables, l’article utilise toutes les variables représentant le même moment dans le temps, et une séquence d’observation historique entière représentant la même variable.

Étant donné que than a une sémantique plus forte et des unités de mesure relativement cohérentes, différentes de la méthode précédente d’incorporation d’entités, cette méthode utilise la couche d’incorporation pour cartographier chaque entité indépendamment afin d’obtenir la représentation de l’entité de chaque variable, qui contient l’évolution de la série chronologique de la variable dans le passé.

Cette représentation des caractéristiques fera d’abord interagir les informations entre les variables par le biais du mécanisme d’auto-attention dans chaque couche du module Transformer, unifier la distribution des caractéristiques des différentes variables à l’aide de la normalisation des couches et effectuer un codage des caractéristiques entièrement connecté dans le réseau de rétroaction. Enfin, le résultat de la prédiction est mappé par une couche de projection.

Sur la base du processus ci-dessus, la mise en œuvre de l’ensemble du modèle est très simple et le processus de calcul peut être exprimé comme suit :

Parmi eux, les résultats de prédiction correspondant à chaque variable, la couche d’intégration et la couche de projection sont implémentés sur la base du perceptron multicouche (MLP).

Il convient de noter que, comme l’ordre entre les points de temps est déjà implicite dans l’ordre dans lequel les neurones sont disposés, le modèle n’a pas besoin d’introduire l’intégration de position dans le transformateur.

Analyse du module

Après avoir inversé les dimensions du traitement des données de séries temporelles par le module Transformer, ce travail revient sur les responsabilités de chaque module dans iTransformer.

**1. Normalisation des couches : ** La normalisation des couches a été proposée à l’origine pour améliorer la stabilité et la convergence de l’entraînement des réseaux profonds.

Dans le Transformer précédent, le module normalisait plusieurs variables en même temps, ce qui rendait chaque variable indiscernable. Une fois que les données collectées ne sont pas alignées dans le temps, l’opération introduit également un bruit d’interaction entre les processus acausaux ou retardés.

Dans la version inversée (la formule est la même que ci-dessus), la normalisation de la couche est appliquée à la représentation des caractéristiques de chaque variable (jeton iate), de sorte que les canaux de caractéristiques de toutes les variables sont sous une distribution relativement uniforme.

Cette idée de normalisation s’est largement avérée efficace pour traiter les problèmes non stationnaires de séries temporelles, mais peut être naturellement mise en œuvre dans iTransformer grâce à la normalisation des couches.

De plus, étant donné que les représentations des caractéristiques de toutes les variables sont normalisées selon une distribution normale, les différences causées par les différentes plages de valeurs des variables peuvent être réduites.

Au lieu de cela, dans la structure précédente, le jeton temporel de tous les horodatages était uniformément normalisé, ce qui entraînait une série chronologique trop lisse pour le modèle.

**2. Réseaux de rétroaction : Transformer encode des vecteurs de mots à l’aide de réseaux de rétroaction.

Le vecteur « mot » formé dans le modèle précédent était constitué de plusieurs variables collectées en même temps, et leur temps de génération peut ne pas être cohérent, et il est difficile pour les « mots » reflétant un pas de temps de fournir une sémantique suffisante.

Dans la version inversée, le vecteur « mot » est formé par la séquence entière de la même variable, basée sur le théorème de représentation universelle du perceptron multicouche, qui a une capacité de modèle suffisamment grande pour extraire les caractéristiques temporelles partagées dans les observations historiques et les prédictions futures, et utilise l’extrapolation des caractéristiques comme résultats de prédiction.

Une autre base pour l’utilisation de réseaux de rétroaction pour modéliser la dimension temporelle provient de recherches récentes qui ont révélé que les couches linéaires sont bonnes pour apprendre les caractéristiques temporelles que possède toute série chronologique.

Les auteurs proposent une explication plausible : les neurones de la couche linéaire peuvent apprendre à extraire les propriétés intrinsèques de séries temporelles arbitraires, telles que l’amplitude, la périodicité et même les spectres de fréquence (la transformée de Fourier est essentiellement une carte entièrement connectée sur la séquence d’origine).

Par conséquent, par rapport à la pratique précédente de Transformer utilisant un mécanisme d’attention pour modéliser les dépendances des séries chronologiques, l’utilisation de réseaux de rétroaction est plus susceptible de compléter la généralisation sur des séquences invisibles.

**3. Auto-attention : Le module d’auto-attention est utilisé dans ce modèle pour modéliser la corrélation de différentes variables, ce qui est extrêmement important dans les scénarios de prévision complexes basés sur des connaissances physiques, telles que les prévisions météorologiques.

Les auteurs ont constaté que chaque position de la carte de l’attention satisfait à la formule suivante :

Correspondant aux vecteurs de requête et de clé de deux variables quelconques, l’auteur estime que l’ensemble de la carte d’attention peut révéler la corrélation des variables dans une certaine mesure, et dans les opérations de pondération ultérieures basées sur des cartes d’attention, les variables hautement corrélées gagneront en poids dans l’interaction avec leurs vecteurs de valeur, de sorte que cette conception est plus naturelle et interprétable pour la modélisation de données de séries chronologiques multidimensionnelles.

En résumé, dans iTransformer, la normalisation des couches, le réseau feed-forward et le module d’auto-attention prennent en compte les caractéristiques des données de séries temporelles multidimensionnelles elles-mêmes, et les trois coopèrent systématiquement les uns avec les autres pour s’adapter aux besoins de modélisation des différentes dimensions, et jouent l’effet de 1 + 1 + 1 > 3.

Analyse expérimentale

Les auteurs ont mené des expériences approfondies sur six benchmarks de prévision de séries chronologiques multidimensionnelles et ont fait des prédictions dans les données (marché) du scénario de tâche de prédiction de la charge du service en ligne de la plate-forme de trading Alipay.

La partie expérimentale compare 10 modèles prédictifs différents, dont des modèles de transformateurs représentatifs du domaine : PatchTST (2023), Crossformer (2023), FEDformer (2022), Stationary (2022), Autoformer (2021), Informer (2021) ; Modèles de prédiction linéaire : TiDE (2023), DLinear (2023) ; Modèles TCN : TimesNet (2023), SCINet (2022).

De plus, l’article analyse les gains apportés par l’inversion de module à de nombreuses variantes de Transformer, y compris l’amélioration générale de l’effet, la généralisation à des variables inconnues et une utilisation plus complète des observations historiques.

Prévisions de séries chronologiques

Comme le montre le graphique radar d’ouverture, iTransformer a atteint SOTA dans les six benchmarks de test et a obtenu des résultats optimaux dans 28/30 scénarios de données de marché (voir l’annexe du document pour plus de détails).

Dans le scénario difficile de la prévision à long terme et de la prévision temporelle multidimensionnelle, iTransformer a largement dépassé les modèles de prévision de ces dernières années.

Points communs du framework iTransformer

Tout en obtenant les meilleurs résultats, l’auteur a effectué des expériences comparatives avant et après l’inversion sur des modèles de variantes de transformateurs tels que Reformer, Informer, Flowformer et Flashformer, qui ont prouvé que l’inversion est un cadre structurel plus conforme aux caractéristiques des données de séries temporelles.

1. Améliorer les prévisions

En introduisant le cadre proposé, ces modèles ont permis d’améliorer considérablement les effets de prédiction, prouvant la polyvalence des idées de base d’iTransformer et la faisabilité de bénéficier des progrès d’une recherche efficace sur l’attention.

2. Généraliser à des variables inconnues

En s’inversant, le modèle peut entrer un nombre différent de variables que l’entraînement lors de l’inférence, et l’article le compare à une stratégie de généralisation, Channel Independence, et les résultats montrent que le cadre peut toujours minimiser les erreurs de généralisation lorsqu’il n’utilise que 20 % des variables.

3. Utiliser des observations historiques plus longues

Dans le passé, l’effet de prédiction du modèle Transformer ne s’améliorait pas nécessairement avec la durée de l’observation historique, mais les auteurs ont constaté qu’après avoir utilisé ce cadre, le modèle montrait une tendance étonnante à la réduction de l’erreur de prédiction dans le cas d’une observation historique croissante, ce qui vérifiait la rationalité de l’inversion de module dans une certaine mesure.

Analyse du modèle

1. Modèle d’expérience d’ablation

Les auteurs ont mené des expériences d’ablation pour vérifier la rationalité de la disposition du module iTransformer.

Les résultats montrent que la méthode de modélisation consistant à utiliser l’auto-attention dans la dimension variable et la couche linéaire dans la dimension temporelle obtient le meilleur effet sur la plupart des jeux de données.

2. Analyse de la représentation des caractéristiques

Afin de vérifier l’idée que les réseaux feedforward peuvent mieux extraire les caractéristiques de séquence, les auteurs effectuent une analyse de représentation des caractéristiques basée sur la similarité CKA (Centered Kernel Alignment). Plus la similarité de CKA est faible, plus la différence de caractéristiques entre les couches inférieure et supérieure du modèle est importante.

Il convient de noter que des études antérieures ont montré que la prévision de séries chronologiques, en tant que tâche d’apprentissage de caractéristiques à grain fin, a tendance à préférer une plus grande similarité CKA.

Les auteurs calculent l’ICCA de bas niveau et de haut niveau du modèle avant et après l’inversion, et obtiennent les résultats suivants, qui confirment qu’iTransformer apprend de meilleures caractéristiques de séquence, obtenant ainsi de meilleurs effets de prédiction.

3. Analyse des corrélations de variables

Comme le montre la figure ci-dessus, le mécanisme d’attention agissant sur la dimension variable montre une plus grande interprétabilité dans la carte de l’attention apprise. En visualisant un échantillon de l’ensemble de données Solar-Energy, les observations suivantes sont faites :

Dans le module d’attention superficielle, le graphe d’attention apprise est plus similaire à la corrélation variable des séquences historiques.
Lors du module d’attention profonde, la carte d’attention apprise est plus similaire à la corrélation variable de la séquence à prédire.

Cela montre que le module d’attention apprend des corrélations de variables plus interprétables, encode les caractéristiques temporelles des observations historiques dans le réseau de rétroaction et peut progressivement les décoder en séquences à prédire.

Résumé

S’inspirant des caractéristiques des données des séries temporelles multidimensionnelles, l’auteur réfléchit à la problématique des transformateurs existants dans la modélisation des données de séries temporelles, et propose un cadre général de prévision des séries temporelles iTransformer.

Le framework iTransformer introduit de manière innovante une perspective inversée pour observer les séries temporelles, de sorte que le module Transformer effectue ses propres tâches et complète les problèmes de modélisation des deux dimensions des données de séries temporelles, montrant d’excellentes performances et polyvalence.

Face à la question de savoir si Transformer est efficace dans le domaine de la prévision des séries chronologiques, cette découverte de l’auteur peut inspirer des recherches ultérieures connexes, faire revenir Transformer à la position dominante de la prévision des séries chronologiques et fournir de nouvelles idées pour la recherche fondamentale sur les modèles dans le domaine des données de séries chronologiques.

Ressources:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1CandyDrop Airdrop Event 6.0
38k Popularité
2White House Crypto Report
44k Popularité
3Join Alpha RION Airdrop to Earn $40
26k Popularité
4Fed Holds Rates Decision
8k Popularité
5July Spark Program TOP 10 Creators Announced
2k Popularité

Épingler