Король-трансформер повертається! Не змінюючи жодних модулів, прогнозування часу веде за всіма напрямками

Першоджерело: Shin Ji Yuan

Джерело зображення: Створено Unbounded AI

В останні роки Transformer зробив безперервний прорив в обробці природної мови і завданнях комп'ютерного зору, і став базовою моделлю в області глибокого навчання.

Натхненні цим, були запропоновані численні варіанти моделі «Трансформер» в області часових рядів.

Однак все більше недавніх досліджень показують, що використання простої лінійної прогностичної моделі на основі шарів може досягти кращих результатів, ніж всі види магічних перетворювачів.

Нещодавно, у відповідь на питання про ефективність Transformer у сфері прогнозування часових рядів, Лабораторія машинного навчання Школи програмного забезпечення Університету Цінхуа та вчені з Ant Group спільно випустили роботу з прогнозування часових рядів, яка викликала бурхливі дискусії на Reddit та інших форумах.

Серед них запропонований автором iTransformer, враховуючи характеристики даних багатовимірних часових рядів, не модифікує жоден модуль Transformer, але ламає загальноприйняту структуру моделі, і досяг всебічного лідерства в складних задачах прогнозування часових рядів, намагаючись вирішити больові точки даних моделювання Transformer timeser.

Паперова адреса:

Реалізація коду:

З благословення iTransformer, Transformer завершив комплексне розворот завдання прогнозування часових рядів.

Передісторія проблеми

Реальні дані часових рядів, як правило, багатовимірні, включаючи змінні розмірності на додаток до часового виміру.

Кожна змінна може представляти різну спостережувану фізичну величину, наприклад, кілька метеорологічних показників, що використовуються в прогнозуванні погоди (швидкість вітру, температура, вологість, атмосферний тиск тощо), або вона може представляти різні об'єкти спостережень, наприклад, погодинне вироблення електроенергії різним обладнанням на електростанції.

Взагалі, різні змінні мають абсолютно різне фізичне значення, і навіть якщо семантика однакова, їх одиниці виміру можуть бути абсолютно різними.

У минулому прогностичні моделі, засновані на трансформаторах, зазвичай вбудовували кілька змінних в один і той же момент в Temporal Token, використовували мережу прямого зв'язку для кодування особливостей кожного моменту і використовували модуль уваги для вивчення кореляції між різними моментами.

Однак при такому підході можуть виникнути такі проблеми:

Ідеї дизайну

На відміну від кожного слова (Токена) в природній мові з сильною незалежною семантичною інформацією, кожен «Тимчасовий Жетон», що розглядається в перспективі існуючого Трансформера, часто не має семантичності на одній і тій же послідовності даних часового ряду, і стикається з такими проблемами, як невирівнювання часових позначок і занадто малі рецептивні поля.

Іншими словами, можливості моделювання традиційних трансформаторів на часових рядах були сильно ослаблені.

З цією метою автори пропонують абсолютно новий погляд на перевернуту.

Як показано на малюнку нижче, інвертуючи оригінальний модуль Transformer, iTransformer спочатку відображає всю послідовність однієї і тієї ж змінної у високовимірне представлення ознак (iate Token), а отриманий вектор ознак приймає змінну як основну частину, що описується, і незалежно зображує історичний процес, який вона відображає.

Після цього модуль уваги може природним чином змоделювати мультиплікаційну кореляцію, а мережа зворотного зв'язку кодує особливості історичних спостережень шар за шаром у часовому вимірі та відображає вивчені особливості в майбутніх прогнозах.

На противагу цьому, LayerNorm, який не був глибоко досліджений на даних часових рядів у минулому, також відіграватиме вирішальну роль в усуненні відмінностей у розподілі між змінними.

iTransformer

Загальна структура

На відміну від більш складної структури кодера-декодера, яка використовувалася в попередніх моделях передбачення трансформерів, iTransformer містить лише кодери, включаючи шари вбудовування, проекційні шари (проектор) та модулі трансформатора, що стекуються (TrmBlock).

Представлення функцій моделюючих змінних

Для багатовимірного часового ряду з тривалістю часу та низкою змінних у статті використовуються всі змінні, що представляють один і той же момент часу, і ціла історична послідовність спостережень, що представляє ту саму змінну.

Враховуючи, що він має сильнішу семантику та відносно послідовні одиниці вимірювання, відмінні від попереднього способу вбудовування ознак, цей метод використовує шар вбудовування для відображення кожної ознаки незалежно для отримання представлення ознак кожної змінної, яке містить зміну часового ряду змінної за минулий час.

Це представлення ознак спочатку буде взаємодіяти між змінними через механізм самоуваги в кожному шарі модуля трансформатора, уніфікувати розподіл ознак різних змінних за допомогою нормалізації шарів і здійснювати повністю пов'язане кодування функцій в мережі прямого зв'язку. Нарешті, результат прогнозування відображається проекційним шаром.

Виходячи з вищеописаного процесу, реалізація всієї моделі дуже проста, а процес розрахунку можна виразити як:

Серед них реалізовані результати прогнозування, що відповідають кожній змінній, шару вкладення та проекційного шару на основі багатошарового персептрона (MLP).

Варто зауважити, що оскільки порядок між часовими точками вже неявно виражений у порядку, в якому розташовані нейрони, модель не потребує введення позиційного вбудовування в трансформатор.

Модульний аналіз

Після зміни розмірів модуля Transformer, що обробляє дані часових рядів, ця робота переглядає обов'язки кожного модуля в iTransformer.

**1. Нормалізація шарів: ** Нормалізація шарів спочатку була запропонована для покращення стабільності та конвергенції навчання глибоких мереж.

У попередньому трансформаторі модуль нормалізував кілька змінних одночасно, роблячи кожну змінну нерозрізненою. Після того, як зібрані дані не вирівнюються за часом, операція також вносить шум взаємодії між акаузальними або затримкою процесів.

У перевернутому варіанті (формула як вище) нормалізація шарів застосовується до представлення ознак кожної змінної (iate token), так що канали ознак всіх змінних знаходяться під відносно рівномірним розподілом.

Ця ідея нормалізації широко довела свою ефективність при вирішенні нестаціонарних задач часових рядів, але може бути природним чином реалізована в iTransformer за допомогою нормалізації шарів.

Крім того, оскільки представлення ознак всіх змінних нормалізуються до нормального розподілу, відмінності, викликані різними діапазонами значень змінних, можуть бути зменшені.

Натомість, у попередній структурі, тимчасовий токен усіх часових міток буде рівномірно нормалізований, що призведе до того, що модель фактично побачить надто плавний часовий ряд.

**2. Мережі прямого зв'язку: Transformer кодує вектори слів за допомогою мереж прямого зв'язку.

Вектор «слова», сформований у попередній моделі, являв собою кілька змінних, зібраних одночасно, і час їх генерації може бути непослідовним, і «словам», що відображають крок у часі, важко забезпечити достатню семантику.

У перевернутому варіанті «словесний» вектор формується всією послідовністю однієї і тієї ж змінної, заснованої на теоремі про універсальне представлення багатошарового персептрона, який має досить велику модельну здатність для вилучення часових особливостей, спільних в історичних спостереженнях і майбутніх прогнозах, і використовує екстраполяцію ознак як результати передбачення.

Ще одна основа для використання мереж прямого зв'язку для моделювання часового виміру походить від нещодавніх досліджень, які показали, що лінійні шари добре вивчають часові характеристики, якими володіє будь-який часовий ряд.

Автори пропонують правдоподібне пояснення: нейрони в лінійному шарі можуть навчитися витягувати внутрішні властивості довільних часових рядів, такі як амплітуда, періодичність і навіть частотні спектри (перетворення Фур'є, по суті, є повністю зв'язаною картою над вихідною послідовністю).

Таким чином, у порівнянні з попередньою практикою використання трансформатором механізму уваги для моделювання залежностей часових рядів, використання мереж прямого зв'язку з більшою ймовірністю призведе до повного узагальнення на невидимих послідовностях.

**3. Самоувага: Модуль самоуваги використовується в цій моделі для моделювання кореляції різних змінних, що надзвичайно важливо в складних сценаріях прогнозування, керованих фізичними знаннями, таких як прогнозування погоди.

Автори з'ясували, що кожна позиція карти уваги задовольняє наступній формулі:

Відповідаючи векторам Query і Key будь-яких двох змінних, автор вважає, що вся карта уваги може в певній мірі виявити кореляцію змінних, а в подальших вагових операціях на основі карт уваги висококорельовані змінні будуть набувати більшої ваги у взаємодії зі своїми векторами Value, тому така конструкція є більш природною та інтерпретованою для моделювання даних багатовимірних часових рядів.

Таким чином, в iTransformer нормалізація шарів, пряма мережа зворотного зв'язку та модуль самоуваги враховують характеристики самих даних багатовимірних часових рядів, і вони систематично співпрацюють один з одним, щоб адаптуватися до потреб моделювання різних вимірів і відтворювати ефект 1+1+1 > 3.

Експериментальний аналіз

Автори провели масштабні експерименти на шести багатовимірних бенчмарках прогнозування часових рядів, а також зробили прогнози в даних (Market) сценарію завдання прогнозування навантаження онлайн-сервісу торгової платформи Alipay.

В експериментальній частині порівнюються 10 різних прогностичних моделей, включаючи доменно-репрезентативні трансформаторні моделі: PatchTST (2023), Crossformer (2023), FEDformer (2022), Stationary (2022), Autoformer (2021), Informer (2021); Лінійні моделі прогнозування: TiDE (2023), DLinear (2023); Моделі TCN: TimesNet (2023), SCINet (2022).

Крім того, у статті проаналізовано переваги, принесені інверсією модуля для багатьох варіантів трансформатора, включаючи покращення загального ефекту, узагальнення на невідомі змінні та більш повне використання історичних спостережень.

Прогнозування часових рядів

Як показано на початковій діаграмі радара, iTransformer досяг SOTA у всіх шести тестових тестах і досяг оптимальних результатів у 28/30 сценаріях ринкових даних (докладніше див. Додаток до статті).

У складному сценарії довгострокового прогнозування та багатовимірного прогнозування часу iTransformer всебічно перевершив моделі прогнозування останніх років.

Спільність фреймворку iTransformer

Досягнувши найкращих результатів, автор провів порівняльні експерименти до та після інверсії на трансформаторних варіантних моделях, таких як Reformer, Informer, Flowformer та Flashformer, які довели, що інверсія є структурною структурою, яка більше відповідає характеристикам даних часових рядів.

1. Удосконалення прогнозування

Запровадивши запропоновану структуру, ці моделі досягли значних покращень у ефектах прогнозування, довівши універсальність основних ідей iTransformer та доцільність отримання вигоди від прогресу ефективних досліджень уваги.

2. Узагальнення на невідомі змінні

Шляхом інвертування модель може вводити іншу кількість змінних, ніж навчання при висновуванні, і в статті порівнюється це зі стратегією узагальнення, незалежністю каналу, і результати показують, що фреймворк все ще може мінімізувати помилки узагальнення при використанні лише 20% змінних.

3. Використовуйте довші історичні спостереження

У минулому ефект передбачення моделі Transformer не обов'язково покращувався з тривалістю історичних спостережень, але автори виявили, що після використання цієї структури модель показала дивовижну тенденцію зменшення помилок прогнозування у випадку збільшення історичних спостережень, що певною мірою перевіряло раціональність інверсії модуля.

Аналіз моделі

1. Модельний експеримент з абляції

Автори провели абляційні експерименти для перевірки раціональності розташування модуля iTransformer.

Результати показують, що метод моделювання, який передбачає використання самоуваги у змінному вимірі та лінійному шарі у часовому вимірі, досягає найкращого ефекту для більшості наборів даних.

2. Аналіз представлення ознак

Для того, щоб перевірити ідею про те, що мережі прямого зв'язку можуть краще витягувати функції послідовностей, автори проводять аналіз представлення ознак на основі подібності CKA (Centered Kernel Alignment). Чим нижче схожість ЦКА, тим більше різниця в особливостях між нижнім і верхнім шарами моделі.

Варто зазначити, що попередні дослідження показали, що прогнозування часових рядів, як дрібнозерниста задача на вивчення ознак, як правило, віддає перевагу вищій подібності ККА.

Автори обчислюють низькорівневий і верхній рівень CKA моделі до і після інверсії, і отримують наступні результати, які підтверджують, що iTransformer вивчає кращі функції послідовностей, тим самим досягаючи кращих ефектів прогнозування.

3. Варіативний кореляційний аналіз

Як показано на малюнку вище, механізм уваги, що діє на змінну розмірність, демонструє більшу інтерпретацію в вивченій карті уваги. Візуалізуючи вибірку набору даних сонячної енергетики, робляться такі спостереження:

  • У модулі неглибокої уваги графік вивченої уваги більше схожий на змінну кореляцію історичних послідовностей.
  • При розгляді модуля глибокої уваги вивчена карта уваги більш схожа на змінну кореляцію послідовності, яку потрібно передбачити.

Це показує, що модуль уваги вивчає більш інтерпретовані кореляції змінних, кодує часові особливості історичних спостережень у мережі зворотного зв'язку та може поступово розшифровувати їх у послідовності, які потрібно передбачити.

Підсумок

Натхненний характеристиками даних багатовимірних часових рядів, автор розмірковує над проблемою існуючих трансформаторів при моделюванні даних часових рядів і пропонує загальну систему прогнозування часових рядів iTransformer.

Фреймворк iTransformer інноваційно вводить перевернуту перспективу для спостереження часових рядів, так що модуль Transformer виконує свої власні обов'язки та завершує завдання моделювання двох вимірів даних часових рядів, демонструючи чудову продуктивність та універсальність.

У зв'язку з питанням про те, чи є Transformer ефективним в області прогнозування часових рядів, це відкриття автора може надихнути на подальші пов'язані з цим дослідження, змусити Transformer повернутися до основної позиції прогнозування часових рядів і надати нові ідеї для фундаментальних досліджень моделей в області даних часових рядів.

Ресурси:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити