Два рядки коду для вирішення обмежень діалогу великої мовної моделі! Команда китайця з Гонконгу Цзя Цзяя та Массачусетський технологічний інститут випустили технологію розширення наддовгого тексту
Загубилася на півдорозі, модель лінива, чим довший контекст, тим дурнішою стає модель... Якщо ви мали справу з великими мовними моделями, користувачі певною мірою відчують обмеження довжини введення тексту, наприклад, коли ви хочете обговорити трохи довший вміст з великою моделлю, вам потрібно розділити введення, і основні моменти попереднього введення незабаром будуть забуті великою моделлю.
Це типовий дефект діалогу великої мовної моделі! Як і дітям, народженим з дефіцитом уваги, важко зосередитися на закінченні нової книги. Ключ до дефекту полягає в тому, що моделі не вистачає довгих можливостей обробки тексту. Тепер це зламано.
Нещодавно нові технології та нові моделі, випущені командою Цзя Цзяя та Массачусетським технологічним інститутом, непомітно з'явилися в гарячих списках основних веб-сайтів з відкритим вихідним кодом: спочатку гарячий список обіймів обличчя, спочатку гарячий paperwithcode, Github усі проекти python гарячий п'ятий, зірки GitHub перевищили 1,000 за тиждень, а пов'язані технічні пости в Twitter переглянули майже 180 000...
GitHub Stars досяг позначки 1,3 тис.
Пов'язані технічні пости в Twitter набрали майже 180 000 переглядів
Технологія, що отримала назву LongLoRA, практична, але напрочуд проста: за допомогою лише двох рядків коду та 8-карткової машини A100 довжину тексту моделі 7B можна збільшити до 100 тисяч токенів, а довжину тексту моделі 70B можна збільшити до 32 тисяч токенів; У той же час дослідницька група також випустила LongAlpaca, першу великомовну модель діалогу з довгим текстом з параметрами 70B.
Випущено першу у світі велику мовну модель довжиною 70 Б
Пропозиція LongLoRA вперше вирішила діалогові дефекти глобальної великої мовної моделі, і з тих пір десятки сторінок паперів, сотні сторінок звітів і величезні книги більше не стали сліпою зоною великих моделей.
У зв'язку з цим деякі професіонали схвильовано говорили про те, що LongLoRA - це лампа надії в лабіринті великих мовних моделей! Він являє собою переосмислення та увагу галузі до великих мовних моделей довгого тексту, ефективно розширює контекстне вікно великих мовних моделей, дозволяє моделі розглядати та обробляти довгі текстові послідовності, а також є інноваційним винаходом великих мовних моделей.
На додаток до технологічних нововведень, однією з труднощів великих мовних моделей у вирішенні проблем з довгим текстом є відсутність загальнодоступних даних діалогу з довгим текстом.
З цією метою дослідницька група спеціально зібрала 9 тисяч пар запитань і відповідей, включаючи різні запитання та відповіді на відомі книги, статті, докладні звіти та навіть фінансові звіти.
Цього було недостатньо, щоб відповісти на довгі запитання, команда вибрала 3K короткий корпус запитань і відповідей, змішаний із 9K довгим корпусом запитань і відповідей для навчання, щоб велика модель з довгим текстом мала можливості короткого текстового діалогу одночасно. Цей повний набір даних під назвою LongAlpaca-12k наразі має відкритий вихідний код.
На основі набору даних LongAlpaca-12k дослідницька група навчила та оцінила різні розміри параметрів 7B, 13B, 70B та моделі з відкритим вихідним кодом, включаючи LongAlpaca-7B, LongAlpaca-13B та LongAlpaca-70B.
Читати романи, змінювати папери та вказувати на економіку – це всебічний король
Без зайвих слів, наосліп виберіть кілька демонстрацій, щоб побачити ефект LongAlpaca великої моделі, яка застосовує технологію LongLoRA, накладену на корпус запитань і відповідей 12K.
让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率。LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标) , більш широке застосування та майбутній напрямок, зосередження уваги на ключових внесках та впливах, а також шанси на те, що стаття буде прийнята, будуть покращені.
Тепер дозвольте системі прочитати дві нові різні статті, і нехай LongAlpaca узагальнить стилістичні відмінності між конференціями ICLR та CVPR. LongAlpaca приходить до висновку, що документи CVPR, як правило, більш структуровані та експериментальні, зосереджуючись на практичності та технічності. Стиль есе ICLR, з іншого боку, є більш гнучким, зосереджуючись на ключових теоретичних аналізах і математичних висновках, а не на стандартних форматах.
Видно, що навчена модель LongAlpaca може легко приймати нові довгі наукові роботи, і вона досить точно відповідає на академічно значущі питання.
Далі розглянемо інтерпретацію моделі LongAlpaca в економічній сфері з високим порогом читання і розуміння.
Ґрунтуючись на оглядовому зібранні МВФ глобальних економічних перспектив з 2012 по 2023 рік, він узагальнює економічну ситуацію за роками та прогнозує майбутні економічні тенденції. LongAlpaca розповіла нам, що глобальна економічна ситуація у 2023 році є невизначеною, і очікується, що зростання сповільниться порівняно з 2022 роком; У найближчі роки глобальне економічне зростання буде помірним і нижчим, ніж очікувалося, тоді як основні виклики, такі як геополітична напруженість і волатильність фінансових ринків, залишаються і потребують ретельного вирішення шляхом багатостороннього співробітництва та структурних реформ.
LongAlpaca також може читати нові романи та аналізувати зміст після їх прочитання. Нижче вибрані порівняльні моделі - це LongAlpaca і Llama2 з параметрами 13B, і подивіться на їх відповідні характеристики.
Чому у відомій книзі «Подорож на Захід» Сунь Укун дуже могутній, коли він робить неприємності в Небесному палаці, але він неодноразово зазнавав розчарувань на шляху до священних писань? Лонг Альпака назвав 5 причин, які можна приблизно узагальнити так: «Незрілість Короля Мавп, сильні супротивники, обмежена сила, ворожий обман, початкова відсутність компаньйонів та інші фактори призвели до його невдачі в подорожі». Але з часом він набрався мудрості, досвіду і товаришів, що дозволило йому перемогти своїх найгрізніших ворогів. "
Відповідь Llama2 простіша. "Хоча він і здіймає галас навколо Небесного палацу, не обов'язково точно сказати, що він уособлює непереможну силу. Фактично, врешті-решт він зазнав поразки від могутнього Тан Санзана в «Подорожі на Захід». Llama2 не дав правильної відповіді, а також підняв потребу в більшій кількості інформації про контент.
Цього разу нехай система знову прочитає «Проблему трьох тіл», а потім запитає, чому Е Веньцзе зв'язався з інопланетянами в першій частині, і чому він пошкодував про це на пізнішому етапі? Лонг Альпака вважає, що початковий контакт Е Веньцзе з інопланетянами був мотивований ідеалізмом і помстою, але з часом її погляд на людство змінився, усвідомлюючи небезпеку, яку вона може принести всьому людству, і її докори сумління зростають з кожним днем. Відповідь була дуже чіткою.
Відповідь Llama2 була такою: «Спілкуючись з інопланетянами, вона сподівається отримати більш глибоке розуміння природи Всесвіту та свого місця в ньому». Е Веньцзе поступово зрозуміла, що інопланетяни та їхні технології не можуть вирішити її проблему. Відповідь була загальною, і тоді він почав коментувати роман в цілому, відповідаючи на непитання.
З відповідей, які дають моделі, видно, що деякі моделі, такі як Llama2 [2] Можливо, ви бачили роман під час процесу попередньої підготовки, але якщо ви поставите коротке текстове запитання, засноване лише на темі роману, відповідь не буде ідеальною.
Відповіді двох моделей протиставлені, а високі і низькі - високі. LongAlpaca вміє змінювати наукові роботи, коментувати глобальні економічні тенденції та читати романи, перемагаючи Llama2.
Два рядки коду та три ключові висновки
Llama2, мабуть, є однією з найпотужніших моделей з відкритим вихідним кодом у спільноті штучного інтелекту, яка лідирує в галузі, і LongAlpaca насправді може перемогти. Технологія LongLoRA, що лежить в його основі, успішно привернула увагу користувачів мережі, як їй це вдалося?
Виходить, що в процесі обробки довгого тексту у великих мовних моделях основні витрати на обчислення зосереджені в механізмі самоуваги, а його накладні витрати зростають у квадраті з довжиною тексту.
У відповідь на цю проблему дослідницька група запропонувала технологію LongLoRA та змоделювала глобальний механізм самоуваги шляхом групування та зміщення.
Простіше кажучи, це розділити лексеми, що відповідають довгому тексту, на різні групи, зробити розрахунки самоуваги всередині кожної групи, і спосіб групування компенсується різними головами уваги. Цей метод дозволяє не тільки значно заощадити обсяг обчислень, але і зберегти передачу глобального рецептивного поля.
І цей спосіб реалізації також дуже лаконічний, можна завершити лише два рядки коду!
[5]LongLoRA також досліджує способи тренувань на низьких рангах. Оригінальні низькорангові методи навчання, такі як LoRA , не досягає хороших результатів при перенесенні довжини тексту. На основі низькорангового навчання, LongLoRA вводить шари вбудовування (шари вбудовування та шари нормалізації) для точного налаштування, щоб досягти ефекту повного тонкого налаштування.
При виконанні розгортання тексту і навчання різної довжини специфічні ефекти LongLoRA, LoRA і всепараметричних методів тонкого налаштування можна розглядати в трьох вимірах:
З точки зору Perplexity-perplexity, продуктивність оригінального методу LoRA погіршується, в той час як LongLoRA і всепараметричне тонке налаштування можуть підтримувати хороші результати при різній довжині тексту.
У плані споживання пам'яті LongLoRA і оригінальна LoRA мають значну економію в порівнянні з повнопараметричним тонким налаштуванням. Наприклад, для навчання моделей довжиною 8k LongLoRA знижує споживання пам'яті з 46,3 ГБ до 25,6 ГБ у порівнянні з повнопараметричним тонким налаштуванням.
Що стосується часу навчання, то для тренування моделі довжиною 64 тис., порівняно зі звичайною LoRA, LongLoRA скорочує час навчання приблизно з 90~100 годин до 52,4 години, тоді як повне налаштування параметрів перевищує 1000 годин.
Мінімалістичний метод навчання, мінімальні обчислювальні ресурси та витрати часу, а також відмінна точність роблять LongLoRA можливим у великих масштабах. В даний час всі відповідні технології та моделі мають відкритий вихідний код, і зацікавлені користувачі можуть використовувати власний досвід.
Варто згадати, що це ще один шедевр команди Jajaya після мультимодальної великої моделі LISA, яка «вміє ділити все», випущеної 9 серпня. З різницею в два місяці слід сказати, що швидкість і можливості цього дослідження такі ж дивовижні, як і LongLoRA.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Два рядки коду для вирішення обмежень діалогу великої мовної моделі! Команда китайця з Гонконгу Цзя Цзяя та Массачусетський технологічний інститут випустили технологію розширення наддовгого тексту
Загубилася на півдорозі, модель лінива, чим довший контекст, тим дурнішою стає модель... Якщо ви мали справу з великими мовними моделями, користувачі певною мірою відчують обмеження довжини введення тексту, наприклад, коли ви хочете обговорити трохи довший вміст з великою моделлю, вам потрібно розділити введення, і основні моменти попереднього введення незабаром будуть забуті великою моделлю.
Це типовий дефект діалогу великої мовної моделі! Як і дітям, народженим з дефіцитом уваги, важко зосередитися на закінченні нової книги. Ключ до дефекту полягає в тому, що моделі не вистачає довгих можливостей обробки тексту. Тепер це зламано.
Нещодавно нові технології та нові моделі, випущені командою Цзя Цзяя та Массачусетським технологічним інститутом, непомітно з'явилися в гарячих списках основних веб-сайтів з відкритим вихідним кодом: спочатку гарячий список обіймів обличчя, спочатку гарячий paperwithcode, Github усі проекти python гарячий п'ятий, зірки GitHub перевищили 1,000 за тиждень, а пов'язані технічні пости в Twitter переглянули майже 180 000...
Технологія, що отримала назву LongLoRA, практична, але напрочуд проста: за допомогою лише двох рядків коду та 8-карткової машини A100 довжину тексту моделі 7B можна збільшити до 100 тисяч токенів, а довжину тексту моделі 70B можна збільшити до 32 тисяч токенів; У той же час дослідницька група також випустила LongAlpaca, першу великомовну модель діалогу з довгим текстом з параметрами 70B.
Випущено першу у світі велику мовну модель довжиною 70 Б
Пропозиція LongLoRA вперше вирішила діалогові дефекти глобальної великої мовної моделі, і з тих пір десятки сторінок паперів, сотні сторінок звітів і величезні книги більше не стали сліпою зоною великих моделей.
У зв'язку з цим деякі професіонали схвильовано говорили про те, що LongLoRA - це лампа надії в лабіринті великих мовних моделей! Він являє собою переосмислення та увагу галузі до великих мовних моделей довгого тексту, ефективно розширює контекстне вікно великих мовних моделей, дозволяє моделі розглядати та обробляти довгі текстові послідовності, а також є інноваційним винаходом великих мовних моделей.
З цією метою дослідницька група спеціально зібрала 9 тисяч пар запитань і відповідей, включаючи різні запитання та відповіді на відомі книги, статті, докладні звіти та навіть фінансові звіти.
Цього було недостатньо, щоб відповісти на довгі запитання, команда вибрала 3K короткий корпус запитань і відповідей, змішаний із 9K довгим корпусом запитань і відповідей для навчання, щоб велика модель з довгим текстом мала можливості короткого текстового діалогу одночасно. Цей повний набір даних під назвою LongAlpaca-12k наразі має відкритий вихідний код.
На основі набору даних LongAlpaca-12k дослідницька група навчила та оцінила різні розміри параметрів 7B, 13B, 70B та моделі з відкритим вихідним кодом, включаючи LongAlpaca-7B, LongAlpaca-13B та LongAlpaca-70B.
Читати романи, змінювати папери та вказувати на економіку – це всебічний король
Без зайвих слів, наосліп виберіть кілька демонстрацій, щоб побачити ефект LongAlpaca великої моделі, яка застосовує технологію LongLoRA, накладену на корпус запитань і відповідей 12K.
Видно, що навчена модель LongAlpaca може легко приймати нові довгі наукові роботи, і вона досить точно відповідає на академічно значущі питання.
Далі розглянемо інтерпретацію моделі LongAlpaca в економічній сфері з високим порогом читання і розуміння.
LongAlpaca також може читати нові романи та аналізувати зміст після їх прочитання. Нижче вибрані порівняльні моделі - це LongAlpaca і Llama2 з параметрами 13B, і подивіться на їх відповідні характеристики.
Відповідь Llama2 простіша. "Хоча він і здіймає галас навколо Небесного палацу, не обов'язково точно сказати, що він уособлює непереможну силу. Фактично, врешті-решт він зазнав поразки від могутнього Тан Санзана в «Подорожі на Захід». Llama2 не дав правильної відповіді, а також підняв потребу в більшій кількості інформації про контент.
Відповідь Llama2 була такою: «Спілкуючись з інопланетянами, вона сподівається отримати більш глибоке розуміння природи Всесвіту та свого місця в ньому». Е Веньцзе поступово зрозуміла, що інопланетяни та їхні технології не можуть вирішити її проблему. Відповідь була загальною, і тоді він почав коментувати роман в цілому, відповідаючи на непитання.
З відповідей, які дають моделі, видно, що деякі моделі, такі як Llama2 [2] Можливо, ви бачили роман під час процесу попередньої підготовки, але якщо ви поставите коротке текстове запитання, засноване лише на темі роману, відповідь не буде ідеальною.
Відповіді двох моделей протиставлені, а високі і низькі - високі. LongAlpaca вміє змінювати наукові роботи, коментувати глобальні економічні тенденції та читати романи, перемагаючи Llama2.
Два рядки коду та три ключові висновки
Llama2, мабуть, є однією з найпотужніших моделей з відкритим вихідним кодом у спільноті штучного інтелекту, яка лідирує в галузі, і LongAlpaca насправді може перемогти. Технологія LongLoRA, що лежить в його основі, успішно привернула увагу користувачів мережі, як їй це вдалося?
Виходить, що в процесі обробки довгого тексту у великих мовних моделях основні витрати на обчислення зосереджені в механізмі самоуваги, а його накладні витрати зростають у квадраті з довжиною тексту.
У відповідь на цю проблему дослідницька група запропонувала технологію LongLoRA та змоделювала глобальний механізм самоуваги шляхом групування та зміщення.
І цей спосіб реалізації також дуже лаконічний, можна завершити лише два рядки коду!
З точки зору Perplexity-perplexity, продуктивність оригінального методу LoRA погіршується, в той час як LongLoRA і всепараметричне тонке налаштування можуть підтримувати хороші результати при різній довжині тексту.
У плані споживання пам'яті LongLoRA і оригінальна LoRA мають значну економію в порівнянні з повнопараметричним тонким налаштуванням. Наприклад, для навчання моделей довжиною 8k LongLoRA знижує споживання пам'яті з 46,3 ГБ до 25,6 ГБ у порівнянні з повнопараметричним тонким налаштуванням.
Що стосується часу навчання, то для тренування моделі довжиною 64 тис., порівняно зі звичайною LoRA, LongLoRA скорочує час навчання приблизно з 90~100 годин до 52,4 години, тоді як повне налаштування параметрів перевищує 1000 годин.
Мінімалістичний метод навчання, мінімальні обчислювальні ресурси та витрати часу, а також відмінна точність роблять LongLoRA можливим у великих масштабах. В даний час всі відповідні технології та моделі мають відкритий вихідний код, і зацікавлені користувачі можуть використовувати власний досвід.
Варто згадати, що це ще один шедевр команди Jajaya після мультимодальної великої моделі LISA, яка «вміє ділити все», випущеної 9 серпня. З різницею в два місяці слід сказати, що швидкість і можливості цього дослідження такі ж дивовижні, як і LongLoRA.