Две строки кода для решения ограничений большого диалога языковых моделей! Команда китайца из Гонконга Цзя Цзяя (Jia Jiaya) и Массачусетского технологического института (MIT) выпустили технологию расширения сверхдлинного текста

2023-10-11 07:27:27

Источник изображения: Generated by Unbounded AI

Потерявшись на полпути, модель ленива, чем длиннее контекст, тем тупее становится модель... Если вы сталкивались с продуктами с большими языковыми моделями, пользователи в некоторой степени почувствуют ограничение длины текстового ввода, например, когда вы хотите обсудить немного более длинный контент с большой моделью, вам нужно разделить ввод, и основные моменты предыдущего ввода вскоре будут забыты большой моделью.

Это типичный дефект диалога большой языковой модели! Подобно детям, родившимся с дефицитом внимания, трудно сосредоточиться на том, чтобы закончить новую книгу. Ключ к дефекту заключается в том, что в модели отсутствуют возможности обработки длинного текста. Теперь это нарушено.

В последнее время новые технологии и новые модели, выпущенные командой Цзя Цзяя и Массачусетским технологическим институтом, незаметно появились в горячих списках крупных веб-сайтов с открытым исходным кодом: горячий список обнимающихся лиц, горячий список paperwithcode первым, горячий пятый проект Github всех проектов python, звезды GitHub превысили 1000 за неделю, а связанные с ними технические сообщения в Twitter были просмотрены почти 180 000...

GitHub Stars достиг 1,3 тыс.

Похожие технические посты в Twitter набрали почти 180 000 просмотров

Технология, получившая название LongLoRA, практична, но удивительно проста: с помощью всего двух строк кода и 8-карточного устройства A100 длина текста модели 7B может быть увеличена до 100 тыс. токенов, а длина текста модели 70B может быть увеличена до 32 тыс. токенов; В то же время исследовательская группа также выпустила LongAlpaca, первую модель длинных диалогов на большом языке с параметрами 70B.

Выпущена первая в мире модель большого языка с длинным текстом размером 70 КБ

Предложение LongLoRA впервые решило диалоговые дефекты глобальной большой языковой модели, и с тех пор десятки страниц статей, сотни страниц отчетов и огромные книги уже не стали слепым пятном больших моделей.

В связи с этим некоторые профессионалы взволнованно говорили, что LongLoRA – это светильник надежды в лабиринте больших языковых моделей! Он представляет собой переосмысление и внимание отрасли к большим языковым моделям с длинным текстом, эффективно расширяет контекстное окно больших языковых моделей, позволяет модели рассматривать и обрабатывать длинные текстовые последовательности и является инновационным изобретением больших языковых моделей.

Помимо технологических инноваций, одной из сложностей больших языковых моделей при решении задач с длинным текстом является отсутствие общедоступных данных о длинных диалогах.

С этой целью исследовательская группа специально собрала 9 тыс. текстовых пар вопросов и ответов, включая различные вопросы и ответы по известным книгам, статьям, подробным отчетам и даже финансовым отчетам.

Для обучения было недостаточно отвечать на длинные вопросы, команда выбрала корпус коротких вопросов и ответов размером 3 КБ, смешанный с корпусом вопросов и ответов объемом 9 КБ, чтобы модель с длинным текстом имела возможности короткого текстового диалога одновременно. Этот полный набор данных, названный LongAlpaca-12k, в настоящее время имеет открытый исходный код.

Основываясь на наборе данных LongAlpaca-12k, исследовательская группа обучила и оценила различные размеры параметров 7B, 13B, 70B и модели с открытым исходным кодом, включая LongAlpaca-7B, LongAlpaca-13B и LongAlpaca-70B.

Читать романы, менять газеты и указывать на то, что экономика — это всесторонний король

Без лишних слов, вслепую выберите несколько демонстраций, чтобы увидеть эффект LongAlpaca большой модели, которая применяет технологию LongLoRA, наложенную на 12-тысячный корпус вопросов и ответов.

让系统新读一篇论文，并根据ICLR的审查指南，对其提出修改意见，从而提升该论文的接收率。LongAlpaca的意见是：通过更精确地阐明新颖性，提供更严格和更有对比性的实验结果(包括具体的数据集和指标) , более широкое применение и будущее направление, уделяя особое внимание ключевым вкладам и воздействиям, и шансы на то, что статья будет принята, будут улучшены.

Теперь пусть система прочитает два новых разных документа, и пусть LongAlpaca подытожит стилистические различия между конференциями ICLR и CVPR. ЛонгАльпака приходит к выводу, что документы CVPR, как правило, более структурированы и экспериментальны, уделяя особое внимание практичности и техническим аспектам. Стиль эссе ICLR, с другой стороны, более гибкий, фокусируясь на ключевых теоретических анализах и математических выводах, а не на стандартных форматах.

Видно, что обученная модель длинной альпаки может легко принимать новые длинные научные работы, и она довольно точно отвечает на академически значимые вопросы.

Далее рассмотрим интерпретацию модели LongAlpaca в экономической сфере с высоким порогом чтения и понимания.

На основе обзорного сборника МВФ о перспективах мировой экономики с 2012 по 2023 год он обобщает экономическую ситуацию по годам и прогнозирует будущие экономические тенденции. LongAlpaca сообщила нам, что глобальная экономическая ситуация в 2023 году неопределенна, и ожидается, что рост замедлится по сравнению с 2022 годом; В ближайшие годы глобальный экономический рост будет умеренным и более низким, чем ожидалось, в то время как основные проблемы, такие как геополитическая напряженность и волатильность финансовых рынков, сохраняются, и их необходимо тщательно решать с помощью многостороннего сотрудничества и структурных реформ.

LongAlpaca также может читать новые романы и анализировать содержание после их прочтения. Ниже выбраны модели сравнения LongAlpaca и Llama2 с параметрами 13B, а также их соответствующие характеристики.

Почему в знаменитой книге «Путешествие на Запад» Сунь Укун очень силен, когда он устраивает неприятности в Небесном дворце, но он неоднократно терпел неудачу на пути к священным писаниям? LongAlpaca назвал 5 причин, которые можно грубо резюмировать как «Незрелость Monkey King, сильные противники, ограниченная сила, обман врагов, первоначальное отсутствие компаньонов и другие факторы привели к его неудаче в путешествии». Но со временем он приобрел мудрость, опыт и товарищей, которые позволили ему победить своих самых грозных врагов. "

Ответ Llama2 проще. «Хотя он и поднимает шум вокруг Небесного Дворца, не всегда верно говорить, что он представляет собой непобедимую силу. На самом деле, он в конечном итоге был побежден могущественным Тан Саньцзаном в «Путешествии на Запад». Llama2 не дал правильного ответа, а также поднял вопрос о необходимости получения дополнительной информации о контенте.

На этот раз, пусть система прочитает "Задачу трех тел" еще раз, а затем спросит, почему Е Вэньцзе связался с инопланетянами в первой части, и почему он пожалел об этом на более поздней стадии? Лонг Альпака считает, что первоначальный контакт Е Вэньцзе с инопланетянами был мотивирован идеализмом и местью, но со временем ее взгляд на человечество изменился, осознав опасность, которую она может принести всему человечеству, и ее раскаяние растет день ото дня. Ответ был предельно ясен.

Лама2 ответила: «Взаимодействуя с инопланетянами, она надеется получить более глубокое понимание природы Вселенной и своего места в ней». Е Вэньцзе постепенно поняла, что инопланетяне и их технологии не могут решить ее проблему. Ответ был общим, и тогда он начал комментировать роман в целом, отвечая на не-вопросы.

Из ответов, данных моделями, видно, что некоторые модели, такие как Llama2 [2] Возможно, вы видели роман во время подготовительного процесса, но если вы зададите короткий текстовый вопрос, основанный только на теме романа, ответ не будет идеальным.

Ответы двух моделей противопоставляются, а максимум и минимум являются высокими. LongAlpaca хорошо умеет менять научные статьи, комментировать глобальные экономические тенденции и читать романы, обыгрывая Ламу2.

Две строки кода и три ключевых вывода

Llama2, возможно, является одной из самых мощных моделей с открытым исходным кодом в сообществе ИИ, лидируя в отрасли, и LongAlpaca действительно может победить. Технология LongLoRA, лежащая в его основе, успешно привлекла внимание пользователей сети, как ей это удалось?

Оказывается, что в процессе обработки длинного текста в больших языковых моделях основные затраты на вычисления концентрируются в механизме самовнимания, а его накладные расходы возрастают в квадрате с длиной текста.

В ответ на эту проблему исследовательская группа предложила технологию LongLoRA и смоделировала глобальный механизм самовнимания путем группировки и смещения.

Проще говоря, он заключается в том, чтобы разбить лексемы, соответствующие длинному тексту, на разные группы, сделать вычисления самовнимания внутри каждой группы, а способ группировки смещен от разных голов внимания. Этот метод позволяет не только значительно сэкономить объем вычислений, но и сохранить передачу глобального рецептивного поля.

И этот способ реализации еще и очень лаконичен, можно выполнить всего две строчки кода!

[5]LongLoRA также изучает способы тренировок на низких рангах. Оригинальные низкоранговые методы обучения, такие как LoRA , не дает хороших результатов при переносе длины текста. На основе низкорангового обучения LongLoRA вводит уровни встраивания (Embedding layer и Normalization layers) для тонкой настройки, чтобы достичь эффекта полной тонкой настройки.

При выполнении расширений текста и обучения разной длины специфические эффекты LongLoRA, LoRA и методов тонкой настройки всех параметров можно рассматривать в трех измерениях:

С точки зрения Perplexity-perplexity, производительность оригинального метода LoRA ухудшается, в то время как LongLoRA и тонкая настройка всех параметров могут поддерживать хорошие результаты при различной длине текста.

С точки зрения потребления памяти, LongLoRA и оригинальная LoRA имеют значительную экономию по сравнению с полнопараметрической тонкой настройкой. Например, для обучения модели длиной 8 КБ LongLoRA снижает потребление памяти с 46,3 ГБ до 25,6 ГБ по сравнению с полной тонкой настройкой.

С точки зрения времени обучения, для обучения модели длиной 64 тыс., по сравнению с обычной LoRA, LongLoRA сокращает время обучения примерно с 90~100 часов до 52,4 часов, в то время как полная тонкая настройка параметров превышает 1000 часов.

Минималистичный метод обучения, минимальные вычислительные ресурсы и затраты времени, а также превосходная точность делают LongLoRA возможным в больших масштабах. В настоящее время все соответствующие технологии и модели имеют открытый исходный код, и заинтересованные пользователи могут использовать свой собственный опыт.

Стоит отметить, что это еще один шедевр команды Jajaya вслед за мультимодальной большой моделью LISA, которая «может поделить все», выпущенной 9 августа. С разницей всего в два месяца можно сказать, что скорость и возможности этого исследования так же удивительны, как и LongLoRA.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
2k Популярность
2Alpha Points System Opens
6k Популярность
3Ethereum 10th Anniversary
11k Популярность
4ETF In-Kind Mechanism
4k Популярность
5ate ETH 10th Anniversary Investment Zone
19k Популярность

Закрепить

Карта сайта