Бенчмарк с открытым исходным кодом! Самая сильная китайско-английская двуязычная большая модель с 34 миллиардами параметров, превосходящая все модели с открытым исходным кодом, такие как Llama2-70B

Автор:Цзинь Лэй

Источник: Кубиты

Самая сильная китайско-английская двуязычная модель в мире с открытым исходным кодом, Wudao Skyhawk 34B, уже здесь!

Насколько он силен? Вкратце:

Знание китайского и английского языков, способность к логическому мышлению и т. д. значительно превосходят Llama2-70B и все предыдущие модели с открытым исходным кодом!

С точки зрения способности к рассуждению, тест оценки IRD модели диалога уступает только GPT4.

Мало того, что модель достаточно большая, чтобы сражаться, она также отправляет полный набор роскошных периферийных устройств уровня «семейная бочка» за один раз.

Что может иметь такое большое значение, так это пионер крупномасштабной китайской школы открытого исходного кода, исследовательский институт KLCII.

Если вы посмотрите на подход KLCII к открытому исходному коду на протяжении многих лет, нетрудно обнаружить, что он возглавляет новую тенденцию:

Уже в 2021 году был обнародован крупнейший в мире корпус, а в 2022 году он первым выдвинул систему с открытым исходным кодом технологии больших моделей FlagOpen и последовательно запустил систему оценки Flag, набор данных COIG, векторную модель BGE и другие полнотехнологические стековые звездные проекты.

Эта смелость исходит из позиционирования KLCII как некоммерческого, некоммерческого, нейтрального исследовательского учреждения, и его основной целью является «искреннее совместное создание с открытым исходным кодом».

Понятно, что модель пьедестала Aquila2-34B лидирует в комплексном рейтинге из 22 критериев оценки, включая язык, понимание, рассуждение, код, экзамен и другие параметры оценки.

Вот картинка, чтобы почувствовать это чувство:

△Рисунок: Результаты оценки базовой модели (подробные результаты оценки набора данных см. в официальном репозитории с открытым исходным кодом)

Как уже упоминалось, Пекинский научно-исследовательский институт искусственного интеллекта KLCII также очень добросовестно внедряет открытый исходный код до конца, принося открытый исходный код в бочку всего семейства за один раз:

Полностью модернизировать модельный ряд Aquila2: базовая модель Aquila2-34B/7B, диалоговая модель AquilaChat2-34B/7B, модель AquilaSQL «текстовый язык SQL»;

Обновлена новая версия семантической векторной модели BGE: охвачены все четыре основных требования к поиску.

Эффективная платформа параллельного обучения FlagScale: лучшая в отрасли пропускная способность обучения и использование графического процессора;

FlagAttention Высокопроизводительное подмножество внимания: Инновационная поддержка обучения длинному тексту и языку Triton.

Далее давайте подробнее рассмотрим «самый сильный открытый исходный код» на этот раз.

Краткий обзор возможностей «Сильнейшего ПО с открытым исходным кодом»

Как мы только что упоминали, Aquila2-34B, одна из моделей-пьедесталов, которая открылась в позе «самый сильный открытый исходный код», также включает в себя меньшую Aquila2-7B.

И появление этих двух также делает модель переработки и сбыта очень прибыльной.

Самая сильная диалоговая модель с открытым исходным кодом

После доработки инструкций получилась отличная серия диалоговых моделей AquilaChat2:

AquilaChat2-34B: Это самая сильная китайско-английская модель двуязычного диалога с открытым исходным кодом, лидирующая по субъективной + объективной всесторонней оценке;

AquilaChat2-7B: также достиг наилучших показателей общей производительности в китайско-английской диалоговой модели того же масштаба.

△ Результаты оценки SFT-модели (подробные результаты оценки набора данных см. в официальном репозитории с открытым исходным кодом)

Описание отзыва:

Для модели генеративного диалога команда KLCII считает, что необходимо строго судить по «свободно сгенерированным ответам вводимой модели вопроса», что близко к реальному варианту использования пользователя, поэтому обратитесь к HELM Стэнфордского университета[1] Оценивается работа, которая предъявляет более строгие требования к способности модели к контекстуальному обучению и следованию инструкциям. Во время фактического процесса оценки некоторые ответы диалоговой модели не соответствуют требованиям команды, и может возникнуть оценка «0».

Например, если правильный ответ «А» в соответствии с инструкцией, если модель сгенерирована как «Б» или «Ответ А», ей будет присвоен балл «0».

В то же время в отрасли существуют и другие методы оценки, такие как возможность диалоговой модели сначала сшить «вопрос + ответ», модель вычисляет вероятность каждого сращенного текста, проверяет, согласуется ли ответ с наибольшей вероятностью с правильным ответом, и диалоговая модель не будет генерировать никакого контента в процессе оценки, а вычисляет вероятность варианта. Этот метод оценки сильно отличается от сценария реального диалога, поэтому он не используется в оценке модели генеративного диалога.

[1]

Мало того, с точки зрения способности к рассуждению, что очень важно для больших языковых моделей, производительность AquilaChat2-34B также очень удивительна——

Он занимает первое место в протоколе оценки IRD, превосходя такие модели, как Llama2-70B и GPT3.5, и уступает только GPT4.

△Рисунок: Результаты оценки SFT-модели на наборе данных IRD

С точки зрения различных достижений, будь то модель пьедестала или модель диалога, серию Aquila2 можно назвать сильнейшей в индустрии открытого исходного кода.

Длина контекстного окна до 16 КБ

Для больших языковых моделей способность обрабатывать длинный ввод текста и поддерживать контекстуальную беглость во время нескольких раундов диалога является ключом к определению того, является ли опыт хорошим или плохим.

Для того, чтобы решить эту проблему «страдания больших моделей в течение длительного времени», Пекинский научно-исследовательский институт искусственного интеллекта KLCII сделал SFT на 200 000 высококачественных наборов данных для длинных текстовых диалогов, увеличив эффективную длину контекстного окна модели до 16 КБ одним махом.

И дело не только в увеличении длины, но и в оптимизации эффекта.

Например, в оценочном эффекте четырех вопросов и ответов на китайском и английском языках, а также заданий на краткое изложение длинного текста в LongBench, очень очевидно:

AquilaChat2-34B-16K находится на ведущем уровне моделей длинного текста с открытым исходным кодом, близком к модели длинного текста GPT-3.5.

△Рисунок: Оценка задания на понимание длинного текста

Кроме того, команда KLCII провела визуальный анализ распределения внимания нескольких языковых моделей, обрабатывающих сверхдлинный текст, и обнаружила, что все языковые модели имеют фиксированное узкое место относительного положения, которое было значительно меньше, чем длина контекстного окна.

С этой целью команда KLCII предложила инновационный метод NLPE (Non-Linearized Position Embedding), который улучшает способность модели к эпитаксии за счет корректировки кодирования относительного положения и ограничения максимальной относительной длины на основе метода RoPE.

Эксперименты с продолжением текста в коде, китайском и английском языках, электронных книгах и других областях показывают, что NLPE может расширить модель 4K Aquila2-34B до длины 32K, а связность непрерывного текста намного лучше, чем у Dynamic-NTK, позиционной интерполяции и других методов.

△Рисунок: Сравнение NLPE и основных методов динамической эпитаксии NTK на базовой модели (чем ниже значение ppl, тем лучше)

Мало того, тест на способность следовать инструкциям на HotpotQA, 2WikiMultihopQA и других наборах данных длиной 5K~15K показывает, что точность AquilaChat2-7B (2K) после NLPE-эпитаксии составляет 17,2%, в то время как точность AquilaChat2-7B расширения Dynamic-NTK составляет всего 0,4%.

△Рисунок: Сравнение эпитаксиальных методов NLPE и Dynamic-NTK на моделях SFT

Возможны все виды реальных сценариев применения

Хорошие «результаты» — это только один из критериев тестирования больших моделей, и, что более важно, «хорошее использование — последнее слово».

Это также способность к обобщению больших моделей, даже если вы столкнетесь с проблемами, с которыми вы не видели, вы легко справитесь.

С этой целью команда Wudao Skyhawk проверила способность модели Aquila2 к обобщению с помощью трех реальных сценариев применения.

Создавайте мощных агентов в Minecraft

Minecraft - это игра, которая является хорошим полигоном для тестирования технологий тестирования ИИ.

Он имеет бесконечно генерируемые сложные миры и большое количество открытых задач, предоставляя богатые интерфейсы взаимодействия для агентов.

Исходя из этого, KLCII и команда Пекинского университета придумали Plan4MC — метод эффективного решения многозадачности Minecraft без экспертных данных.

Plan4MC может обучать базовые навыки агента, используя обучение с подкреплением с внутренними вознаграждениями, так что агент может использовать способность к рассуждению большой языковой модели AquilaChat2 для планирования задач.

Например, на видео ниже показан эффект агента, использующего AquilaChat2 для автоматического завершения нескольких раундов диалогового взаимодействия.

Введите в модель AquilaChat2 «текущее состояние окружения» и «задачи, которые необходимо выполнить», и AquilaChat2 передаст персонажу «какие навыки использовать дальше» и другую информацию для принятия решений, и, наконец, выполнит задачу, поставленную в Minecraft «Срубить дерево и сделать верстак, чтобы поставить рядом».

База данных векторов ссылок через Aquila2+BGE2

В последние годы векторные базы данных стали одолжением в большом кругу моделей, но они все еще немного растянуты с точки зрения возможностей перед лицом сложных проблем, требующих глубокого понимания.

С этой целью KLCII объединила Aqiula2 со своей собственной семантической векторной моделью с открытым исходным кодом BGE2, чтобы полностью разблокировать некоторые сложные задачи поиска, которые не могут быть решены методами поиска, основанными только на традиционных векторных библиотеках.

Например, в приведенном ниже примере мы можем ясно видеть, что такие задачи, как «поиск статей автора по определенной теме» и «генерация сводного текста для нескольких статей по одной теме», могут стать очень сложными.

Оптимальная модель генерации «текстового языка SQL»

У многих пользователей возникает головная боль при работе с SQL при решении таких задач, как запросы к базе данных.

Разве не было бы прекрасно, если бы им можно было управлять на родном языке, которым мы часто пользуемся?

Теперь такой удобный способ возможен - AquilaSQL.

В практических прикладных сценариях пользователи также могут выполнять вторичную разработку на основе AquilaSQL, прививая его в локальную базу знаний, генерируя SQL-запросы локального запроса или дополнительно повышая производительность анализа данных модели, чтобы модель могла не только возвращать результаты запроса, но и в дальнейшем генерировать аналитические выводы и диаграммы.

Например, при работе со следующей сложной задачей запроса теперь нужно говорить только на естественном языке:

Отфильтруйте автомобили с продажами более 100 и красным цветом из двух таблиц данных, содержащих продажи автомобилей (car_sales) и цвет автомобиля (car_color).

Да и «достижения» AquilaSQL тоже весьма впечатляют.

После непрерывного предварительного обучения и двухэтапного обучения SFT с помощью корпуса SQL, модель SOTA на Cspider наконец-то превзошла рейтинг «модель генерации языка text-SQL» с точностью 67,3%.

Точность модели GPT4 без тонкой настройки корпуса SQL составляет всего 30,8%.

Существует также семейство бакетов с открытым исходным кодом

Как мы уже упоминали ранее, KLCII всегда был ориентирован на открытый исходный код.

На этот раз, по случаю большого обновления модели, KLCII также безоговорочно открыла исходный код для ряда звездных проектов, включая алгоритмы, данные, инструменты и оценки.

Понятно, что модель серии Aquila2 не только полностью принимает коммерческие лицензионные соглашения, но и позволяет общественности широко использовать их в академических исследованиях и коммерческих приложениях.

Теперь давайте кратко рассмотрим эти семейственные корзины с открытым исходным кодом.

FlagScale, эффективный фреймворк параллельного обучения

FlagScale — это эффективная среда параллельного обучения, используемая Aquila2-34B, которая может предоставлять универсальные функции обучения для больших языковых моделей.

Команда KLCII поделилась конфигурацией обучения, схемой оптимизации и гиперпараметрами модели Aquila2 с крупными разработчиками моделей в рамках проекта FlagScale и первой в Китае полностью открыла исходный код и гиперпараметры для обучения.

Основанный на расширении Megatron-LM, FlagScale предлагает ряд улучшений функций, включая распределенный срез состояния оптимизатора, точное позиционирование данных обучающей задачи и преобразование параметров в Huggingface.

Результаты измерений Aquila2 позволили достичь лучших в отрасли показателей производительности обучения и использования графического процессора.

△Рисунок: Пропускная способность обучения FlagScale и использование графического процессора (источник данных и формула оценки см. в конце статьи)

Предполагается, что в будущем FlagScale продолжит синхронизацию с новейшим кодом вышестоящего проекта Megatron-LM, внедрять более настраиваемые функции, интегрировать новейшие технологии распределенного обучения и логического вывода и массировать большие модели, поддерживать гетерогенные аппаратные средства ИИ и стремиться к созданию общего, удобного и эффективного распределенного фреймворка вывода для обучения больших моделей для решения задач обучения моделей различных масштабов и потребностей.

FlagAttentionВысокопроизводительное подмножество с открытым исходным кодом

FlagAttention — это первое высокопроизводительное вычислительное подмножество Attention с открытым исходным кодом, разработанное с использованием языка Triton для поддержки обучения длинных текстов больших моделей, и расширяет оператор Memory Efficient Attention серии Flash Attention для удовлетворения потребностей обучения больших моделей.

В настоящее время реализован оператор сегментированного внимания - PiecewiseAttention.

PiecewiseAttention в основном решает задачу экстраполяции модели Transformer с кодированием положения вращения (Roformer), и его характеристики можно резюмировать следующим образом:

Универсальность: Общность моделей, использующих сегментированное вычислительное внимание, может быть легко перенесена в большие языковые модели за пределами Aquila.

Простота использования: FlagAttention основан на реализации языка Triton и предоставляет интерфейс PyTorch, что упрощает процесс сборки и установки, чем Flash Attention, разработанный CUDA C.

Расширяемость: Также благодаря языку Triton сам алгоритм FlagAttention имеет низкий порог модификации и расширения, и разработчики могут легко расширять больше новых функций сверх этого.

В будущем проект FlagAttention продолжит поддерживать операторов внимания с помощью других расширений функций для больших потребностей в исследовании моделей, еще больше оптимизирует производительность операторов и адаптируется к более разнородному оборудованию ИИ.

Семантическая векторная модель нового поколения BGE2**

Новое поколение семантической векторной модели BGE также будет иметь открытый исходный код с Aquila2.

Модель BGE-LLM Embedder в BGE2 объединяет четыре возможности: «извлечение знаний», «извлечение из памяти», «поиск образцов» и «извлечение инструментов».

Впервые реализовано всестороннее покрытие основных требований к поиску большой языковой модели с помощью одной семантической векторной модели.

В сочетании с конкретными сценариями использования BGE-LLM Embedder значительно повысит производительность больших языковых моделей в таких важных областях, как обработка наукоемких задач, долговременная память, следование инструкциям и использование инструментов.

......

Итак, вы в восторге от такого тщательного "сильнейшего открытого исходного кода"?

И ещё кое-что

28-29 октября KLCII проведет новый семинар по передовым технологиям для больших моделей, на котором девять ключевых исследователей расскажут о последних достижениях и внедрении FlagOpen.

Заинтересованные партнеры также могут жить в коде.

Адрес модели Aquila2 с открытым исходным кодом:

Адрес репозитория AquilaSQL с открытым исходным кодом:

Репозиторий с открытым исходным кодом FlagAttention:

Адрес BGE2 с открытым исходным кодом

бумага:

Модель: /llm-embedder

Репо:

Формула оценки пропускной способности LLAMA2: общее количество токенов / (общее количество часов GPU * 3600), согласно статье Llama 2: Open Foundation и Fine-Tuned Chat Models: 1) 7B имеет общий токен 2.0 T, общее количество часов GPU составляет 184320, а подставленное в формулу дает 3014 токенов/сек/GPU; 2) Общее количество токенов 34B составляет 2.0 T, общее количество часов GPU составляет 1038336, и формула подставляется, чтобы получить 535 токенов/сек/GPU.

— Конец —

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить