Тест з відкритим вихідним кодом! Тут є найсильніша китайсько-англійська двомовна велика модель з 34 мільярдами параметрів, що перевершує всі моделі з відкритим вихідним кодом, такі як Llama2-70B

2023-10-13 13:51:44

Автор:Цзінь Лей

Джерело: Qubits

Найсильніша китайсько-англійська двомовна модель у світі з відкритим вихідним кодом, Wudao Skyhawk 34B, вже тут!

Наскільки він міцний? Одним словом:

Китайські та англійські всебічні здібності, здатність до логічного мислення і т.д. всебічно перевершують Llama2-70B і всі попередні моделі з відкритим вихідним кодом!

З точки зору здатності міркувати, еталон оцінки IRD діалогової моделі поступається лише GPT4.

Мало того, що модель досить велика, щоб битися, так ще й відправляє повний комплект розкішних периферійних пристроїв рівня «сімейної бочки» за один раз.

Що може мати таке велике значення, так це піонер великої китайської школи з відкритим вихідним кодом, науково-дослідний інститут KLCII.

Якщо ви подивитеся на масштабну модель KLCII з відкритим вихідним кодом протягом багатьох років, неважко виявити, що вона лідирує в новій тенденції:

Ще у 2021 році було оприлюднено найбільший у світі корпус, а у 2022 році він був першим, хто передав систему з відкритим вихідним кодом технології великої моделі FlagOpen, а також послідовно запустив систему оцінки Flag, набір даних COIG, векторну модель BGE та інші повнотехнологічні проєкти зі стеком.

Ця сміливість походить від позиціонування KLCII як некомерційної, некомерційної, нейтральної дослідницької установи, а її основним фокусом є «щира співтворчість з відкритим вихідним кодом».

Зрозуміло, що модель п'єдесталу Aquila2-34B лідирує в комплексному рейтингу з 22 критеріїв оцінки, включаючи мову, розуміння, міркування, код, іспит та інші параметри оцінки.

Ось картинка, щоб відчути це відчуття:

△Малюнок: Результати оцінки базової моделі (детальні результати оцінки наборів даних див. в офіційному репозиторії з відкритим вихідним кодом)

Як щойно згадувалося, Пекінський науково-дослідний інститут штучного інтелекту KLCII також дуже сумлінно впроваджує відкритий вихідний код до кінця, надаючи відкритий вихідний код всій родині за один раз:

Повністю оновити серію моделей Aquila2: базова модель Aquila2-34B/7B, діалогова модель AquilaChat2-34B/7B, модель "текстової мови SQL" AquilaSQL;

Оновлено нову версію семантичної векторної моделі BGE: охоплено всі чотири основні вимоги до пошуку.

Ефективна структура паралельного навчання FlagScale: найкраща в галузі пропускна здатність навчання та використання графічного процесора;

FlagAttention Високопродуктивна підмножина уваги: Інноваційна підтримка навчання довгому тексту та мови Triton.

Далі давайте детальніше розглянемо «найсильніший відкритий вихідний код» цього разу.

Короткий огляд можливостей "Найсильнішого відкритого вихідного коду"

Як ми щойно згадували, Aquila2-34B, одна з моделей п'єдесталу, яка відкрилася в позі «найсильнішого відкритого вихідного коду», також включає менший Aquila2-7B.

І поява цих двох також робить модель downstream дуже прибутковою.

Найсильніша модель діалогу з відкритим вихідним кодом

Після доопрацювання інструкції була отримана чудова серія діалогових моделей AquilaChat2:

AquilaChat2-34B: Це найсильніша китайсько-англійська модель двомовного діалогу з відкритим вихідним кодом, яка лідирує в суб'єктивній + об'єктивній всебічній оцінці;

AquilaChat2-7B: також досяг найкращої загальної продуктивності в китайсько-англійській моделі діалогу такого ж масштабу.

△ Результати оцінки моделі SFT (детальні результати оцінки наборів даних див. в офіційному репозиторії з відкритим вихідним кодом)

Опис огляду:

Що стосується генеративної моделі діалогу, команда KLCII вважає, що необхідно суворо судити відповідно до «вільно згенерованих відповідей моделі під питанням», що є близьким до реального випадку використання користувачем, тому зверніться до HELM Стенфордського університету[1] Оцінено роботу, яка має більш жорсткі вимоги до контекстуального навчання моделі та здатності слідувати за нею. Під час фактичного процесу оцінювання деякі відповіді моделі діалогу не відповідають вимогам команди, і може виникнути оцінка «0».

Наприклад, якщо правильна відповідь «А» згідно з інструкцією, якщо модель згенерована як «В» або «Відповідь А», їй буде присвоєно оцінку «0».

У той же час в індустрії існують інші методи оцінювання, такі як дозвіл моделі діалогу спочатку зшити «питання + відповідь», модель обчислює ймовірність кожного зрощеного тексту, перевіряє, чи відповідає відповідь з найбільшою ймовірністю правильній відповіді, і діалогова модель не генеруватиме жодного контенту в процесі оцінювання, а обчислюватиме ймовірність варіанту. Цей метод оцінки сильно відрізняється від реального сценарію діалогу, тому він не використовується в оцінці генеративної моделі діалогу.

[1]

Мало того, з точки зору здатності міркувати, що дуже важливо для великих мовних моделей, продуктивність AquilaChat2-34B також дуже дивовижна——

Він посідає перше місце в протоколі оцінки IRD, обійшовши такі моделі, як Llama2-70B і GPT3.5, і поступаючись лише GPT4.

△Малюнок: Результати оцінки моделі SFT на наборі даних IRD

З точки зору різних досягнень, будь то модель п'єдесталу або модель діалогу, серію Aquila2 можна назвати найсильнішою в індустрії з відкритим вихідним кодом.

Довжина контекстного вікна до 16K

Для великих мовних моделей здатність обробляти довгий текст, що вводиться, і підтримувати контекстуальну вільність під час кількох раундів діалогу є ключем до визначення того, хороший чи поганий досвід.

Для того, щоб вирішити цю проблему «страждання великих моделей протягом тривалого часу», Пекінський науково-дослідний інститут штучного інтелекту KLCII зробив SFT на 200 000 високоякісних наборів даних з довгим текстовим діалогом, збільшивши ефективну довжину контекстного вікна моделі до 16 тисяч одним махом.

І справа не тільки в поліпшенні довжини, ефект був оптимізований.

Наприклад, в оціночному ефекті чотирьох китайських та англійських запитань і відповідей з довгим текстом LongBench, довгих текстових підсумкових завдань дуже очевидно:

AquilaChat2-34B-16K знаходиться на провідному рівні довгих текстових моделей з відкритим вихідним кодом, близький до моделі довгого тексту GPT-3.5.

△Малюнок: Оцінювання завдань на розуміння довгого тексту

Крім того, команда KLCII провела візуальний аналіз розподілу уваги кількох мовних моделей, що обробляють наддовгий текст, і виявила, що всі мовні моделі мають вузьке місце фіксованого відносного положення, яке було значно меншим за довжину контекстного вікна.

З цією метою команда KLCII інноваційно запропонувала метод NLPE (Non-Linearized Position Embedding), який покращує здатність моделі до епітаксії шляхом регулювання кодування відносного положення та обмеження максимальної відносної довжини на основі методу RoPE.

Експерименти з продовженням тексту в коді, китайській та англійській мовах, електронних книгах та інших областях показують, що NLPE може розширити модель 4K Aquila2-34B до 32K довжини, а зв'язність продовженого тексту набагато краща, ніж у Dynamic-NTK, інтерполяції позицій та інших методів.

△Рисунок: Порівняння НЛП та основних методів епітаксії Dynamic-NTK за базовою моделлю (чим нижче значення ppl, тим краще)

Мало того, інструкція після тесту здібностей на HotpotQA, 2WikiMultihopQA та інших наборах даних довжиною 5K~15K показує, що точність AquilaChat2-7B (2K) після епітаксії NLPE становить 17,2%, тоді як точність AquilaChat2-7B розширення Dynamic-NTK становить лише 0,4%.

△Рисунок: Порівняння НЛШ та основних епітаксійних методів Dynamic-NTK на моделях SFT

Можна проводити всі види реальних сценаріїв застосування

Хороші «результати» - це лише один з критеріїв тестування великих моделей, і що ще важливіше, "хороше використання - останнє слово".

Це також здатність до узагальнення великих моделей, навіть якщо ви зіткнулися з проблемами, яких ви не бачили, ви легко зможете впоратися.

З цією метою команда Wudao Skyhawk перевірила здатність до узагальнення моделі Aquila2 за допомогою трьох реальних сценаріїв застосування.

Створюйте потужних агентів у Minecraft

Minecraft – це гра, яка є хорошим випробувальним полігоном для технології тестування ШІ.

Він має нескінченно генеровані складні світи та велику кількість відкритих завдань, забезпечуючи багаті інтерфейси взаємодії для агентів.

Виходячи з цього, KLCII і команда Пекінського університету придумали Plan4MC - метод ефективного вирішення багатозадачності Minecraft без експертних даних.

Plan4MC може тренувати базові навички агента, використовуючи навчання з підкріпленням з внутрішньою винагородою, так що агент може використовувати здатність міркувати великої мовної моделі AquilaChat2 для планування завдань.

Наприклад, у відео нижче показаний ефект, коли агент використовує AquilaChat2 для автоматичного завершення кількох раундів діалогової взаємодії.

Введіть «поточний стан середовища» та «завдання, які потрібно виконати» в модель AquilaChat2, і AquilaChat2 повернеться до персонажа «які навички використовувати далі» та іншу інформацію про прийняття рішень, і, нарешті, виконає завдання, поставлене в Minecraft «Розпиляти дрова та зробити верстак, щоб поставити поруч».

Зв'язати векторну базу даних через Aquila2+BGE2

Останніми роками векторні бази даних стали перевагою у великому модельному колі, але вони все ще трохи розтягнуті з точки зору можливостей перед обличчям складних проблем, які вимагають глибокого розуміння.

З цією метою KLCII об'єднала Aqiula2 зі своєю власноруч розробленою семантичною векторною моделлю BGE2 з відкритим вихідним кодом, щоб повністю розблокувати деякі складні завдання пошуку, які не можуть бути вирішені методами пошуку, заснованими лише на традиційних векторних бібліотеках.

Наприклад, у наведеному нижче прикладі ми можемо чітко побачити, що такі завдання, як «отримання статей автора на певну тему» та «створення підсумкового тексту для кількох статей на одну тему» можуть стати дуже шовковистими.

Оптимальна модель генерації "text-SQL language"

Багато користувачів відчувають головний біль за SQL при роботі з такими завданнями, як запити до бази даних.

Хіба не було б чудово, якби його можна було використовувати на народній мові, якою ми часто користуємося?

Тепер можливий такий зручний спосіб - AquilaSQL.

У практичних прикладних сценаріях користувачі також можуть виконувати вторинну розробку на основі AquilaSQL, прищеплюючи її до локальної бази знань, генеруючи локальні запити SQL або додатково покращуючи продуктивність аналізу даних моделі, щоб модель могла не тільки повертати результати запиту, але й надалі генерувати висновки аналізу та діаграми.

Наприклад, коли ви маєте справу з таким складним завданням запиту, вам тепер потрібно говорити лише природною мовою:

Відфільтруйте автомобілі з продажами більше 100 і червоним кольором з двох таблиць даних, що містять продажі автомобілів (car_sales) і колір автомобіля (car_color).

І «досягнення» AquilaSQL теж дуже вражають.

Після безперервного попереднього навчання та двоступеневого навчання SFT з корпусом SQL, модель SOTA на Cspider нарешті перевершила рейтинг «модель генерації текстової мови SQL» з точністю 67,3%.

Точність моделі GPT4 без тонкого налаштування корпусу SQL становить лише 30,8%.

Існує також сімейний відкритий вихідний код

Як ми вже згадували раніше, KLCII завжди була орієнтована на відкритий вихідний код.

Цього разу, з нагоди великого оновлення моделі, KLCII також беззастережно відкрила вихідний код серії зіркових проектів, включаючи алгоритми, дані, інструменти та оцінки.

Зрозуміло, що модель серії Aquila2 не тільки повністю приймає комерційні ліцензійні угоди, але й дозволяє громадськості широко використовувати їх в академічних дослідженнях і комерційних додатках.

Далі давайте коротко розглянемо ці сімейства з відкритим вихідним кодом.

FlagScale, ефективний фреймворк паралельного навчання

FlagScale - це ефективна паралельна навчальна структура, що використовується Aquila2-34B, яка може забезпечити універсальні функції навчання для великих мовних моделей.

Команда KLCII поділилася навчальною конфігурацією, схемою оптимізації та гіперпараметрами моделі Aquila2 з великими розробниками моделей через проект FlagScale, і була першою в Китаї, хто повністю відкрив вихідний код навчального коду та гіперпараметрів.

Заснований на розширенні Megatron-LM, FlagScale пропонує ряд удосконалень функцій, включаючи розподілену нарізку стану оптимізатора, точне позиціонування даних навчальної задачі та перетворення параметра в Huggingface.

Aquila2 було виміряно для досягнення найкращої в галузі пропускної здатності навчання та використання графічного процесора.

△Малюнок: Пропускна здатність навчання FlagScale та використання графічного процесора (див. кінець статті для джерела даних та формули оцінки)

Зрозуміло, що в майбутньому FlagScale продовжить синхронізуватися з останнім кодом проекту Megatron-LM, впроваджуватиме більш кастомізовані функції, інтегруватиме новітню технологію розподіленого навчання та логічного висновку та інтегруватиме великі моделі, підтримуватиме гетерогенне апаратне забезпечення штучного інтелекту та прагнутиме побудувати загальну, зручну та ефективну розподілену структуру навчання великій моделі для задоволення завдань навчання моделей різного масштабу та потреб.

FlagAttentionПідмножина уваги з відкритим вихідним кодом

FlagAttention — це перша високопродуктивна обчислювальна підмножина з відкритим вихідним кодом Attention, розроблена з використанням мови Triton для підтримки навчання великої моделі з довгим текстом, і розширює оператор Memory Efficient Attention серії Flash Attention для задоволення потреб навчання великих моделей.

В даний час реалізований оператор сегментованої уваги - PiecewiseAttention.

Кусково-кусочна увага в основному вирішує задачу екстраполяції трансформаторної моделі з кодуванням положення обертання (Roformer), а її характеристики можна узагальнити так:

Універсальність: Спільність з моделями, які використовують сегментовану обчислювальну увагу, може бути легко перенесена на великі мовні моделі за межами Aquila.

Простота використання: FlagAttention заснований на реалізації мови Triton і надає інтерфейс PyTorch, що робить процес збірки та встановлення простішим, ніж Flash Attention, розроблений CUDA C.

Розширюваність: Також завдяки мові Triton, сам алгоритм FlagAttention має низький поріг для модифікації та розширення, і розробники можуть легко розширити більше нових функцій на додаток до цього.

У майбутньому проєкт FlagAttention продовжить підтримувати операторів уваги за допомогою інших розширень функцій для потреб дослідження великих моделей, подальшої оптимізації продуктивності операторів та адаптації до більш різнорідного апаратного забезпечення штучного інтелекту.

Семантична векторна модель нового покоління BGE2**

Нове покоління семантичної векторної моделі BGE також буде з відкритим вихідним кодом з Aquila2.

Модель BGE-LLM Embedder в BGE2 об'єднує чотири можливості: «пошук знань», «пошук пам'яті», «пошук зразків» і «пошук інструментів».

Вперше реалізовано всебічне охоплення основних потреб пошуку великої мовної моделі за допомогою моделі єдиного семантичного вектора.

У поєднанні з конкретними сценаріями використання, BGE-LLM Embedder значно покращить продуктивність великих мовних моделей у таких важливих областях, як обробка наукомістких завдань, довготривала пам'ять, виконання інструкцій та використання інструментів.

......

Отже, ви в захваті від такого ґрунтовного "найсильнішого відкритого вихідного коду"?

Ще одна річ

28-29 жовтня KLCII проведе новий семінар з передових технологій для великих моделей, де дев'ять ключових дослідників представлять нещодавній прогрес та впровадження FlagOpen.

Зацікавлені партнери також можуть жити в коді.

Повна адреса з відкритим вихідним кодом моделі Aquila2:

Адреса репозиторію з відкритим вихідним кодом AquilaSQL:

Репозиторій з відкритим вихідним кодом FlagAttention:

Адреса з відкритим вихідним кодом BGE2

папір:

модель: /llm-embedder

Репо:

Формула оцінки пропускної здатності LLAMA2: загальна кількість токенів / (загальна кількість годин GPU * 3600), відповідно до статті Llama 2: Open Foundation and Fine-Tuned Chat Models: 1) 7B має загальний токен 2.0 T, загальна кількість годин GPU становить 184320, і підставляється у формулу дає 3014 токенів/сек/GPU; 2) Загальна кількість токенів 34B становить 2.0 T, загальна кількість годин GPU становить 1038336, і формула замінюється, щоб отримати 535 Tokens/sec/GPU.

— Кінець —

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

2 лайків

Нагородити
2
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
1/3
1CandyDrop Airdrop Event 6.0
16k Популярність
2White House Crypto Report
33k Популярність
3Join Alpha RION Airdrop to Earn $40
8k Популярність
4Fed Holds Rates Decision
8k Популярність
5July Spark Program TOP 10 Creators Announced
2k Популярність

Закріпити

карта сайту