Найпотужніша у світі модель довгого тексту, яка може читати 350 000 китайських ієрогліфів одночасно: Baichuan2-192K онлайн

Читання книг з великими моделями ще ніколи не було таким швидким.

Джерело зображення: Створено Unbounded AI

Вітчизняні масштабні модельні стартапи створюють нові рекорди на передньому краї технологій.

30 жовтня Baichuan Intelligence офіційно випустила велику модель Baichuan2-192K з довгим вікном, яка збільшила довжину контекстного вікна великої мовної моделі (LLM) до 192K token.

Це еквівалентно тому, що велика модель обробляє близько 350 000 китайських ієрогліфів одночасно, що в 14 разів довше, ніж GPT-4 (32 тисячі токенів, близько 25 000 символів) і в 4,4 рази довше, ніж у Claude 2.0 (100 тисяч токенів, близько 80 000 символів).

Іншими словами, Baichuan2-192K може прочитати копію Задачі трьох тіл 2 за один присід, що робить її найбільшою моделлю з найдовшим контекстним вікном обробки у світі. Крім того, він також значно перевершує своїх конкурентів за багатьма параметрами, такими як якість генерації тексту, розуміння контексту та здатність задавати та відповіді.

Що може зробити велика модель, яка може розуміти дуже довгі тексти одночасно? Baichuan Intelligent провела просту демонстрацію.

Завантажте PDF-файл з усією «Проблемою трьох тіл 2: Темний ліс», і модель Байчуань складе 300 000 слів. Далі, якщо ви поставите будь-які запитання щодо роману, модель може дати лаконічну та точну відповідь.

Іноді ми звертаємося до ШІ за допомогою, але не для того, щоб використовувати свою уяву, а для того, щоб витягти точну інформацію. За допомогою Baichuan2-192K ми можемо швидко розшифрувати десятки або навіть сотні сторінок контрактних документів, і дозволити ШІ швидко дати стислий підсумок, заокруглюючи квантову швидкість:

Що ж робити, якщо я раптом отримаю нове завдання і маю купу файлів для читання?

Ви можете безпосередньо упаковувати та завантажувати їх разом, а модель Baichuan може легко інтегрувати п'ять новинних статей в одну.

У міру того, як зміст, який може зрозуміти велика модель, стає довшим, тим більше і більше напрямків вона буде застосовуватися. Як ми всі знаємо, вміння моделювати довгий текст є обов'язковою умовою для застосування багатьох сценаріїв. Цього разу Baichuan зайняв лідируючі позиції в галузі.

Від десятків тисяч слів до сотень тисяч слів провідні стартапи поспішають скористатися «довгим вікном»

Якщо звернути увагу на застосування великих моделей у напрямку розуміння тексту, то можна помітити феномен: на початку текстами, які використовуються для оцінки можливостей моделі, можуть бути якісь фінансові звіти та технічні звіти, які зазвичай складають від десятка до десятків сторінок, а кількість слів зазвичай становить десятки тисяч слів. Але потім тестовий текст поступово перетворився на кілька годин протоколів засідань, або сотні тисяч слів романів, а конкурс ставав дедалі інтенсивнішим і складнішим.

У той же час великі модельні компанії, які стверджують, що можуть розуміти більш тривалі контексти, набирають обертів. Наприклад, деякий час тому Anthropic, компанія, що стоїть за Клодом, яка стверджувала, що може реалізувати контекстне вікно в 100 тисяч токенів, отримала мільярди доларів фінансування від Microsoft і Google, піднявши гонку озброєнь великих моделей на новий рівень.

Чому ці компанії кидають виклик довгим текстам?

Перш за все, з точки зору застосування, багатьом працівникам, які використовують великі моделі для підвищення продуктивності, неминуче доводиться мати справу з довгими текстами, такими як юристи, аналітики, консультанти і т.д., і чим більше контекстне вікно, тим ширше коло речей, які ці люди можуть робити з великими моделями; По-друге, з технічної точки зору, чим більше інформації може вмістити вікно, тим на більшу кількість інформації може посилатися модель при генерації чергового слова, тим менше ймовірність того, що виникнуть «галюцинації», і тим точніше буде інформація, що є необхідною умовою реалізації великої модельної технології. Тому, намагаючись покращити продуктивність моделі, компанії також змагаються, хто може збільшити контекстне вікно і, таким чином, розмістити його в більшій кількості сценаріїв застосування.

Як видно з деяких прикладів, наведених раніше, Baichuan2-192K перевершує як за якістю генерації тексту, так і за розумінням контексту. І, крім цих якісних результатів, ми також можемо побачити це в деяких кількісних даних оцінки.

Baichuan2-192K: чим довший файл, тим очевидніша перевага

При оцінці якості генерації тексту дуже важлива метрика називається «плутаниною»: коли ми беремо в якості тестового набору високоякісні документи, які відповідають звичкам природної мови людини, тим вища ймовірність того, що модель згенерує китайську версію тестового набору, тим менша плутанина моделі, і тим краща модель.

Тестовий набір, який використовується для перевірки розгубленості великої моделі Baichuan, називається PG-19. Цей набір даних був створений дослідниками DeepMind і був зроблений з використанням матеріалів з книг проекту Гутенберг, тому PG-19 має якість книги.

Результати тесту показані на малюнку нижче. Як бачимо, на початковій фазі (ліворуч від горизонтальної осі, коли довжина контексту коротша) рівень плутанини Baichuan2-192K знаходиться на низькому рівні. Зі збільшенням довжини контексту його переваги стають все більш очевидними, і навіть плутанина продовжує зменшуватися. Це говорить про те, що Baichuan2-192K краще підтримує якість генерації тексту на рівні книги в довгих контекстах.

З точки зору контекстуального розуміння, продуктивність Baichuan2-192K також дуже вражає.

Ця компетенція оцінюється за допомогою Long, авторитетного еталону розуміння тексту з довгим вікном. Довгий — це список, випущений Каліфорнійським університетом у Берклі та іншими університетами для оцінки моделей довгих вікон, який в основному вимірює здатність моделі запам'ятовувати та розуміти вміст довгих вікон, і чим вищий бал моделі, тим краще.

Як ви можете бачити з результатів оцінки на графіку нижче, Baichuan2-192K зміг підтримувати стабільно високу продуктивність зі збільшенням довжини контексту, навіть після того, як довжина вікна перевищує 100 Кб. На противагу цьому, загальна продуктивність Claude 2 різко падає після довжини вікна понад 80 тис.

Крім того, модель була протестована на Dureader, NarrativeQA, TriviaQA, LSHT та інших наборах довгих текстових запитань і відповідей китайською та англійською мовами. Результати показують, що Baichuan 2-192K також показує хороші результати, перевершуючи інші моделі в більшості завдань з оцінки довгого тексту.

Коротше кажучи, чим довше обробляється контент, тим краща відносна продуктивність великої моделі Baichuan.

**192K супер довгий контекст, як Байчуань це зробив? **

В індустрії штучного інтелекту існує консенсус щодо того, що розширення контекстного вікна може ефективно підвищити продуктивність великих моделей, але наддовге контекстне вікно означає вищі вимоги до обчислювальної потужності та більший тиск на пам'ять.

Щоб пом'якшити цей тиск, у галузі з'явилися деякі компромісні методи, такі як зменшення моделі; Нехай модель активно відмовляється від попереднього тексту, зсуваючи вікно і т.д., і утримує механізм уваги тільки для останнього введення; Шляхом зменшення дискретизації контексту або RAG (Retrieval Enhanced Generation), механізму уваги, який зберігає лише частину вхідних даних, і так далі.

Хоча ці методи можуть збільшити довжину контекстного вікна, всі вони різною мірою шкодять продуктивності моделі. Іншими словами, вони жертвують продуктивністю інших аспектів моделі в обмін на довжину контекстного вікна, таких як нездатність моделі відповідати на складні запитання на основі повнотекстової інформації та складність розгляду відповідей у кількох текстах.

Baichaun2-192K**, випущений Baichuan, цього разу досягає балансу між довжиною вікна та продуктивністю моделі за рахунок максимальної оптимізації алгоритмів та інженерії, а також досягає одночасного покращення довжини вікна та продуктивності моделі**.

З точки зору алгоритмів, Baichuan Intelligent пропонує схему екстраполяції для кодування динамічного положення RoPE і ALiBi, яка може виконувати різні ступені динамічної інтерполяції ALiBi_mask з різною роздільною здатністю, що може підвищити здатність моделі до моделювання покладатися на довгі послідовності при забезпеченні роздільної здатності.

З точки зору інженерії, на основі самостійно розробленого розподіленого навчального фреймворку, Baichuan Intelligent інтегрує всі передові технології оптимізації на ринку, включаючи тензорний паралелізм, паралелізм потоків, паралелізм послідовностей, функції переобчислення та розвантаження тощо, для створення повного набору 4D паралельних розподілених рішень. Це рішення може автоматично знаходити найбільш підходящу розподілену стратегію відповідно до конкретної ситуації навантаження, що значно зменшує зайнятість пам'яті в процесі виведення довгого вікна.

Боріться з великими моделями, будьте швидкими

Заснований у квітні цього року, Baichuan Intelligence майже можна назвати масштабним модельним стартапом із найшвидшою технологічною ітерацією в галузі. Всього за півроку з моменту свого заснування компанія випустила чотири безкоштовні комерційні моделі з відкритим вихідним кодом, Baichuan-7B/13B і Baichuan2-7B/13B, а також дві моделі з закритим вихідним кодом, Baichuan-53B і Baichuan2-53B.

В середньому щомісяця випускається нова велика модель.

Серія великих моделей Baichuan об'єднує технології розуміння намірів, пошуку інформації та навчання з підкріпленням у поєднанні з контрольованим тонким налаштуванням та вирівнюванням намірів людини, і добре працює в галузях знань, відповідей на запитання та створення тексту. Ці великі моделі також користуються популярністю в індустрії завдяки своїм можливостям: сукупна кількість завантажень серії моделей з відкритим вихідним кодом Baichuan у великих спільнотах з відкритим вихідним кодом перевищила 6 мільйонів; Baichuan 2 випереджає Llama 2 у всіх вимірах, лідируючи в розвитку китайської екосистеми з відкритим вихідним кодом.

31 серпня Baichuan Intelligent взяла на себе ініціативу в прийнятті «Тимчасових заходів щодо управління послугами генеративного штучного інтелекту» і була єдиною великомасштабною модельною компанією, заснованою в цьому році серед першої партії з 8 компаній. 25 вересня Baichuan Intelligent відкрила інтерфейс Baichuan API, офіційно увійшла в сферу To B і розпочала процес комерціалізації.

Можна сказати, що від досліджень і розробок технологій до посадки швидкість Байчуань досить висока.

Щойно випущений Baichuan2-192K офіційно розпочав закритий бета-тест і буде відкритий для основних партнерів у вигляді викликів API. Baichuan заявила, що досягла співпраці з фінансовими ЗМІ та юридичними фірмами, а також застосувала провідні можливості Baichuan2-192K з довгим контекстом до конкретних сценаріїв, таких як медіа, фінанси та право, і незабаром буде надана корпоративним користувачам у вигляді викликів API та приватизованого розгортання.

Після повного відкриття у вигляді API, Baichuan2-192K може бути глибоко інтегрований з великою кількістю вертикальних сценаріїв, відігравати певну роль у роботі, житті та навчанні людей, а також допомагати користувачам галузі значно підвищити ефективність. Baichuan2-192K може обробляти та аналізувати сотні сторінок матеріалів одночасно, що є величезною підмогою для реальних сценаріїв, таких як узагальнення довгих документів, довгий перегляд документів, написання довгих статей або звітів, а також складна допомога в програмуванні.

Раніше Ван Сяочуань, засновник і генеральний директор Baichuan Intelligence, повідомив, що в другій половині цього року Baichuan запустить велику модель на 100-мільярдний рівень, і очікується, що в наступному році відбудеться розгортання супердодатків C-end.

Зіткнувшись із розривом з OpenAI, Ван Сяочуань визнав, що між нами та OpenAI справді існує розрив з точки зору ідеалів, мета OpenAI полягає в тому, щоб дослідити стелю інтелекту, і вони навіть сподіваються розробити технологію, яка з'єднає 10 мільйонів графічних процесорів разом. Однак, з точки зору застосування, ми рухаємося швидше, ніж Сполучені Штати, а прикладний та екологічний досвід, накопичений в епоху Інтернету, може змусити нас рухатися швидше і далі, тому концепція Байчуань для створення великої моделі називається «На крок повільніше на ідеалі, на три швидші кроки на землі».

З цієї точки зору, Baichuan2-192K є продовженням цієї концепції, і найдовше у світі контекстне вікно, безсумнівно, прискорить процес технології інтелектуальних великих моделей Baichuan.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити