Тільки зараз був випущений Baichuan Intelligent Baichuan2-192K з найдовшим контекстним вікном у світі! Прочитавши свого часу «Проблему трьох тіл», я виграв 7 СОТ
Найдовше у світі контекстне вікно вже тут! Сьогодні Baichuan Intelligent випустила велику модель Baichuan2-192K з довжиною контекстного вікна до 192K (350 000 китайських ієрогліфів), що в 4,4 рази більше, ніж у Claude 2, і в 14 разів більше, ніж у GPT-4!
Новий еталон у сфері довгих контекстних вікон тут!
Сьогодні компанія Baichuan Intelligent офіційно випустила велику модель з найдовшим контекстним вікном у світі – Baichuan2-192K.
На відміну від попередньої моделі, довжина контекстного вікна цієї моделі досягає 192 тис., що еквівалентно приблизно 350 000 китайських ієрогліфів.
Якщо бути більш точним, Baichuan2-192K може обробляти в 14 разів більше китайських ієрогліфів, ніж GPT-4 (32K контекст, близько 25 000 слів) і Claude 2 (100K контекст, близько 80 000 слів), і може прочитати копію «Проблеми трьох тіл» за один присід.
Запис контекстного вікна, який Клод зберігав протягом тривалого часу, сьогодні оновився
Кинувши до нього першу частину задачі про три тіла «Одного разу на Землі», Байчуань2-192К трохи пожував, і відразу ж добре знав всю історію.
Яке число на 36-й фотографії у зворотному відліку, який побачив Ван Мяо? Відповідь: 1194:16:37. Яку модель камери він використовує? Відповідь: Leica M2. Скільки всього вони з Даші пили? Відповідь: Двічі.
Подивившись на другий «Темний ліс», Байчуань2-192К не тільки відразу відповів, що Організація Трьох Тіл Землі створила дві бази Червоного Берега, а «Краплі Води» зроблені з матеріалів з сильною взаємодією.
Більше того, навіть на непопулярні питання, на які «Проблема трьох тіл і вчені десяти рівнів» може бути не в змозі відповісти, Baichuan2-192K також вільно володіє відповідями, і на них легко відповісти.
Хто найбільше з'являється на своєму імені? Відповідь: Ло Цзі.
Можна сказати, що коли контекстне вікно розширюється до 350 000 слів, досвід використання великої моделі, здається, раптом відкрив новий світ!
Найдовший у світі контекст, що веде Claude 2 за всіма напрямками
Велика модель, що буде встромлятися в шию?
На прикладі ChatGPT, хоча його можливості вражають, ця «всемогутня» модель має неминуче обмеження – вона підтримує максимум 32 тисячі токенів (25 000 китайських ієрогліфів) у контексті. Таким професіям, як юристи, аналітики тощо, доводиться мати справу з текстами, які займають набагато більше часу.
Більш широке контекстне вікно дозволяє моделі отримувати більш багату семантичну інформацію з вхідних даних, і навіть безпосередньо виконувати Q&A і обробку інформації на основі повнотекстового розуміння.
В результаті модель може не тільки краще вловити релевантність контексту, усунути двозначність, але і більш точно згенерувати контент, пом'якшити проблему «ілюзій» і підвищити продуктивність. Крім того, з благословення довгого контексту, він також може бути глибоко поєднаний з більш вертикальними сценами і дійсно відігравати важливу роль у роботі, житті та навчанні людей.
Нещодавно єдиноріг із Кремнієвої долини Anthropic отримав 4 мільярди інвестицій від Amazon і 2 мільярди інвестицій від Google. Прихильність цих двох гігантів, звичайно, пов'язана з лідируючою позицією Клода в технології можливостей тривалого контексту.
Цього разу модель Baichuan-192K з довгим вікном, випущена Baichuan Intelligence, значно перевершує Claude 2-100K за довжиною контекстного вікна, а також досягла всебічного лідерства в оцінці багатьох вимірів, таких як якість генерації тексту, розуміння контексту та здатність запитань і відповідей.
10 авторитетних відгуків, 7 СОТів
Довгий — список, випущений Каліфорнійським університетом у Берклі та іншими університетами для оцінки моделей довгих вікон, який в основному вимірює здатність моделі запам'ятовувати та розуміти зміст довгих вікон.
З точки зору контекстуального розуміння, Baichuan2-192K значно випереджає інші моделі в авторитетному списку оцінки розуміння тексту з довгим вікном Long, і все ще може підтримувати дуже високу продуктивність після довжини вікна понад 100 Кб.
На противагу цьому, загальний ефект дуже сильно падає після того, як довжина вікна Claude 2 перевищує 80K.
Крім того, Baichuan2-192K також добре показав себе в 10 наборах запитань і відповідей з довгим текстом китайською та англійською мовами, таких як Dureader, NarrativeQA, LSHT і TriviaQA.
Серед них 7 досягли SOTA, що значно перевершило інші моделі з довгим вікном.
Плутанина є дуже важливим критерієм, коли мова йде про якість генерації тексту.
Можна просто зрозуміти, що коли в якості тестового набору використовується високоякісний документ, який відповідає звичкам природної мови людини, тим вища ймовірність того, що модель згенерує китайську версію тестового набору, тим менша плутанина моделі, і тим краща модель.
Згідно з результатами тестів «Language Modeling Benchmark Dataset PG-19», опублікованих DeepMind, рівень плутанини Baichuan2-192K був відмінним на початковому етапі, а здатність до моделювання послідовностей Baichuan2-192K продовжувала вдосконалюватися в міру розширення довжини вікна.
### Спільна оптимізація інженерних алгоритмів, синхронне покращення показників довжини
У той час як довгі контексти можуть підвищити продуктивність моделі, довгі вікна також означають більшу обчислювальну потужність і більше відеопам'яті.
В даний час загальноприйнятою практикою в промисловості є зсув вікна, зменшення вибірки, зменшення моделі і так далі.
Однак всі ці підходи в тій чи іншій мірі жертвують іншими аспектами моделі.
Щоб вирішити цю проблему, Baichuan2-192K досягає балансу між довжиною вікна та продуктивністю моделі за рахунок екстремальної оптимізації алгоритмів та інженерії, а також досягає одночасного покращення довжини вікна та продуктивності моделі.
Перш за все, з точки зору алгоритмів, Baichuan Intelligent пропонує схему екстраполяції для кодування динамічного положення RoPE і ALiBi, яка може виконувати різні ступені динамічної інтерполяції Attention-mask для кодування позицій ALiBi різної довжини, що може підвищити здатність моделі до моделювання покладатися на довгі послідовності, забезпечуючи при цьому роздільну здатність.
По-друге, з точки зору інженерії, на основі самостійно розробленого фреймворку розподіленого навчання, Baichuan Intelligence інтегрує майже всі передові технології оптимізації на ринку, включаючи тензорний паралелізм, паралелізм потоків, паралелізм послідовностей, перечислення та розвантаження, і створила повний набір паралельних розподілених схем 4D, які можуть автоматично знаходити найбільш підходящу розподілену стратегію відповідно до конкретної ситуації навантаження моделі, що значно зменшує зайнятість пам'яті в процесі навчання та висновків у довге вікно.
Внутрішнє тестування офіційно відкрито та опубліковано досвід з перших рук
Тепер Baichuan2-192K офіційно розпочав закрите бета-тестування!
Baichuan2-192K був підключений до власних додатків і бізнесу через виклики API, а тепер фінансові ЗМІ, юридичні фірми та інші установи досягли співпраці з Baichuan Intelligence.
Можна припустити, що із застосуванням провідних у світі можливостей Baichuan2-192K з довгим контекстом до конкретних сценаріїв, таких як медіа, фінанси та право, це, безсумнівно, розширить ширший простір для реалізації великих моделей.
За допомогою API Baichuan2-192K можна ефективно інтегрувати в більш вертикальні сцени та глибоко інтегрувати з ними.
У минулому документи з величезною кількістю контенту часто ставали горою, яку ми не могли переступити в роботі та навчанні.
За допомогою Baichuan2-192K можна обробляти та аналізувати сотні сторінок матеріалу одночасно, а також витягувати та аналізувати критично важливу інформацію.
Незалежно від того, чи це довге резюме/огляд документа, довга стаття чи звіт, чи складний програмний посібник, Baichuan2-192K забезпечить величезний поштовх.
Для менеджерів фондів він може допомогти узагальнити та інтерпретувати фінансову звітність, проаналізувати ризики та можливості компанії.
Для юристів це може допомогти виявити ризики в кількох юридичних документах, переглянути договори та юридичні документи.
Для розробників він може допомогти прочитати сотні сторінок документації з розробки та відповісти на технічні запитання.
З тих пір більшість наукових дослідників також мають інструмент для наукових досліджень, і вони можуть швидко переглянути велику кількість статей і узагальнити останні передові досягнення.
Крім того, довший контекст має ще більший потенціал.
Агентські та мультимодальні додатки є гарячими точками передових досліджень у сучасній галузі. Завдяки більш тривалим контекстним можливостям великі моделі можуть краще обробляти та розуміти складні мультимодальні вхідні дані, що забезпечує краще навчання перенесенню.
Довжина контексту, поле бою для солдатів
Можна сказати, що довжина контекстного вікна є однією з основних технологій великих моделей.
Зараз багато команд починають з «довгого введення тексту», щоб побудувати диференційовану конкурентоспроможність базової моделі. Якщо кількість параметрів визначає, наскільки складною може бути велика модель, то довжина контекстного вікна визначає, скільки «пам'яті» має велика модель.
Сем Альтман якось сказав, що ми думали, що нам потрібен літаючий автомобіль, а не 140/280 символів, але насправді ми хотіли 32 000 токенів.
У країні та за кордоном дослідження та продукти, спрямовані на розширення контекстного вікна, можна охарактеризувати як нескінченні.
У травні цього року GPT-4, який має контекст 32K, викликав бурхливу дискусію.
Тоді користувачі мережі, які розблокували цю версію, хвалили GPT-4 32K як найкращого продакт-менеджера у світі.
Незабаром стартап Anthropic оголосив, що Клод зміг підтримувати довжину контекстного токена в 100 Кб, що становить близько 75 000 слів.
Іншими словами, після того, як середньостатистична людина прочитала таку ж кількість контенту приблизно за 5 годин, їй доводиться витрачати більше часу на перетравлення, запам'ятовування та аналіз. Для Клода це займає менше 1 хвилини.
У спільноті з відкритим вихідним кодом Meta також запропонувала метод, який може ефективно розширити контекстні можливості, завдяки чому контекстне вікно базової моделі досягне 32 768 токенів, і досягла значних покращень продуктивності в різних завданнях виявлення синтетичного контексту та мовного моделювання.
Результати показують, що модель з параметрами 70B досягла продуктивності за межами gpt-3.5-turbo-16K в різних завданнях з довгим контекстом.
Адреса:
Метод LongLoRA, запропонований дослідниками з команд Гонконгу, Китаю та Массачусетського технологічного інституту, може збільшити довжину тексту моделі 7B до 100 тисяч токенів, а довжину тексту моделі 70B до 32 тисяч токенів лише з двома рядками коду та 8-картковим автоматом A100.
Адреса:
Дослідники з DeepPavlov, AIRI та Лондонського інституту математичних наук використовували метод Recurrent Memory Transformer (RMT), щоб збільшити ефективну довжину контексту BERT до «безпрецедентних 2 мільйонів токенів» і зберегти високу точність пошуку пам'яті.
Однак, незважаючи на те, що RMT може масштабуватися до майже нескінченної довжини послідовностей без збільшення споживання пам'яті, все ще існує проблема розпаду пам'яті в RNN і довший час висновків.
Адреса:
В даний час довжина контекстного вікна LLM в основному знаходиться в діапазоні 4 000-100 000 токенів, і вона продовжує зростати.
Завдяки багатогранному дослідженню контекстного вікна в індустрії штучного інтелекту та академічних колах це показує його важливість для LLM.
І цього разу вітчизняна велика модель відкрила історичний момент найдовшого контекстного вікна.
Контекстне вікно 192K, яке освіжило галузевий рекорд, є не тільки ще одним проривом у технології великомасштабних моделей Baichuan Intelligence, але й ще однією віхою в розвитку великомасштабної моделі. Це неминуче принесе новий виток шоку в реформу продуктової форми.
Заснована у квітні 2023 року, Baichuan Intelligent послідовно випустила чотири безкоштовні комерційні великі моделі Baichuan-7B/13B та Baichuan2-7B/13B з відкритим вихідним кодом лише за 6 місяців, а також дві великі моделі Baichuan-53B та Baichuan2-53B із закритим вихідним кодом.
Таким чином, це, по суті, LLM в перший день січня.
Тепер, з виходом Baichuan2-192K, технологія довгого контекстного вікна великої моделі також повністю увійде в китайську епоху!
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Тільки зараз був випущений Baichuan Intelligent Baichuan2-192K з найдовшим контекстним вікном у світі! Прочитавши свого часу «Проблему трьох тіл», я виграв 7 СОТ
Джерело статті: Новий Чжиюань
Новий еталон у сфері довгих контекстних вікон тут!
Сьогодні компанія Baichuan Intelligent офіційно випустила велику модель з найдовшим контекстним вікном у світі – Baichuan2-192K.
На відміну від попередньої моделі, довжина контекстного вікна цієї моделі досягає 192 тис., що еквівалентно приблизно 350 000 китайських ієрогліфів.
Якщо бути більш точним, Baichuan2-192K може обробляти в 14 разів більше китайських ієрогліфів, ніж GPT-4 (32K контекст, близько 25 000 слів) і Claude 2 (100K контекст, близько 80 000 слів), і може прочитати копію «Проблеми трьох тіл» за один присід.
Кинувши до нього першу частину задачі про три тіла «Одного разу на Землі», Байчуань2-192К трохи пожував, і відразу ж добре знав всю історію.
Більше того, навіть на непопулярні питання, на які «Проблема трьох тіл і вчені десяти рівнів» може бути не в змозі відповісти, Baichuan2-192K також вільно володіє відповідями, і на них легко відповісти.
Найдовший у світі контекст, що веде Claude 2 за всіма напрямками
Велика модель, що буде встромлятися в шию?
На прикладі ChatGPT, хоча його можливості вражають, ця «всемогутня» модель має неминуче обмеження – вона підтримує максимум 32 тисячі токенів (25 000 китайських ієрогліфів) у контексті. Таким професіям, як юристи, аналітики тощо, доводиться мати справу з текстами, які займають набагато більше часу.
В результаті модель може не тільки краще вловити релевантність контексту, усунути двозначність, але і більш точно згенерувати контент, пом'якшити проблему «ілюзій» і підвищити продуктивність. Крім того, з благословення довгого контексту, він також може бути глибоко поєднаний з більш вертикальними сценами і дійсно відігравати важливу роль у роботі, житті та навчанні людей.
Нещодавно єдиноріг із Кремнієвої долини Anthropic отримав 4 мільярди інвестицій від Amazon і 2 мільярди інвестицій від Google. Прихильність цих двох гігантів, звичайно, пов'язана з лідируючою позицією Клода в технології можливостей тривалого контексту.
Цього разу модель Baichuan-192K з довгим вікном, випущена Baichuan Intelligence, значно перевершує Claude 2-100K за довжиною контекстного вікна, а також досягла всебічного лідерства в оцінці багатьох вимірів, таких як якість генерації тексту, розуміння контексту та здатність запитань і відповідей.
10 авторитетних відгуків, 7 СОТів
Довгий — список, випущений Каліфорнійським університетом у Берклі та іншими університетами для оцінки моделей довгих вікон, який в основному вимірює здатність моделі запам'ятовувати та розуміти зміст довгих вікон.
З точки зору контекстуального розуміння, Baichuan2-192K значно випереджає інші моделі в авторитетному списку оцінки розуміння тексту з довгим вікном Long, і все ще може підтримувати дуже високу продуктивність після довжини вікна понад 100 Кб.
На противагу цьому, загальний ефект дуже сильно падає після того, як довжина вікна Claude 2 перевищує 80K.
Серед них 7 досягли SOTA, що значно перевершило інші моделі з довгим вікном.
Можна просто зрозуміти, що коли в якості тестового набору використовується високоякісний документ, який відповідає звичкам природної мови людини, тим вища ймовірність того, що модель згенерує китайську версію тестового набору, тим менша плутанина моделі, і тим краща модель.
У той час як довгі контексти можуть підвищити продуктивність моделі, довгі вікна також означають більшу обчислювальну потужність і більше відеопам'яті.
В даний час загальноприйнятою практикою в промисловості є зсув вікна, зменшення вибірки, зменшення моделі і так далі.
Однак всі ці підходи в тій чи іншій мірі жертвують іншими аспектами моделі.
Перш за все, з точки зору алгоритмів, Baichuan Intelligent пропонує схему екстраполяції для кодування динамічного положення RoPE і ALiBi, яка може виконувати різні ступені динамічної інтерполяції Attention-mask для кодування позицій ALiBi різної довжини, що може підвищити здатність моделі до моделювання покладатися на довгі послідовності, забезпечуючи при цьому роздільну здатність.
По-друге, з точки зору інженерії, на основі самостійно розробленого фреймворку розподіленого навчання, Baichuan Intelligence інтегрує майже всі передові технології оптимізації на ринку, включаючи тензорний паралелізм, паралелізм потоків, паралелізм послідовностей, перечислення та розвантаження, і створила повний набір паралельних розподілених схем 4D, які можуть автоматично знаходити найбільш підходящу розподілену стратегію відповідно до конкретної ситуації навантаження моделі, що значно зменшує зайнятість пам'яті в процесі навчання та висновків у довге вікно.
Внутрішнє тестування офіційно відкрито та опубліковано досвід з перших рук
Тепер Baichuan2-192K офіційно розпочав закрите бета-тестування!
Baichuan2-192K був підключений до власних додатків і бізнесу через виклики API, а тепер фінансові ЗМІ, юридичні фірми та інші установи досягли співпраці з Baichuan Intelligence.
Можна припустити, що із застосуванням провідних у світі можливостей Baichuan2-192K з довгим контекстом до конкретних сценаріїв, таких як медіа, фінанси та право, це, безсумнівно, розширить ширший простір для реалізації великих моделей.
За допомогою API Baichuan2-192K можна ефективно інтегрувати в більш вертикальні сцени та глибоко інтегрувати з ними.
У минулому документи з величезною кількістю контенту часто ставали горою, яку ми не могли переступити в роботі та навчанні.
Незалежно від того, чи це довге резюме/огляд документа, довга стаття чи звіт, чи складний програмний посібник, Baichuan2-192K забезпечить величезний поштовх.
Для менеджерів фондів він може допомогти узагальнити та інтерпретувати фінансову звітність, проаналізувати ризики та можливості компанії.
Для юристів це може допомогти виявити ризики в кількох юридичних документах, переглянути договори та юридичні документи.
З тих пір більшість наукових дослідників також мають інструмент для наукових досліджень, і вони можуть швидко переглянути велику кількість статей і узагальнити останні передові досягнення.
Агентські та мультимодальні додатки є гарячими точками передових досліджень у сучасній галузі. Завдяки більш тривалим контекстним можливостям великі моделі можуть краще обробляти та розуміти складні мультимодальні вхідні дані, що забезпечує краще навчання перенесенню.
Довжина контексту, поле бою для солдатів
Можна сказати, що довжина контекстного вікна є однією з основних технологій великих моделей.
Зараз багато команд починають з «довгого введення тексту», щоб побудувати диференційовану конкурентоспроможність базової моделі. Якщо кількість параметрів визначає, наскільки складною може бути велика модель, то довжина контекстного вікна визначає, скільки «пам'яті» має велика модель.
Сем Альтман якось сказав, що ми думали, що нам потрібен літаючий автомобіль, а не 140/280 символів, але насправді ми хотіли 32 000 токенів.
У травні цього року GPT-4, який має контекст 32K, викликав бурхливу дискусію.
Тоді користувачі мережі, які розблокували цю версію, хвалили GPT-4 32K як найкращого продакт-менеджера у світі.
Іншими словами, після того, як середньостатистична людина прочитала таку ж кількість контенту приблизно за 5 годин, їй доводиться витрачати більше часу на перетравлення, запам'ятовування та аналіз. Для Клода це займає менше 1 хвилини.
Результати показують, що модель з параметрами 70B досягла продуктивності за межами gpt-3.5-turbo-16K в різних завданнях з довгим контекстом.
Метод LongLoRA, запропонований дослідниками з команд Гонконгу, Китаю та Массачусетського технологічного інституту, може збільшити довжину тексту моделі 7B до 100 тисяч токенів, а довжину тексту моделі 70B до 32 тисяч токенів лише з двома рядками коду та 8-картковим автоматом A100.
Дослідники з DeepPavlov, AIRI та Лондонського інституту математичних наук використовували метод Recurrent Memory Transformer (RMT), щоб збільшити ефективну довжину контексту BERT до «безпрецедентних 2 мільйонів токенів» і зберегти високу точність пошуку пам'яті.
Однак, незважаючи на те, що RMT може масштабуватися до майже нескінченної довжини послідовностей без збільшення споживання пам'яті, все ще існує проблема розпаду пам'яті в RNN і довший час висновків.
В даний час довжина контекстного вікна LLM в основному знаходиться в діапазоні 4 000-100 000 токенів, і вона продовжує зростати.
І цього разу вітчизняна велика модель відкрила історичний момент найдовшого контекстного вікна.
Контекстне вікно 192K, яке освіжило галузевий рекорд, є не тільки ще одним проривом у технології великомасштабних моделей Baichuan Intelligence, але й ще однією віхою в розвитку великомасштабної моделі. Це неминуче принесе новий виток шоку в реформу продуктової форми.
Таким чином, це, по суті, LLM в перший день січня.
Тепер, з виходом Baichuan2-192K, технологія довгого контекстного вікна великої моделі також повністю увійде в китайську епоху!