Только что был выпущен Baichuan Intelligent Baichuan2-192K с самым длинным контекстным окном в мире! Прочитав в свое время «Задачу трех тел», я выиграл 7 SOTA
Самое длинное контекстное окно в мире уже здесь! Сегодня компания Baichuan Intelligent выпустила большую модель Baichuan2-192K с длиной контекстного окна до 192K (350 000 китайских иероглифов), что в 4,4 раза больше, чем у Claude 2 и в 14 раз больше, чем у GPT-4!
Новый эталон в области длинных контекстных окон здесь!
Сегодня компания Baichuan Intelligent официально выпустила большую модель с самым длинным контекстным окном в мире - Baichuan2-192K.
В отличие от предыдущей модели, длина контекстного окна этой модели достигает 192 КБ, что эквивалентно примерно 350 000 китайских иероглифов.
Если быть более точным, Baichuan2-192K может обрабатывать в 14 раз больше китайских иероглифов, чем GPT-4 (32 Кб контекста, около 25 000 слов) и Claude 2 (100 Кб контекста, около 80 000 слов), и может прочитать копию «Задачи трех тел» за один присест.
Запись контекстного окна, которую Клод вел в течение долгого времени, сегодня была обновлена
Подкинув к нему первую часть Задачи Трёх Тел «Однажды на Земле», Байчуань2-192К немного пожевал, и сразу хорошо знал всю историю.
Какое число на 36-й фотографии в обратном отсчете, которое видела Ван Мяо? Ответ: 1194:16:37. Какую модель камеры он использует? О: Leica M2. Сколько раз они с Даши выпивали в общей сложности? Ответ: Дважды.
Взглянув на второй «Тёмный Лес», Байчуань2-192К не только сразу ответил, что Организация Трёх Тел Земли создала две базы Красного Берега, а «Капли Воды» сделаны из материалов с сильным взаимодействием.
Более того, даже на непопулярные вопросы, на которые «Задача трех тел и ученые десяти уровней» может быть не в состоянии ответить, Baichuan2-192K также свободно дает ответы, и на него легко ответить.
Кто чаще всего встречается со своим именем? Ответ: Ло Цзи.
Можно сказать, что когда контекстное окно расширяется до 350 000 слов, опыт использования большой модели, кажется, внезапно открывает новый мир!
Самый длинный контекст в мире, опережающий Claude 2 по всем направлениям
Крупная модель, что будет воткнуто в шею?
Возьмем в качестве примера ChatGPT, хотя его возможности потрясающие, эта "всемогущая" модель имеет неизбежное ограничение - она поддерживает максимум 32 тысячи токенов (25 000 китайских иероглифов) в контексте. Такие профессии, как юристы, аналитики и т.д., должны иметь дело с текстами, которые в большинстве случаев занимают гораздо больше времени.
Увеличенное контекстное окно позволяет модели получать более богатую семантическую информацию из входных данных и даже напрямую выполнять вопросы и ответы, а также обработку информации на основе полнотекстового понимания.
В результате модель может не только лучше улавливать релевантность контекста, устранять двусмысленность, но и более точно генерировать контент, устранять проблему «иллюзии» и повышать производительность. Более того, с благословения длинного контекста, он также может быть глубоко объединен с более вертикальными сценами и действительно играть роль в работе, жизни и обучении людей.
Недавно единорог из Кремниевой долины Anthropic получил 4 миллиарда инвестиций от Amazon и 2 миллиарда инвестиций от Google. Благосклонность этих двух гигантов, конечно же, связана с лидирующей позицией Клода в области технологий с возможностями длительного контекста.
На этот раз модель длинного окна Baichuan-192K, выпущенная Baichuan Intelligence, намного превосходит модель Claude 2-100K по длине контекстного окна, а также достигла всеобъемлющего лидерства в оценке нескольких измерений, таких как качество генерации текста, понимание контекста и способность отвечать на вопросы и ответы.
10 авторитетных отзывов, 7 SOTA
Long — это список, выпущенный Калифорнийским университетом в Беркли и другими университетами для оценки моделей длинных окон, который в основном измеряет способность модели запоминать и понимать содержание длинных окон.
С точки зрения контекстуального понимания, Baichuan2-192K значительно опережает другие модели в авторитетном списке оценки понимания текста с длинным окном Long, и все еще может поддерживать очень высокую производительность после длины окна более 100 Кб.
Напротив, общий эффект очень сильно падает после того, как длина окна Claude 2 превышает 80K.
Кроме того, Baichuan2-192K также показал хорошие результаты в 10 оценочных наборах вопросов и ответов на китайском и английском языках, таких как Dureader, NarrativeQA, LSHT и TriviaQA.
Среди них 7 достигли SOTA, которая значительно превзошла другие модели с длинным окном.
Путаница — очень важный критерий, когда речь идет о качестве генерации текста.
Можно просто понять, что когда в качестве тестового набора используется высококачественный документ, соответствующий привычкам человека на естественном языке, тем выше вероятность того, что модель сгенерирует китайскую версию тестового набора, тем меньше путаницы в модели, и тем лучше модель.
Согласно результатам тестирования «Language Modeling Benchmark Dataset PG-19», опубликованного компанией DeepMind, уровень путаницы Baichuan2-192K был превосходным на начальном этапе, а способность Baichuan2-192K к моделированию последовательностей продолжала улучшаться по мере увеличения длины окна.
### Совместная оптимизация инженерных алгоритмов, синхронное улучшение производительности по длине
В то время как длинные контексты могут повысить производительность модели, длинные окна также означают большую вычислительную мощность и больший объем видеопамяти.
В настоящее время распространенной практикой в отрасли является сдвиг окна, уменьшение выборки, сжатие модели и так далее.
Однако все эти подходы в той или иной степени жертвуют другими аспектами модели.
Чтобы решить эту проблему, Baichuan2-192K достигает баланса между длиной окна и производительностью модели за счет экстремальной оптимизации алгоритмов и инженерии, а также одновременного улучшения длины окна и производительности модели.
Прежде всего, с точки зрения алгоритмов, Baichuan Intelligent предлагает схему экстраполяции для кодирования динамических позиций RoPE и ALiBi, которая может выполнять различные степени динамической интерполяции по маске внимания для кодирования положения ALiBi разной длины, что может повысить способность модели к моделированию, полагаясь на длинные последовательности, обеспечивая при этом разрешение.
Во-вторых, с точки зрения инженерии, на основе самостоятельно разработанного распределенного фреймворка обучения, Baichuan Intelligence интегрирует практически все передовые технологии оптимизации, представленные на рынке, включая тензорный параллелизм, параллелизм потоков, параллелизм последовательностей, перерасчет и разгрузку, и создала полный набор 4D параллельных распределенных схем, которые могут автоматически находить наиболее подходящую распределенную стратегию в соответствии с конкретной ситуацией нагрузки модели, что значительно снижает занятость памяти в процессе обучения и логического вывода с длинным окном.
Внутреннее тестирование официально открыто, и опубликован опыт из первых рук
Теперь Baichuan2-192K официально начал закрытое бета-тестирование!
Baichuan2-192K был подключен к собственным приложениям и бизнесу через вызовы API, и теперь финансовые СМИ, юридические фирмы и другие учреждения достигли сотрудничества с Baichuan Intelligence.
Вполне возможно, что применение ведущих в мире возможностей Baichuan2-192K по работе с длинным контекстом к конкретным сценариям, таким как СМИ, финансы и право, несомненно, расширит более широкое пространство для реализации больших моделей.
С помощью API Baichuan2-192K может быть эффективно интегрирован в более вертикальные сцены и глубоко интегрирован с ними.
В прошлом документы с огромным количеством содержимого часто становились горой, которую мы не могли пересечь в своей работе и учебе.
С помощью Baichuan2-192K можно обрабатывать и анализировать сотни страниц материала одновременно, а также извлекать и анализировать критически важную информацию.
Будь то длинное резюме/обзор документа, длинная статья или отчет, или сложное средство программирования, Baichuan2-192K обеспечит огромный толчок.
Для управляющих фондами он может помочь обобщить и интерпретировать финансовую отчетность, проанализировать риски и возможности компании.
Для юристов это может помочь выявить риски в нескольких юридических документах, проверить контракты и юридические документы.
Разработчикам он может помочь прочитать сотни страниц документации по разработке и ответить на технические вопросы.
С тех пор у большинства исследователей также есть инструмент для научных исследований, и они могут быстро просматривать большое количество статей и обобщать последние передовые достижения.
Кроме того, более длинный контекст имеет еще больший потенциал.
Агентские и мультимодальные приложения являются передовыми исследовательскими точками в современной отрасли. Благодаря более длительным контекстуальным возможностям большие модели могут лучше обрабатывать и понимать сложные мультимодальные входные данные, что позволяет лучше передавать обучение.
Длина контекста, поле битвы для солдат
Можно сказать, что длина контекстного окна является одной из основных технологий больших моделей.
Сейчас многие команды начинают с «длинного текстового ввода», чтобы создать дифференцированную конкурентоспособность базовой модели. Если количество параметров определяет, насколько сложной может быть большая модель, то длина контекстного окна определяет, сколько «памяти» имеет большая модель.
Сэм Альтман как-то сказал, что мы думали, что нам нужен летающий автомобиль, а не 140/280 символов, но на самом деле мы хотели 32 000 токенов.
В стране и за рубежом исследования и продукты, расширяющие контекстное окно, можно охарактеризовать как бесконечные.
В мае этого года GPT-4, который имеет 32-тысячный контекст, вызвал бурную дискуссию.
В то время пользователи сети, разблокировавшие эту версию, хвалили GPT-4 32K как лучшего менеджера по продукту в мире.
Вскоре стартап Anthropic объявил, что Claude смог поддерживать контекстный токен длиной 100 КБ, что составляет около 75 000 слов.
Другими словами, после того, как среднестатистический человек прочитал такое же количество контента примерно за 5 часов, ему приходится тратить больше времени на переваривание, запоминание и анализ. Для Клода это занимает менее 1 минуты.
В сообществе разработчиков ПО с открытым исходным кодом Meta также предложила метод, который может эффективно расширить возможности контекста, благодаря чему контекстное окно базовой модели может достичь 32 768 токенов, а также добилась значительного повышения производительности в различных задачах обнаружения синтетического контекста и моделирования языка.
Результаты показывают, что модель с параметрами 70B достигла производительности выше gpt-3.5-turbo-16K в различных задачах с длительным контекстом.
Адрес:
Метод LongLoRA, предложенный исследователями из Гонконга, Китая и Массачусетского технологического института, может увеличить длину текста модели 7B до 100 тыс. токенов, а длину текста модели 70B до 32 тыс. токенов с помощью всего двух строк кода и 8-карточной машины A100.
Адрес:
Исследователи из DeepPavlov, AIRI и Лондонского института математических наук использовали метод рекуррентного преобразователя памяти (RMT), чтобы увеличить эффективную длину контекста BERT до «беспрецедентных 2 миллионов токенов» и сохранить высокую точность извлечения из памяти.
Однако, несмотря на то, что RMT может масштабироваться до почти бесконечной длины последовательности без увеличения потребления памяти, в RNN по-прежнему существует проблема распада памяти и более длительное время вывода.
Адрес:
В настоящее время длина контекстного окна LLM в основном находится в диапазоне 4 000-100 000 токенов, и она продолжает расти.
Благодаря многогранному исследованию контекстного окна в индустрии ИИ и академических кругах он показывает свою важность для магистров права.
И на этот раз отечественная большая модель возвестила об историческом кульминационном моменте самого длинного контекстного окна.
Контекстное окно 192K, которое обновило отраслевой рекорд, представляет собой не только еще один прорыв в технологии крупномасштабных моделей Baichuan Intelligence, но и еще одну веху в развитии крупномасштабной модели. Это неизбежно вызовет новый виток шока в реформе продуктовой формы.
Основанная в апреле 2023 года, компания Baichuan Intelligent всего за 6 месяцев успешно выпустила четыре коммерческие большие модели Baichuan-7B/13B и Baichuan2-7B/13B с открытым исходным кодом, а также две большие модели Baichuan-53B и Baichuan2-53B с закрытым исходным кодом.
Таким образом, по сути, это LLM в первый день января.
Теперь, с выпуском Baichuan2-192K, технология длинного контекстного окна большой модели также полностью войдет в китайскую эру!
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Только что был выпущен Baichuan Intelligent Baichuan2-192K с самым длинным контекстным окном в мире! Прочитав в свое время «Задачу трех тел», я выиграл 7 SOTA
Источник статьи: New Zhiyuan
Новый эталон в области длинных контекстных окон здесь!
Сегодня компания Baichuan Intelligent официально выпустила большую модель с самым длинным контекстным окном в мире - Baichuan2-192K.
В отличие от предыдущей модели, длина контекстного окна этой модели достигает 192 КБ, что эквивалентно примерно 350 000 китайских иероглифов.
Если быть более точным, Baichuan2-192K может обрабатывать в 14 раз больше китайских иероглифов, чем GPT-4 (32 Кб контекста, около 25 000 слов) и Claude 2 (100 Кб контекста, около 80 000 слов), и может прочитать копию «Задачи трех тел» за один присест.
Подкинув к нему первую часть Задачи Трёх Тел «Однажды на Земле», Байчуань2-192К немного пожевал, и сразу хорошо знал всю историю.
Более того, даже на непопулярные вопросы, на которые «Задача трех тел и ученые десяти уровней» может быть не в состоянии ответить, Baichuan2-192K также свободно дает ответы, и на него легко ответить.
Самый длинный контекст в мире, опережающий Claude 2 по всем направлениям
Крупная модель, что будет воткнуто в шею?
Возьмем в качестве примера ChatGPT, хотя его возможности потрясающие, эта "всемогущая" модель имеет неизбежное ограничение - она поддерживает максимум 32 тысячи токенов (25 000 китайских иероглифов) в контексте. Такие профессии, как юристы, аналитики и т.д., должны иметь дело с текстами, которые в большинстве случаев занимают гораздо больше времени.
В результате модель может не только лучше улавливать релевантность контекста, устранять двусмысленность, но и более точно генерировать контент, устранять проблему «иллюзии» и повышать производительность. Более того, с благословения длинного контекста, он также может быть глубоко объединен с более вертикальными сценами и действительно играть роль в работе, жизни и обучении людей.
Недавно единорог из Кремниевой долины Anthropic получил 4 миллиарда инвестиций от Amazon и 2 миллиарда инвестиций от Google. Благосклонность этих двух гигантов, конечно же, связана с лидирующей позицией Клода в области технологий с возможностями длительного контекста.
На этот раз модель длинного окна Baichuan-192K, выпущенная Baichuan Intelligence, намного превосходит модель Claude 2-100K по длине контекстного окна, а также достигла всеобъемлющего лидерства в оценке нескольких измерений, таких как качество генерации текста, понимание контекста и способность отвечать на вопросы и ответы.
10 авторитетных отзывов, 7 SOTA
Long — это список, выпущенный Калифорнийским университетом в Беркли и другими университетами для оценки моделей длинных окон, который в основном измеряет способность модели запоминать и понимать содержание длинных окон.
С точки зрения контекстуального понимания, Baichuan2-192K значительно опережает другие модели в авторитетном списке оценки понимания текста с длинным окном Long, и все еще может поддерживать очень высокую производительность после длины окна более 100 Кб.
Напротив, общий эффект очень сильно падает после того, как длина окна Claude 2 превышает 80K.
Среди них 7 достигли SOTA, которая значительно превзошла другие модели с длинным окном.
Можно просто понять, что когда в качестве тестового набора используется высококачественный документ, соответствующий привычкам человека на естественном языке, тем выше вероятность того, что модель сгенерирует китайскую версию тестового набора, тем меньше путаницы в модели, и тем лучше модель.
В то время как длинные контексты могут повысить производительность модели, длинные окна также означают большую вычислительную мощность и больший объем видеопамяти.
В настоящее время распространенной практикой в отрасли является сдвиг окна, уменьшение выборки, сжатие модели и так далее.
Однако все эти подходы в той или иной степени жертвуют другими аспектами модели.
Прежде всего, с точки зрения алгоритмов, Baichuan Intelligent предлагает схему экстраполяции для кодирования динамических позиций RoPE и ALiBi, которая может выполнять различные степени динамической интерполяции по маске внимания для кодирования положения ALiBi разной длины, что может повысить способность модели к моделированию, полагаясь на длинные последовательности, обеспечивая при этом разрешение.
Во-вторых, с точки зрения инженерии, на основе самостоятельно разработанного распределенного фреймворка обучения, Baichuan Intelligence интегрирует практически все передовые технологии оптимизации, представленные на рынке, включая тензорный параллелизм, параллелизм потоков, параллелизм последовательностей, перерасчет и разгрузку, и создала полный набор 4D параллельных распределенных схем, которые могут автоматически находить наиболее подходящую распределенную стратегию в соответствии с конкретной ситуацией нагрузки модели, что значительно снижает занятость памяти в процессе обучения и логического вывода с длинным окном.
Внутреннее тестирование официально открыто, и опубликован опыт из первых рук
Теперь Baichuan2-192K официально начал закрытое бета-тестирование!
Baichuan2-192K был подключен к собственным приложениям и бизнесу через вызовы API, и теперь финансовые СМИ, юридические фирмы и другие учреждения достигли сотрудничества с Baichuan Intelligence.
Вполне возможно, что применение ведущих в мире возможностей Baichuan2-192K по работе с длинным контекстом к конкретным сценариям, таким как СМИ, финансы и право, несомненно, расширит более широкое пространство для реализации больших моделей.
С помощью API Baichuan2-192K может быть эффективно интегрирован в более вертикальные сцены и глубоко интегрирован с ними.
В прошлом документы с огромным количеством содержимого часто становились горой, которую мы не могли пересечь в своей работе и учебе.
Будь то длинное резюме/обзор документа, длинная статья или отчет, или сложное средство программирования, Baichuan2-192K обеспечит огромный толчок.
Для управляющих фондами он может помочь обобщить и интерпретировать финансовую отчетность, проанализировать риски и возможности компании.
Для юристов это может помочь выявить риски в нескольких юридических документах, проверить контракты и юридические документы.
С тех пор у большинства исследователей также есть инструмент для научных исследований, и они могут быстро просматривать большое количество статей и обобщать последние передовые достижения.
Агентские и мультимодальные приложения являются передовыми исследовательскими точками в современной отрасли. Благодаря более длительным контекстуальным возможностям большие модели могут лучше обрабатывать и понимать сложные мультимодальные входные данные, что позволяет лучше передавать обучение.
Длина контекста, поле битвы для солдат
Можно сказать, что длина контекстного окна является одной из основных технологий больших моделей.
Сейчас многие команды начинают с «длинного текстового ввода», чтобы создать дифференцированную конкурентоспособность базовой модели. Если количество параметров определяет, насколько сложной может быть большая модель, то длина контекстного окна определяет, сколько «памяти» имеет большая модель.
Сэм Альтман как-то сказал, что мы думали, что нам нужен летающий автомобиль, а не 140/280 символов, но на самом деле мы хотели 32 000 токенов.
В мае этого года GPT-4, который имеет 32-тысячный контекст, вызвал бурную дискуссию.
В то время пользователи сети, разблокировавшие эту версию, хвалили GPT-4 32K как лучшего менеджера по продукту в мире.
Другими словами, после того, как среднестатистический человек прочитал такое же количество контента примерно за 5 часов, ему приходится тратить больше времени на переваривание, запоминание и анализ. Для Клода это занимает менее 1 минуты.
Результаты показывают, что модель с параметрами 70B достигла производительности выше gpt-3.5-turbo-16K в различных задачах с длительным контекстом.
Метод LongLoRA, предложенный исследователями из Гонконга, Китая и Массачусетского технологического института, может увеличить длину текста модели 7B до 100 тыс. токенов, а длину текста модели 70B до 32 тыс. токенов с помощью всего двух строк кода и 8-карточной машины A100.
Исследователи из DeepPavlov, AIRI и Лондонского института математических наук использовали метод рекуррентного преобразователя памяти (RMT), чтобы увеличить эффективную длину контекста BERT до «беспрецедентных 2 миллионов токенов» и сохранить высокую точность извлечения из памяти.
Однако, несмотря на то, что RMT может масштабироваться до почти бесконечной длины последовательности без увеличения потребления памяти, в RNN по-прежнему существует проблема распада памяти и более длительное время вывода.
В настоящее время длина контекстного окна LLM в основном находится в диапазоне 4 000-100 000 токенов, и она продолжает расти.
И на этот раз отечественная большая модель возвестила об историческом кульминационном моменте самого длинного контекстного окна.
Контекстное окно 192K, которое обновило отраслевой рекорд, представляет собой не только еще один прорыв в технологии крупномасштабных моделей Baichuan Intelligence, но и еще одну веху в развитии крупномасштабной модели. Это неизбежно вызовет новый виток шока в реформе продуктовой формы.
Таким образом, по сути, это LLM в первый день января.
Теперь, с выпуском Baichuan2-192K, технология длинного контекстного окна большой модели также полностью войдет в китайскую эру!