Чтение книг с большими моделями еще никогда не было таким быстрым.
Источник изображения: Generated by Unbounded AI
Отечественные крупномасштабные модельные стартапы устанавливают новые рекорды на переднем крае технологий.
30 октября компания Baichuan Intelligence официально выпустила модель Baichuan2-192K long window large, которая увеличила длину контекстного окна большой языковой модели (LLM) до 192K токена.
Это эквивалентно тому, что большая модель обрабатывает около 350 000 китайских иероглифов одновременно, что в 14 раз длиннее, чем GPT-4 (32 тыс. токенов, около 25 000 символов) и в 4,4 раза длиннее, чем Claude 2.0 (100 тыс. токенов, около 80 000 символов).
Другими словами, Baichuan2-192K может прочитать копию задачи трех тел 2 за один присест, что делает ее самой большой моделью с самым длинным контекстным окном обработки в мире. Кроме того, он также значительно превосходит своих конкурентов по многим параметрам, таким как качество генерации текста, понимание контекста и возможность вопросов и ответов.
Что может большая модель, которая может понимать очень длинные тексты за раз? Компания Baichuan Intelligent провела простую демонстрацию.
Загрузите PDF-файл со всей «Задачей трех тел 2: Темный лес», и модель Байчуаня будет состоять из 300 000 слов. Далее, если задать какие-либо вопросы по роману, модель может дать краткий и точный ответ.
Иногда мы обращаемся за помощью к ИИ, но не для того, чтобы использовать свое воображение, а для того, чтобы добыть точную информацию. С помощью Baichuan2-192K мы можем быстро расшифровать десятки или даже сотни страниц контрактных документов, и позволить ИИ быстро дать краткое резюме, завершая квантовым скорочтением:
Ну и что, если я вдруг получу новое задание и у меня будет куча файлов для чтения?
Вы можете напрямую упаковывать и загружать их вместе, а модель Байчуань может легко интегрировать пять новостных статей в одну.
По мере того, как контент, который может понять большая модель, становится длиннее, тем больше и больше направлений она будет применяться. Как мы все знаем, умение моделировать длинный текст является обязательным условием для применения многих сценариев. На этот раз компания Baichuan заняла лидирующие позиции в отрасли.
От десятков тысяч слов до сотен тысяч слов ведущие стартапы спешат захватить «длинное окно»
Если обратить внимание на применение больших моделей в направлении понимания текста, то можно заметить явление: в начале текстов, используемых для оценки способности модели, могут быть какие-то финансовые отчеты и технические отчеты, которые обычно составляют от десятка до десятков страниц, а количество слов обычно составляет десятки тысяч слов. Но затем тестовый текст постепенно превратился в несколько часов протоколов заседаний или сотни тысяч слов романов, и конкуренция становилась все более напряженной и сложной.
В то же время крупные модельные компании, которые утверждают, что способны понимать более длительные контексты, набирают обороты. Например, некоторое время назад Anthropic, компания, стоящая за Клодом, которая утверждала, что может реализовать контекстное окно в 100 тысяч токенов, получила миллиарды долларов финансирования от Microsoft и Google, выведя гонку вооружений на новый уровень.
Почему эти компании бросают вызов длинным текстам?
Во-первых, с точки зрения приложений, многим работникам, использующим большие модели для повышения производительности, неизбежно приходится иметь дело с длинными текстами, например, юристам, аналитикам, консультантам и т. д., и чем больше контекстное окно, тем шире диапазон вещей, которые эти люди могут делать с большими моделями; Во-вторых, с технической точки зрения, чем больше информации может вместить окно, чем на большее количество информации может ссылаться модель при генерации очередного слова, тем меньше вероятность возникновения «галлюцинаций», и тем точнее будет информация, что является необходимым условием для реализации технологии больших моделей. Поэтому, пытаясь повысить производительность модели, компании также соревнуются в том, кто сможет увеличить контекстное окно и, таким образом, поместить его в большее количество сценариев применения.
Как видно из некоторых примеров, показанных ранее, Baichuan2-192K превосходит как качество генерации текста, так и понимание контекста. И, помимо этих качественных результатов, мы также можем видеть это в некоторых количественных данных оценки.
Baichuan2-192K: Чем длиннее файл, тем очевиднее преимущество
При оценке качества генерации текста очень важная метрика называется «путаница»: когда мы берем в качестве тестового набора высококачественные документы, соответствующие привычкам человека в естественном языке, тем выше вероятность того, что модель сгенерирует китайскую версию тестового набора, тем меньше путаница в модели и тем лучше модель.
Тестовый набор, используемый для проверки запутанности большой модели Байчуань, называется PG-19. Этот набор данных был создан исследователями DeepMind и был сделан с использованием материалов из книг Project Gutenberg, поэтому PG-19 имеет качество книги.
Результаты тестирования представлены на рисунке ниже. Как видим, в начальной фазе (слева от горизонтальной оси, когда длина контекста меньше) уровень путаницы Baichuan2-192K находится на низком уровне. По мере увеличения длины контекста его преимущества становятся все более очевидными, и даже путаница продолжает уменьшаться. Это говорит о том, что Baichuan2-192K способен лучше поддерживать качество генерации текста на уровне книги в длинных контекстах.
С точки зрения контекстуального понимания, производительность Baichuan2-192K также очень впечатляет.
Эта компетенция оценивается с помощью Long, авторитетного теста понимания текста в длинных окнах. Long — это список, выпущенный Калифорнийским университетом в Беркли и другими университетами для оценки моделей длинных окон, который в основном измеряет способность модели запоминать и понимать содержание длинных окон, и чем выше оценка модели, тем лучше.
Как видно из результатов оценки на графике ниже, Baichuan2-192K смог сохранить стабильно высокую производительность при увеличении длины контекста, даже после того, как длина окна превысила 100 Кб. В отличие от этого, общая производительность Claude 2 резко падает после длины окна более 80 тысяч.
Кроме того, модель была протестирована на Dureader, NarrativeQA, TriviaQA, LSHT и других оценочных наборах длинных текстовых вопросов и ответов и аннотаций на китайском и английском языках. Результаты показывают, что Baichuan 2-192K также показывает хорошие результаты, превосходя другие модели в большинстве задач по оценке длинных текстов.
Короче говоря, чем дольше обрабатывается контент, тем выше относительная производительность большой модели Байчуаня.
**192K сверхдлинный контекст, как Байчуань это сделал? **
В индустрии ИИ принято считать, что расширение контекстного окна может эффективно повысить производительность больших моделей, но сверхдлинное контекстное окно означает более высокие требования к вычислительной мощности и большую нагрузку на память.
Чтобы смягчить это давление, в отрасли появились некоторые компромиссные методы, такие как уменьшение модели; Пусть модель активно отказывается от предыдущего текста, сдвигая окно и т. д., и сохраняет механизм внимания только для последнего ввода; Путем понижения разрешения контекста или RAG (Retrieval Enhanced Generation), механизма внимания, который сохраняет только часть входных данных, и т. д.
Несмотря на то, что эти методы могут увеличить длину контекстного окна, все они в той или иной степени снижают производительность модели. Другими словами, они жертвуют производительностью других аспектов модели в обмен на длину контекстного окна, например, неспособность модели отвечать на сложные вопросы на основе полнотекстовой информации и сложность рассмотрения ответов в нескольких текстах.
В Baichaun2-192K , выпущенном компанией Baichuan на этот раз, достигнут баланс между длиной окна и производительностью модели за счет максимальной оптимизации алгоритмов и инженерии, а также достигнуто одновременное улучшение длины окна и производительности модели.
С точки зрения алгоритмов, Baichuan Intelligent предлагает схему экстраполяции для динамического кодирования положения RoPE и ALiBi, которая может выполнять различную степень динамической интерполяции по маске внимания ALiBi_mask различных разрешений, что может повысить способность модели полагаться на длинные последовательности, обеспечивая при этом разрешение.
С точки зрения инжиниринга, на основе самостоятельно разработанного распределенного фреймворка обучения, Baichuan Intelligent интегрирует все передовые технологии оптимизации, представленные на рынке, включая тензорный параллелизм, параллелизм потоков, параллелизм последовательностей, функции пересчета и разгрузки и т. д., для создания комплексного набора 4D параллельных распределенных решений. Это решение может автоматически находить наиболее подходящую распределенную стратегию в соответствии с конкретной ситуацией нагрузки, что значительно снижает занятость памяти в процессе логического вывода с длинным окном.
Участвуйте в битве больших моделей, будьте быстрыми
Компания Baichuan Intelligence, основанная в апреле этого года, можно назвать крупномасштабным модельным стартапом с самой быстрой технологической итерацией в отрасли. Всего за полгода с момента своего основания компания выпустила четыре модели с открытым исходным кодом и бесплатные коммерческие модели: Baichuan-7B/13B и Baichuan2-7B/13B, а также две модели с закрытым исходным кодом, Baichuan-53B и Baichuan2-53B.
В среднем каждый месяц выпускается новая крупная модель.
Серия больших моделей Байчуань объединяет в себе технологии понимания намерений, поиска информации и обучения с подкреплением в сочетании с контролируемой тонкой настройкой и согласованием намерений человека, и хорошо работает в областях знаний, ответов на вопросы и создания текстов. Эти большие модели также пользуются популярностью в отрасли из-за их возможностей: совокупное количество загрузок серии моделей с открытым исходным кодом Baichuan в крупных сообществах с открытым исходным кодом превысило 6 миллионов; Baichuan 2 опережает Llama 2 по всем параметрам, лидируя в развитии экосистемы с открытым исходным кодом в Китае.
31 августа Baichuan Intelligent взяла на себя инициативу по принятию «Временных мер по управлению услугами генеративного искусственного интеллекта» и стала единственной крупномасштабной модельной компанией, основанной в этом году, среди первой партии из 8 компаний. 25 сентября компания Baichuan Intelligent открыла API-интерфейс Baichuan, официально вошла в поле To B и начала процесс коммерциализации.
Можно сказать, что от технологических исследований и разработок до посадки, скорость Байчуаня достаточно высока.
Только что выпущенный Baichuan2-192K официально начал закрытое бета-тестирование и будет открыт для основных партнеров в виде вызовов API. Компания Baichuan заявила, что достигла сотрудничества с финансовыми СМИ и юридическими фирмами, а также применила ведущие возможности Baichuan2-192K по работе с длинным контекстом к конкретным сценариям, таким как СМИ, финансы и юриспруденция, и вскоре будет предоставлена корпоративным пользователям в виде вызовов API и приватизированного развертывания.
После того, как Baichuan2-192K будет полностью открыт в виде API, он может быть глубоко интегрирован с большим количеством вертикальных сценариев, играть роль в работе, жизни и обучении людей, а также помогать отраслевым пользователям значительно повысить эффективность. Baichuan2-192K может обрабатывать и анализировать сотни страниц материалов одновременно, что является огромным подспорьем для реальных сценариев, таких как обобщение длинных документов, рецензирование длинных документов, написание длинных статей или отчетов, а также помощь в сложном программировании.
Ранее Ван Сяочуань, основатель и генеральный директор Baichuan Intelligence, сообщил, что во второй половине этого года Baichuan запустит большую модель уровня 100 миллиардов, и ожидается, что в следующем году будет развернуто суперприложение C-end.
Столкнувшись с разрывом с OpenAI, Ван Сяочуань признал, что между нами и OpenAI действительно есть разрыв с точки зрения идеалов, цель OpenAI — исследовать потолок интеллекта, и они даже надеются разработать технологию, которая соединит 10 миллионов графических процессоров вместе. Тем не менее, с точки зрения применения, мы идем быстрее, чем Соединенные Штаты, и прикладной и экологический опыт, накопленный в эпоху Интернета, может заставить нас идти быстрее и дальше, поэтому концепция Байчуаня сделать большую модель называется «На шаг медленнее на идеале, на три шага быстрее на земле».
С этой точки зрения, Baichuan2-192K является расширением этой концепции, и самое длинное в мире контекстное окно, несомненно, ускорит процесс технологии Baichuan intelligent large model.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Самая мощная в мире модель длинного текста, которая может читать 350 000 китайских иероглифов одновременно: Baichuan2-192K доступна онлайн
Отечественные крупномасштабные модельные стартапы устанавливают новые рекорды на переднем крае технологий.
30 октября компания Baichuan Intelligence официально выпустила модель Baichuan2-192K long window large, которая увеличила длину контекстного окна большой языковой модели (LLM) до 192K токена.
Это эквивалентно тому, что большая модель обрабатывает около 350 000 китайских иероглифов одновременно, что в 14 раз длиннее, чем GPT-4 (32 тыс. токенов, около 25 000 символов) и в 4,4 раза длиннее, чем Claude 2.0 (100 тыс. токенов, около 80 000 символов).
Другими словами, Baichuan2-192K может прочитать копию задачи трех тел 2 за один присест, что делает ее самой большой моделью с самым длинным контекстным окном обработки в мире. Кроме того, он также значительно превосходит своих конкурентов по многим параметрам, таким как качество генерации текста, понимание контекста и возможность вопросов и ответов.
Что может большая модель, которая может понимать очень длинные тексты за раз? Компания Baichuan Intelligent провела простую демонстрацию.
Загрузите PDF-файл со всей «Задачей трех тел 2: Темный лес», и модель Байчуаня будет состоять из 300 000 слов. Далее, если задать какие-либо вопросы по роману, модель может дать краткий и точный ответ.
Вы можете напрямую упаковывать и загружать их вместе, а модель Байчуань может легко интегрировать пять новостных статей в одну.
От десятков тысяч слов до сотен тысяч слов ведущие стартапы спешат захватить «длинное окно»
Если обратить внимание на применение больших моделей в направлении понимания текста, то можно заметить явление: в начале текстов, используемых для оценки способности модели, могут быть какие-то финансовые отчеты и технические отчеты, которые обычно составляют от десятка до десятков страниц, а количество слов обычно составляет десятки тысяч слов. Но затем тестовый текст постепенно превратился в несколько часов протоколов заседаний или сотни тысяч слов романов, и конкуренция становилась все более напряженной и сложной.
Почему эти компании бросают вызов длинным текстам?
Во-первых, с точки зрения приложений, многим работникам, использующим большие модели для повышения производительности, неизбежно приходится иметь дело с длинными текстами, например, юристам, аналитикам, консультантам и т. д., и чем больше контекстное окно, тем шире диапазон вещей, которые эти люди могут делать с большими моделями; Во-вторых, с технической точки зрения, чем больше информации может вместить окно, чем на большее количество информации может ссылаться модель при генерации очередного слова, тем меньше вероятность возникновения «галлюцинаций», и тем точнее будет информация, что является необходимым условием для реализации технологии больших моделей. Поэтому, пытаясь повысить производительность модели, компании также соревнуются в том, кто сможет увеличить контекстное окно и, таким образом, поместить его в большее количество сценариев применения.
Как видно из некоторых примеров, показанных ранее, Baichuan2-192K превосходит как качество генерации текста, так и понимание контекста. И, помимо этих качественных результатов, мы также можем видеть это в некоторых количественных данных оценки.
Baichuan2-192K: Чем длиннее файл, тем очевиднее преимущество
При оценке качества генерации текста очень важная метрика называется «путаница»: когда мы берем в качестве тестового набора высококачественные документы, соответствующие привычкам человека в естественном языке, тем выше вероятность того, что модель сгенерирует китайскую версию тестового набора, тем меньше путаница в модели и тем лучше модель.
Тестовый набор, используемый для проверки запутанности большой модели Байчуань, называется PG-19. Этот набор данных был создан исследователями DeepMind и был сделан с использованием материалов из книг Project Gutenberg, поэтому PG-19 имеет качество книги.
Результаты тестирования представлены на рисунке ниже. Как видим, в начальной фазе (слева от горизонтальной оси, когда длина контекста меньше) уровень путаницы Baichuan2-192K находится на низком уровне. По мере увеличения длины контекста его преимущества становятся все более очевидными, и даже путаница продолжает уменьшаться. Это говорит о том, что Baichuan2-192K способен лучше поддерживать качество генерации текста на уровне книги в длинных контекстах.
Эта компетенция оценивается с помощью Long, авторитетного теста понимания текста в длинных окнах. Long — это список, выпущенный Калифорнийским университетом в Беркли и другими университетами для оценки моделей длинных окон, который в основном измеряет способность модели запоминать и понимать содержание длинных окон, и чем выше оценка модели, тем лучше.
Как видно из результатов оценки на графике ниже, Baichuan2-192K смог сохранить стабильно высокую производительность при увеличении длины контекста, даже после того, как длина окна превысила 100 Кб. В отличие от этого, общая производительность Claude 2 резко падает после длины окна более 80 тысяч.
**192K сверхдлинный контекст, как Байчуань это сделал? **
В индустрии ИИ принято считать, что расширение контекстного окна может эффективно повысить производительность больших моделей, но сверхдлинное контекстное окно означает более высокие требования к вычислительной мощности и большую нагрузку на память.
Чтобы смягчить это давление, в отрасли появились некоторые компромиссные методы, такие как уменьшение модели; Пусть модель активно отказывается от предыдущего текста, сдвигая окно и т. д., и сохраняет механизм внимания только для последнего ввода; Путем понижения разрешения контекста или RAG (Retrieval Enhanced Generation), механизма внимания, который сохраняет только часть входных данных, и т. д.
Несмотря на то, что эти методы могут увеличить длину контекстного окна, все они в той или иной степени снижают производительность модели. Другими словами, они жертвуют производительностью других аспектов модели в обмен на длину контекстного окна, например, неспособность модели отвечать на сложные вопросы на основе полнотекстовой информации и сложность рассмотрения ответов в нескольких текстах.
В Baichaun2-192K , выпущенном компанией Baichuan на этот раз, достигнут баланс между длиной окна и производительностью модели за счет максимальной оптимизации алгоритмов и инженерии, а также достигнуто одновременное улучшение длины окна и производительности модели.
С точки зрения алгоритмов, Baichuan Intelligent предлагает схему экстраполяции для динамического кодирования положения RoPE и ALiBi, которая может выполнять различную степень динамической интерполяции по маске внимания ALiBi_mask различных разрешений, что может повысить способность модели полагаться на длинные последовательности, обеспечивая при этом разрешение.
С точки зрения инжиниринга, на основе самостоятельно разработанного распределенного фреймворка обучения, Baichuan Intelligent интегрирует все передовые технологии оптимизации, представленные на рынке, включая тензорный параллелизм, параллелизм потоков, параллелизм последовательностей, функции пересчета и разгрузки и т. д., для создания комплексного набора 4D параллельных распределенных решений. Это решение может автоматически находить наиболее подходящую распределенную стратегию в соответствии с конкретной ситуацией нагрузки, что значительно снижает занятость памяти в процессе логического вывода с длинным окном.
Участвуйте в битве больших моделей, будьте быстрыми
Компания Baichuan Intelligence, основанная в апреле этого года, можно назвать крупномасштабным модельным стартапом с самой быстрой технологической итерацией в отрасли. Всего за полгода с момента своего основания компания выпустила четыре модели с открытым исходным кодом и бесплатные коммерческие модели: Baichuan-7B/13B и Baichuan2-7B/13B, а также две модели с закрытым исходным кодом, Baichuan-53B и Baichuan2-53B.
В среднем каждый месяц выпускается новая крупная модель.
Серия больших моделей Байчуань объединяет в себе технологии понимания намерений, поиска информации и обучения с подкреплением в сочетании с контролируемой тонкой настройкой и согласованием намерений человека, и хорошо работает в областях знаний, ответов на вопросы и создания текстов. Эти большие модели также пользуются популярностью в отрасли из-за их возможностей: совокупное количество загрузок серии моделей с открытым исходным кодом Baichuan в крупных сообществах с открытым исходным кодом превысило 6 миллионов; Baichuan 2 опережает Llama 2 по всем параметрам, лидируя в развитии экосистемы с открытым исходным кодом в Китае.
31 августа Baichuan Intelligent взяла на себя инициативу по принятию «Временных мер по управлению услугами генеративного искусственного интеллекта» и стала единственной крупномасштабной модельной компанией, основанной в этом году, среди первой партии из 8 компаний. 25 сентября компания Baichuan Intelligent открыла API-интерфейс Baichuan, официально вошла в поле To B и начала процесс коммерциализации.
Можно сказать, что от технологических исследований и разработок до посадки, скорость Байчуаня достаточно высока.
Только что выпущенный Baichuan2-192K официально начал закрытое бета-тестирование и будет открыт для основных партнеров в виде вызовов API. Компания Baichuan заявила, что достигла сотрудничества с финансовыми СМИ и юридическими фирмами, а также применила ведущие возможности Baichuan2-192K по работе с длинным контекстом к конкретным сценариям, таким как СМИ, финансы и юриспруденция, и вскоре будет предоставлена корпоративным пользователям в виде вызовов API и приватизированного развертывания.
После того, как Baichuan2-192K будет полностью открыт в виде API, он может быть глубоко интегрирован с большим количеством вертикальных сценариев, играть роль в работе, жизни и обучении людей, а также помогать отраслевым пользователям значительно повысить эффективность. Baichuan2-192K может обрабатывать и анализировать сотни страниц материалов одновременно, что является огромным подспорьем для реальных сценариев, таких как обобщение длинных документов, рецензирование длинных документов, написание длинных статей или отчетов, а также помощь в сложном программировании.
Столкнувшись с разрывом с OpenAI, Ван Сяочуань признал, что между нами и OpenAI действительно есть разрыв с точки зрения идеалов, цель OpenAI — исследовать потолок интеллекта, и они даже надеются разработать технологию, которая соединит 10 миллионов графических процессоров вместе. Тем не менее, с точки зрения применения, мы идем быстрее, чем Соединенные Штаты, и прикладной и экологический опыт, накопленный в эпоху Интернета, может заставить нас идти быстрее и дальше, поэтому концепция Байчуаня сделать большую модель называется «На шаг медленнее на идеале, на три шага быстрее на земле».
С этой точки зрения, Baichuan2-192K является расширением этой концепции, и самое длинное в мире контекстное окно, несомненно, ускорит процесс технологии Baichuan intelligent large model.