Конкуренция отечественных технологий крупномасштабных моделей ускорилась, и после запуска новейших продуктов iFLYTEK Xinghuo и Zhipu, Baichuan также возвестил о новых достижениях крупномасштабных моделей.
Утром 30 октября компания Baichuan Intelligence, основанная Ван Сяочуанем, объявила о запуске большой модели Baichuan2-192K, которая имеет длину контекстного окна до 192K и может обрабатывать около 350 000 китайских иероглифов.
** Baichuan Intelligence заявила, что Baichuan2-192K в настоящее время является самым длинным контекстным окном в мире, а также в 4,4 раза больше, чем Claude2, лучшей большой моделью, которая в настоящее время поддерживает длинные контекстные окна (поддерживает 100 тыс. контекстных окон, измерено около 80 000 слов), и в 14 раз (1400%) больше, чем GPT-4 (поддерживает 32 тыс. контекстных окон, измерено около 25 000 слов). ** Это не только превосходит Claude2 по длине контекстного окна, но и опережает Claude2 по качеству генерации текста в длинных окнах, пониманию длинного контекста, а также длинных вопросов и ответов, резюмирования и т. д.
Сообщается, что Baichuan2-192K будет предоставляться корпоративным пользователям в виде вызовов API и приватизированного развертывания. В настоящее время Baichuan Intelligent запустила внутреннее тестирование API большой модели и открыла ее для основных партнеров в юридической, медийной, финансовой и других отраслях.
Сообщается, что Baichuan Intelligence была основана 10 апреля 2023 года Ван Сяочуанем, основателем и бывшим генеральным директором Sogou. Его основная команда состоит из лучших талантов в области искусственного интеллекта из известных технологических компаний, таких как Sogou, Google, Tencent, Baidu, Huawei, Microsoft и Byte. В настоящее время размер команды Baichuan Intelligent составляет более 170 человек, из которых почти 70% - сотрудники со степенью магистра или выше, а более 80% - персонал по исследованиям и разработкам.
За последние 200 дней Baichuan Intelligent выпускала большую модель в среднем каждые 28 дней, и постоянно Baichuan-7B/13B, Baichuan2-7B/13B четыре бесплатные коммерческие большие модели с открытым исходным кодом и Baichuan-53B, Baichuan2-53B две большие модели с закрытым исходным кодом, в области письма, создания текста и других областях способностей достигли хорошего уровня в отрасли. В настоящее время две модели с открытым исходным кодом Baichuan-7B и 13B являются одними из лучших во многих авторитетных оценочных списках, с совокупной загрузкой более 6 миллионов раз.
Что касается компании, которая строит большие модели ИИ, Ван Сяочуань заявил, что существующие технические инструменты его команды могут быть использованы для построения больших моделей, а конкурентами компании являются решения с открытым исходным кодом крупных компаний. Ван Сяочуань также считает, что вся команда не обязательно должна быть слишком большой, и достаточно 100 человек.
31 августа Baichuan Intelligent взяла на себя инициативу по принятию национальных «Временных мер по управлению услугами генеративного искусственного интеллекта» и стала единственным крупномасштабным модельным стартапом, созданным в этом году среди первых восьми компаний, а 25 сентября открыла интерфейс API Baichuan2-53B, официально войдя в сферу предприятий To B и начав процесс коммерциализации.
17 октября Baichuan Intelligent объявила о завершении раунда стратегического финансирования А1 в размере 300 миллионов долларов США, в котором приняли участие Alibaba, Tencent, Xiaomi и другие технологические гиганты, а также ряд ведущих инвестиционных институтов. С добавлением ангельского раунда в размере 50 миллионов долларов США, совокупная сумма финансирования Baichuan Intelligent достигла 350 миллионов долларов США (около 2,543 миллиарда юаней).
Baichuan Intelligent не раскрыла текущую конкретную оценку, сказав лишь, что после этого раунда финансирования компания стала технологическим единорогом. Согласно общему определению, оценка единорогов составляет более 1 млрд долларов США (около 7,266 млрд юаней).
** В релизе Baichuan2-192K компания Baichuan Intelligent заявила, что она хорошо показала себя в 10 наборах вопросов и ответов на китайском и английском языках и абстрактных оценках, таких как Dureader, NarrativeQA, LSHT и TriviaQA, и 7 из них достигли SOTA, значительно превзойдя другие модели с длинным окном и опередив Claude2 во всех отношениях. **
Байчуань отметил, что индустрия искусственного интеллекта сходится во мнении, что расширение контекстного окна может эффективно повысить производительность больших моделей, но сверхдлинное контекстное окно означает более высокие требования к вычислительной мощности и большую нагрузку на память. В настоящее время в отрасли существует множество способов увеличения длины контекстного окна, включая раздвижные окна, понижение разрешения, малые модели и т. д. Несмотря на то, что эти методы могут увеличить продолжительность контекстного окна, все они в разной степени ухудшают производительность модели, другими словами, все они жертвуют производительностью других аспектов модели в обмен на более длительное контекстное окно. В Baichuan2-192K, выпущенном на этот раз, достигнут баланс между длиной окна и производительностью модели за счет алгоритмической и инженерной оптимизации, а также достигнуто одновременное улучшение длины окна и производительности модели.
С точки зрения алгоритмов, Baichuan Intelligent предлагает схему экстраполяции для кодирования динамических позиций RoPE и ALiBi, которая расширяет возможности моделирования модели для использования длинных последовательностей, обеспечивая при этом разрешение, а когда длина окна увеличивается, возможности моделирования последовательностей Baichuan2-192K продолжают увеличиваться. С точки зрения инженерии, на основе самостоятельно разработанного распределенного фреймворка обучения, Baichuan Intelligent интегрирует и оптимизирует несколько технологий и создает полный набор параллельных распределенных 4D-решений, которые могут автоматически находить наиболее подходящую распределенную стратегию в соответствии с конкретной нагрузкой модели, что значительно снижает занятость памяти в процессе обучения и логического вывода с длинным окном.
Baichuan2-192K может быть глубоко интегрирован с более вертикальными сценариями, играть реальную роль в работе, жизни и обучении людей, а также помогать отраслевым пользователям лучше снижать затраты и повышать эффективность. Например, он может помочь управляющим фондами обобщать и интерпретировать финансовую отчетность, анализировать риски и возможности компании; Помощь юристам в выявлении рисков в многочисленных юридических документах, анализ договоров и юридических документов; Помогите техническим специалистам прочитать сотни страниц документации по разработке и ответить на технические вопросы; Это также может помочь сотрудникам быстро просматривать большое количество документов и обобщать последние передовые достижения.
В настоящее время Baichuan2-192K открыт для основных партнеров Baichuan Intelligence в виде вызовов API и достиг сотрудничества с финансовыми СМИ и юридическими фирмами, заявив, что он будет полностью открыт в ближайшее время.
Команда Ван Сяочуаня заявила, что Baichuan Intelligent Baichuan2-192K внедрил инновации для длинных контекстных окон в алгоритмах и инженерии, проверил осуществимость длинных контекстных окон и открыл новый путь научных исследований для повышения производительности больших моделей. В то же время, его более длительный контекст также заложит хорошую техническую основу для отрасли для изучения передовых областей, таких как агенты и мультимодальные приложения.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Ван Сяочуань анонсировал последнюю большую модель, которая, как утверждается, является самой длинной в мире, в 14 раз больше, чем GPT-4
Первоисточник: Titanium Media
Автор: Линь Чжицзя
Конкуренция отечественных технологий крупномасштабных моделей ускорилась, и после запуска новейших продуктов iFLYTEK Xinghuo и Zhipu, Baichuan также возвестил о новых достижениях крупномасштабных моделей.
Утром 30 октября компания Baichuan Intelligence, основанная Ван Сяочуанем, объявила о запуске большой модели Baichuan2-192K, которая имеет длину контекстного окна до 192K и может обрабатывать около 350 000 китайских иероглифов.
** Baichuan Intelligence заявила, что Baichuan2-192K в настоящее время является самым длинным контекстным окном в мире, а также в 4,4 раза больше, чем Claude2, лучшей большой моделью, которая в настоящее время поддерживает длинные контекстные окна (поддерживает 100 тыс. контекстных окон, измерено около 80 000 слов), и в 14 раз (1400%) больше, чем GPT-4 (поддерживает 32 тыс. контекстных окон, измерено около 25 000 слов). ** Это не только превосходит Claude2 по длине контекстного окна, но и опережает Claude2 по качеству генерации текста в длинных окнах, пониманию длинного контекста, а также длинных вопросов и ответов, резюмирования и т. д.
Сообщается, что Baichuan2-192K будет предоставляться корпоративным пользователям в виде вызовов API и приватизированного развертывания. В настоящее время Baichuan Intelligent запустила внутреннее тестирование API большой модели и открыла ее для основных партнеров в юридической, медийной, финансовой и других отраслях.
За последние 200 дней Baichuan Intelligent выпускала большую модель в среднем каждые 28 дней, и постоянно Baichuan-7B/13B, Baichuan2-7B/13B четыре бесплатные коммерческие большие модели с открытым исходным кодом и Baichuan-53B, Baichuan2-53B две большие модели с закрытым исходным кодом, в области письма, создания текста и других областях способностей достигли хорошего уровня в отрасли. В настоящее время две модели с открытым исходным кодом Baichuan-7B и 13B являются одними из лучших во многих авторитетных оценочных списках, с совокупной загрузкой более 6 миллионов раз.
Что касается компании, которая строит большие модели ИИ, Ван Сяочуань заявил, что существующие технические инструменты его команды могут быть использованы для построения больших моделей, а конкурентами компании являются решения с открытым исходным кодом крупных компаний. Ван Сяочуань также считает, что вся команда не обязательно должна быть слишком большой, и достаточно 100 человек.
31 августа Baichuan Intelligent взяла на себя инициативу по принятию национальных «Временных мер по управлению услугами генеративного искусственного интеллекта» и стала единственным крупномасштабным модельным стартапом, созданным в этом году среди первых восьми компаний, а 25 сентября открыла интерфейс API Baichuan2-53B, официально войдя в сферу предприятий To B и начав процесс коммерциализации.
17 октября Baichuan Intelligent объявила о завершении раунда стратегического финансирования А1 в размере 300 миллионов долларов США, в котором приняли участие Alibaba, Tencent, Xiaomi и другие технологические гиганты, а также ряд ведущих инвестиционных институтов. С добавлением ангельского раунда в размере 50 миллионов долларов США, совокупная сумма финансирования Baichuan Intelligent достигла 350 миллионов долларов США (около 2,543 миллиарда юаней).
Baichuan Intelligent не раскрыла текущую конкретную оценку, сказав лишь, что после этого раунда финансирования компания стала технологическим единорогом. Согласно общему определению, оценка единорогов составляет более 1 млрд долларов США (около 7,266 млрд юаней).
** В релизе Baichuan2-192K компания Baichuan Intelligent заявила, что она хорошо показала себя в 10 наборах вопросов и ответов на китайском и английском языках и абстрактных оценках, таких как Dureader, NarrativeQA, LSHT и TriviaQA, и 7 из них достигли SOTA, значительно превзойдя другие модели с длинным окном и опередив Claude2 во всех отношениях. **
С точки зрения алгоритмов, Baichuan Intelligent предлагает схему экстраполяции для кодирования динамических позиций RoPE и ALiBi, которая расширяет возможности моделирования модели для использования длинных последовательностей, обеспечивая при этом разрешение, а когда длина окна увеличивается, возможности моделирования последовательностей Baichuan2-192K продолжают увеличиваться. С точки зрения инженерии, на основе самостоятельно разработанного распределенного фреймворка обучения, Baichuan Intelligent интегрирует и оптимизирует несколько технологий и создает полный набор параллельных распределенных 4D-решений, которые могут автоматически находить наиболее подходящую распределенную стратегию в соответствии с конкретной нагрузкой модели, что значительно снижает занятость памяти в процессе обучения и логического вывода с длинным окном.
Baichuan2-192K может быть глубоко интегрирован с более вертикальными сценариями, играть реальную роль в работе, жизни и обучении людей, а также помогать отраслевым пользователям лучше снижать затраты и повышать эффективность. Например, он может помочь управляющим фондами обобщать и интерпретировать финансовую отчетность, анализировать риски и возможности компании; Помощь юристам в выявлении рисков в многочисленных юридических документах, анализ договоров и юридических документов; Помогите техническим специалистам прочитать сотни страниц документации по разработке и ответить на технические вопросы; Это также может помочь сотрудникам быстро просматривать большое количество документов и обобщать последние передовые достижения.
В настоящее время Baichuan2-192K открыт для основных партнеров Baichuan Intelligence в виде вызовов API и достиг сотрудничества с финансовыми СМИ и юридическими фирмами, заявив, что он будет полностью открыт в ближайшее время.
Команда Ван Сяочуаня заявила, что Baichuan Intelligent Baichuan2-192K внедрил инновации для длинных контекстных окон в алгоритмах и инженерии, проверил осуществимость длинных контекстных окон и открыл новый путь научных исследований для повышения производительности больших моделей. В то же время, его более длительный контекст также заложит хорошую техническую основу для отрасли для изучения передовых областей, таких как агенты и мультимодальные приложения.