Конкуренція вітчизняної великомасштабної модельної техніки прискорилася, і після запуску новітніх продуктів iFLYTEK Xinghuo та Zhipu Baichuan також започаткував нові масштабні модельні досягнення.
Про це стало відомо Titanium MediaВранці 30 жовтня компанія з виробництва великих моделей штучного інтелекту «Baichuan Intelligence», заснована Ван Сяочуанем, оголосила про запуск великої моделі Baichuan2-192K, яка має довжину контекстного вікна до 192K і може обробляти близько 350 000 китайських ієрогліфів.
** Baichuan Intelligence заявила, що Baichuan2-192K наразі є найдовшим контекстним вікном у світі, а також у 4,4 рази більше, ніж у Claude2, найкращої великої моделі, яка наразі підтримує довгі контекстні вікна (підтримує 100 тисяч контекстних вікон, вимірюється близько 80 000 слів), і в 14 разів (1400%) перевищує GPT-4 (підтримує 32 тисячі контекстних вікон, вимірюється близько 25 000 слів). **Це не тільки перевершує Claude2 за довжиною контекстного вікна, але й випереджає Claude2 за якістю генерації тексту з довгим вікном, довгого розуміння контексту, запитань і відповідей довгого тексту, резюмування тощо.
Повідомляється, що Baichuan2-192K буде надано корпоративним користувачам у вигляді викликів API та приватизованого розгортання. В даний час Baichuan Intelligent запустила внутрішнє тестування API великої моделі і відкрила його для основних партнерів в юридичній, медійній, фінансовій та інших галузях.
Повідомляється, що Baichuan Intelligence була створена 10 квітня 2023 року Ван Сяочуанем, засновником і колишнім генеральним директором Sogou. Його основна команда складається з найкращих талантів у галузі штучного інтелекту з відомих технологічних компаній, таких як Sogou, Google, Tencent, Baidu, Huawei, Microsoft і Byte. В даний час розмір команди Baichuan Intelligent становить понад 170 осіб, з яких майже 70% - співробітники зі ступенем магістра або вище, а понад 80% - співробітники R&D.
За останні 200 днів Baichuan Intelligent випускала велику модель в середньому кожні 28 днів, і постійно Baichuan-7B/13B, Baichuan2-7B/13B чотири безкоштовні комерційні великі моделі з відкритим вихідним кодом і Baichuan-53B, Baichuan2-53B дві великі моделі із закритим вихідним кодом, у галузі письма, створення тексту та інших сферах здібностей досягла хорошого рівня в галузі. В даний час дві моделі з відкритим вихідним кодом Baichuan-7B і 13B є одними з кращих у багатьох авторитетних оціночних списках, із сукупним завантаженням понад 6 мільйонів разів.
Що стосується компанії, яка будує великі моделі штучного інтелекту, Ван Сяочуань заявив, що існуючі технічні інструменти його команди можуть бути використані для побудови великих моделей, а конкурентами компанії є рішення великих компаній з відкритим вихідним кодом. Ван Сяочуань також вважає, що вся команда не обов'язково повинна бути занадто великою, і досить 100 осіб.
31 серпня Baichuan Intelligent взяла на себе провідну роль у прийнятті національного «Тимчасових заходів щодо управління послугами генеративного штучного інтелекту» для рекорду, і була єдиним великомасштабним модельним стартапом, створеним цього року серед перших восьми компаній, і відкрила інтерфейс API Baichuan2-53B 25 вересня, офіційно увійшовши в сферу підприємства To B і розпочавши процес комерціалізації.
17 жовтня Baichuan Intelligent оголосила, що завершила раунд стратегічного фінансування А1 у розмірі 300 мільйонів доларів США, а в цьому раунді взяли участь Alibaba, Tencent, Xiaomi та інші технологічні гіганти та низка топових інвестиційних інститутів. З додаванням ангельського раунду в розмірі 50 мільйонів доларів США, сукупна сума фінансування Baichuan Intelligent досягла 350 мільйонів доларів США (близько 2,543 мільярда юанів).
Baichuan Intelligent не розкрила поточну конкретну оцінку, лише сказавши, що після цього раунду фінансування компанія стала технологічним єдинорогом. Згідно із загальним визначенням, оцінка єдинорогів становить понад 1 мільярд доларів США (близько 7,266 мільярда юанів).
**У випуску Baichuan2-192K, Baichuan Intelligent заявила, що вона добре показала себе в 10 китайських та англійських довгих текстових запитань і відповідях і наборах абстрактної оцінки, таких як Dureader, NarrativeQA, LSHT і TriviaQA, і 7 з них досягли SOTA, значно перевершивши інші моделі з довгим вікном і випередивши Claude2 за всебічним шляхом. **
Байчуань зазначив, що індустрія штучного інтелекту консенсус полягає в тому, що розширення контекстного вікна може ефективно підвищити продуктивність великих моделей, але наддовге контекстне вікно означає вищі вимоги до обчислювальної потужності та більший тиск на пам'ять. В даний час в індустрії існує безліч способів збільшення довжини контекстного вікна, включаючи розсувні вікна, даунсемплінг, невеликі моделі і т.д. Хоча ці методи можуть збільшити довжину контекстного вікна, всі вони мають різний ступінь погіршення продуктивності моделі, іншими словами, всі вони жертвують продуктивністю інших аспектів моделі в обмін на довший контекстний вікно. Baichuan2-192K, випущений цього разу, досягає балансу між довжиною вікна та продуктивністю моделі за допомогою алгоритму та інженерної оптимізації, а також досягає одночасного покращення довжини вікна та продуктивності моделі.
З точки зору алгоритмів, Baichuan Intelligent пропонує схему екстраполяції для кодування динамічної позиції RoPE і ALiBi, яка підвищує здатність моделі до моделювання покладатися на довгі послідовності, забезпечуючи при цьому роздільну здатність, а при розширенні довжини вікна здатність моделювання послідовностей Baichuan2-192K продовжує зростати. З точки зору інженерії, на основі самостійно розробленої структури розподіленого навчання, Baichuan Intelligent інтегрує та оптимізує кілька технологій і створює комплексний набір 4D паралельних розподілених рішень, які можуть автоматично знаходити найбільш підходящу розподілену стратегію відповідно до конкретного навантаження моделі, що значно зменшує зайнятість пам'яті в процесі навчання та висновків за довгим вікном.
Baichuan2-192K може бути глибоко інтегрований з більш вертикальними сценаріями, дійсно відігравати важливу роль у роботі, житті та навчанні людей, а також допомагати користувачам галузі краще знижувати витрати та підвищувати ефективність. Наприклад, він може допомогти менеджерам фондів узагальнювати та інтерпретувати фінансову звітність, аналізувати ризики та можливості компанії; Допомога юристам у виявленні ризиків у багатьох юридичних документах, перегляді договорів та юридичних документів; Допоможіть технічним спеціалістам прочитати сотні сторінок документації з розробки та відповісти на технічні запитання; Це також може допомогти співробітникам швидко переглянути велику кількість документів і узагальнити останні передові досягнення.
В даний час Baichuan2-192K відкритий для основних партнерів Baichuan Intelligence у вигляді викликів API, і досяг співпраці з фінансовими ЗМІ та юридичними фірмами, заявивши, що незабаром він буде повністю відкритий.
Команда Ван Сяочуаня заявила, що Baichuan Intelligent Baichuan2-192K впровадила інновації для довгих контекстних вікон в алгоритмах та інженерії, перевірила доцільність довгих контекстних вікон і відкрила новий шлях наукових досліджень для підвищення продуктивності великих моделей. У той же час, його довший контекст також закладе хорошу технічну основу для галузі, щоб досліджувати передові галузі, такі як агенти та мультимодальні додатки.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Ван Сяочуань анонсував останню велику модель, яка, як стверджується, є найдовшою у світі, у 14 разів більшою за GPT-4
Першоджерело: Titanium Media
Автор: Лінь Чжицзя
Конкуренція вітчизняної великомасштабної модельної техніки прискорилася, і після запуску новітніх продуктів iFLYTEK Xinghuo та Zhipu Baichuan також започаткував нові масштабні модельні досягнення.
Про це стало відомо Titanium MediaВранці 30 жовтня компанія з виробництва великих моделей штучного інтелекту «Baichuan Intelligence», заснована Ван Сяочуанем, оголосила про запуск великої моделі Baichuan2-192K, яка має довжину контекстного вікна до 192K і може обробляти близько 350 000 китайських ієрогліфів.
** Baichuan Intelligence заявила, що Baichuan2-192K наразі є найдовшим контекстним вікном у світі, а також у 4,4 рази більше, ніж у Claude2, найкращої великої моделі, яка наразі підтримує довгі контекстні вікна (підтримує 100 тисяч контекстних вікон, вимірюється близько 80 000 слів), і в 14 разів (1400%) перевищує GPT-4 (підтримує 32 тисячі контекстних вікон, вимірюється близько 25 000 слів). **Це не тільки перевершує Claude2 за довжиною контекстного вікна, але й випереджає Claude2 за якістю генерації тексту з довгим вікном, довгого розуміння контексту, запитань і відповідей довгого тексту, резюмування тощо.
Повідомляється, що Baichuan2-192K буде надано корпоративним користувачам у вигляді викликів API та приватизованого розгортання. В даний час Baichuan Intelligent запустила внутрішнє тестування API великої моделі і відкрила його для основних партнерів в юридичній, медійній, фінансовій та інших галузях.
За останні 200 днів Baichuan Intelligent випускала велику модель в середньому кожні 28 днів, і постійно Baichuan-7B/13B, Baichuan2-7B/13B чотири безкоштовні комерційні великі моделі з відкритим вихідним кодом і Baichuan-53B, Baichuan2-53B дві великі моделі із закритим вихідним кодом, у галузі письма, створення тексту та інших сферах здібностей досягла хорошого рівня в галузі. В даний час дві моделі з відкритим вихідним кодом Baichuan-7B і 13B є одними з кращих у багатьох авторитетних оціночних списках, із сукупним завантаженням понад 6 мільйонів разів.
Що стосується компанії, яка будує великі моделі штучного інтелекту, Ван Сяочуань заявив, що існуючі технічні інструменти його команди можуть бути використані для побудови великих моделей, а конкурентами компанії є рішення великих компаній з відкритим вихідним кодом. Ван Сяочуань також вважає, що вся команда не обов'язково повинна бути занадто великою, і досить 100 осіб.
31 серпня Baichuan Intelligent взяла на себе провідну роль у прийнятті національного «Тимчасових заходів щодо управління послугами генеративного штучного інтелекту» для рекорду, і була єдиним великомасштабним модельним стартапом, створеним цього року серед перших восьми компаній, і відкрила інтерфейс API Baichuan2-53B 25 вересня, офіційно увійшовши в сферу підприємства To B і розпочавши процес комерціалізації.
17 жовтня Baichuan Intelligent оголосила, що завершила раунд стратегічного фінансування А1 у розмірі 300 мільйонів доларів США, а в цьому раунді взяли участь Alibaba, Tencent, Xiaomi та інші технологічні гіганти та низка топових інвестиційних інститутів. З додаванням ангельського раунду в розмірі 50 мільйонів доларів США, сукупна сума фінансування Baichuan Intelligent досягла 350 мільйонів доларів США (близько 2,543 мільярда юанів).
Baichuan Intelligent не розкрила поточну конкретну оцінку, лише сказавши, що після цього раунду фінансування компанія стала технологічним єдинорогом. Згідно із загальним визначенням, оцінка єдинорогів становить понад 1 мільярд доларів США (близько 7,266 мільярда юанів).
**У випуску Baichuan2-192K, Baichuan Intelligent заявила, що вона добре показала себе в 10 китайських та англійських довгих текстових запитань і відповідях і наборах абстрактної оцінки, таких як Dureader, NarrativeQA, LSHT і TriviaQA, і 7 з них досягли SOTA, значно перевершивши інші моделі з довгим вікном і випередивши Claude2 за всебічним шляхом. **
З точки зору алгоритмів, Baichuan Intelligent пропонує схему екстраполяції для кодування динамічної позиції RoPE і ALiBi, яка підвищує здатність моделі до моделювання покладатися на довгі послідовності, забезпечуючи при цьому роздільну здатність, а при розширенні довжини вікна здатність моделювання послідовностей Baichuan2-192K продовжує зростати. З точки зору інженерії, на основі самостійно розробленої структури розподіленого навчання, Baichuan Intelligent інтегрує та оптимізує кілька технологій і створює комплексний набір 4D паралельних розподілених рішень, які можуть автоматично знаходити найбільш підходящу розподілену стратегію відповідно до конкретного навантаження моделі, що значно зменшує зайнятість пам'яті в процесі навчання та висновків за довгим вікном.
Baichuan2-192K може бути глибоко інтегрований з більш вертикальними сценаріями, дійсно відігравати важливу роль у роботі, житті та навчанні людей, а також допомагати користувачам галузі краще знижувати витрати та підвищувати ефективність. Наприклад, він може допомогти менеджерам фондів узагальнювати та інтерпретувати фінансову звітність, аналізувати ризики та можливості компанії; Допомога юристам у виявленні ризиків у багатьох юридичних документах, перегляді договорів та юридичних документів; Допоможіть технічним спеціалістам прочитати сотні сторінок документації з розробки та відповісти на технічні запитання; Це також може допомогти співробітникам швидко переглянути велику кількість документів і узагальнити останні передові досягнення.
В даний час Baichuan2-192K відкритий для основних партнерів Baichuan Intelligence у вигляді викликів API, і досяг співпраці з фінансовими ЗМІ та юридичними фірмами, заявивши, що незабаром він буде повністю відкритий.
Команда Ван Сяочуаня заявила, що Baichuan Intelligent Baichuan2-192K впровадила інновації для довгих контекстних вікон в алгоритмах та інженерії, перевірила доцільність довгих контекстних вікон і відкрила новий шлях наукових досліджень для підвищення продуктивності великих моделей. У той же час, його довший контекст також закладе хорошу технічну основу для галузі, щоб досліджувати передові галузі, такі як агенти та мультимодальні додатки.