Dachang обійшов ChatGPT

Оригінал: Luozhi Magnolia

Джерело: New Excerpt Business Review

Джерело зображення: створено інструментом Unbounded AI

За двісті днів після запуску ChatGPT розвиток вітчизняних великогабаритних моделей пішов у «ураганний» режим.

Зазначається, що в Китаї випущено 79 масштабних моделей із масштабом понад 1 мільярд параметрів.

Сфера еволюції великомасштабної моделі зосереджена на ближньому бою із сотнею моделей: великомасштабна модель Baidu Wenxin еволюціонувала до 3,5; Ali Tongyi Qianwen побудував сімейну модель; великомасштабна модель JD Yanxi є «спеціальною» промисловою великомасштабною моделлю для себе;

Теорія еволюції великомасштабних моделей великих заводів є жорстокою та реалістичною, і їх потрібно або наздогнати, або знищити.

Велика модель Baidu Wenxin 3.5, яка працює вперед і наполегливо тренується, нещодавно оголосила, що остання версія здатності Wenxin Yiyan перевершила ChatGPT 3.5.

Природний відбір, виживання найбільш пристосованих, великі виробники та великі моделі випередили ChatGPT.

Велика заводська модель, більше ніж ChatGPT3.5

Одягнений у чорну внутрішню та зовнішню білу куртку з акуратним коротким волоссям, він з’явився на AI Large Model Technical Capability Assessment Conference Conference.

Тема ще переглядалася напередодні ввечері. Ву Тянь, віце-президент Baidu Group, який щойно повернувся з відрядження, сказав на зустрічі: «Нова версія Wenxin Yiyan перевершила ChatGPT 3.5. Це також важлива віха для нас у виконанні відповідної технічної роботи в Китаї».

Це ще один великий виробник, який офіційно підтверджує, що велика модель перевершує ChatGPT після того, як Лю Цінфен з HKUST Xunfei зазначив, що велика модель Spark ось-ось перевершить ChatGPT.

У березні цього року широкомасштабну мовну модель наступного покоління Baidu Wenxin Yiyan, засновану на версії 3.0 великомасштабної моделі Wenxin, було відкрито запрошено на тестування. Після більш ніж 3 місяців модель Wenxin було оновлено до версії 3.5, і її ефекти, функції та продуктивність були значно покращені.

Wenxin Yiyan 3.5 перевершив ChatGPT3.5, швидше за все, завдяки новому механізму плагінів з точки зору функцій Велика модель Wenxin 3.5 розширила межі можливостей великої моделі за допомогою плагінів.

Велика модель підкреслює технічну міцність і базові можливості великої моделі. У травні цього року компанія Baidu випустила нову велику базову модель Wenxin Large Model 3.5, яка є базовою моделлю системи Wenxin Yiyan.

Варто зазначити, що в базовому навчанні моделі версія 3.5 також застосовує найдосконалішу адаптивну гібридну технологію паралельного навчання та стратегію обчислень змішаної точності FlyPaddle, що значно прискорює швидкість ітерації моделі.

Як ми всі знаємо, Baidu глибоко розвиває дослідження та розробку технології штучного інтелекту повного стеку, що складається з чотирьох рівнів: рівня чіпа, рівня каркаса, рівня моделі та рівня додатків.

Рівень мікросхеми має Kunlun Core; рівень фреймворку має платформу глибокого навчання Paddle, яка сильно підтримує ефективне навчання та міркування великих моделей; рівень моделі має велику модель Wenxin; на прикладному рівні 150 000 компаній наразі подають заявки на доступ до тесту Wenxin Yiyan.

Серед них платформа Flying Paddle має 7,5 мільйона розробників, у порівнянні з 8-10 мільйонами практиків програмного забезпечення в Китаї.Хоча розробники програмного забезпечення та розробники глибокого навчання не зовсім однакові, перевага в кількості талантів також забезпечує Wenxin 3.5 великою ємністю мозкового центру, щоб наздогнати ChatGPT, подібно до існування Ultrain.

Порівняно з іноземними компаніями, китайські компанії мають природні переваги в отриманні китайського корпусу та розумінні китайської культури.Промисловість Китаю має найповніші категорії, і вона має сприятливі умови для навчання AIGC для реальних галузей.

Багато факторів сприяли просуванню. Велика модель Wenxin 3.0 на основі Wenxinyiyan була випущена понад 100 днів тому. Завдяки спільній оптимізації FlyPaddle і Wenxin Велика модель Wenxin 3.5 швидко зросла. Ефект останньої моделі збільшився на 50%, швидкість навчання зросла в 2 рази, а швидкість міркування зросла в 30 разів. Вона успішно перевершила ChatGPT.

Окрім основної технології, Baidu розробив три додаткові технології вдосконалення: покращення знань, покращення пошуку та покращення діалогу.

Порівнюючи велику модель із людськими істотами, якщо люди навчаються на основі структури та системи знань, ефективність навчання вища. Потім навчіться використовувати інструменти для пошуку, реалізувати наскрізний надзвичайно спрощений пошук і покращити своєчасність.

Після того, як велика модель закінчить навчання самостійно, вона має навчитися інтенсивному навчанню зі зворотним зв’язком.Покращення діалогу — це те, що дозволити великій моделі безперервно виконувати запитання, розповідати великій моделі, що в діалозі є правильним, а що неправильним, і за допомогою підказок дозволити великій моделі зміцнити механізм запам’ятовування, ефективно дозволити йому відповідати на запитання так, як ми хочемо, і навчити дитину, як відповідати краще.

Крім технічної міцності, великі моделі потребують заземлення.

Що стосується галузевих застосувань, великомасштабна модель Baidu Wenxin виникла з промислової практики та служить їй. Вона вже дослідила ключовий шлях для впровадження великомасштабної моделі в галузі, а також випустила великомасштабні моделі, що охоплюють багато галузей і сфер, щоб прискорити інтелектуальну трансформацію галузей.

В даний час такі підприємства, як State Grid, Pudong Development, Taikang, Geely, Harbin, Shenzhen Gas, TCL і Baidu Wenxin, співпрацюють один з одним.

Крім того, за останні десять років Baidu інвестувала понад 100 мільярдів юанів у дослідження та розробки, а її основні інвестиції в дослідження та розробки становитимуть понад 23% у 2021 році. Кількість заявок і авторизацій для спеціальностей штучного інтелекту п’ять років поспіль посідає перше місце в Китаї, а кількість заявок на патенти глибокого навчання займає перше місце у світі. Прорив Baidu у сфері великомасштабних моделей штучного інтелекту також тісно пов’язаний із значними інвестиціями Baidu в ресурси елементів.

Видно, що настав час для великих фабрик і великих моделей боротися за дослідження та розробки.

Яка з великих фабрик і великих моделей краща?

У першій половині цього року було майже сто компаній, які офіційно оголосили про виробництво великомасштабних моделей, і кожна великомасштабна модель була в запеклій боротьбі. Серед них є великі інтернет-гравці, такі як Ali, Baidu, Tencent, JD.com і ByteDance, а також компанії зі штучним інтелектом, такі як HKUST Xunfei і SenseTime, а також інші «безіменні війська».

За півроку масштабна модельна траса пройшла процес від концепції до посадки, який є дуже вибуховим на будь-якій трасі.

Однак поки що немає чітких індикаторів чи вказівок, щоб перевірити, чия великомасштабна модель краща. Одна за одною самооцінка «Ван По продає дині, продає дині та хвалиться» вражає, і немає особливої об’єктивності.

Отже, у битві сотні моделей хто краще?

В останньому «Звіті про оцінку технічних можливостей великомасштабної моделі AI, 2023», опублікованому IDC, вперше пропонується структура оцінки технічних можливостей великомасштабної моделі AI.

У моделі оцінки є три виміри: технологія продукту, екологія послуг і галузеве застосування.

Існує до 12 конкретних індикаторів підрозділу: модель алгоритму, можливості обслуговування, загальні можливості, інноваційні можливості, можливості платформи, безпека та пояснюваність, екологічна співпраця, охоплення галузі, фінанси, промисловість, медичне обслуговування та енергетика.

Серед них модель алгоритму та охоплення галузі є двома найважливішими показниками для вимірювання здатності великих моделей. Зокрема, вони можуть сформувати маховик для безперервного ітераційного вдосконалення.

Серед технічних можливостей продуктів вимір «алгоритмної моделі» є ключовим елементом можливостей великої моделі, а також коренем, який визначає ефект застосування великої моделі.

Причина полягає в тому, що лише завдяки прориву в технології моделювання алгоритмів і реалізації великої бази моделей із перевагами загального ефекту він може підтримувати ширше охоплення галузі, дозволити всім сферам життя повною мірою користуватися дивідендами, принесеними технологічними проривами, і вирішити дилему високого порогу для впровадження ШІ.

Що стосується галузевих можливостей застосування, то для виробників великомасштабних моделей найважливішим показником є ширина охоплення додатків, і це повне відображення універсального лідерства ефектів великомасштабних моделей і можливостей поєднання галузей.

Таким чином, «галузеве охоплення» відображає силу великої моделі в промисловому впровадженні через кількість клієнтів на рівні підприємства та кількість галузей, які приваблюють.

У цьому оцінюванні брали участь основні вітчизняні великомасштабні моделі, включаючи 14 виробників, включаючи Baidu, Ali, Tencent, Huawei, iFlytek, 360, SenseTime і 4Paradigm.

Великі виробники та великі моделі мають високий ступінь конкуренції. Baidu має унікальну перевагу повного компонування чотирирівневого технологічного стеку «чіп-фреймворк-модель-додаток»: шар мікросхеми-ядро Kunlun, шар каркаса-літаюче весло, рівень моделі-велика модель Wenxin і різноманітні додатки штучного інтелекту. Серед них власно розроблена платформа глибинного навчання Baidu Flying Paddle забезпечує потужну підтримку для ефективного навчання та міркування великих моделі.

Aliyun також дуже привертає увагу: 6 із 12 індикаторів отримали повну оцінку, і це єдиний постачальник, який отримав повну оцінку за «сервісні можливості». Як постачальник базових моделей, можливості платформи, можливості обслуговування та рівень екологічної співпраці великих виробників моделей дуже важливі для розвитку галузі. Alibaba Cloud отримала повний бал за всіма трьома показниками.

Наразі велика модельна сім’я загального призначення Alibaba Cloud має можливість обробляти або генерувати текст, голос, зображення та інші модальності. Протягом останніх трьох місяців Alibaba Cloud послідовно випустила базову модель «Tongyi Thousand Questions», аудіо та відео великомасштабну модель продукту «Tongyi Tingwu» та великомасштабну модель для створення малюнків штучного інтелекту «Tongyi Wanxiang». Сімейство великомасштабних моделей Tongyi все ще перебуває в постійній ітерації та еволюції.

Tencent Cloud і JD Cloud, обидві великі інтернет-компанії, вирішили зосередитися на галузевій стороні та випустити масштабні моделі галузі на основі власних характеристик.

На основі побудови великої галузевої моделі Tencent Cloud використовує власні дані для тонкого налаштування, щоб створити ексклюзивну модель із вищою точністю даних і більшою конфіденційністю та безпекою.

Для JD.com, який розвиває ланцюг поставок протягом кількох років, краще зосередитися на ланцюжку поставок, зосередившись на бізнесі електронної комерції та логістиці протягом тривалого часу. Як сказав JD.com на прес-конференції великомасштабної моделі Yanxi: «Велику модель можна зробити реальною, лише зробивши ланцюг поставок реальним».

Виробники штучного інтелекту, такі як HKUST iFLYTEK, також отримали повні бали у вертикальному треку. Ці гравці мають можливість проникнути у вертикальну галузь. У конкуренції серед виробників лідирують підприємства з очевидними перевагами у вертикальній галузі.

Візьмемо для прикладу Iflytek. Iflytek зосереджується на галузі штучного інтелекту більше 20 років, і багато основних технологій знаходяться на міжнародному провідному рівні. Іскрина велика модель поєднує в собі здатність до розуміння мови та загальну здатність вираження великої моделі з пошуковим плагіном, що фактично вирішує галузеві проблеми, такі як труднощі оновлення нових знань та факту, що питання та відповіді факти легко здійснити ".

Через надзвичайно високу вартість навчання великих моделей звичайним розробникам і малим і середнім підприємствам немає з чого почати.Це також видно з результатів звіту: інші фабрики теж працюють наполегливо, але майбутнє у них довге.Жорстоко кажучи, може бути мало можливостей навіть поїсти за столом.

Куди піде велика модель у майбутньому?

Нещодавно на конференції WAIC гравці, які увійшли до великої моделі, вже намітили ключові моменти: спочатку вирішити технічні проблеми, потім реалізувати сцену і, нарешті, реалізувати бізнес і масштаб.

Наразі ми побачили, що великі моделі почали глибоко інтегруватися зі сценаріями та галузями. Наприклад, великі моделі в таких сферах, як генерація коду та прогнозування структури білків, підтвердили, що великі моделі застосовуються не лише в технологічних компаніях, але й зробили кроки до всіх сфер життя.

Вітчизняна великомасштабна модель швидко перескочила етап великомасштабних концептуальних запасів, а масштабна модель AI розвинулась від конкуренції параметрів до конкуренції додатків.

Наприклад, велика модель Pangu від Huawei була впроваджена в таких сферах, як метеорологія, медичні дослідження та розробки, електроенергетика та мови, і створила кілька великих моделей із сотнями мільярдів параметрів. Можливості широкомасштабної промислової моделі Tencent Cloud застосовуватимуться до таких сценаріїв, як контроль фінансових ризиків, інтерактивний переклад і цифрове інтелектуальне обслуговування клієнтів, що покращує ефективність інтелектуальних програм, а універсальна служба MaaS зменшує навантаження на підприємства.

Специфічно для прикладного сценарію, беручи за приклад фінансову сферу, широкомасштабна промислова модель може підтримувати рішення з контролю фінансових ризиків, які мають 10-кратне підвищення ефективності порівняно з попередніми.

Масштабна модель поєднує в собі багаторічний досвід боротьби з шахрайством і тисячі реальних бізнес-сценаріїв.Порівняно з традиційною моделлю загальний ефект боротьби з шахрайством збільшився приблизно на 20%. Підприємства можуть ітерувати можливості контролю ризиків на основі моделей, від збору зразків, навчання моделі до розгортання та запуску, щоб досягти нульової ручної участі в усьому процесі, а час моделювання скорочується з 2 тижнів до лише 2 днів.

Навіть при обмеженому накопиченні зразків можна завершити швидке будівництво та пропустити процес «холодного старту».

Як висадити та комерціалізувати стає в центрі уваги виробників.

Це означає, що штучний інтелект вийшов на стадію широкомасштабного відтворюваного промислового впровадження, і хороших результатів можна досягти, лише використовуючи подальше навчання з малою вибіркою або нульовою вибіркою, тим самим зменшуючи вартість розробки ШІ. Після оновлення великої моделі Baidu Wenxin вартість була успішно знижена до 10% від минулої.

Будь-яка галузь з часом сформує олігополію, і великі моделі не є винятком.

За останні кілька місяців з’явилася велика кількість нових великомасштабних моделей. Будь то божевільне бажання скористатися можливістю та страх відстати, чи довготривале планування траси та цілеспрямоване дослідження, кожен гравець це добре знає.

Бій сотень моделей буде лише поетапним явищем, і кінцевий результат все ще зосереджений на невеликій кількості великих моделей. Причини не більше ніж наступне:

По-перше, у процесі еволюції різні підприємства та установи поступово знаходили своє власне позиціонування, поступово рухаючись до підрозділів і, нарешті, включаючись у більш повну масштабну модель.

По-друге, потрібні роки накопичення. Масштабна модель, яка насправді побудована знизу, дуже дорога, вимагає дуже всебічних можливостей і повинна мати абсолютний довгостроковий менталітет, що означає, що гравці без абсолютної економічної сили залишаться на півдорозі або «помруть» на шляху до світла.

По-третє, у майбутньому великих моделей на прикладному рівні є великий простір для фантазії. Якщо припустити, що кожна галузь має величезний простір для розвитку, нові технології штучного інтелекту можна використовувати для підвищення ефективності, а значення на рівні додатків однозначно буде відведено. Покладаючись на кілька великих моделей головок, ви матимете дуже широку екологію застосування.

Незаперечним є те, що в майбутньому всі підприємства будуть сильно покладатися на великі моделі, і всі продукти будуть розроблятися на основі великих моделей.

Рівень проникнення в галузь і частка ринку стали найважливішими елементами проблеми для моделі великого підприємства, щоб перетворитися на олігополію.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити