Дачанг обгоняет ChatGPT

Оригинал: Луочжи Магнолия

Источник: New Excerpt Business Review

Источник изображения: сгенерировано инструментом Unbounded AI

За двести дней с момента запуска ChatGPT разработка отечественных масштабных моделей зашла в «ураганный» режим.

Говорят, что в Китае было выпущено 79 масштабных моделей с масштабом более 1 миллиарда параметров.

Поле эволюции крупномасштабных моделей сосредоточено на сотнях моделей: крупномасштабная модель Baidu Wenxin эволюционировала до версии 3.5, Ali Tongyi Qianwen построил семейную модель, крупномасштабная модель JD Yanxi представляет собой промышленную крупномасштабную модель, изготовленную по индивидуальному заказу;

Теория эволюции крупномасштабных моделей больших заводов жестока и реалистична, и их надо либо догонять, либо уничтожать.

Baidu Wenxin Big Model 3.5, которая активно развивается и упорно тренируется, недавно объявила, что последняя версия способности Wenxin Yiyan превзошла ChatGPT 3.5.

Естественный отбор, выживание сильнейших, крупные производители и крупные модели обогнали ChatGPT.

Большая заводская модель, больше, чем ChatGPT3.5

В черном внутреннем и внешнем белом пиджаке с аккуратными короткими волосами он появился на конференции по оценке технических возможностей большой модели ИИ.

Накануне вечером тема еще пересматривалась.У Тянь, вице-президент Baidu Group, только что вернувшийся из командировки, заявил на встрече: «Новая версия Wenxin Yiyan превзошла ChatGPT 3.5. Это также важная веха для нас в проведении соответствующей технической работы в Китае».

Это еще один крупный производитель, официально подтверждающий, что большая модель превосходит ChatGPT после того, как Лю Цинфэн из HKUST Xunfei упомянул, что большая модель Spark вот-вот превзойдет ChatGPT.

В марте этого года для тестирования была публично приглашена крупномасштабная языковая модель нового поколения Baidu Wenxin Yiyan, основанная на версии 3.0 крупномасштабной модели Wenxin. Спустя более 3 месяцев модель Wenxin была обновлена до версии 3.5, а ее эффекты, функции и производительность были значительно улучшены.

Wenxin Yiyan 3.5 превзошел ChatGPT 3.5, скорее всего, из-за нового механизма плагинов с точки зрения функций Wenxin Large Model 3.5 расширил границы возможностей большой модели за счет плагинов.

Большая модель подчеркивает техническую мощь и базовые возможности большой модели. В мае этого года Baidu выпустила новую крупную базовую модель Wenxin Large Model 3.5, которая является базовой моделью системы Wenxin Yiyan.

Стоит отметить, что в базовом обучении модели версия 3.5 также использует самую передовую технологию адаптивного гибридного параллельного обучения и стратегию расчета смешанной точности FlyPaddle, что значительно увеличивает скорость итерации модели.

Как мы все знаем, Baidu глубоко культивирует исследования и разработки полнофункциональных технологий искусственного интеллекта, в общей сложности четырех уровней: уровень микросхемы, уровень структуры, уровень модели и уровень приложения.

На уровне микросхем используется Kunlun Core, на уровне фреймворка — платформа глубокого обучения Paddle, которая активно поддерживает эффективное обучение и анализ больших моделей, на уровне моделей — большая модель Wenxin, а на уровне приложений 150 000 компаний в настоящее время подают заявки на доступ к тесту Wenxin Yiyan.

Среди них платформа Flying Paddle насчитывает 7,5 млн разработчиков по сравнению с 8–10 млн программистов в Китае.Хотя специалисты по программному обеспечению и разработчики глубокого обучения не совсем одинаковы, преимущество в количестве талантов также дает Wenxin 3.5 мозговой центр большой емкости, чтобы догнать ChatGPT, аналогично существованию Ultrain.

По сравнению с иностранными компаниями, китайские компании имеют естественные преимущества в получении китайского корпуса и понимании китайской культуры.Обрабатывающая промышленность Китая имеет наиболее полные категории и имеет благоприятные условия для обучения AIGC для реальных отраслей.

Wenxin Big Model 3.0 работает вместе со многими факторами.Спустя более 100 дней после выпуска Wenxin Yiyan, основанного на Wenxin Big Model 3.0, Wenxin Big Model 3.5 быстро выросла благодаря совместной оптимизации Flying Paddle и Wenxin.

В дополнение к базовой технологии Baidu разработала три дополнительные технологии улучшения: расширение знаний, улучшение поиска и улучшение диалога.

Сравнивая большую модель с людьми, если люди учатся на основе структуры знаний и системы знаний, эффективность обучения выше. Затем научитесь использовать инструменты для поиска, реализуйте сквозной чрезвычайно упрощенный поиск и улучшите своевременность.

После того, как большая модель закончила обучение самостоятельно, она должна научиться интенсивному обучению с обратной связью.Улучшение диалога похоже на то, чтобы позволить большой модели постоянно задавать вопросы, сообщая большой модели, что правильно и что неправильно в диалоге, и с помощью подсказок пусть большая модель укрепляет механизм памяти, позволяет ему эффективно отвечать на вопросы так, как мы хотим, и учить ребенка, как отвечать лучше.

Помимо технической прочности, большие модели нуждаются в заземлении.

С точки зрения отраслевых приложений, крупномасштабная модель Baidu Wenxin возникла из промышленной практики и служит ей, она уже исследовала ключевой путь внедрения крупномасштабных моделей в отрасли, а также выпустила крупномасштабные модели, охватывающие многие отрасли и области для ускорения интеллектуальной трансформации отраслей.

В настоящее время такие предприятия, как State Grid, Pudong Development, Taikang, Geely, Harbin, Shenzhen Gas, TCL и Baidu Wenxin, сотрудничают друг с другом.

Кроме того, Baidu инвестировала более 100 миллиардов юаней в исследования и разработки за последние десять лет, и ее основные инвестиции в исследования и разработки составят более 23% в 2021 году. Количество заявок и разрешений для крупных компаний в области искусственного интеллекта занимает первое место в Китае пять лет подряд, а количество патентных заявок на глубокое обучение занимает первое место в мире. Прорыв Baidu в области крупномасштабных моделей ИИ также тесно связан с крупными инвестициями Baidu в ресурсы элементов.

Видно, что пришло время крупным фабрикам и крупным моделям бороться за исследования и разработки.

Какая из больших фабрик и больших моделей лучше?

В первой половине этого года около сотни компаний официально заявили о выпуске крупномасштабных моделей, и каждая крупномасштабная модель находилась в ожесточенной борьбе. Среди них есть крупные интернет-игроки, такие как Ali, Baidu, Tencent, JD.com и ByteDance, а также компании с искусственным интеллектом, такие как HKUST Xunfei и SenseTime, и другие «анонимные войска».

За полгода масштабная модель трассы прошла процесс от концепции до посадки, что очень взрывоопасно на любой трассе.

Однако до сих пор нет четких индикаторов или ориентиров, чтобы проверить, чья крупномасштабная модель лучше.Одна за другой самооценка «Ван Бо продает дыни, продает дыни и хвастается» завораживает, а объективности мало.

Итак, в битве ста моделей кто лучше?

В последнем «Отчете об оценке технических возможностей крупномасштабной модели ИИ за 2023 год», выпущенном IDC, впервые предлагается структура оценки технических возможностей крупномасштабной модели ИИ.

В модели оценки есть три аспекта: технология продукта, экология услуги и отраслевое применение.

Существует до 12 конкретных индикаторов подразделения: модель алгоритма, сервисные возможности, общие возможности, инновационные возможности, возможности платформы, безопасность и объяснимость, экологическое сотрудничество, охват отрасли, финансы, промышленность, медицинское обслуживание и энергетика.

Среди них модель алгоритма и отраслевой охват являются двумя наиболее важными показателями для измерения способности больших моделей, В частности, они могут формировать маховик для непрерывного итеративного улучшения.

Среди технических возможностей продуктов параметр «модель алгоритма» является основным элементом возможностей большой модели, а также корнем, определяющим эффект применения большой модели.

Причина в том, что только за счет прорыва в технологии алгоритмических моделей и реализации большой базы моделей с преимуществами общего эффекта можно обеспечить более широкий охват отрасли, позволить всем сферам жизни в полной мере воспользоваться дивидендами, принесенными технологическими прорывами, и решить дилемму высокого порога для внедрения ИИ.

С точки зрения возможностей отраслевых приложений, широта охвата приложений является наиболее важным показателем для производителей крупномасштабных моделей и всесторонним отражением универсального лидерства в области эффектов крупномасштабных моделей и возможностей объединения отраслей.

Таким образом, «отраслевой охват» отражает силу крупной модели в промышленной реализации через количество клиентов на уровне предприятия и количество целевых отраслей.

В этой оценке участвовали основные отечественные крупномасштабные модели, в том числе 14 производителей, включая Baidu, Ali, Tencent, Huawei, iFlytek, 360, SenseTime и 4Paradigm.

Крупные производители и крупные модели имеют высокую степень конкуренции. Baidu обладает уникальным преимуществом полной компоновки четырехуровневого технологического стека «чип-каркас-модель-приложение»: слой микросхемы-ядро Kunlun, слой рамы-летающее весло, слой модели-большая модель Wenxin и различные приложения искусственного интеллекта.Среди них, платформа глубокого обучения Baidu Flying Paddle обеспечивает мощную поддержку для эффективного обучения и рассуждений больших моделей.

Aliyun также очень привлекателен: 6 из 12 показателей получили высшую оценку, и это единственный поставщик, получивший высшую оценку за «сервисные возможности». В качестве поставщика базовых моделей возможности платформы, возможности обслуживания и уровень экологического сотрудничества крупных производителей моделей очень важны для развития отрасли. Alibaba Cloud получила высокие оценки по всем трем показателям.

В настоящее время семейство крупных моделей общего назначения Alibaba Cloud имеет возможность обрабатывать или генерировать текст, голос, изображения и другие модальности. За последние три месяца Alibaba Cloud последовательно запустила базовую модель «Tongyi Thousand Questions», крупномасштабную аудио- и видеомодель продукта «Tongyi Tingwu» и крупномасштабную модель создания ИИ «Tongyi Wanxiang». Семейство крупномасштабных моделей Tongyi все еще находится в постоянной итерации и развитии.

Tencent Cloud и JD Cloud, обе крупные интернет-компании, решили сосредоточиться на отраслевой стороне и выпустить крупномасштабные модели отрасли, основанные на их собственных характеристиках.

На основе построения крупной отраслевой модели Tencent Cloud использует собственные данные для тонкой настройки, чтобы создать эксклюзивную модель с более высокой точностью данных и усиленной конфиденциальностью и безопасностью.

Для JD.com, которая занимается развитием цепочки поставок в течение нескольких лет, лучше сосредоточиться на цепочке поставок, сосредоточившись на бизнесе электронной коммерции и логистическом бизнесе в течение длительного времени. Как сказал JD.com на пресс-конференции крупномасштабной модели Yanxi: «Только сделав цепочку поставок реальной, можно сделать большую модель реальной».

Производители искусственного интеллекта, такие как HKUST iFLYTEK, также набрали полные оценки в вертикальной дорожке.У этих игроков есть возможность проникнуть в вертикальную отрасль.В конкуренции среди производителей лидируют предприятия с очевидными преимуществами в вертикальной области.

Возьмите IFLYTEK в качестве примера. IFLYTEK занимается областью искусственного интеллекта более 20 лет, и многие основные технологии находятся на передовом международном уровне. Большая модель Spark сочетает в себе способность понимания языка и способность общего выражения большой модели с поисковым плагином, который эффективно решает отраслевые проблемы, такие как сложность обновления новых знаний и тот факт, что вопросы и ответы на факты легко «перепутать».

Из-за крайне высокой стоимости обучения больших моделей рядовые разработчики и малые и средние предприятия не имеют возможности стартовать.Это видно и по результатам отчета: другие фабрики тоже вовсю работают, но будущее далеко.Жестко говоря, возможностей даже поесть за столом может быть мало.

Куда пойдет большая модель в будущем?

На конференции WAIC не так давно игроки, которые вошли в большую модель, уже определили ключевые моменты: сначала решить технические проблемы, затем реализовать сцену и, наконец, реализовать бизнес и масштаб.

В настоящее время мы видим, что большие модели начали глубоко интегрироваться со сценариями и отраслями.Например, большие модели в таких областях, как генерация кода и предсказание структуры белка, подтвердили, что большие модели применялись не только в технологических компаниях, но и предпринимались шаги во всех сферах жизни.

Отечественная крупномасштабная модель быстро перескочила стадию масштабных концептуальных запасов, а масштабная модель ИИ перешла от соревнования параметров к соревнованию приложений.

Например, большая модель Pangu от Huawei была реализована в таких областях, как метеорология, медицинские исследования и разработки, электроэнергетика и языки, и предоставила несколько больших моделей с сотнями миллиардов параметров. Возможности крупномасштабной отраслевой модели Tencent Cloud будут применяться к таким сценариям, как контроль финансовых рисков, интерактивный перевод и интеллектуальное цифровое обслуживание клиентов, что повышает эффективность интеллектуальных приложений, а комплексный сервис MaaS снижает нагрузку на предприятия.

В зависимости от сценария применения, на примере финансовой сферы, крупномасштабная отраслевая модель может поддерживать решения по управлению финансовыми рисками, которые имеют 10-кратное повышение эффективности по сравнению с предыдущим.

Масштабная модель сочетает в себе многолетний опыт противодействия мошенничеству и тысячи реальных бизнес-сценариев.По сравнению с традиционной моделью общий антифрод-эффект увеличился примерно на 20%. Предприятия могут итерировать возможности управления рисками на основе моделей, от сбора образцов, обучения моделей до развертывания и запуска, чтобы исключить ручное участие во всем процессе, а время моделирования сокращается с 2 недель до 2 дней.

Даже при ограниченном накоплении образцов можно выполнить быстрое построение и пропустить процесс «холодного старта».

Как приземлиться и коммерциализировать становится центром внимания производителей.

Это означает, что ИИ вступил в стадию крупномасштабного воспроизводимого промышленного внедрения, и хороших результатов можно добиться только за счет использования последующего обучения с малой или нулевой выборкой, тем самым снижая стоимость разработки ИИ. После того, как крупная модель Baidu Wenxin была модернизирована, стоимость была успешно снижена до 10% по сравнению с прошлым.

Любая отрасль со временем образует олигополию, и крупные модели не исключение.

За последние несколько месяцев появилось большое количество новых масштабных моделей.Будь то безумное желание ухватиться за возможность и боязнь отстать или долговременная раскладка трассы и самоотверженные исследования, каждому игроку это хорошо известно.

Ближний бой сотни моделей будет лишь поэтапным явлением, и конечный результат по-прежнему сосредоточен на небольшом количестве крупных моделей. Причины не более чем следующие:

Во-первых, в процессе эволюции различные предприятия и учреждения постепенно находили свое позиционирование, постепенно двигаясь в сторону подразделения и, наконец, включившись в более полную масштабную модель.

Во-вторых, требуются годы накопления. Масштабная модель, которая реально строится снизу, очень дорогая, требует очень разносторонних возможностей и должна иметь абсолютную долгосрочность в менталитете, а значит, игроки без абсолютной экономической силы останутся на полпути или «умрут» на пути к свету.

В-третьих, есть большой простор для фантазии в будущем больших моделей на уровне приложений. Предполагая, что в каждой отрасли есть огромное пространство для развития, новые технологии ИИ могут быть использованы для повышения эффективности, а ценность на уровне приложений определенно будет отклонена.

Нельзя отрицать, что в будущем все предприятия будут сильно полагаться на большие модели, и все продукты будут разрабатываться на основе больших моделей.

Скорость проникновения в отрасль и доля рынка стали наиболее важными элементами, препятствующими превращению модели крупного предприятия в олигополию.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить