Насколько сложно посадить вертикальную модель?

Question

Первоисточник: те вещи в Интернете![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e08b39ed63-dd1a6f-1c6801) Источник изображения: сгенерировано Unbounded AI‌Текущий статус крупномасштабного модельного трека: **С одной стороны, начинающие компании основаны на крупномасштабных моделях с открытым исходным кодом, а с другой стороны, крупные производители используют различные параметры крупномасштабных моделей* *.> Согласно неполной статистике организации, в настоящее время в Китае насчитывается 79 крупномасштабных моделей с масштабом более 1 миллиарда параметров. В процессе инволюции больших параметров на рынке стал появляться другой голос: «улучшение параметров без направления развития бессмысленно».По этой причине, с точки зрения направления развития, некоторые крупные модели были ориентированы на применение вертикальных полей. На основе разработки тысяч моделей база может меняться, но если хорошенько подумать, всегда найдется кто-то, кто может выйти из вертикальной индустрии.В то же время на ранней стадии разработки, хотя большие модели с закрытым исходным кодом лучше по качеству и относительно безопасны, экология крупномасштабных моделей все-таки нуждается в определенной степени инволюции, а открытый исходный код действительно может способствовать процветанию большие модели. С другой точки зрения, основанной на открытом исходном коде, многие компании имеют квалификацию для участия в треке, но всегда есть люди, которые легко попадают на первый уровень — нехватка вычислительных мощностей.В конце концов, количество больших моделей увеличивается кратно, но если мы однобоко посмотрим на растущее количество больших моделей, то в какой-то степени мы проигнорируем выбор, борьбу и даже проблемы некоторых компаний, стоящих за большими. модели.Возможность отказа после выбора.Как мы все знаем, искусственный интеллект состоит из трех элементов: **вычислительная мощность, алгоритм и данные**. Открытый исходный код находится только на стадии алгоритма, после чего предприятиям требуется большая вычислительная мощность и обучение данным, стоимость этого высока.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6f845a3753-dd1a6f-1c6801)## 01 Вертикальная модель, есть ли надежда у начинающих компаний?При выборе больших моделей с открытым исходным кодом по соображениям стоимости и индивидуальной разработки немало предпринимательских предприятий, которые выбирают модели с малыми параметрами, и они даже являются первым выбором таких предприятий.**Одним из них является вопрос стоимости предварительной подготовки. **> Компания Guosheng Securities однажды подсчитала, что стоимость обучения GPT-3 составляет около 1,4 миллиона долларов США, а для некоторых более крупных моделей LLM стоимость обучения составляет от 2 до 12 миллионов долларов США.В том числе в январе этого года ChatGPT ежедневно используют в среднем около 13 миллионов уникальных посетителей.Соответствующий спрос на чипы составляет более 30 000 графических процессоров NVIDIA A100. Первоначальные инвестиции составляют около 800 миллионов долларов США, а ежедневные затраты на электроэнергию составляют около 50 000. Доллары США.Более того, прежде чем вкладывать большие деньги, необходимо много ресурсов данных для поддержки обучения модели. Другой причиной этого является вопрос о требованиях к предварительной подготовке.Некоторые представители отрасли также высказали свое мнение по этому поводу: «Обобщающая способность самой большой модели по-прежнему ограничена данными».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4eec942c67-dd1a6f-1c6801) Потому что, как только высококачественные данные большой модели будут проверены и обучены слишком мало, проблема качества вывода большой модели станет очевидной, и пользовательский опыт будет значительно снижен с точки зрения опыта.Можно сказать, что в процессе предобучения было потрачено много денег и времени как раз на накопление данных.Более того, в масштабной модели большинство стартапов развиваются вокруг вертикального поля отрасли, хотя усилия относительно небольшие, это не должно быть легко.Конкретно, если большая модель хочет изменить бизнес-модель отрасли, то простейший критерий для суждения об этом — достаточно ли в большой модели этого типа отраслевых данных, например, необходимо проанализировать черные продукты, скрытые в темно.Только при достаточном понимании мы не можем быть использованы черными продуктами и находиться в безопасном и пассивном состоянии.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2fd8165013-dd1a6f-1c6801) ** Еще одним критерием оценки является качество конечного вывода данных, обрабатываемых большой моделью при ее запуске. **В конце концов, если вы хотите разрушить монополию модели, основанной на модели с открытым исходным кодом, вам необходимо оптимизировать и улучшить большой объем данных и инвестировать в достаточное количество инфраструктуры.Сегодняшняя модель с открытым исходным кодом на самом деле больше похожа на Android в эпоху Интернета.Начинающим компаниям нелегко развиваться без преимуществ сценариев посадки крупных производителей и накопления данных, но возможности все же есть.Фактически, Институт Бодхидхармы когда-то считал «совместную разработку больших и малых моделей» одной из будущих тенденций.Даже начинающая компания Zuiyi Technology считает, что «вертикальная большая модель — это солидная возможность, точно так же, как открытие американского континента — это гораздо больше, чем просто один человек».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-93333c8386-dd1a6f-1c6801) Итак, теперь мы видим, что многие стартапы начали выбирать путь крупномасштабной модели, в том числе DriveGPT Xuehu Hairuo, Qizhi Kongming и ChatYuan Yuanyu, запущенные стартапами ИИ, такими как Momo Zhixing, Innovation Qizhi и Yuanyu Intelligence, и другими. большие модели.Однако, несмотря на отсутствие отечественных продуктов для С-конца, основанных на В-конце, основные производители начали процесс начального внедрения.Сообщается, что крупные производители в настоящее время планируют экспортировать большие модели через облако.Облачные вычисления стали лучшим способом реализации большой модели.Модель как услуга (MaaS) привлекает все больше и больше внимания, и это также принесет стоимость больших моделей уменьшится.Итак, есть ли еще надежда для стартапов?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-183a1d49c5-dd1a6f-1c6801)## 02 Соответствует ли опыт использования продукта рыночному спросу?> По прогнозу авторитетного журнала «Fast Company», выручка OpenAI в 2023 году достигнет 200 млн долларов США, включая предоставление услуг интерфейса данных API, абонентскую плату за обслуживание чат-роботов и т. д.Очевидно, что в различных отраслях промышленности существует спрос на большие модели, но, исходя из соображений безопасности и отношения компании B к большим моделям, текущий запас прочности больших моделей ограничен. Таким образом, на относительно базовом уровне крупные интернет-компании также отдают приоритет диалогам с высоким спросом, созданию контента документов и сценариям вопросов и ответов, включая диалоги в совместном офисе, генерации документов и многим другим сценариям.Например, теперь людям нужно только сообщить ИИ информацию о продукте, позволить ИИ автоматически генерировать различные стили сценариев и стилей доставки продуктов, а затем назначать цифрового человека-якоря, чтобы помочь компаниям продавать товары. По данным Baidu, по сравнению с прямой трансляцией, цифровая прямая трансляция может обеспечить 7\*24 часов непрерывной прямой трансляции, а коэффициент конверсии в два раза выше, чем у беспилотных комнат прямого вещания.Используя облачную инфраструктуру в качестве необходимой базы для крупномасштабного предпринимательства, интернет-гиганты с облачными вычислениями имеют определенные преимущества.> Согласно данным глобального отслеживания рынка облачных вычислений IaaS за 2022 год, опубликованным IDC, все 10 ведущих игроков на рынке — это крупные компании в Китае и США, включая Amazon, Google, Microsoft и IBM в США, а также Ali, Huawei, Tencent и Baidu в Китае.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-53326b8418-dd1a6f-1c6801) Хотя споры о больших моделях с открытым исходным кодом и закрытым исходным кодом не закончатся с появлением одного или нескольких продуктов, требуется больше участия лучших специалистов, техническая итерация и финансовая поддержка.Но если сравнивать по горизонтали, то многим начинающим компаниям, занимающимся ИИ, также не хватает удачи стартапа-единорога MiniMax. (Разница в том, что MiniMax фокусируется на общих больших моделях)20 июля Tencent Cloud сообщила о последнем прогрессе в помощи MiniMax в разработке больших моделей. В настоящее время Tencent Cloud поддерживает задачи MiniMax на уровне килокалорий, чтобы стабильно работать в Tencent Cloud в течение длительного времени с доступностью 99,9%.Сообщается, что начиная с июня 2022 года, основываясь на таких возможностях продукта, как кластеры вычислительной мощности, облачная среда, большие данные и безопасность, Tencent Cloud построила облачную архитектуру для MiniMax на уровне ресурсов, уровне данных и бизнес-уровне.Реальность, похоже, еще раз доказывает, что получение входного билета — это первый шаг, а следующим испытанием является способность участников рынка изучать коммерциализацию и технологическую модернизацию. Проще говоря, стартапы в сфере ИИ хотят идти по дорожке до конца, и они не должны промахиваться на каждом шагу.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-82f1a392c9-dd1a6f-1c6801) В какой-то мере начинающие компании не лишены преимуществ при разработке крупных моделей.Хотя некоторые крупные интернет-компании уже реализовали первоначальные сценарии или начали продавать услуги для получения дохода, взоры крупных компаний и MiniMax больше прикованы к универсальным крупным моделям.Вертикальный макет по-прежнему остается вакуумом. Особенно для традиционных групп предприятий, учитывая низкие ИТ-атрибуты их собственного бизнеса и низкое отношение затрат к производству, вероятность выбора крупной самостоятельно разработанной модели низка.Например, Chuangxin Qizhi фокусируется на крупномасштабном промышленном модельном продукте «Qizhi Kongming», имеет определенное преимущество в данных и разрабатывает крупномасштабную модель языка в ChatYuan, основная самоуправляемая генеративная крупномасштабная модель DriveGPT Xuehu · Hairuo .Однако есть что сказать, данные и направления тренировок разные, да и стоимость сильно разнится.Во-первых, стоимость обучения большой метаязыковой модели с нуля может достигать десятков миллионов юаней. В области генеративного автономного вождения необходимо разработать новый язык, отличный от ChatGPT, а затем «перевести» все данные о реальном дорожном движении на единый язык.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-485a9bccae-dd1a6f-1c6801) В определенной степени начинающие компании с ИИ могут реализовать большие инвестиции в крупные модели и получить больше выгоды от успеха ChatGPT в бизнесе и маркетинге, который может мгновенно позволить людям убедиться в осуществимости больших моделей, вместо того, чтобы продолжать спрятаться в длинной технической итерации.По этой причине первым шагом к реализации текущей реализации является то, что стоимость обучения и стоимость рассуждений большой модели должны быть ниже, чем у поиска, а также может быть гарантирована оперативность.## 03 Насколько сложно пройти путь от концепции до реализации?Существует мнение, что китайские крупные стартапы, которые могут иссякнуть, скорее всего, будут вертикально интегрированными.> Проще говоря, при создании базовой большой модели определите окончательный сценарий основного приложения модели, соберите пользовательские данные и выполните быстрые итерации.Визуально к этой категории больше склонен металингвистический интеллект. Подводя итог, можно сказать, что в течение долгого времени метаязыковый интеллект был сосредоточен на работе с большими моделями естественного языка.Главный операционный директор Yuanyu Чжу Лэй также сказал: «Мы не будем слепо расширять бизнес в области изображений и видео только для того, чтобы последовать их примеру. Важна хорошая деловая направленность».Однако другим начинающим компаниям, разрабатывающим крупномасштабные вертикальные модели, такие как автономное вождение и промышленное производство, может не хватать знаний о некоторых специальных отраслевых данных.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d213e0ad86-dd1a6f-1c6801) В конце концов, в вертикальной крупномасштабной модельной дорожке ключевым фактором будущей конкуренции предприятий являются частные данные и частный опыт.Когда процесс отдельной компании не известен крупномасштабным моделистам, он может иметь уникальную конкурентоспособность.Кроме того, в процессе бизнес-фокуса также требуется точность данных от источника до предварительной подготовки и вывода.Генеративный ИИ также в настоящее время получает больше внимания со стороны регулирующих органов. Недавно Китай опубликовал «Меры по управлению службой генеративного искусственного интеллекта (проект для комментариев)», в которых четко указано, что не должно быть дискриминации, генерируемый контент должен быть правдивым и точным, а ложная информация должна предотвращаться. дополнение к фильтрации контента, оптимизации модели и так далее для оптимизации.Однако, если это врожденный дефект генеративного искусственного интеллекта, технически сложно гарантировать и полностью решить его.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5c42394c68-dd1a6f-1c6801) Кроме того, с появлением лучшей модели с открытым исходным кодом будет приток большего числа компаний, желающих попробовать.Разве это не конкуренция для начинающих компаний?Например, текущая Llama 2, 18 июля Meta выпустила коммерческую версию Llama 2 первой модели искусственного интеллекта с открытым исходным кодом Llama. Некоторые компании считают, что, согласно текущим различным оценочным документам, в дополнение к плохой способности кодирования, на самом деле, многие места начали приближаться к ChatGPT.Возможно, безумие сообщества open source в будущем популяризирует крупномасштабные модели с базовыми возможностями, а приватизированные крупномасштабные модели в будущем будут ценой капусты. Грубо говоря, компании могут очень дешево использовать модель приватизации.Что еще более важно, Тан Даошэн однажды сказал: «Общая крупная модель обладает большими возможностями, но она не может решить конкретные проблемы многих предприятий. Она может решить 70-80% проблем в 100 сценариях, но может быть не в состоянии решить специфические проблемы многих предприятий.100% удовлетворить потребности определенного сценария предприятия.Однако, если предприятие проводит тонкую настройку на основе большой модели отрасли и собственных данных, оно может построить специальную модель и создать высоко доступные интеллектуальные сервисы».Конечно, такая модель приватизации еще не наступила, но у стартапов в пути должны быть как возможности, так и трудности.