Текущий статус крупномасштабного модельного трека: *С одной стороны, начинающие компании основаны на крупномасштабных моделях с открытым исходным кодом, а с другой стороны, крупные производители используют различные параметры крупномасштабных моделей *.
Согласно неполной статистике организации, в настоящее время в Китае насчитывается 79 крупномасштабных моделей с масштабом более 1 миллиарда параметров. В процессе инволюции больших параметров на рынке стал появляться другой голос: «улучшение параметров без направления развития бессмысленно».
По этой причине, с точки зрения направления развития, некоторые крупные модели были ориентированы на применение вертикальных полей. На основе разработки тысяч моделей база может меняться, но если хорошенько подумать, всегда найдется кто-то, кто может выйти из вертикальной индустрии.
В то же время на ранней стадии разработки, хотя большие модели с закрытым исходным кодом лучше по качеству и относительно безопасны, экология крупномасштабных моделей все-таки нуждается в определенной степени инволюции, а открытый исходный код действительно может способствовать процветанию большие модели. С другой точки зрения, основанной на открытом исходном коде, многие компании имеют квалификацию для участия в треке, но всегда есть люди, которые легко попадают на первый уровень — нехватка вычислительных мощностей.
В конце концов, количество больших моделей увеличивается кратно, но если мы однобоко посмотрим на растущее количество больших моделей, то в какой-то степени мы проигнорируем выбор, борьбу и даже проблемы некоторых компаний, стоящих за большими. модели.Возможность отказа после выбора.
Как мы все знаем, искусственный интеллект состоит из трех элементов: вычислительная мощность, алгоритм и данные. Открытый исходный код находится только на стадии алгоритма, после чего предприятиям требуется большая вычислительная мощность и обучение данным, стоимость этого высока.
01 Вертикальная модель, есть ли надежда у начинающих компаний?
При выборе больших моделей с открытым исходным кодом по соображениям стоимости и индивидуальной разработки немало предпринимательских предприятий, которые выбирают модели с малыми параметрами, и они даже являются первым выбором таких предприятий.
**Одним из них является вопрос стоимости предварительной подготовки. **
Компания Guosheng Securities однажды подсчитала, что стоимость обучения GPT-3 составляет около 1,4 миллиона долларов США, а для некоторых более крупных моделей LLM стоимость обучения составляет от 2 до 12 миллионов долларов США.
В том числе в январе этого года ChatGPT ежедневно используют в среднем около 13 миллионов уникальных посетителей.Соответствующий спрос на чипы составляет более 30 000 графических процессоров NVIDIA A100. Первоначальные инвестиции составляют около 800 миллионов долларов США, а ежедневные затраты на электроэнергию составляют около 50 000. Доллары США.
Более того, прежде чем вкладывать большие деньги, необходимо много ресурсов данных для поддержки обучения модели. Другой причиной этого является вопрос о требованиях к предварительной подготовке.
Некоторые представители отрасли также высказали свое мнение по этому поводу: «Обобщающая способность самой большой модели по-прежнему ограничена данными».
Потому что, как только высококачественные данные большой модели будут проверены и обучены слишком мало, проблема качества вывода большой модели станет очевидной, и пользовательский опыт будет значительно снижен с точки зрения опыта.
Можно сказать, что в процессе предобучения было потрачено много денег и времени как раз на накопление данных.
Более того, в масштабной модели большинство стартапов развиваются вокруг вертикального поля отрасли, хотя усилия относительно небольшие, это не должно быть легко.
Конкретно, если большая модель хочет изменить бизнес-модель отрасли, то простейший критерий для суждения об этом — достаточно ли в большой модели этого типа отраслевых данных, например, необходимо проанализировать черные продукты, скрытые в темно.Только при достаточном понимании мы не можем быть использованы черными продуктами и находиться в безопасном и пассивном состоянии.
** Еще одним критерием оценки является качество конечного вывода данных, обрабатываемых большой моделью при ее запуске. **
В конце концов, если вы хотите разрушить монополию модели, основанной на модели с открытым исходным кодом, вам необходимо оптимизировать и улучшить большой объем данных и инвестировать в достаточное количество инфраструктуры.
Сегодняшняя модель с открытым исходным кодом на самом деле больше похожа на Android в эпоху Интернета.Начинающим компаниям нелегко развиваться без преимуществ сценариев посадки крупных производителей и накопления данных, но возможности все же есть.
Фактически, Институт Бодхидхармы когда-то считал «совместную разработку больших и малых моделей» одной из будущих тенденций.
Даже начинающая компания Zuiyi Technology считает, что «вертикальная большая модель — это солидная возможность, точно так же, как открытие американского континента — это гораздо больше, чем просто один человек».
Итак, теперь мы видим, что многие стартапы начали выбирать путь крупномасштабной модели, в том числе DriveGPT Xuehu Hairuo, Qizhi Kongming и ChatYuan Yuanyu, запущенные стартапами ИИ, такими как Momo Zhixing, Innovation Qizhi и Yuanyu Intelligence, и другими. большие модели.
Однако, несмотря на отсутствие отечественных продуктов для С-конца, основанных на В-конце, основные производители начали процесс начального внедрения.
Сообщается, что крупные производители в настоящее время планируют экспортировать большие модели через облако.Облачные вычисления стали лучшим способом реализации большой модели.Модель как услуга (MaaS) привлекает все больше и больше внимания, и это также принесет стоимость больших моделей уменьшится.
Итак, есть ли еще надежда для стартапов?
02 Соответствует ли опыт использования продукта рыночному спросу?
По прогнозу авторитетного журнала «Fast Company», выручка OpenAI в 2023 году достигнет 200 млн долларов США, включая предоставление услуг интерфейса данных API, абонентскую плату за обслуживание чат-роботов и т. д.
Очевидно, что в различных отраслях промышленности существует спрос на большие модели, но, исходя из соображений безопасности и отношения компании B к большим моделям, текущий запас прочности больших моделей ограничен. Таким образом, на относительно базовом уровне крупные интернет-компании также отдают приоритет диалогам с высоким спросом, созданию контента документов и сценариям вопросов и ответов, включая диалоги в совместном офисе, генерации документов и многим другим сценариям.
Например, теперь людям нужно только сообщить ИИ информацию о продукте, позволить ИИ автоматически генерировать различные стили сценариев и стилей доставки продуктов, а затем назначать цифрового человека-якоря, чтобы помочь компаниям продавать товары. По данным Baidu, по сравнению с прямой трансляцией, цифровая прямая трансляция может обеспечить 7*24 часов непрерывной прямой трансляции, а коэффициент конверсии в два раза выше, чем у беспилотных комнат прямого вещания.
Используя облачную инфраструктуру в качестве необходимой базы для крупномасштабного предпринимательства, интернет-гиганты с облачными вычислениями имеют определенные преимущества.
Согласно данным глобального отслеживания рынка облачных вычислений IaaS за 2022 год, опубликованным IDC, все 10 ведущих игроков на рынке — это крупные компании в Китае и США, включая Amazon, Google, Microsoft и IBM в США, а также Ali, Huawei, Tencent и Baidu в Китае.
Хотя споры о больших моделях с открытым исходным кодом и закрытым исходным кодом не закончатся с появлением одного или нескольких продуктов, требуется больше участия лучших специалистов, техническая итерация и финансовая поддержка.
Но если сравнивать по горизонтали, то многим начинающим компаниям, занимающимся ИИ, также не хватает удачи стартапа-единорога MiniMax. (Разница в том, что MiniMax фокусируется на общих больших моделях)
20 июля Tencent Cloud сообщила о последнем прогрессе в помощи MiniMax в разработке больших моделей. В настоящее время Tencent Cloud поддерживает задачи MiniMax на уровне килокалорий, чтобы стабильно работать в Tencent Cloud в течение длительного времени с доступностью 99,9%.
Сообщается, что начиная с июня 2022 года, основываясь на таких возможностях продукта, как кластеры вычислительной мощности, облачная среда, большие данные и безопасность, Tencent Cloud построила облачную архитектуру для MiniMax на уровне ресурсов, уровне данных и бизнес-уровне.
Реальность, похоже, еще раз доказывает, что получение входного билета — это первый шаг, а следующим испытанием является способность участников рынка изучать коммерциализацию и технологическую модернизацию. Проще говоря, стартапы в сфере ИИ хотят идти по дорожке до конца, и они не должны промахиваться на каждом шагу.
В какой-то мере начинающие компании не лишены преимуществ при разработке крупных моделей.
Хотя некоторые крупные интернет-компании уже реализовали первоначальные сценарии или начали продавать услуги для получения дохода, взоры крупных компаний и MiniMax больше прикованы к универсальным крупным моделям.
Вертикальный макет по-прежнему остается вакуумом. Особенно для традиционных групп предприятий, учитывая низкие ИТ-атрибуты их собственного бизнеса и низкое отношение затрат к производству, вероятность выбора крупной самостоятельно разработанной модели низка.
Например, Chuangxin Qizhi фокусируется на крупномасштабном промышленном модельном продукте «Qizhi Kongming», имеет определенное преимущество в данных и разрабатывает крупномасштабную модель языка в ChatYuan, основная самоуправляемая генеративная крупномасштабная модель DriveGPT Xuehu · Hairuo .
Однако есть что сказать, данные и направления тренировок разные, да и стоимость сильно разнится.
Во-первых, стоимость обучения большой метаязыковой модели с нуля может достигать десятков миллионов юаней. В области генеративного автономного вождения необходимо разработать новый язык, отличный от ChatGPT, а затем «перевести» все данные о реальном дорожном движении на единый язык.
В определенной степени начинающие компании с ИИ могут реализовать большие инвестиции в крупные модели и получить больше выгоды от успеха ChatGPT в бизнесе и маркетинге, который может мгновенно позволить людям убедиться в осуществимости больших моделей, вместо того, чтобы продолжать спрятаться в длинной технической итерации.
По этой причине первым шагом к реализации текущей реализации является то, что стоимость обучения и стоимость рассуждений большой модели должны быть ниже, чем у поиска, а также может быть гарантирована оперативность.
03 Насколько сложно пройти путь от концепции до реализации?
Существует мнение, что китайские крупные стартапы, которые могут иссякнуть, скорее всего, будут вертикально интегрированными.
Проще говоря, при создании базовой большой модели определите окончательный сценарий основного приложения модели, соберите пользовательские данные и выполните быстрые итерации.
Визуально к этой категории больше склонен металингвистический интеллект. Подводя итог, можно сказать, что в течение долгого времени метаязыковый интеллект был сосредоточен на работе с большими моделями естественного языка.
Главный операционный директор Yuanyu Чжу Лэй также сказал: «Мы не будем слепо расширять бизнес в области изображений и видео только для того, чтобы последовать их примеру. Важна хорошая деловая направленность».
Однако другим начинающим компаниям, разрабатывающим крупномасштабные вертикальные модели, такие как автономное вождение и промышленное производство, может не хватать знаний о некоторых специальных отраслевых данных.
В конце концов, в вертикальной крупномасштабной модельной дорожке ключевым фактором будущей конкуренции предприятий являются частные данные и частный опыт.Когда процесс отдельной компании не известен крупномасштабным моделистам, он может иметь уникальную конкурентоспособность.
Кроме того, в процессе бизнес-фокуса также требуется точность данных от источника до предварительной подготовки и вывода.
Генеративный ИИ также в настоящее время получает больше внимания со стороны регулирующих органов. Недавно Китай опубликовал «Меры по управлению службой генеративного искусственного интеллекта (проект для комментариев)», в которых четко указано, что не должно быть дискриминации, генерируемый контент должен быть правдивым и точным, а ложная информация должна предотвращаться. дополнение к фильтрации контента, оптимизации модели и так далее для оптимизации.
Однако, если это врожденный дефект генеративного искусственного интеллекта, технически сложно гарантировать и полностью решить его.
Кроме того, с появлением лучшей модели с открытым исходным кодом будет приток большего числа компаний, желающих попробовать.Разве это не конкуренция для начинающих компаний?
Например, текущая Llama 2, 18 июля Meta выпустила коммерческую версию Llama 2 первой модели искусственного интеллекта с открытым исходным кодом Llama. Некоторые компании считают, что, согласно текущим различным оценочным документам, в дополнение к плохой способности кодирования, на самом деле, многие места начали приближаться к ChatGPT.
Возможно, безумие сообщества open source в будущем популяризирует крупномасштабные модели с базовыми возможностями, а приватизированные крупномасштабные модели в будущем будут ценой капусты. Грубо говоря, компании могут очень дешево использовать модель приватизации.
Что еще более важно, Тан Даошэн однажды сказал: «Общая крупная модель обладает большими возможностями, но она не может решить конкретные проблемы многих предприятий. Она может решить 70-80% проблем в 100 сценариях, но может быть не в состоянии решить специфические проблемы многих предприятий.100% удовлетворить потребности определенного сценария предприятия.Однако, если предприятие проводит тонкую настройку на основе большой модели отрасли и собственных данных, оно может построить специальную модель и создать высоко доступные интеллектуальные сервисы».
Конечно, такая модель приватизации еще не наступила, но у стартапов в пути должны быть как возможности, так и трудности.
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Насколько сложно посадить вертикальную модель?
Первоисточник: те вещи в Интернете
Текущий статус крупномасштабного модельного трека: *С одной стороны, начинающие компании основаны на крупномасштабных моделях с открытым исходным кодом, а с другой стороны, крупные производители используют различные параметры крупномасштабных моделей *.
По этой причине, с точки зрения направления развития, некоторые крупные модели были ориентированы на применение вертикальных полей. На основе разработки тысяч моделей база может меняться, но если хорошенько подумать, всегда найдется кто-то, кто может выйти из вертикальной индустрии.
В то же время на ранней стадии разработки, хотя большие модели с закрытым исходным кодом лучше по качеству и относительно безопасны, экология крупномасштабных моделей все-таки нуждается в определенной степени инволюции, а открытый исходный код действительно может способствовать процветанию большие модели. С другой точки зрения, основанной на открытом исходном коде, многие компании имеют квалификацию для участия в треке, но всегда есть люди, которые легко попадают на первый уровень — нехватка вычислительных мощностей.
В конце концов, количество больших моделей увеличивается кратно, но если мы однобоко посмотрим на растущее количество больших моделей, то в какой-то степени мы проигнорируем выбор, борьбу и даже проблемы некоторых компаний, стоящих за большими. модели.Возможность отказа после выбора.
Как мы все знаем, искусственный интеллект состоит из трех элементов: вычислительная мощность, алгоритм и данные. Открытый исходный код находится только на стадии алгоритма, после чего предприятиям требуется большая вычислительная мощность и обучение данным, стоимость этого высока.
01 Вертикальная модель, есть ли надежда у начинающих компаний?
При выборе больших моделей с открытым исходным кодом по соображениям стоимости и индивидуальной разработки немало предпринимательских предприятий, которые выбирают модели с малыми параметрами, и они даже являются первым выбором таких предприятий.
**Одним из них является вопрос стоимости предварительной подготовки. **
В том числе в январе этого года ChatGPT ежедневно используют в среднем около 13 миллионов уникальных посетителей.Соответствующий спрос на чипы составляет более 30 000 графических процессоров NVIDIA A100. Первоначальные инвестиции составляют около 800 миллионов долларов США, а ежедневные затраты на электроэнергию составляют около 50 000. Доллары США.
Более того, прежде чем вкладывать большие деньги, необходимо много ресурсов данных для поддержки обучения модели. Другой причиной этого является вопрос о требованиях к предварительной подготовке.
Некоторые представители отрасли также высказали свое мнение по этому поводу: «Обобщающая способность самой большой модели по-прежнему ограничена данными».
Можно сказать, что в процессе предобучения было потрачено много денег и времени как раз на накопление данных.
Более того, в масштабной модели большинство стартапов развиваются вокруг вертикального поля отрасли, хотя усилия относительно небольшие, это не должно быть легко.
Конкретно, если большая модель хочет изменить бизнес-модель отрасли, то простейший критерий для суждения об этом — достаточно ли в большой модели этого типа отраслевых данных, например, необходимо проанализировать черные продукты, скрытые в темно.Только при достаточном понимании мы не можем быть использованы черными продуктами и находиться в безопасном и пассивном состоянии.
В конце концов, если вы хотите разрушить монополию модели, основанной на модели с открытым исходным кодом, вам необходимо оптимизировать и улучшить большой объем данных и инвестировать в достаточное количество инфраструктуры.
Сегодняшняя модель с открытым исходным кодом на самом деле больше похожа на Android в эпоху Интернета.Начинающим компаниям нелегко развиваться без преимуществ сценариев посадки крупных производителей и накопления данных, но возможности все же есть.
Фактически, Институт Бодхидхармы когда-то считал «совместную разработку больших и малых моделей» одной из будущих тенденций.
Даже начинающая компания Zuiyi Technology считает, что «вертикальная большая модель — это солидная возможность, точно так же, как открытие американского континента — это гораздо больше, чем просто один человек».
Однако, несмотря на отсутствие отечественных продуктов для С-конца, основанных на В-конце, основные производители начали процесс начального внедрения.
Сообщается, что крупные производители в настоящее время планируют экспортировать большие модели через облако.Облачные вычисления стали лучшим способом реализации большой модели.Модель как услуга (MaaS) привлекает все больше и больше внимания, и это также принесет стоимость больших моделей уменьшится.
Итак, есть ли еще надежда для стартапов?
02 Соответствует ли опыт использования продукта рыночному спросу?
Очевидно, что в различных отраслях промышленности существует спрос на большие модели, но, исходя из соображений безопасности и отношения компании B к большим моделям, текущий запас прочности больших моделей ограничен. Таким образом, на относительно базовом уровне крупные интернет-компании также отдают приоритет диалогам с высоким спросом, созданию контента документов и сценариям вопросов и ответов, включая диалоги в совместном офисе, генерации документов и многим другим сценариям.
Например, теперь людям нужно только сообщить ИИ информацию о продукте, позволить ИИ автоматически генерировать различные стили сценариев и стилей доставки продуктов, а затем назначать цифрового человека-якоря, чтобы помочь компаниям продавать товары. По данным Baidu, по сравнению с прямой трансляцией, цифровая прямая трансляция может обеспечить 7*24 часов непрерывной прямой трансляции, а коэффициент конверсии в два раза выше, чем у беспилотных комнат прямого вещания.
Используя облачную инфраструктуру в качестве необходимой базы для крупномасштабного предпринимательства, интернет-гиганты с облачными вычислениями имеют определенные преимущества.
Но если сравнивать по горизонтали, то многим начинающим компаниям, занимающимся ИИ, также не хватает удачи стартапа-единорога MiniMax. (Разница в том, что MiniMax фокусируется на общих больших моделях)
20 июля Tencent Cloud сообщила о последнем прогрессе в помощи MiniMax в разработке больших моделей. В настоящее время Tencent Cloud поддерживает задачи MiniMax на уровне килокалорий, чтобы стабильно работать в Tencent Cloud в течение длительного времени с доступностью 99,9%.
Сообщается, что начиная с июня 2022 года, основываясь на таких возможностях продукта, как кластеры вычислительной мощности, облачная среда, большие данные и безопасность, Tencent Cloud построила облачную архитектуру для MiniMax на уровне ресурсов, уровне данных и бизнес-уровне.
Реальность, похоже, еще раз доказывает, что получение входного билета — это первый шаг, а следующим испытанием является способность участников рынка изучать коммерциализацию и технологическую модернизацию. Проще говоря, стартапы в сфере ИИ хотят идти по дорожке до конца, и они не должны промахиваться на каждом шагу.
Хотя некоторые крупные интернет-компании уже реализовали первоначальные сценарии или начали продавать услуги для получения дохода, взоры крупных компаний и MiniMax больше прикованы к универсальным крупным моделям.
Вертикальный макет по-прежнему остается вакуумом. Особенно для традиционных групп предприятий, учитывая низкие ИТ-атрибуты их собственного бизнеса и низкое отношение затрат к производству, вероятность выбора крупной самостоятельно разработанной модели низка.
Например, Chuangxin Qizhi фокусируется на крупномасштабном промышленном модельном продукте «Qizhi Kongming», имеет определенное преимущество в данных и разрабатывает крупномасштабную модель языка в ChatYuan, основная самоуправляемая генеративная крупномасштабная модель DriveGPT Xuehu · Hairuo .
Однако есть что сказать, данные и направления тренировок разные, да и стоимость сильно разнится.
Во-первых, стоимость обучения большой метаязыковой модели с нуля может достигать десятков миллионов юаней. В области генеративного автономного вождения необходимо разработать новый язык, отличный от ChatGPT, а затем «перевести» все данные о реальном дорожном движении на единый язык.
По этой причине первым шагом к реализации текущей реализации является то, что стоимость обучения и стоимость рассуждений большой модели должны быть ниже, чем у поиска, а также может быть гарантирована оперативность.
03 Насколько сложно пройти путь от концепции до реализации?
Существует мнение, что китайские крупные стартапы, которые могут иссякнуть, скорее всего, будут вертикально интегрированными.
Визуально к этой категории больше склонен металингвистический интеллект. Подводя итог, можно сказать, что в течение долгого времени метаязыковый интеллект был сосредоточен на работе с большими моделями естественного языка.
Главный операционный директор Yuanyu Чжу Лэй также сказал: «Мы не будем слепо расширять бизнес в области изображений и видео только для того, чтобы последовать их примеру. Важна хорошая деловая направленность».
Однако другим начинающим компаниям, разрабатывающим крупномасштабные вертикальные модели, такие как автономное вождение и промышленное производство, может не хватать знаний о некоторых специальных отраслевых данных.
Кроме того, в процессе бизнес-фокуса также требуется точность данных от источника до предварительной подготовки и вывода.
Генеративный ИИ также в настоящее время получает больше внимания со стороны регулирующих органов. Недавно Китай опубликовал «Меры по управлению службой генеративного искусственного интеллекта (проект для комментариев)», в которых четко указано, что не должно быть дискриминации, генерируемый контент должен быть правдивым и точным, а ложная информация должна предотвращаться. дополнение к фильтрации контента, оптимизации модели и так далее для оптимизации.
Однако, если это врожденный дефект генеративного искусственного интеллекта, технически сложно гарантировать и полностью решить его.
Например, текущая Llama 2, 18 июля Meta выпустила коммерческую версию Llama 2 первой модели искусственного интеллекта с открытым исходным кодом Llama. Некоторые компании считают, что, согласно текущим различным оценочным документам, в дополнение к плохой способности кодирования, на самом деле, многие места начали приближаться к ChatGPT.
Возможно, безумие сообщества open source в будущем популяризирует крупномасштабные модели с базовыми возможностями, а приватизированные крупномасштабные модели в будущем будут ценой капусты. Грубо говоря, компании могут очень дешево использовать модель приватизации.
Что еще более важно, Тан Даошэн однажды сказал: «Общая крупная модель обладает большими возможностями, но она не может решить конкретные проблемы многих предприятий. Она может решить 70-80% проблем в 100 сценариях, но может быть не в состоянии решить специфические проблемы многих предприятий.100% удовлетворить потребности определенного сценария предприятия.Однако, если предприятие проводит тонкую настройку на основе большой модели отрасли и собственных данных, оно может построить специальную модель и создать высоко доступные интеллектуальные сервисы».
Конечно, такая модель приватизации еще не наступила, но у стартапов в пути должны быть как возможности, так и трудности.