В последние месяцы очень очевидная тенденция развития отечественных больших моделей заключается в том, что все собираются вместе для создания больших моделей в отрасли. Не только компании в различных вертикальных областях выпустили множество крупных отраслевых моделей, но и ведущие гиганты, такие как Baidu, Alibaba, Huawei, Tencent и JD.com, также рассматривают крупные отраслевые модели в качестве ключевого направления.
В частности, этих производителей можно разделить на две категории в зависимости от доли крупных моделей в их стратегиях:
Baidu, Alibaba, Tencent и iFlytek уделяют одинаковое внимание как обычным крупным моделям, так и крупным отраслевым моделям.
С одной стороны, они уделяют больше внимания общим большим моделям и открывают общие большие модели для C-конечных пользователей. Байду Вэньсинийян и iFlytek Spark компании iFlytek даже создали мобильные приложения для продвижения применения обычных больших моделей.
С другой стороны, они также уделяют большое внимание крупным отраслевым моделям. Как правило, они экспортируются за границу в виде отраслевых решений. Даже 19 сентября Baidu напрямую запустила крупную модель медицинской отрасли — Модель духовной медицины, которая напрямую обслуживает больницы, пациентов и компании, производящие медицинское оборудование.
Другую категорию представляют Huawei и JD.com, которые с самого начала ориентировались на крупномасштабные промышленные модели и напрямую ориентированы на отраслевые приложения.
Лозунгом модели Pangu от Huawei с самого начала было: «Не пишите стихи, просто делайте что-то».
Большая модель Yanxi от JD.com аналогична. Придерживаясь концепции JD Cloud «облака, которое лучше понимает отрасль», JD.com также фокусируется на отраслевых приложениях в области больших моделей. Кроме того, JD Health также выпустила большую модель Jingyi Qianxun как пионера в отрасли.
Можно обнаружить, что будь то Baidu, Alibaba, Tencent и iFlytek, которые «уделяют одинаковое внимание обоим фронтам», или Huawei и JD.com, которые почти «сражаются на одном фронте», все они рассматривают большую модель отрасли. как поле битвы для военных стратегов.
Автор считает, что это проблематично. Этим технологическим гигантам следует сосредоточиться на общих больших моделях, а отраслевые приложения следует оставить партнерам в различных областях промышленности.
Почему мы так говорим?Далее давайте подробно разберем плюсы и минусы.
Гигантам следует сосредоточиться на исследованиях и разработках общих больших моделей.
Общие большие модели подобны фундаменту всей индустрии больших моделей. От того, прочный фундамент или нет, будет зависеть, насколько высоким может быть построено здание. Итак, является ли нынешний фундамент прочным?
К сожалению, хотя большие модели изначально достигли «появления» интеллекта и добились большого прогресса в понимании естественного языка, генерации контента и логическом рассуждении, они недостаточно хороши. Особенно если мы хотим коммерчески внедрять большие модели в различных отраслях, возможностей нынешних моделей недостаточно.
Упомянутая здесь способность недостаточно сильна и не относится конкретно к определенной большой модели.
Даже GPT-4 по-прежнему имеет значительные недостатки в возможностях, если его хотят реализовать в коммерческой сфере. Давайте посмотрим на несколько примеров.
Поисковые системы являются важным сценарием применения для больших моделей. Microsoft Bing добился значительного изменения, изменив исходный метод поиска по ключевым словам из-за доступа к ChatGPT. Итак, какова реальная производительность Bing с помощью ChatGPT?
Мы попробовали это, и, честно говоря, это нас очень разочаровало.
Ниже приведен пример. Позвольте Bing найти новости о крупных моделях сегодня (26 сентября). Приведены четыре новости. После нажатия на них содержимое элементов 1 и 3 фактически взято из новостной статьи, и это первые новость вышла 21 февраля, вторая и четвёртая также из той же новостной статьи, вышедшей 27 июля.
Другими словами, предоставленные новости неверны. Мы ищем сегодняшние новости, но в результате получается контент, полученный несколько месяцев назад. Кроме того, мы ищем важные события в области больших моделей.Среди четырех ответов есть два доклада, новостная аналитическая статья и активность на форуме. Строго говоря, отчеты и аналитические статьи не являются важными новостными событиями, и с этой точки зрения результаты, предоставляемые Bing, совершенно не соответствуют требованиям.
Затем автор задал дальнейшие вопросы и попросил его использовать таблицу, чтобы разобраться в представленном новостном содержании. В результате в таблице, которую он привел, время новостей изменено на 26 сентября, а если говорить о конкретном времени, то это явно ерунда.
Когда-то автор возлагал большие надежды на новые поисковые системы, такие как Bing, и много раз пробовал их. Но общее ощущение - практически непригодно для использования. Это фактическая производительность ChatGPT в области поиска. В некоторой степени это представляет собой высший уровень, которого могут достичь большие модели.
Baidu также запустила аналогичную функцию. Помимо обычного веб-поиска, вы также можете делать запросы через разговоры. Нам не терпелось попробовать ее.
По сравнению с Bing, Baidu лучше понимает новостные события. Bing предоставляет несколько отчетов, а Baidu дает результаты, основанные на крупных выпусках моделей. Новостная ценность этих событий явно выше.
Однако надежны ли эти результаты, предоставленные Baidu? Точно так же мы разрешаем составлять его в табличной форме и даем время новостей и ссылки. Можно обнаружить, что все время указано на 11 мая, что явно проблематично.Мы хотим, чтобы новости были 26 сентября, а не 11 мая.
Кроме того, существует проблема со ссылкой на новость, приведенной в таблице: при открытии соответствующей веб-страницы она сразу возвращает «404». Конечно, у Microsoft Bing тоже есть эта проблема: ссылки на новости, которые он дает, либо не открываются, либо вообще не существуют.
Возвращаясь к ChatGPT, одним из его важных ограничений является то, что он не может быть подключен к Интернету и его данные не могут обновляться в режиме реального времени.Набор обучающих данных GPT-3 датирован сентябрь 2021 года, а набор обучающих данных GPT -4 по состоянию на январь 2022 года. Луна.
Более того, ChatGPT часто допускает ошибки при сложных вычислениях и обработке данных. Заявленные возможности загрузки и понимания текста также не идеальны.
Давайте попробуем возможности понимания документов GPT-4. Мы загрузили полугодовой отчет Loongson Zhongke за 2023 год и попытались провести простой SWOT-анализ. После загрузки документа ChatGPT начинает писать код для анализа документа, который кажется очень мощным.
Каков был результат?
В итоге ChatGPT не удалось проанализировать PDF-документ. Мы пытались несколько раз, но не смогли его проанализировать.
Только представьте, опираясь на эти большие модели, если вы захотите реализовать их в сложных отраслевых сценариях, эффект определенно будет не идеальным, а они уже являются лучшими общими большими моделями на рынке.
Действительно, в крупных моделях произошло некоторое «появление интеллекта», и их возможности качественно улучшились, но сейчас они находятся на начальной стадии, когда «маленький лотос только показывает свои острые грани». Поскольку открытие крупных моделей — перспективное направление, самое главное сейчас — ускорить и вырастить этого потенциального «ребёнка», а не позволить ему преждевременно содержать семью.
Основная причина в том, что ожидания людей были слишком завышены на ранней стадии, и они будут разочарованы, как только обнаружат, что их ожидания не оправдываются.
Точно так же, если мы сейчас поспешим внедрить большие модели в различных отраслях, у нас скоро наступит период проблем, и люди быстро перейдут от огромных ожиданий к безумным жалобам.Такие взлеты и падения не способствуют здоровому развитию отрасли. .
Поэтому основной задачей таких технологических гигантов, как Alibaba, Huawei, Baidu и Tencent, является развитие «дитя» General Model. Пока возможности действительно улучшатся, крупномасштабное внедрение будет происходить очень быстро, поэтому не стоит ждать до сих пор.
В области больших моделей существует хорошо известная кривая появления интеллекта, то есть производительность модели не зависит линейно от шкалы параметров. Модель с 20 миллиардами параметров не в два раза лучше, чем модель с 10 миллиардами. параметры.
На этой кривой развития интеллекта есть порог, который в настоящее время составляет около 100 миллиардов параметров. До этого порога уровень интеллекта, отображаемый моделью, существенно не меняется с увеличением масштаба параметров.Модель с 20 миллиардами параметров работает примерно так же, как модель с 2 миллиардами параметров. Однако когда масштаб параметров превысил порог в 100 миллиардов, производительность модели улучшилась экспоненциально.
Хотя размер модели не может отражать все, судя по опыту развития искусственного интеллекта за последние десять лет, «количественное насилие» часто является ключевым направлением. Более крупные модели, более глубокие нейронные сети и больше данных приведут к повышению производительности.
Судя по текущей кривой появления интеллекта, после масштаба в сотни миллиардов параметров он вступит в период узкого места в интеллекте. Не может быть существенной разницы в «интеллекте» между моделью с 500 миллиардами параметров и моделью со 100 миллиардами параметров . Однако, если мы хотим достичь следующего «аварийного порога», лучший способ на данный момент — продолжать расширять размер параметра. Возможно, после расширения шкалы параметров до десятков триллионов будет пройден следующий порог появления и возможности больших моделей выйдут на новый уровень.
Большая модель интеллектуального картографирования данных прогнозирования появления обезьян
Конечно, по мере расширения масштаба модели стоимость тоже значительно вырастет, так что это может быть игра только для гигантов. Более того, простое увеличение размера модели также приведет к проблемам переобучения. Поэтому расширение масштаба модели также должно сопровождаться оптимизацией и корректировкой архитектуры модели. Именно здесь технические возможности по-настоящему проверяются.
Сделаем шаг назад: все современные большие модели основаны на архитектуре Transformer, и эта архитектура была предложена в статье несколькими исследователями Google пять лет назад. Так действительно ли архитектура Transformer лучшая? Существует ли более совершенная модель архитектуры? На эти вопросы должны ответить такие технологические гиганты, как Huawei, Baidu, Alibaba и Tencent.
Помимо масштаба параметров и архитектуры модели, большие модели также должны решать проблемы «иллюзий», проблемы интерпретируемости и мультимодальные проблемы. Эти проблемы еще не решены должным образом, и это общая проблема, с которой сталкивается вся отрасль. Ключ к решению этих проблем лежит в основе технологических прорывов в общих больших моделях, а не в крупных отраслевых моделях.
Конечно, тот, кто действительно сможет решить эти ключевые проблемы, будет соответственно вознагражден рынком.
Не будьте одновременно судьей и игроком
Причина, по которой технологическим гигантам рекомендуется не трогать большие модели отрасли, заключается в том, что помимо нерешенной проблемы общих больших моделей, еще одной очень важной причиной является избежание конфликтов интересов с партнерами.
Технологические гиганты играют в экологическую игру и делятся преимуществами инфраструктуры.
В области больших моделей маршрут передачи ценности должен быть следующим: общие большие модели – крупные отраслевые модели – отраслевые клиенты. На этапе крупных отраслевых моделей производители крупных моделей, такие как Huawei, Baidu и Alibaba, могут либо разрабатывать крупные отраслевые модели самостоятельно, либо позволять сторонним партнерам проводить исследования и разработки на основе их собственных крупных моделей.
Крупное модельное промышленное приложение, механизм передачи данных, отображение обезьяны
Общие большие модели проверяют технические возможности, тогда как технический порог для крупных отраслевых моделей не очень высок. Его основными элементами являются данные и отраслевой опыт, и эти два пункта являются недостатками технологических гигантов. Собрать высококачественные наборы данных из различных отраслей, таких как финансы, здравоохранение, производство и розничная торговля, а также понять бизнес-сценарии различных отраслей определенно не под силу одной компании. экосистему и использовать тысячи данных со всей экосистемы. Это делают партнеры.
Конечно, обычные производители крупных моделей, такие как Baidu, Huawei и Tencent, также могут использовать оба пути передачи стоимости. Например, в сфере медицины Baidu может не только использовать собственную крупномасштабную модель духовной медицины для непосредственного обслуживания больниц, пациентов и компаний, производящих медицинское оборудование, но и способствовать созданию вертикальной партнерской крупномасштабной модели медицинской системы.
Однако эта ситуация столкнется с проблемой «конкуренции с людьми за прибыль», что является табу в бизнесе.
Представьте, что некая крупномасштабная медицинская модель компании A основывается на общей крупномасштабной модели компании B, открывает свои основные медицинские данные B и обучает крупномасштабную медицинскую модель. Несколько месяцев спустя А обнаружил, что компания Б также запустила крупную медицинскую модель, и ее функции аналогичны ее собственным. Когда отраслевой клиент разместил заказ, он обнаружил, что компания Б также участвует в торгах, и его партнер внезапно стал конкурентом. Если это так, то готова ли компания А по-прежнему сотрудничать с компанией Б?
В экосистеме доверие партнеров к владельцу экосистемы ценится как золото. Только когда партнеры по приложениям верхнего уровня твердо уверены, что эковладелец не будет с ним конфликтовать или украсть его бизнес, он будет чувствовать себя уверенно, размещая свой бизнес на платформе, построенной эковладельцем.
Это чем-то похоже на отношения между поставщиками IaaS и поставщиками SaaS в сфере облачных вычислений. Самая важная причина, по которой многие SaaS-компании в Китае беспокоятся о таких поставщиках облачных услуг, как Alibaba Cloud, Tencent Cloud, Baidu Cloud и Huawei Cloud, заключается в том, что они боятся конфликта интересов. В настоящее время границы бизнеса облачных поставщиков IaaS недостаточно ясны: они не только предоставляют продукты IaaS и PaaS, но и входят во многие области SaaS, что является наиболее табуированным для их SaaS-партнеров.
На ранних стадиях развития китайского Интернета у инвесторов возник знаменитый душераздирающий вопрос к начинающим компаниям: что бы вы сделали, если бы Tencent выпустила тот же продукт?
Точно так же, если обычные производители крупных моделей захотят построить экосистему приложений, то отраслевые производители крупных моделей в области здравоохранения, финансов, государственных дел, производства и других областях также спросят: если вы сделаете что-то вроде меня в будущее, что мне делать?
Так какая же большая модель экосистемы более разумна? Мы можем извлечь уроки из экосистемы облачных вычислений: общая большая модель эквивалентна IaaS, а большая отраслевая модель эквивалентна SaaS.
Baidu, Huawei, Alibaba, Tencent, JD.com, ByteDance, iFlytek и другие ведущие производители общих моделей фокусируются на общих крупных моделях (IaaS+PaaS) и стараются не затрагивать крупные отраслевые модели (SaaS).
Следует отметить, что даже если они не производят крупные отраслевые модели, основные производители крупных моделей все равно могут получать дивиденды от применения больших моделей в отрасли. Точно так же, как приложения SaaS потребляют ресурсы IaaS и платят за IaaS, отраслевая модель верхнего уровня будет использовать возможности общей модели нижнего уровня, и разумная бизнес-модель может быть построена на основе количества вызовов и использования.
Например, Baidu не производит крупномасштабные медицинские модели, но у нее есть 10 партнеров по крупномасштабным медицинским моделям, основанных на Вэнь Синьиян, и каждый партнер обслуживает 1000 больниц. Предположим, что каждая больница платит 1 миллион юаней в год, а Baidu разделяет 20% от этого 1 миллиона юаней. Тогда каждая крупная компания, занимающаяся медицинскими моделями, сможет зарабатывать 1 миллиард юаней в год, а доход Baidu составит 1 миллиард*20%*10=2 миллиарда юаней. Таким образом, Baidu нужно будет обслуживать всего 10 партнеров, а не 10 000 больниц.
По аналогии, если можно построить процветающую отраслевую экосистему больших моделей, промышленное применение больших моделей также может принести десятки миллиардов доходов основным производителям больших моделей.
Обычным производителям крупных моделей, таким как Baidu, Huawei, Tencent и Alibaba, нет необходимости беспокоиться о том, что они упустят дивиденды от приложений для крупных моделей в отрасли. Как и в области облачных вычислений, доход какого поставщика SaaS может сравниться с доходом Alibaba Cloud, Tencent Cloud и Huawei Cloud, предоставляющих IaaS?
Если вы сосредоточитесь на закладке фундамента общей большой модели, вы сможете продать «землю» без необходимости кропотливого перемещения кирпичей для постройки дома. Давайте вернемся к сфере недвижимости: являются ли застройщики, такие как Vanke и Evergrande, наиболее прибыльными? Очевидно, что продать землю выгоднее и проще.
Для крупных производителей моделей в вертикальных отраслях наиболее идеальным вариантом является изучение стратегий кросс-облачного развертывания SaaS для достижения межобщего развертывания крупных моделей отрасли и плавного перехода бизнеса с одной общей модельной платформы на другую. Это позволяет избежать привязки к одной платформе. Конечно, крупные модели в отрасли в настоящее время находятся на очень ранней стадии, и еще слишком рано говорить о развертывании общих моделей.
Сопоставление данных в режиме межмодельного развертывания для крупных отраслевых моделей
Таким образом, технологическим гигантам, таким как Baidu, Huawei, Alibaba и Tencent, рекомендуется сосредоточиться на исследованиях и разработках общих крупных моделей, а не на применении крупных отраслевых моделей.
С одной стороны, большие модели общего назначения пока недостаточно хороши. По-прежнему заметны такие проблемы, как недостаточный уровень интеллекта модели, проблемы галлюцинаций, плохая интерпретируемость, плохая способность к мультимодальному слиянию, а также высокая стоимость обучения модели и вывода. Технологические гиганты должны решить эти проблемы.Низкий уровень, более сложные головоломки. Только когда эти проблемы будут решены, фундамент для применения в индустрии крупных моделей станет прочным.
На уровне приложений крупных модельных отраслей эту задачу можно полностью оставить на усмотрение вертикальных полевых компаний верхнего уровня. В конце концов, выживут десятки компаний, и выживут наиболее приспособленные. Эти выжившие компании являются квалифицированными партнерами. Базовые производители крупных моделей должны вместе со своими партнерами создать экосистему для совместного обслуживания клиентов отрасли.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Я предлагаю Alibaba, Baidu и Huawei не спешить с захватом «работы» крупных моделей в отрасли!
Оригинал: Иби Янью
Источник: Data Ape
Инновационные услуги в сфере больших данных
——Фокус на данных·Меняющийся бизнес
В последние месяцы очень очевидная тенденция развития отечественных больших моделей заключается в том, что все собираются вместе для создания больших моделей в отрасли. Не только компании в различных вертикальных областях выпустили множество крупных отраслевых моделей, но и ведущие гиганты, такие как Baidu, Alibaba, Huawei, Tencent и JD.com, также рассматривают крупные отраслевые модели в качестве ключевого направления.
В частности, этих производителей можно разделить на две категории в зависимости от доли крупных моделей в их стратегиях:
Baidu, Alibaba, Tencent и iFlytek уделяют одинаковое внимание как обычным крупным моделям, так и крупным отраслевым моделям.
С одной стороны, они уделяют больше внимания общим большим моделям и открывают общие большие модели для C-конечных пользователей. Байду Вэньсинийян и iFlytek Spark компании iFlytek даже создали мобильные приложения для продвижения применения обычных больших моделей.
С другой стороны, они также уделяют большое внимание крупным отраслевым моделям. Как правило, они экспортируются за границу в виде отраслевых решений. Даже 19 сентября Baidu напрямую запустила крупную модель медицинской отрасли — Модель духовной медицины, которая напрямую обслуживает больницы, пациентов и компании, производящие медицинское оборудование.
Другую категорию представляют Huawei и JD.com, которые с самого начала ориентировались на крупномасштабные промышленные модели и напрямую ориентированы на отраслевые приложения.
Лозунгом модели Pangu от Huawei с самого начала было: «Не пишите стихи, просто делайте что-то».
Большая модель Yanxi от JD.com аналогична. Придерживаясь концепции JD Cloud «облака, которое лучше понимает отрасль», JD.com также фокусируется на отраслевых приложениях в области больших моделей. Кроме того, JD Health также выпустила большую модель Jingyi Qianxun как пионера в отрасли.
Можно обнаружить, что будь то Baidu, Alibaba, Tencent и iFlytek, которые «уделяют одинаковое внимание обоим фронтам», или Huawei и JD.com, которые почти «сражаются на одном фронте», все они рассматривают большую модель отрасли. как поле битвы для военных стратегов.
Автор считает, что это проблематично. Этим технологическим гигантам следует сосредоточиться на общих больших моделях, а отраслевые приложения следует оставить партнерам в различных областях промышленности.
Почему мы так говорим?Далее давайте подробно разберем плюсы и минусы.
Гигантам следует сосредоточиться на исследованиях и разработках общих больших моделей.
Общие большие модели подобны фундаменту всей индустрии больших моделей. От того, прочный фундамент или нет, будет зависеть, насколько высоким может быть построено здание. Итак, является ли нынешний фундамент прочным?
К сожалению, хотя большие модели изначально достигли «появления» интеллекта и добились большого прогресса в понимании естественного языка, генерации контента и логическом рассуждении, они недостаточно хороши. Особенно если мы хотим коммерчески внедрять большие модели в различных отраслях, возможностей нынешних моделей недостаточно.
Упомянутая здесь способность недостаточно сильна и не относится конкретно к определенной большой модели.
Поисковые системы являются важным сценарием применения для больших моделей. Microsoft Bing добился значительного изменения, изменив исходный метод поиска по ключевым словам из-за доступа к ChatGPT. Итак, какова реальная производительность Bing с помощью ChatGPT?
Мы попробовали это, и, честно говоря, это нас очень разочаровало.
Ниже приведен пример. Позвольте Bing найти новости о крупных моделях сегодня (26 сентября). Приведены четыре новости. После нажатия на них содержимое элементов 1 и 3 фактически взято из новостной статьи, и это первые новость вышла 21 февраля, вторая и четвёртая также из той же новостной статьи, вышедшей 27 июля.
Затем автор задал дальнейшие вопросы и попросил его использовать таблицу, чтобы разобраться в представленном новостном содержании. В результате в таблице, которую он привел, время новостей изменено на 26 сентября, а если говорить о конкретном времени, то это явно ерунда.
Baidu также запустила аналогичную функцию. Помимо обычного веб-поиска, вы также можете делать запросы через разговоры. Нам не терпелось попробовать ее.
По сравнению с Bing, Baidu лучше понимает новостные события. Bing предоставляет несколько отчетов, а Baidu дает результаты, основанные на крупных выпусках моделей. Новостная ценность этих событий явно выше.
Давайте попробуем возможности понимания документов GPT-4. Мы загрузили полугодовой отчет Loongson Zhongke за 2023 год и попытались провести простой SWOT-анализ. После загрузки документа ChatGPT начинает писать код для анализа документа, который кажется очень мощным.
Действительно, в крупных моделях произошло некоторое «появление интеллекта», и их возможности качественно улучшились, но сейчас они находятся на начальной стадии, когда «маленький лотос только показывает свои острые грани». Поскольку открытие крупных моделей — перспективное направление, самое главное сейчас — ускорить и вырастить этого потенциального «ребёнка», а не позволить ему преждевременно содержать семью.
Основная причина в том, что ожидания людей были слишком завышены на ранней стадии, и они будут разочарованы, как только обнаружат, что их ожидания не оправдываются.
Точно так же, если мы сейчас поспешим внедрить большие модели в различных отраслях, у нас скоро наступит период проблем, и люди быстро перейдут от огромных ожиданий к безумным жалобам.Такие взлеты и падения не способствуют здоровому развитию отрасли. .
Поэтому основной задачей таких технологических гигантов, как Alibaba, Huawei, Baidu и Tencent, является развитие «дитя» General Model. Пока возможности действительно улучшатся, крупномасштабное внедрение будет происходить очень быстро, поэтому не стоит ждать до сих пор.
В области больших моделей существует хорошо известная кривая появления интеллекта, то есть производительность модели не зависит линейно от шкалы параметров. Модель с 20 миллиардами параметров не в два раза лучше, чем модель с 10 миллиардами. параметры.
На этой кривой развития интеллекта есть порог, который в настоящее время составляет около 100 миллиардов параметров. До этого порога уровень интеллекта, отображаемый моделью, существенно не меняется с увеличением масштаба параметров.Модель с 20 миллиардами параметров работает примерно так же, как модель с 2 миллиардами параметров. Однако когда масштаб параметров превысил порог в 100 миллиардов, производительность модели улучшилась экспоненциально.
Судя по текущей кривой появления интеллекта, после масштаба в сотни миллиардов параметров он вступит в период узкого места в интеллекте. Не может быть существенной разницы в «интеллекте» между моделью с 500 миллиардами параметров и моделью со 100 миллиардами параметров . Однако, если мы хотим достичь следующего «аварийного порога», лучший способ на данный момент — продолжать расширять размер параметра. Возможно, после расширения шкалы параметров до десятков триллионов будет пройден следующий порог появления и возможности больших моделей выйдут на новый уровень.
Конечно, по мере расширения масштаба модели стоимость тоже значительно вырастет, так что это может быть игра только для гигантов. Более того, простое увеличение размера модели также приведет к проблемам переобучения. Поэтому расширение масштаба модели также должно сопровождаться оптимизацией и корректировкой архитектуры модели. Именно здесь технические возможности по-настоящему проверяются.
Сделаем шаг назад: все современные большие модели основаны на архитектуре Transformer, и эта архитектура была предложена в статье несколькими исследователями Google пять лет назад. Так действительно ли архитектура Transformer лучшая? Существует ли более совершенная модель архитектуры? На эти вопросы должны ответить такие технологические гиганты, как Huawei, Baidu, Alibaba и Tencent.
Помимо масштаба параметров и архитектуры модели, большие модели также должны решать проблемы «иллюзий», проблемы интерпретируемости и мультимодальные проблемы. Эти проблемы еще не решены должным образом, и это общая проблема, с которой сталкивается вся отрасль. Ключ к решению этих проблем лежит в основе технологических прорывов в общих больших моделях, а не в крупных отраслевых моделях.
Конечно, тот, кто действительно сможет решить эти ключевые проблемы, будет соответственно вознагражден рынком.
Не будьте одновременно судьей и игроком
Причина, по которой технологическим гигантам рекомендуется не трогать большие модели отрасли, заключается в том, что помимо нерешенной проблемы общих больших моделей, еще одной очень важной причиной является избежание конфликтов интересов с партнерами.
Технологические гиганты играют в экологическую игру и делятся преимуществами инфраструктуры.
В области больших моделей маршрут передачи ценности должен быть следующим: общие большие модели – крупные отраслевые модели – отраслевые клиенты. На этапе крупных отраслевых моделей производители крупных моделей, такие как Huawei, Baidu и Alibaba, могут либо разрабатывать крупные отраслевые модели самостоятельно, либо позволять сторонним партнерам проводить исследования и разработки на основе их собственных крупных моделей.
Общие большие модели проверяют технические возможности, тогда как технический порог для крупных отраслевых моделей не очень высок. Его основными элементами являются данные и отраслевой опыт, и эти два пункта являются недостатками технологических гигантов. Собрать высококачественные наборы данных из различных отраслей, таких как финансы, здравоохранение, производство и розничная торговля, а также понять бизнес-сценарии различных отраслей определенно не под силу одной компании. экосистему и использовать тысячи данных со всей экосистемы. Это делают партнеры.
Конечно, обычные производители крупных моделей, такие как Baidu, Huawei и Tencent, также могут использовать оба пути передачи стоимости. Например, в сфере медицины Baidu может не только использовать собственную крупномасштабную модель духовной медицины для непосредственного обслуживания больниц, пациентов и компаний, производящих медицинское оборудование, но и способствовать созданию вертикальной партнерской крупномасштабной модели медицинской системы.
Однако эта ситуация столкнется с проблемой «конкуренции с людьми за прибыль», что является табу в бизнесе.
Представьте, что некая крупномасштабная медицинская модель компании A основывается на общей крупномасштабной модели компании B, открывает свои основные медицинские данные B и обучает крупномасштабную медицинскую модель. Несколько месяцев спустя А обнаружил, что компания Б также запустила крупную медицинскую модель, и ее функции аналогичны ее собственным. Когда отраслевой клиент разместил заказ, он обнаружил, что компания Б также участвует в торгах, и его партнер внезапно стал конкурентом. Если это так, то готова ли компания А по-прежнему сотрудничать с компанией Б?
В экосистеме доверие партнеров к владельцу экосистемы ценится как золото. Только когда партнеры по приложениям верхнего уровня твердо уверены, что эковладелец не будет с ним конфликтовать или украсть его бизнес, он будет чувствовать себя уверенно, размещая свой бизнес на платформе, построенной эковладельцем.
Это чем-то похоже на отношения между поставщиками IaaS и поставщиками SaaS в сфере облачных вычислений. Самая важная причина, по которой многие SaaS-компании в Китае беспокоятся о таких поставщиках облачных услуг, как Alibaba Cloud, Tencent Cloud, Baidu Cloud и Huawei Cloud, заключается в том, что они боятся конфликта интересов. В настоящее время границы бизнеса облачных поставщиков IaaS недостаточно ясны: они не только предоставляют продукты IaaS и PaaS, но и входят во многие области SaaS, что является наиболее табуированным для их SaaS-партнеров.
На ранних стадиях развития китайского Интернета у инвесторов возник знаменитый душераздирающий вопрос к начинающим компаниям: что бы вы сделали, если бы Tencent выпустила тот же продукт?
Точно так же, если обычные производители крупных моделей захотят построить экосистему приложений, то отраслевые производители крупных моделей в области здравоохранения, финансов, государственных дел, производства и других областях также спросят: если вы сделаете что-то вроде меня в будущее, что мне делать?
Так какая же большая модель экосистемы более разумна? Мы можем извлечь уроки из экосистемы облачных вычислений: общая большая модель эквивалентна IaaS, а большая отраслевая модель эквивалентна SaaS.
Baidu, Huawei, Alibaba, Tencent, JD.com, ByteDance, iFlytek и другие ведущие производители общих моделей фокусируются на общих крупных моделях (IaaS+PaaS) и стараются не затрагивать крупные отраслевые модели (SaaS).
Следует отметить, что даже если они не производят крупные отраслевые модели, основные производители крупных моделей все равно могут получать дивиденды от применения больших моделей в отрасли. Точно так же, как приложения SaaS потребляют ресурсы IaaS и платят за IaaS, отраслевая модель верхнего уровня будет использовать возможности общей модели нижнего уровня, и разумная бизнес-модель может быть построена на основе количества вызовов и использования.
Например, Baidu не производит крупномасштабные медицинские модели, но у нее есть 10 партнеров по крупномасштабным медицинским моделям, основанных на Вэнь Синьиян, и каждый партнер обслуживает 1000 больниц. Предположим, что каждая больница платит 1 миллион юаней в год, а Baidu разделяет 20% от этого 1 миллиона юаней. Тогда каждая крупная компания, занимающаяся медицинскими моделями, сможет зарабатывать 1 миллиард юаней в год, а доход Baidu составит 1 миллиард*20%*10=2 миллиарда юаней. Таким образом, Baidu нужно будет обслуживать всего 10 партнеров, а не 10 000 больниц.
По аналогии, если можно построить процветающую отраслевую экосистему больших моделей, промышленное применение больших моделей также может принести десятки миллиардов доходов основным производителям больших моделей.
Обычным производителям крупных моделей, таким как Baidu, Huawei, Tencent и Alibaba, нет необходимости беспокоиться о том, что они упустят дивиденды от приложений для крупных моделей в отрасли. Как и в области облачных вычислений, доход какого поставщика SaaS может сравниться с доходом Alibaba Cloud, Tencent Cloud и Huawei Cloud, предоставляющих IaaS?
Если вы сосредоточитесь на закладке фундамента общей большой модели, вы сможете продать «землю» без необходимости кропотливого перемещения кирпичей для постройки дома. Давайте вернемся к сфере недвижимости: являются ли застройщики, такие как Vanke и Evergrande, наиболее прибыльными? Очевидно, что продать землю выгоднее и проще.
Для крупных производителей моделей в вертикальных отраслях наиболее идеальным вариантом является изучение стратегий кросс-облачного развертывания SaaS для достижения межобщего развертывания крупных моделей отрасли и плавного перехода бизнеса с одной общей модельной платформы на другую. Это позволяет избежать привязки к одной платформе. Конечно, крупные модели в отрасли в настоящее время находятся на очень ранней стадии, и еще слишком рано говорить о развертывании общих моделей.
Таким образом, технологическим гигантам, таким как Baidu, Huawei, Alibaba и Tencent, рекомендуется сосредоточиться на исследованиях и разработках общих крупных моделей, а не на применении крупных отраслевых моделей.
С одной стороны, большие модели общего назначения пока недостаточно хороши. По-прежнему заметны такие проблемы, как недостаточный уровень интеллекта модели, проблемы галлюцинаций, плохая интерпретируемость, плохая способность к мультимодальному слиянию, а также высокая стоимость обучения модели и вывода. Технологические гиганты должны решить эти проблемы.Низкий уровень, более сложные головоломки. Только когда эти проблемы будут решены, фундамент для применения в индустрии крупных моделей станет прочным.
На уровне приложений крупных модельных отраслей эту задачу можно полностью оставить на усмотрение вертикальных полевых компаний верхнего уровня. В конце концов, выживут десятки компаний, и выживут наиболее приспособленные. Эти выжившие компании являются квалифицированными партнерами. Базовые производители крупных моделей должны вместе со своими партнерами создать экосистему для совместного обслуживания клиентов отрасли.