За самой мощной моделью коммерческого открытого исходного кода Meta: гигантское соревнование по спасению жизней Маск и Apple находят другой путь

Текст: Го Сяоцзин, Tencent Technology

Источник изображения: сгенерировано Unbounded AI

19 июля Meta объявила об официальном выпуске большой языковой модели Llama2 на своем официальном веб-сайте.Это последняя версия большой языковой модели Meta и первая коммерческая большая языковая модель Meta с открытым исходным кодом.В то же время Microsoft Azure также объявила, что он будет тесно сотрудничать с Llama2.

Согласно официальным данным Meta, Llama 2 улучшила свои тренировочные данные на 40% по сравнению с предыдущим поколением, включая 3 версии с параметрами 7 миллиардов, 13 миллиардов и 70 миллиардов. Предварительно обученная модель Llama 2 была обучена на 2 триллионах токенов с вдвое большей длиной контекста, чем Llama 1, а ее точно настроенная модель была обучена на более чем 1 миллионе человеческих аннотаций.

Говорят, что его производительность сравнима с GPT-3.5, и он также известен как лучшая большая модель с открытым исходным кодом. Как только новость была опубликована, СМИ и индустрия даже сделали вывод, что коммерциализация Llama2 с открытым исходным кодом изменит конкурентную среду в области крупных моделей. Насколько велико влияние этого инцидента? Какое влияние это окажет на отрасль? Мы пригласили двух представителей отрасли для беседы. Одним из них является Чжоу Сунтао, заместитель генерального директора Центра исследований и разработок продукции Leo Group Digital Technology Co., Ltd.. основные крупные модели в стране и за рубежом, а другой - г-жа Цзяо Хуан, президент Института космических исследований Аньсиньюань, которая много лет внимательно следит за экологией технологической отрасли в стране и за рубежом.

Ниже приведены основные точки зрения обоих:

① Llama2 всесторонне учитывает параметры модели, потребление времени, потребляемую вычислительную мощность и другие аспекты.По сравнению с GPT-3.5, это уверенно.

② Генеративный искусственный интеллект внесет коренные изменения во всю систему с открытым исходным кодом.

③ В будущем открытый исходный код и закрытый исходный код обязательно будут качать друг друга, и в этой области будет формироваться модель взаимных игр и конкуренции в течение достаточно долгого времени.

④ Коммерческий открытый исходный код Llama2 не обязательно снизит затраты предпринимателей на использование больших моделей, но может привести к тому, что поставщики услуг крупных моделей начнут ценовую войну, что является хорошей новостью для пользователей и предпринимателей.

⑤ Конкуренция заокеанских гигантов в области ИИ уже не так проста, как развитие второй кривой.Конкуренция жесткая и решающая, и даже немного спасительная.Причины, стоящие за ней, стоит задуматься.

Ниже приводится выборка содержания беседы:

**Tencent Technology: с точки зрения отраслевых практиков или аппликаторов, как оценить большую модель? **

Чжоу Сунтао: MMLU — это наиболее широко используемая система оценки крупномасштабных моделей в мире. Она учитывает всесторонние знания и способности 57 дисциплин, от гуманитарных и социальных наук до науки и техники. Большинство наших оценок основано на этой структуре. Но наша отрасль — это рекламная индустрия, исходя из атрибутов рекламной индустрии, мы добавим некоторые другие элементы оценки.

Мы также сказали на собрании руководства группы, что в центре внимания рекламной индустрии находится не творчество, а контроль. Сгенерированные результаты должны на 100 % соответствовать рекламодателю, характеристикам его продукта, внешнему виду, логотипу и т. д. Только после того, как эти сокращения достигнуты, может быть место для расхождений и воображения. Поэтому мы проведем отдельный тест на контроль над галлюцинацией большой модели. Тем не менее, большинство представленных на рынке больших языковых моделей и моделей распространения для создания изображений трудно полностью удовлетворить потребности рекламодателей. После того, как будет выпущена крупная модель общего назначения, до ее полной коммерциализации еще далеко.

Кроме того, самое важное, что мы рассматриваем, — это вопрос стоимости: модель с закрытым исходным кодом имеет прямую систему котировок, и мы обычно измеряем стоимость тысяч токенов. Для модели с открытым исходным кодом необходимо измерить и рассчитать больше связей, от развертывания до тонкой настройки и окончательного онлайн-рассуждения, сколько потребляется вычислительной мощности и сколько затрат на разработку и стоимость данных вложено в поддержание открытой среды. исходная модель.

Отзывы о качестве большой модели плюс оценка стоимости могут сформировать оценку модели. Проще говоря, Чем выше эффективность затрат, тем популярнее.

Цзяо Хуан: С нашей точки зрения, важнее определить некоторые вертикальные требования. Потому что в глобальном масштабе, независимо от того, является ли это компанией, занимающейся жесткими технологиями, или интернет-компанией, может быть не так уж много компаний, которые действительно способны определять требования, поэтому это предложение может быть преобразовано в——**Может крупномасштабно модельные компании сами устанавливают некоторые вертикальные требования?Если нет, можем ли мы работать с экологическими партнерами, чтобы изучить лучшее направление вертикальной категории. Конечно, было бы лучше, если бы у отдельных компаний была своя система накопления данных и накопления опыта в определенном направлении. Это наша точка зрения с точки зрения применения и определения потребностей вертикально сегментированных отраслей.

**Tencent Technology: может ли Llama2 действительно превзойти или сравниться с GPT-3.5 с точки зрения производительности? **

Чжоу Сунтао: Большая модель для Llama2 все еще находится на стадии оценки, и это займет около 2 недель. Но из нашего изучения статьи и некоторых простых оценок, которые были сделаны до сих пор, мы можем сделать некоторые общие сравнения.

Между этапом предварительной подготовки и исходной моделью GPT есть несколько отличий, и эти изменения ранее не вносились другими модельными компаниями. Первый заключается в том, чтобы изменить механизм внимания с несколькими головками традиционного Трансформера на механизм группы осколков на этапе предварительной подготовки. Это немного похоже или имитирует технологию сегментирования, которую мы использовали, когда занимались обработкой больших данных и обработкой крупномасштабных параллельных данных. Сгруппируйте большое количество запросов (запросов), требуемых вниманием, в группы, и поместите каждую группу в обучающую единицу, так что эффективность и скорость параллелизма теоретически будут значительно улучшены. Я думаю, что эта часть — новое изменение, сделанное Meta на основе предыдущего опыта крупномасштабной параллельной обработки.

Основываясь на этом изменении, я думаю, что они теоретически во много раз превосходят существующие большие модели с точки зрения требований к вычислительной мощности и затрат времени. Я предполагаю, что Llama2 начнется в январе, согласно их заявлению.Рассчитанное по времени выпуска, оно должно быть короче, чем время предварительной подготовки Llama1, потому что у него больше параметров, чем у Llama1. Таким образом, возможный цикл из нескольких раундов обучения сжимается. Это тесно связано с GQA, упомянутым в статье. На данный момент он должен превышать GPT 4. Хотя мы не знаем конкретного числа GPT-4, согласно сторонним предположениям, GPT-4 намного выше, чем GPT-3 и GPT-3.5.

Что касается GQA, мы в настоящее время считаем, что метод обработки **GQA действительно может повысить скорость обучения для пользователей с картами достаточной вычислительной мощности, особенно с ресурсами параллельной вычислительной мощности графического процессора. **Однако тесты и экспертные оценки показали, что эта функция предъявляет высокие требования к размеру пула вычислительной мощности и аппаратному обеспечению.По хорошо известным причинам у разработчиков в материковом Китае мало ресурсов для крупномасштабных параллельных вычислений на GPU, поэтому **GQA может оказать на нас негативное влияние. **

Кроме того, второй момент заключается в том, что на этапе настройки мы знаем, что система GPT выполнила послойную обработку данных при нормализации, что делает результаты обучения данных очень точными, но также потребляет много вычислительной мощности. Но Llama2 использует другое решение, заключающееся в добавлении весовых коэффициентов на основе многоуровневой обработки, что очень полезно для повышения эффективности и поддержания точности, а также для экономии вычислительной мощности. Эти два пункта являются оптимизациями, сделанными на этапе предварительной подготовки. **

Кроме того, в документе также упоминается, что положение встраивания Llama1 фиксировано и не может быть изменено. Но в Llama2 это можно настроить динамически, что тоже является плюсом. Нас это тоже очень интересует, и мы хотим знать, какой практический эффект это может дать.

Помимо них, Llama2, очевидно, вобрала в себя некоторый инженерный опыт серий Llama1 и GPT, то есть был переиспользован успешный опыт этапа RHLF, и его следует значительно улучшить.

Последнее - это параметры отношения, То, что я видел до сих пор, - это те параметры, которые он раскрыл на своем официальном сайте. Существует более 1 миллиона параметров, включая искусственно усиленную обратную связь, а тонко настроенная часть достигает более 100 000. Если он осмелится опубликовать эти параметры, это означает, что Meta может всесторонне рассмотреть параметры модели, затраты времени и вычислительной мощности.

**Tencent Technology: Почему порог коммерческого открытого исходного кода установлен на уровне не более 700 миллионов активных пользователей в месяц? **

Цзяо Хуан: Шучу, я думаю, что это регулирование все еще «очень открытое» — Meta разыграла яркую карту, поскольку она не может помешать другим проводить исследования, а затем отпустить их. По сути, это результат внутренних игр. Финансовые показатели Meta с начала 2021 года были не очень хорошими, поэтому она искала вторую кривую роста. В октябре 2021 года Meta сменила название на All in Metaverse, но существенных улучшений не произошло. Она запустила текущую большую модель, которую можно интегрировать с собственным оборудованием. Это равносильно разыгрыванию яркой карты.Требуется аппаратное обеспечение, программное обеспечение и операционная система.Он надеется занять свое место в эпоху ИИ, но в то же время как открытый исходный код, он не хочет быть слишком выгодно конкурентам. Как видите, 700 миллионов активных продуктов в месяц включают YouTube 2,5 миллиарда, Apple 1,8 миллиарда, Microsoft 1,4 миллиарда, Samsung 1 миллиард, LinkedIn 900 миллионов, Snapchat 750 миллионов и т. д.

**Tencent Technology: В чем существенная разница между коммерческим открытым исходным кодом и лицензированием исследований? Какое влияние может быть на экосистему с открытым исходным кодом? **

Чжоу Сунтао: После появления большой языковой модели вопрос открытого исходного кода также сильно усложнился.Все внесли множество корректировок в определение открытого исходного кода и это правило. Это будет включать в себя открытие исходного кода самого алгоритма, исследование данных с открытым исходным кодом и так далее. Для суждения об общем открытом исходном коде новой языковой модели или генеративной модели: во-первых, это зависит от того, является ли код алгоритма открытым исходным кодом, а затем будет ли открытый исходный код набора обучающих номеров. Третий основан на алгоритме с открытым исходным кодом.Если я буду делать тонкую настройку или другую обработку, какие ограничения будут у вашей политики авторизации. Четвертый — использовать результаты логического вывода вашей модели независимо от того, имеет ли она контроль над моделью. Обычно мы судим по этим направлениям, действительно ли «открытый исходный код» этой модели представляет для нас прикладную ценность.

По поводу исследований с открытым исходным кодом и коммерческого открытого исходного кода, я помню, наиболее типичным примером является компания Stability AI, я помню, что за две недели до того, как LLama2 был открыт исходный код, также была выпущена версия XL StabilityAI, то есть разрешено только исследование. с открытым исходным кодом, и четко оговорено, что модели могут быть использованы.Проводить исследования с данными, например, если вы исследователь или принадлежите к определенному университету, но если вы используете эту модель для коммерциализации, это полностью запрещено, и вы необходимо подать заявку на авторизацию отдельно, чтобы использовать его.

Авторизация больших моделей с открытым исходным кодом, я думаю, сильно изменилась по сравнению с исходной логикой открытого исходного кода.Связи и процессы настроены очень тщательно.Возможно, что генеративный искусственный интеллект внесет потрясающие изменения во всю открытую исходная система. **

**Tencent Technology: Какое влияние окажет коммерческий открытый исходный код Llama2 на конкуренцию крупных моделей? **

Цзяо Хуан: В конкуренции зарубежных гигантов есть стиль, который заключается в том, чтобы сделать их продукты и услуги узнаваемыми, поэтому Meta называется Metaverse, а Apple должна называться New Universe. Если другие закроют исходный код, я займу открытый исходный код . Открытый исходный код в прошлом, возможно, создавался компьютерщиками с чувством свободы, и мышление было относительно простым. Но теперь, когда этим делом руководит такой крупный бизнес-орган, речь идет больше о коммерческих интересах.

Чжоу Сунтао: Я думаю, что три элемента конкурентной среды генеративной системы искусственного интеллекта — вычислительная мощность, алгоритмы и модели — не изменились. На самом деле модель учитывает только одну треть конкурентных факторов.Если изменить модель, то она может измениться только на одну треть или чуть больше одной трети.Я считаю, что она более оптимистична, и она может достигать около 45%. **

Картина дома и за границей все еще не одинакова, и картина на уровне зарубежного алгоритма более очевидна. Зарубежные данные в основном очищены и векторизированы, набора обучающих данных уже достаточно, и конкурентное преимущество по данным неочевидно, если только у вас нет собственных данных для определенной отрасли. Вычислительная мощность — это не то место, где иностранные гиганты могут увеличить разрыв, у гигантов действительно есть силы, чтобы бороться за вычислительную мощность.

Во-первых, отечественные компании с базовыми алгоритмами на самом деле очень ограничены, во-вторых, степень очистки и векторизации отечественных данных на самом деле невысока. Раньше, если компания вкладывала много сил в обработку структурированных данных, она могла компенсировать нехватку вычислительной мощности и алгоритмов. В-третьих, в краткосрочной перспективе стране фактически не хватает вычислительной мощности. Поэтому о влиянии открытого исходного кода LLama2 на отечественный ландшафт в настоящее время судить непросто.

Кроме того, в зарубежных странах Google — настоящий пионер всего генеративного искусственного интеллекта, а потом его чуть не превратили в мученика. Это потому, что исходный документ всего генеративного искусственного интеллекта гласит: «Внимание — это все, что вам нужно», а затем, включая самую раннюю модель с открытым исходным кодом T5, на самом деле Google. Раньше Google гордился толпой. Неожиданно темная лошадка, OpenAI, позже была убита.Самые ранние GPT-1 и GPT-2 были с открытым исходным кодом, а GPT-3 стал закрытым исходным кодом после того, как он стал открытым исходным кодом. Когда OpenAI выходит на рынок, открытый исходный код становится мейнстримом всего генеративного искусственного интеллекта.

OpenAI нашел Microsoft в это время, а также обладал очень дорогой вычислительной мощностью, став сильным конкурентом Google. Начиная с 2022 года рынок генеративного искусственного интеллекта начнет выходить на системы с закрытым исходным кодом. OpenAI освоил алгоритм, добавил вычислительную мощность и данные Microsoft и закрыл исходный код продукта, и продукт стал феноменальным хитом, и от него выиграли как Microsoft, так и OpenAI. Я думаю, что когда Meta впервые решила войти в эту область, по оценкам, она тщательно изучила историю развития с самого начала. снова твоя магия.

До этого Meta также видела жизнеспособность нескольких небольших компаний после открытого исходного кода, особенно Stability AI, У этой компании нет глубокого фундамента, У компании все еще много противоречий.

Я помню, что Llama1 анонсировала свой открытый исходный код в марте, тогда он также сказал, что это «случайно открытый исходный код», затем Stability AI также сказал, что я случайно слил код, поэтому он также был открытым исходным кодом. Общий путь таков, что Google заложил тон открытого исходного кода, а затем OpenAI и Microsoft превратили его обратно в систему с закрытым исходным кодом, а затем Meta and Stability AI снова превратили его в открытый исходный код.Я думаю, что в будущем **Open источник и закрытый источник должны качать друг друга, и в этой области будет формироваться модель взаимных игр и конкуренции в течение длительного времени. **

**Tencent Technology: Является ли Meta с открытым исходным кодом Llama2 последним средством или активным стратегическим выбором? **

Цзяо Хуан: Это должен быть активный стратегический выбор, потому что три основных конкурента в области дополненной реальности — Meta, Microsoft и Google — борются уже более десяти лет. Мета быстро запустила LLama2, по крайней мере быстрее, чем Google. Выбор между открытым исходным кодом и закрытым исходным кодом не избавит от некоторых существенных требований интереса, поэтому я думаю, что полностью менять модель конкуренции не имеет смысла. Во-вторых, внутренняя ситуация отличается, поэтому необходимо снова наблюдать за внутренней моделью конкуренции.

Будь то открытый или закрытый исходный код, по сути, это стратегический выбор между этими компаниями по всему миру перед лицом новых больших возможностей. Прилагая усилия к прокладке фронта, я также надеюсь максимально захватить внутренние районы Бира. Конкуренция заокеанских гигантов уже не так проста, как развитие второй или N-й кривой роста. Конкуренция жесткая и решающая, даже немного спасительная.

Я думаю, это самое достойное всеобщего обсуждения: Какая среда или подоплека стоит за их действиями, чтобы они должны были сделать это таким решительным образом, как гонка вооружений.

В последнее время также произошли некоторые примечательные события: была создана компания Маска X-AI, которая хочет переосмыслить реальный физический мир, все гиганты смотрят на настоящую реализацию AGI. Эта карта становится все больше и больше. Тем не менее, новый деловой мир и новый бизнес-ландшафт всегда требуют появления новых популярных приложений и продуктов. Мы можем возлагать надежды на 2024 год, возможно, очки MR от Apple станут новой возможностью.

**Tencent Technology: мы также видели, что два других зарубежных гиганта, Маск и Apple, не делали громких заявлений о своих успехах в области крупномасштабных моделей, что вы думаете об этом? **

Цзяо Хуан: Пока что они просто сдерживаются, и точно известно, что то, что они запустят, определенно не будет называться большой моделью. Я думаю, мы можем сосредоточиться на следующем уровне, воплощенном разуме. В этом направлении Маск беспокоится меньше всего. Самое большое преимущество Apple заключается в сочетании программного и аппаратного обеспечения.

Чжоу Сунтао: Мы сами протестировали его, и чип **M2 может конкурировать с картами Nvidia с точки зрения вычислительной мощности с плавающей запятой. ** Apple может взять на себя интеграцию программного и аппаратного обеспечения, что на самом деле выходит за рамки текущей конкурентной среды крупных моделей.

Я думаю, что воплощенный интеллект может стать новой вехой в развитии общего искусственного интеллекта в будущем, потому что, как только у вас появится сильная способность к рассуждению, она обязательно будет распространена на физический мир, и основная точка контроля над физическим миром заключается в том, чтобы внедрить его в тело или встроить в датчики физического мира, тогда это система, которая становится воплощенным разумом. Как только что сказал г-н Чжоу, это превратилось в серию компаний Маска.

Когда мы объединим программное и аппаратное обеспечение, чтобы посмотреть на весь искусственный интеллект в целом, вы обнаружите, что ландшафт конкуренции снова изменился.Это больше не Google, Meta и открытый ИИ, которые конкурируют, но, возможно, к ним присоединяются другие производители оборудования. в.

**Tencent Technology: коммерческая версия Llama2 с открытым исходным кодом. Можно ли снизить стоимость запуска крупномасштабной модели? **

Чжоу Сунтао: Я не уверен в этом сейчас, потому что, хотя это экономит затраты на аренду API, вы обнаружите, что большое снижение цен OpenAI 15 июня составляет почти 10%, поэтому модель с закрытым исходным кодом также борется за цену. война. Напротив, если используется модель с открытым исходным кодом, сколько потребуется затрат на оборудование, вычислительную мощность и стоимость данных? Скрытые расходы трудно оценить. Проще говоря, исходя из открытого исходного кода LLama2, я думаю, что это не обязательно путь экономии для предпринимательства.

Что касается стоимости рассуждения, в настоящее время мы измеряем и объединяем оценочные статьи зарубежных тестировщиков и обнаружили, что для некоторых конкретных типов задач рассуждения, таких как классификация или рабочий процесс langchain, эффективность рассуждений и затраты времени Llama2 снижаются, но для других типов задач, **Если сравнивать со снапшотной версией GPT-3.5-turbo-0615, она не обязательно может быть дешевле (только с точки зрения потребления вычислительной мощности); **Текущая исходная версия очень бегла и точна в понимании Китайский, но китайское выражение почти 0, ** Таким образом, китайские предприниматели, которые хотят в полной мере использовать Llama2, должны потратить много денег, чтобы решить тонкую настройку или руководство китайского выражения, или ждать, пока сообщество открытого исходного кода предоставит китайское выражение. версия... Эта стоимость не является низкой. **

Кроме того, коммерческий открытый исходный код **Llama2 действительно может привести к тому, что крупные поставщики услуг начнут ценовую войну, что является хорошей новостью для пользователей и предпринимателей. **

Цзяо Хуан: Честно говоря, я все еще с нетерпением жду появления некоторых отраслевых или вертикальных моделей в Китае. Я лично выбрал несколько перспективных компаний, которые характеризуются солидным опытом работы в этой отрасли и постоянным накоплением данных и опытом построения платформ. Кроме того, я думаю, что в этом раунде вопрос не в том, дорогой билет или нет, а в том, дорогой ты или нет, всех ждет трансформация.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить