Лань Чжэньчжун, профессор Университета Вест-Лейк: Несколько мыслей о больших моделях

2023-09-19 07:47:02

19 сентября 2023 года в Шанхае открылась «Шанхайская международная неделя блокчейна 2023 — Девятый глобальный саммит блокчейна». Лань Чжэньчжун, основатель West Lake Xinchen и профессор Университета Западного озера, прочитал лекцию на тему «Некоторые знания о больших моделях».

Для получения дополнительной информации нажмите «Основные моменты Шанхайской международной недели блокчейна 2023» (постоянно обновляется)».

Компания Golden Finance осуществляла отслеживание и отчетность по всей встрече на месте. Ниже приводится краткое содержание речи.

доброе утро всем!

Сегодня я в основном буду говорить о больших моделях и искусственном интеллекте, а позже расскажу о некоторой интеграции с Web3 и проделанной работе.

Я начал работать над искусственным интеллектом в 2007 году, и с тех пор прошло более десяти лет.От эпохи процессоров до эпохи графических процессоров, от маленьких моделей до больших моделей, я занимаюсь этим уже долгое время, и я также сделали относительно репрезентативный контент. В 2019 году большая модель, которую я сделал, когда работал в Google, была лучшей крупной моделью в мире, намного лучше, чем GPT2, поэтому в то время мы смотрели свысока на серию GPT, но сейчас у них дела идут очень хорошо.

Когда я вернулся в Китай в 2020 году, я провел первую китайскую оценку больших моделей. Меня можно считать углубленным участником больших моделей. Сейчас есть лаборатория и компания, проводящая исследования, связанные с большими моделями.

Раньше я редко оглядывался назад на историю развития больших моделей и редко задумывался о них глубоко. Пока ChatGPT не стал популярным, люди приходили ко мне с разными вопросами. Позвольте мне резюмировать следующие вопросы:

Во-первых, хотите ли вы, чтобы модель стала больше или меньше?

Во-вторых, сейчас много говорят об общих больших моделях. Итак, есть ли возможности у общих больших моделей или у крупных отраслевых моделей?

В-третьих, стоит ли мне инвестировать в NVIDIA или в крупные модельные компании и компании-разработчики приложений?

В-четвертых, как большие модели могут изменить мою работу для широкой публики? Как мне выбрать карьеру.

Эти вопросы позволяют нам проанализировать прошлую историю. В основном я представляю для вас некоторые прошлые данные.

Прежде всего, первый вопрос, будут ли большие модели становиться все больше и больше? Оглядываясь назад, можно сказать, что когда в 1950 году впервые начали разрабатываться компьютеры, модели становились все больше и больше. Можно сказать, что увеличение размера модели является, по сути, первым фактором, позволяющим ей стать интеллектуальной, поэтому модель будет становиться все больше и больше.

До 2018 года мы обнаружили метод, который может заставить модель быстро расширяться. Сейчас она расширяется очень быстро. С 2018 по начало 2021 года она фактически увеличивалась в сотни раз каждые 18 месяцев. Сейчас скорость замедлилась, но это также Быстрое расширение.

(Как показано на рисунке) Это изображение представляет собой изображение GPT4. Вертикальная ось говорит об уровне интеллекта. Чем выше уровень интеллекта, тем выше уровень. Горизонтальная ось показывает размер модели и объем обучения . По мере того, как модель становится больше и обученнее, уровень интеллекта становится все выше и выше. Зеленая точка – GPT4. В этой точке наклон все еще существует и он все равно будет идти вниз. Поэтому можно ожидать, что если вы увеличите модель, она все равно станет умнее. Люди всегда стремятся к пределу, и мы обязательно его усилим.

Но сейчас всех беспокоит то, что GPT4 уже является моделью уровня триллиона. Затраты на вывод очень высоки, и обучение тоже очень дорого. Полезна ли амплификация?

Глядя на другие данные, мы знаем, что беспокоиться не о чем, поскольку стоимость обучения и вывода резко снижается. Когда в 2020 году проходило обучение GPT3, стоимость одного сеанса обучения составляла 4 миллиона долларов США. В 2022 году она была снижена до 400 000 долларов США, и снижение затрат происходит очень быстро.

В основном с нескольких аспектов:

Во-первых, производительность графического процессора резко возросла, а затраты снизились, что намного превышает закон Мура. С 2016 по 2022 год, согласно закону Мура, производительность CPU выросла в 8 раз, а GPU — в 26. Улучшение весьма очевидно.

Во-вторых, это улучшение программного обеспечения. Благодаря повышению эффективности обучения с помощью программного обеспечения ежегодные затраты на обучение сокращаются примерно на 47%. Сочетание этих двух факторов представляет собой очень ужасное снижение: одно - аппаратное обеспечение, другое - программное обеспечение.

В-третьих, мы широко распределяем вычислительную мощность. До появления ChatGPT глобальная вычислительная мощность увеличивалась примерно на 20–40 % каждый год. После выхода ChatGPT увеличение вычислительной мощности может удвоиться. Когда ваша вычислительная мощность увеличивается в больших масштабах и графические процессоры производятся массово, эксплуатационные расходы также уменьшаются. В совокупности стоимость обучения и вывода резко снижается, поэтому мы видим, что за два года она упала в 10 раз.

В ближайшие несколько лет модели уровня триллиона, такие как GPT4, станут относительно дешевыми, и их сможет использовать каждый.

Подводя итог, я предсказываю, что модели будут продолжать становиться больше и мощнее, затраты на обучение и логические выводы будут продолжать падать, а итерации будут быстрыми.

(Как показано на рисунке) Эта картинка о GPT1. В то время я не очень высокого мнения о GPT1. Оглядываясь назад, я совершил большую ошибку. GPT1 внес очень большой вклад и превратил искусственный интеллект из специализированного искусственного интеллекта. Превращение в общий искусственный интеллект.

Раньше существовали сотни задач по обработке естественного языка, и для каждой задачи разрабатывались различные модели, поэтому статей было много. Но после выхода GPT1 я посоветовал вам не использовать разные модели. Я использовал одну модель для решения большинства ваших (задач).

Последняя статья была написана моим тогдашним коллегой из Google, который интегрировал различные задачи в одну и ту же модель. Поэтому основной вклад этой волны - универсальность. Универсальность отражается не только в тексте, но и в картинках, звуках и Для различных данных, таких как последовательности, если вы можете преобразовать данные в последовательность, их можно в основном обрабатывать.

Разрезать изображение на множество частей и удлинить его — задача, с которой теперь может справиться модель Трансформер. Она может охватывать множество задач и очень универсальна.

Хотя большие модели сейчас не могут справиться со многими сложными задачами, вы можете это сделать, если немного поможете ему это сделать и немного разобьете задачи. Хотя все считают, что GPT4 очень сильный, точность непосредственного выполнения 24 пунктов составляет 7,3%, но если немного разбить его, то можно повысить до 74%.Многие, казалось бы, сложные задачи, если профессионалы помогут ему их разобрать, теперь модели серии GPT или общие большие модели могут помочь вам решить множество задач и добиться автоматизации.

Во-первых, модель станет больше, а во-вторых, она универсальна и может решить множество сложных персонажей с помощью небольшой разборки, поэтому она очень практична. Многие из них были успешно внедрены за рубежом, например, Duolingo — компания из Питтсбурга, выручка которой выросла на 42% в первом квартале 2023 года благодаря добавлению приложения ChatGPT.

Многие программисты сейчас используют Copilot.Выручка OpenAI в этом году оценивается в 1,2 миллиарда долларов США, что является очень сложной цифрой для начинающей компании.

Отличие этой волны искусственного интеллекта от предыдущей в том, что она заменяет работников умственного труда.На рисунке справа показан уровень интеллекта (автоматизации) в различных отраслях до этой волны общего искусственного интеллекта.Внизу — те, кто не имеет ученой степени. , за которыми следуют от магистра до доктора наук, степень взаимозаменяемости становится все ниже и ниже по мере продвижения вверх. Сейчас все по-другому: после появления всеобщего искусственного интеллекта умственных работников можно будет легко заменить.

Подводя итог, можно сказать, что реализация больших моделей будет быстрее, чем мы предполагали, и, конечно, медленнее, чем предполагали многие финансовые работники, потому что реакция фондового рынка всегда быстрее, чем технологии, по крайней мере, быстрее, чем мы предполагали, и это может расширить возможности всех слоев общества. жизнь. Вам сложно разобрать каждую задачу, если крупная модельная компания углубится в отрасль, перед ней откроются большие возможности.

Сейчас большинство людей обращают внимание на интеллект модели, и меньше внимания уделяется "эмоциональному интеллекту" модели и степени взаимодействия с людьми. Например, я задал вопрос, который задал бы мой возлюбленный, и ChatGPT дал мне этот ответ. Есть метод для этого ответа, но его нет. Кажется, эмоции указывают на то, что наше взаимодействие с моделью холодное и не уделяет внимания пользователям. Это отражение раннего развития отрасли.

Можно сравнивать поисковые системы.Когда они только запускались, персонализация была редкостью.Но сейчас все используют Baidu и Google по-разному, потому что много информации будет персонализировано, чтобы сделать поиск более точным, но большинство моделей пока не могут этого сделать.

Некоторые люди тоже начали это делать, например, компания Feature.ai, которую также основал мой коллега из Google.Он добавил в модель персонализацию, что может значительно улучшить время взаимодействия между моделью и людьми. Данные за май: среднее время взаимодействия OpenAI составляет 4 минуты, а среднее время взаимодействия этой компании — 28 минут, что в несколько раз превышает время взаимодействия. Страница выглядит следующим образом, что эквивалентно разделению большой модели на различные Капиталы и Агентов (агентов) для достижения персонализированного направления, которое является более эмоциональным и люди готовы с ним взаимодействовать. С развитием больших моделей произойдет большой прорыв во взаимодействии человека и компьютера.

Наша компания и лаборатория в основном исследуют общие большие модели с высоким IQ и высоким EQ, в основном мультимодальные большие модели. В прошлом для улучшения эмоционального интеллекта моделей был разработан ряд возможностей для улучшения памяти, персонализации и эмоционального восприятия.

Модель была запущена относительно рано, потому что я долгое время работал над общей большой моделью в Google. До выхода ChatGPT в середине 2020 года у нас была своя общая большая модель. На тот момент возможности записи модель была на уровне 3,5, а это была солидная профессия.

Он существует в сети уже больше года и имеет более 200 пользователей C-стороны и более 100 пользователей B-стороны, включая Starbucks и Alipay.

Одним из наиболее типичных приложений является сотрудничество с Tom Cat. Tom Cat — сопутствующий продукт с 400 миллионами активных пользователей в месяц по всему миру. Раньше он в основном копировал речь людей и копировал слова посредством изменения голоса. Мы добавляем к нему возможности мультимодального взаимодействия и возможности диалога.

Давайте вернемся к Web3, связанному с конференцией. Это мое приблизительное понимание. Я думаю, что большая модель и Web3 соответствуют производительности и производственным отношениям соответственно. Большая модель значительно повышает уровень производительности, но если она хочет работать хорошо, она должна иметь соответствующее производство.отношения, чтобы соответствовать. Я резюмировал, что при реализации больших моделей есть несколько проблем:

Во-первых, стоимость обучения очень высока. У начинающих компаний нет стимула открывать исходные коды своих моделей. Модели, обучение которых стоит миллионы долларов, имеют открытый исходный код, но тогда они не имеют ко мне никакого отношения. Это сложно чтобы они открыли их исходный код. Но открытый исходный код очень важен для моделей. Многие из нынешних моделей представляют собой черные ящики. Многие исследовательские учреждения не могут позволить себе обучать свои собственные модели. Если все обучаются, то все изобретают велосипед. Поэтому открытый исходный код очень важен, но необходимы соответствующие меры.

Во-вторых, стоимость рассуждения высока. Текущая стоимость рассуждения одного разговора в GPT4 составляет 60 центов, что намного дороже, чем моя речь. Стоимость рассуждения очень высока, и его очень сложно реализовать. GPT4 можно использовать во многих местах, но его стоимость недоступна.

В-третьих, это чувствительность данных. Данные Samsung ранее были раскрыты OpenAI и вызвали много шума. Данные, которые мы загружаем в большую модель сейчас, являются конфиденциальными данными. Многие компании не желают загружать свои собственные данные. Как справиться с этими проблемами? Я надеюсь, что Web3 поможет нам решить эти проблемы.

Я только что услышал, как Учитель Цао сказал, что существует еще много трудностей, но мы надеемся, что с помощью исследований мы сможем помочь решить эти проблемы. Например, у нас есть общедоступная сеть, и каждый может загружать модели с открытым исходным кодом. Даже если вы открываете исходный код модели. и загрузить его в публичную цепочку, будет соответствующий механизм стимулирования.Например, если пользователи загружают данные, если нам разрешено обучаться, будут соответствующие стимулы.

Есть также проблемы с компьютером. Теперь у каждого на мобильном телефоне есть очень мощная видеокарта. Если мобильный телефон каждого может способствовать умозаключению, то мы сможем значительно снизить стоимость вывода. Мы надеемся, что наши идеалы могут быть по-настоящему реализованы благодаря возможностям Web3. Мы надеемся, что большие модели смогут расширить возможности всех сфер жизни, сопровождать каждого и действительно станут помощником или компаньоном каждого.

Спасибо вам всем!

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1Simple Earn Annual Rate 24.4%
22k Популярность
2Gate Launchpad List IKA
30k Популярность
3ETH Trading Volume Surges
23k Популярность
4Gate ETH 10th Anniversary Celebration
21k Популярность
5Trump’s AI Strategy
18k Популярность

Закрепить

Карта сайта