Если данные будут исчерпаны большими моделями, увидим ли мы общий искусственный интеллект?

Первоисточник: Вторая половина автономного вождения

Источник изображения: Создано Unbounded AI‌

Мы находимся на пороге всеобщего искусственного интеллекта. Хотя ChatGPT вызвал энтузиазм во всем мире, он также разжег конкуренцию за крупные модели искусственного интеллекта. Google запустила Bard для тестирования, Amazon также присоединилась к битве, а Meta, которая делала большую ставку на метавселенную, не собиралась отставать и запустила LLaMa и SAM. На этой стороне океана BAT, которая, как известно, обладает наибольшим количеством ресурсов, снова встретилась на основе генеративной модели. На фоне тенденции к созданию крупных моделей воплощенный интеллект, похоже, готовит огромные перемены.

Кажется, все вернулось на десять лет назад, когда начался предпринимательский бум. **Только на этот раз особенность общего искусственного интеллекта раскрывается большими моделями, а в центре сцены официально стоят данные. **

01. Каковы ключевые элементы разработки больших моделей

  1. Вычислительная мощность делает большие модели прибыльной игрой

Большая модель, с точки зрения непрофессионала, — это модель с огромным количеством параметров. По сравнению с предыдущими небольшими моделями, которые могли работать на одном графическом процессоре, эту задачу можно было реализовать, только полагаясь на огромные вычислительные мощности, которыми располагают крупные компании. Например, OpenAI ChatGPT в настоящее время стоит до одного миллиона долларов США за обучение. Возможность участия небольших лабораторий в волне искусственного интеллекта была напрямую прекращена крупными моделями, и только компании с сильным накоплением могут ее завершить.

Таким образом, единственными героями, появившимися в общей предпринимательской волне крупных моделей, были те, у кого были замечательные истории в предпринимательской волне Интернета, такие как Ван Хуэйвэнь из Meituan, Кай-фу Ли из Sinovation Ventures и Ван Сяочуань из Sogou. Появился закон моделей Мура, и более крупные модели принесли лучшее понимание мира и возможности рассуждения.

1. Модель разработки алгоритмов, ориентированная на модели, закончилась

В настоящее время модель разработки обычных компаний, занимающихся искусственным интеллектом, по-прежнему представляет собой «традиционную» модель разработки, основанную на модели, то есть фиксации набора данных и последующей итерации модели. Инженеры-алгоритмы обычно сосредотачиваются на нескольких наборах контрольных данных, а затем разрабатывают различные модели для повышения точности прогнозов.

Хотя большие модели растут, как грибы после дождя, на самом деле алгоритмы, лежащие в основе большинства моделей, имеют тенденцию быть последовательными, и никаких серьезных изменений моделей не произошло. Объединение объема данных позволяет обученной модели работать намного лучше, чем модель с небольшими изменениями. Например, несколько месяцев назад пионер искусственного интеллекта Ян ЛеКун опубликовал статью, в которой говорилось, что в ChatGPT технически нет ничего нового, но он достиг превосходной производительности. Осторожные изменения алгоритма могут не дать лучших результатов, чем добавление и итерация данных. По сравнению с производительностью модели, обученной на одном наборе данных, производительность модели, обеспечиваемая огромным количеством высококачественных данных, является ударом по уменьшению размерности. **

1. Данные становятся ключевым элементом разработки больших моделей.

Успех больших моделей OpenAI обусловлен верой Ильи в то, что количественные изменения в больших данных и больших моделях приведут к качественным изменениям. Например, ChatGPT использует для обучения не менее 40Т крупномасштабных данных, и если объем эффективных данных продолжит увеличиваться, он сможет достичь более высокой производительности. Согласно исследованию Google «Эмерджентные возможности больших языковых моделей», в определенную критическую точку параметров модели модель внезапно приобрела неожиданные возможности.

Чтобы обеспечить возможность разумного обучения такого большого количества параметров, ключевым моментом стали высококачественные данные. Если взять в качестве примера разработку ChatGPT, GPT-1 использовал только 4629 МБ текстовых данных, в то время как GPT-2 использовал 40 ГБ текста, просканированного и отфильтрованного с Reddit, а GPT-3 использовал не менее 45 ТБ обычного текста. Процесс обучения -4 не раскрыт, но, учитывая, что скорость вывода GPT-4 намного медленнее, чем у GPT-3, можно сделать вывод, что количество параметров модели также увеличилось, и соответствующее обучение данные, очевидно, требуют большего. Эти высококачественные данные являются важной причиной того, что ChatGPT впервые появился в английском мире.Обучающие тексты на английском языке более стандартизированы и богаче, чем обучающие тексты на китайском языке.

Ян Донг, декан Института междисциплинарных наук Китайского университета Жэньминь, также считает, что фундаментальной причиной успеха ChatGPT является не только сама технология, но и серьезные проблемы неоткрытости данных и монополии данных в Китае. Что касается недавно выпущенной модели семантической сегментации Segment Anything Model от Meta, то в целом контролируемая модель не имеет очевидных инноваций, но использование массивных данных в области семантической сегментации делает производительность модели потрясающей. Десятки миллионов изображений и миллиарды масок сегментации никогда не встречались в области семантической сегментации изображений.

**Модель разработки ИИ меняется с модельно-ориентированной на дата-центрированную. **Откуда вы берете данные? Достаточно ли данных в мире для моделей?

02. Реальные данные будут исчерпаны большими моделями

В этом мире человеческая деятельность происходит постоянно, так не должны ли оставленные следы данных продолжать расти? Почему оно исчерпано?

Недостаточно качественных данных

Не все следы, полученные в результате деятельности человека, можно использовать для обучения модели. Только высококачественные данные, поступающие в обучение модели, могут дать наилучшие результаты.

В области обработки естественного языка высококачественными данными являются естественно оцифрованные книги и научные статьи. Наличие хороших логических связей также может обеспечить относительную точность. Данные низкого качества, такие как записи чатов, телефонные звонки и т. д., оказывают относительно ограниченное влияние на обучение из-за плохой непрерывности данных. В документации по разработке ChatGPT 3 упоминается, что после качественной фильтрации данных на 45 ТБ простого текста было получено 570 ГБ текста с использованием только 1,27% эффективных данных.

В области автономного вождения высококачественные данные генерируются на основе большого количества различных сценариев. Например, дорога с относительно небольшой кривизной может встречаться очень часто, но на самом деле, чем больше раз она встречается, тем менее она важна. Напротив, для некоторых нетрадиционных сценариев (например, углового случая) качество данных выше, и адаптацию сценария необходимо выполнять отдельно. Однако эти относительно небольшие образцы — почти капля в море, когда они сталкиваются с требованиями к параметрам больших моделей.

Ограничения, связанные с безопасностью и конфиденциальностью данных

Развитие генеративного искусственного интеллекта сопровождалось спорами по поводу безопасности данных. После того, как Stable Diffusion стал доступен, он вызвал недовольство среди многих художников.Под давлением Stability AI объявила, что позволит художникам целенаправленно удалять свои работы и не допускать их попадания в обучающий набор.

В некоторых случаях общедоступные данные могут содержать конфиденциальную информацию, такую как личная информация, финансовая информация или медицинские записи. Во многих отраслях и регионах очень сложно получить данные, содержащие конфиденциальную информацию, что увеличивает сложность сбора данных и снижает темпы роста соответствующих наборов данных. Это стало ограничением для крупных отраслевых моделей. Например, в сфере медицины из-за особенностей и конфиденциальности этой области невозможно получить объем данных, который можно использовать для обучения больших моделей при строгой защите конфиденциальности и нормативных ограничениях.

Реальных данных высокого качества может быть недостаточно для обучения больших моделей

В статье «У нас закончатся данные? Анализ ограничений масштабирования наборов данных в машинном обучении» исследуется возможность нехватки данных (объема данных недостаточно для удовлетворения потребностей обучения больших моделей). темпы роста модели* Примерно к 2026 году высококачественных данных НЛП будет недостаточно для поддержки обучения*. Запасы данных для моделей языка и зрения растут гораздо медленнее, чем размер наборов обучающих данных, поэтому, если текущие тенденции сохранятся, наборы данных в конечном итоге перестанут расти из-за исчерпания данных.

С увеличением объема данных большая часть данных, собранных с помощью неконтролируемых методов сбора данных, теряет смысл. Например, в сценариях автономного вождения транспортные средства постоянно собирают новые данные на дороге, но реально использовать можно лишь очень немногие из них. Поэтому в недавнем разговоре генерального директора Nvidia Дженсена Хуанга и Ильи Суцкевера они также обсудили возможность исчерпания данных.

03. Синтетические данные могут удовлетворить огромные потребности в больших моделях.

Модель разработки, ориентированная на данные, делает данные наиболее важной частью. Алгоритмы обучения требуют данных, но получить данные высокого качества сложно.Как удовлетворить огромные потребности в данных больших моделей?

Точно так же, как в пище присутствует синтетическое мясо, можно ли искусственно синтезировать данные? Синтетические данные — это данные, созданные в цифровом мире. Управляемость синтетических данных лучше, чем у реальных данных, они могут отражать свойства реальных данных в математическом и физическом смысле, а также могут направленно производить данные для обеспечения баланса данных при обучении модели.

Синтетические данные содержат информационную дельту

Изучите распределение данных в реальных данных и создайте больше данных на основе этого распределения, чтобы обеспечить достаточно данных для обучения больших моделей в различных сценариях. Сочетание разных элементов дает разные сцены, а изменения сцен также приводят к увеличению информации, обеспечивая тем самым эффективность синтезированных данных.

Согласно исследованию OpenAI и Калифорнийского университета в Беркли 2017 года, на основе реальной сцены обобщается положение камеры, цвет объекта, форма, освещение и т. д., а также генерируется большой объем синтетических данных для обучения Модель обнаружения объектов. Поскольку реальные данные вообще не используются, трехмерная ошибка модели обнаружения сохраняется в пределах 1,5 см и имеет очень хорошую надежность.

Например, в области автономного вождения типичная реальная сцена движения впереди идущего автомобиля может быть воспроизведена посредством обобщенных данных о погоде и освещении с использованием синтетических данных. После того, как полученные данные будут использованы для обучения модели, модель будет иметь более надежную работу в различных погодных условиях и условиях освещения. Согласно исследованию Nvidia, проведенному в 2018 году, использование для обучения модели синтетических данных, полученных с использованием рандомизированных положений и текстур транспортных средств, производительность модели обнаружения значительно улучшилась. Это объясняется более равномерным распределением местоположений транспортных средств с синтетическими данными и более широким распределением полученных данных.

Управляемость синтетических данных лучше, чем у реальных данных, они могут отражать свойства реальных данных в математическом и физическом смысле, а также могут направленно производить данные для обеспечения баланса данных при обучении модели. При целевом формировании данных существует возможность настройки характеристик большой модели. Например, есть надежда, что большая языковая модель будет предвзятой при ответе на определенные вопросы и будет иметь специальные стили и элементы при создании определенных изображений. . Все это может быть достигнуто с помощью пользовательских синтетических данных.

Основано на реальных данных, но отличается от реальных данных. Эта характеристика синтетических данных делает их все более широко используемыми: их можно использовать не только для тестирования, но и в качестве обучающих данных, чтобы сделать модель более мощной.

Ценовое преимущество синтетических данных огромно

Стоимость данных связана со сбором и маркировкой, и в обоих случаях синтетические данные имеют значительные преимущества.

По сравнению с неэффективным сбором реальных данных, синтетические данные могут целенаправленно генерировать сценарии, делая ценным каждый байт данных. Нет необходимости ни в большой команде по сбору данных, ни в крупномасштабной системе возврата данных и системе фильтрации данных.Синтетические данные основаны на потребностях обучения модели с самого начала производства, и большая часть выходных данных может использоваться напрямую. что снижает стоимость данных.Затраты на сбор.

В то же время стоимость маркировки синтетических данных имеет огромное преимущество по сравнению с реальными данными.По оценкам платформы обслуживания данных Diffgram, при маркировке изображений автономного вождения средняя цена коробки для маркировки составляет около 0,03 доллара США. а общая стоимость полной маркировки изображения составляет около 0,03,5,79 доллара США, а для синтетических данных цена аннотаций в основном близка к нулю, а некоторые представляют собой просто затраты на вычисление данных, которые стоят всего около 6 центов. Короче говоря, синтетические данные можно использовать для обучения больших моделей более управляемым, эффективным и недорогим способом.

**Если сбор реальных данных находится еще в эпоху подсечного земледелия и животноводства, то производство синтетических данных вступило в эпоху эффективной и автоматизированной промышленности, обеспечивающей крупномасштабную качественную продукцию по доступной цене. бюджетный. **По данным «MIT Technology Review», синтетические данные входят в десятку лучших прорывных технологий в мире в 2022 году. Считается, что синтетические данные могут решить проблему медленного развития искусственного интеллекта в областях с недостаточными ресурсами данных.

04. Каким отраслям потребуются синтетические данные

**На самом деле, синтетические данные широко используются за рубежом: в области робототехники, автономного вождения, обработки естественного языка, финансов, здравоохранения и т. д. мы все можем видеть синтетические данные. **

Еще в 2018 году OpenAI использовала среду моделирования для обучения контроллеров роботов.Процесс обучения будет рандомизировать динамику окружающей среды, а затем применять контроллер непосредственно к физическому роботу.Таким образом, робот может выполнять простые задачи при выполнении простых задач.Неожиданно изменения во внешней среде.

Согласно отчету JPMorgan Chase за 2019 год, он использовал синтетические данные для обучения моделей обнаружения финансового мошенничества, чтобы решить проблему очень небольшого количества данных о финансовом мошенничестве.

Стэнфордский университет также недавно выпустил собственную крупномасштабную модель разговора «Альпака» с 7 миллиардами параметров.Что особенно интересно, так это то, что набор данных, задействованный в исследовании, был сгенерирован командой с использованием API OpenAI.Другими словами, весь набор обучающих данных был полностью синтезирован. Состав данных и конечный эффект сравнимы с GPT-3.5.

Опять же, возьмем в качестве примера автономное вождение, как важное применение компьютерного зрения. Индустрия автономного вождения прошла долгий путь в использовании синтетических данных. Чтобы снизить затраты на тестирование и повысить эффективность итераций, в отрасли широко используются механизмы моделирования для тестирования и проверки алгоритмов автономного вождения.

Функции автономного вождения на основе машинного зрения должны собирать огромные объемы данных реальной сцены для обучения моделей глубокого обучения для завершения восприятия мира. Однако массово производимые данные с длинным хвостом зачастую сложно или невозможно собрать в реальном мире. При этом даже внешний вид одного и того же объекта может сильно различаться в разное время и в разных погодных условиях, что создает большие трудности для зрительного восприятия.

По сравнению со сбором реальных данных, стоимость синтетических данных контролируема и не требует ручного аннотирования, что значительно снижает количество человеческих ошибок, вызванных несогласованностью процессов сбора и потоков данных и человеческими стандартами. Таким образом, синтетические данные рассматриваются в отрасли как один из эффективных способов решения проблемы «длинного хвоста».

Однако для лучшего обучения систем автономного вождения качество большинства данных моделирования далеко не достаточно: они не могут отражать реальный мир и представляют собой лишь высокую степень абстракции реального мира. Поэтому многие компании в отрасли вложили значительные средства в повышение реалистичности данных.Например, программное обеспечение Nvidia для моделирования автономного вождения DriveSim использует передовую технологию физического рендеринга для повышения реалистичности синтетических данных.

Cruise и Waymo используют технологии, связанные с NeRF, для создания миров цифровых двойников, а затем синтетических данных.Nvidia также предложила Instant NGP в 2022 году, что значительно повысило эффективность обучения NeRF.

Еще на AIDay 2021 года компания Telsa тренировала систему восприятия, используя сцены бегущей по шоссе семьи и толпы, которую трудно обозначить, что было очень впечатляюще.

В то же время в Кремниевой долине в авангарде отрасли начали появляться многие компании, занимающиеся синтетическими данными: Parallel Domain и Applied Intuition, которые обслуживают автономное вождение, Datagen, которая обслуживает общую индустрию машинного зрения, и Gretel AI, которая За этими компаниями стоят ведущие гиганты отрасли.

Gartner прогнозирует, что в 2024 году 60% обучающих данных будут заменены данными взрослых, а в 2030 году синтетические данные полностью заменят реальные данные и станут основным источником данных для обучения ИИ.

В настоящее время большинство компаний по-прежнему используют реальные данные для обучения моделей.

05. Ограничения синтетических данных

Какие проблемы еще предстоит решить с помощью синтетических данных, прежде чем они смогут полностью заменить реальные данные? Здесь мы возьмем автономное вождение в качестве примера, чтобы провести некоторое обсуждение.

Правдивость

С точки зрения восприятия подлинность действительно является первым показателем оценки. Прежде чем этот пакет данных попадет в систему обучения, может ли он пройти визуальную проверку человеком, чтобы убедиться, что он выглядит реальным?

Что касается недостатков реализма, реальность, видимая невооруженным глазом, не отражает реальную эффективность данных. Слепое стремление к визуальному реализму изображений может не иметь практического количественного значения. Количественный стандарт оценки подлинности синтетических данных должен быть основан на улучшении наборов синтетических данных по сравнению с реальными наборами данных для алгоритмов, обученных на наборах синтетических данных. В настоящее время в индустрии автономного вождения, предъявляющей самые высокие требования к достоверности синтетических данных, уже есть примеры от Cruise, Nvidia, Waymo, Tesla и т. д., которые эффективно и значительно улучшили работу алгоритмов на реальных дорогах на основе синтетические данные. Разумеется, по мере совершенствования алгоритмов будут возрастать и требования к достоверности синтетических данных. Недавние непрерывные прорывы в области генеративного искусственного интеллекта дали нам хорошее практическое направление для повышения реалистичности синтетических данных.

Разнообразие сцен

Построение моделей мира на синтетических данных, таких как построение сценариев автономного вождения. Нам нужно создать виртуальный мир и смоделировать работу реального мира, чтобы синтетические данные лились, как родниковая вода. Традиционный метод основан на моделировании искусственных алгоритмов. Например, метод построения традиционных производителей синтетических данных основан исключительно на физических механизмах, которые определяют скорость построения сцены. Весь физический мир должен быть построен вручную инженерами 3D-активов. Каждое здание и уличный знак приходится строить вручную, размещение, что ограничивает скорость построения сцены и сильно ограничивает разнообразие сцен. Генеративный искусственный интеллект, такой как Diffusion Model и Nerf, обеспечивает возможность автоматизированного моделирования, ориентированного на данные, для линии производства синтетических данных.

Искусственно построенные сцены сильно ограничивают обобщение синтетических данных.В конце концов, мы надеемся, что обученный алгоритм достаточно устойчив, чтобы достаточно хорошо работать в реальном мире.

Очевидно, что искусственное построение не может охватить каждую сцену реального мира. Чтобы создать достаточно данных, чтобы охватить весь реальный мир, нам необходимо изучить неявное выражение реального мира, а затем создавать достаточно разнообразные сцены. Это должно опираться на генеративный искусственный интеллект.

Производительность

Поддержка быстрого производства данных с помощью высокой вычислительной мощности позволяет синтезировать данные со скоростью, не имеющей себе равных в реальном мире.

06. Генеративный искусственный интеллект позволяет синтетическим данным заменять реальные данные в больших масштабах

NVidia Хуан Ренсюнь считает, что человеческие размышления и мечты являются частью синтетических данных, что эквивалентно тому, как ИИ генерирует данные для обучения ИИ. Чтобы удовлетворить огромные потребности больших моделей в данных, нам необходимо полностью автоматизировать процесс производства синтетических данных, чтобы ИИ мог обучать ИИ.

Благодаря недавнему быстрому развитию моделей диффузии и NeRF, высококачественные синтетические данные ИИ больше не являются фантастикой. Сложный математический процесс Diffusion Model, основанный на цепях Маркова, позволяет создавать более крупные и стабильные модели генерации изображений, а также преодолевает проблему слишком сложного обучения для состязательных сетей генерации. Модель «Стабильная диффузия» использует огромную коллекцию изображений, чтобы люди могли увидеть безграничные возможности модели диффузии, а введение сетей, связанных с ControlNet, также делает адаптацию в конкретных областях более удобной.

NeRF (Neural Radiance Fields) превращает построение 3D-мира в процесс обучения нейронной сети. Он эффективно сочетает нейронные поля (Neural Field) и рендеринг вокселей для очень реалистичной реконструкции 3D-мира и очень перспективен для замены громоздкого процесса. Процесс создания физического движка. Waymo разработала BlockNeRF на основе этой технологии для эффективной реконструкции Сан-Франциско и получения там синтетических данных. Недавняя статья CVPR Highlight UniSim подтолкнула применение NeRF на большой шаг вперед.

На основе этих технологий начали появляться «единороги» AIGC. После того, как StabilityAI (модель диффузии), Midjourney (модель диффузии) и LumaLab AI (NeRF) обучены на больших объемах данных, подлинность изображений больше не может подвергаться сомнению, а полученные художественные эффекты и новые выражения данных позволяют нам см. Вот и наступает светлое будущее обобщения синтетических данных.

07, написано в конце

ChatGPT — это только отправная точка, а крупные модели в области естественного языка — это всего лишь искры. Хотя ChatGPT уже обладает базовыми возможностями искусственного интеллекта, которые получаются путем изучения данных естественного языка человека, на самом деле когнитивное мышление человека о мире определенно не ограничивается языком и текстом, а является мультимодальным (изображения, текст, звук, свет, электричество, фильм...). Нетрудно сделать вывод, что настоящий ИИИ должен быть способен обрабатывать всю модальную информацию в мире так же мгновенно, эффективно, точно и логично, как и люди, и выполнять различные кросс-модальные или мультимодальные задачи. Недавнее увлечение воплощенным интеллектом также предвещает появление новых методов мультимодального взаимодействия.

Для этого также требуются мультимодальные данные, что еще больше увеличивает сложность получения реальных данных, а мультимодальные реальные данные еще более скудны.

Например, по сравнению с текстовыми данными и данными изображений, которые можно найти повсюду, существует лишь несколько соответствующих наборов высококачественных 3D-данных. Обычно используемые наборы данных изображений научных исследований обычно содержат сотни миллионов или более изображений, в то время как многие наборы трехмерных данных более высокого качества, которые можно использовать для научных исследований, содержат только тысячи или десятки тысяч трехмерных моделей. Если мы хотим, чтобы искусственный интеллект понимал трехмерный мир, нам понадобится большой объем мультимодальных данных, содержащих трехмерные модели. Для решения этого также могут потребоваться синтетические данные.

Автоматизация построения моделей мира, предоставление ИИ возможности контролируемо генерировать мультимодальные данные и обучение более интеллектуальных больших моделей — это истинный путь к общему искусственному интеллекту.

Некоторые ссылки:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить