Наблюдение｜Волна больших моделей вот-вот исчерпает всю вселенную текстов Откуда берутся качественные данные?

Question

Источник: БумагаАвтор: Шао ВэньЭксперты предупреждают, что у ботов на базе искусственного интеллекта, таких как ChatGPT, вскоре может «исчерпаться текст во вселенной». В то же время использование данных, сгенерированных ИИ, для «обратной связи» ИИ или краха модели. Высококачественные данные, используемые для обучения будущих моделей, могут становиться все более и более дорогими, а сеть становиться фрагментированной и закрытой.«Когда разработка крупномасштабных моделей идет глубже, таких как крупномасштабные отраслевые модели, требуемые данные не являются бесплатными и открытыми данными в Интернете. Чтобы обучить модель с высокой точностью, необходим отраслевой опыт или даже коммерческий секреты, знания, чтобы каждый мог внести свой вклад в такой корпус, должен существовать механизм распределения прав и интересов».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c63d3da287-dd1a6f-7649e1) Источник изображения: сгенерировано Unbounded AIКак одна из «тройки» инфраструктуры искусственного интеллекта, важность данных всегда была очевидной. По мере того, как бум больших языковых моделей вступает в свой пиковый период, индустрия уделяет больше внимания данным, чем когда-либо прежде.В начале июля Стюарт Рассел, профессор компьютерных наук Калифорнийского университета в Беркли и автор книги «Искусственный интеллект — современный подход», предупредил, что у ботов с искусственным интеллектом, таких как ChatGPT, вскоре может «исчерпаться текст во вселенной». ", а методика обучения ботов путем сбора больших объемов текста "начинает сталкиваться с трудностями". По оценкам исследовательской фирмы Epoch, наборы данных машинного обучения могут исчерпать все «высококачественные языковые данные» к 2026 году.«Качество и объем данных станут ключом к появлению возможностей крупномасштабного моделирования на следующем этапе», — поделился Ву Чао, директор экспертного комитета CITIC Think Tank и директор Института исследований ценных бумаг China Securities. выступление на Всемирной конференции по искусственному интеллекту (WAIC) 2023 г. Подсчитано, что «20% качества модели в будущем будет определяться алгоритмом, а 80% — качеством данных. качественные данные станут ключом к повышению производительности модели».Однако откуда берутся качественные данные? В настоящее время индустрия данных по-прежнему сталкивается со многими неотложными проблемами, такими как стандарт качества данных, как способствовать обмену данными и их распространению, а также как разработать систему ценообразования и доходов от распределения.## **Срочно нужны высококачественные данные**Вэй Жилин, заместитель генерального директора Шанхайской биржи данных, заявил 8 июля в интервью газете The Paper (включая средства массовой информации), что в «тройке» данных, вычислительной мощности и алгоритмов данные являются ядром, самым длинным и самые основные элементы.Крупномасштабная языковая модель (LLM) сегодня демонстрирует потрясающую производительность, а механизм, лежащий в ее основе, описывается как «интеллектуальное появление».Проще говоря, теперь можно освоить навыки ИИ, которым раньше не обучали. А большое количество наборов данных является важной основой для «появления интеллекта».Большая языковая модель — это глубокая нейронная сеть с миллиардами и триллионами параметров, которая «предварительно обучена» на огромном корпусе естественного языка размером в несколько терабайт (терабайт, 1 ТБ = 1024 МБ), включая структурированные данные, онлайн-книги и другой контент. Шан Хайцзюнь, вице-президент Китайского исследовательского института электроники Jinxin, сказал Peng Mei Technology во время Всемирной конференции по искусственному интеллекту 2023 года, что большие модели по сути являются вероятностными моделями генерации, и их основные моменты заключаются в способности понимать (обучение с подсказкой контекста) и рассуждать ( цепочка мышления) и имеет ценности (обучение с подкреплением с обратной связью). Самый большой прорыв ChatGPT произошел, когда появился GPT-3 с примерно 175 миллиардами параметров и объемом данных 45 ТБ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb60d6123-dd1a6f-7649e1) Полный обзор всех наборов данных от GPT-1 до языковых моделей Gopher с 2018 по начало 2022 года. Невзвешенный размер в ГБ. Предоставлено: Алан Д. Томпсон.«OpenAI всегда стремился к поиску более качественных данных и глубокому анализу существующих данных, чтобы сделать свои возможности все более и более мощными», — 12 июля профессор Университета Фудань, директор Шанхайской ключевой лаборатории науки о данных Сяо Янхуа. сказал The Paper: «Получение крупномасштабных, высококачественных и разнообразных данных, а также углубленный анализ этих данных могут быть одной из важных идей, способствующих развитию крупных моделей».Однако качественных данных не хватает.Исследование, проведенное в ноябре прошлого года группой исследователей искусственного интеллекта Epoch, показало, что наборы данных машинного обучения могут исчерпать все «высококачественные языковые данные» к 2026 году. А когда исследование было опубликовано, глобального бума больших моделей еще не было. Согласно исследованию, языковые данные в «высококачественных» наборах были взяты из «книг, новостных статей, научных статей, Википедии и отфильтрованного веб-контента».В то же время практика сбора данных организациями по разработке генеративного ИИ, такими как OpenAI, для обучения больших языковых моделей становится все более и более противоречивой. В конце июня на OpenAI был подан коллективный иск по обвинению в краже «большого объема личных данных» для обучения ChatGPT. Социальные сети, в том числе Reddit и Twitter, выразили недовольство случайным использованием данных на своих платформах, 1 июля Маск ввел временное ограничение на количество прочитанных твитов по этой причине.В интервью технологическому и финансовому изданию Insider 12 июля Рассел сказал, что во многих сообщениях, хотя и неподтвержденных, подробно говорится о том, что OpenAI приобрела наборы текстовых данных из частных источников. Хотя существуют различные возможные объяснения этой покупки, «естественный вывод заключается в том, что общедоступных данных высокого качества недостаточно».Некоторые эксперты предполагают, что, возможно, новые решения появятся до того, как данные будут исчерпаны. Например, большая модель может непрерывно генерировать новые данные сама по себе, а затем подвергаться некоторой качественной фильтрации, которая, в свою очередь, может использоваться для обучения модели — это называется самообучением или «обратной связью». Однако, согласно статье, опубликованной на платформе препринтов arXiv исследователями из Оксфордского университета, Кембриджского университета и Имперского колледжа Лондона в мае этого года, обучение ИИ с использованием данных, сгенерированных ИИ, приведет к необратимым дефектам в модели ИИ. Свернуть модель. Это означает, что качественные данные, используемые для обучения моделей, в будущем будут становиться все дороже и дороже, сеть станет фрагментированной и закрытой, а создатели контента будут делать все возможное, чтобы предотвратить бесплатное сканирование их контента.Нетрудно заметить, что получение качественных данных будет становиться все более и более сложным. «Большая часть наших данных сейчас поступает из Интернета. Откуда будут поступать данные во второй половине года? Я думаю, что это очень важно. Об этом на Всемирной конференции по искусственному интеллекту 2023 года рассказал молодой ученый из Шанхайской лаборатории искусственного интеллекта, ответственный за OpenDataLab Хэ Цунхуэй.Ву Чао также сказал The Paper, что тот, кто будет иметь более качественные данные или сможет генерировать постоянный поток высококачественных данных, станет ключом к повышению производительности.## **Проблемы, связанные с данными**Хэ Конгуи считает, что парадигма разработки всей модели постепенно изменится с «модельно-ориентированной» на «ориентированную на данные». Но есть проблема с датацентричностью - отсутствие стандартов, и часто упоминается критичность качества данных, но на самом деле в настоящее время трудно кому-либо однозначно сказать, что такое хорошее качество данных, а что такое стандарт.В процессе практики Хэ Цунхуэй также столкнулся с такой проблемой: «Наша практика в этом процессе состоит в том, чтобы разбивать данные и делать их все более и более подробными. С каждым полем подразделения и темой подразделения постепенно повышается стандарт качества данных. становится все меньше и меньше. Это было предложено. В то же время недостаточно смотреть только на данные, но и смотреть за данными. Мы объединим данные и улучшение производительности модели соответствующего намерения данных и вместе сформулировать набор механизмов итерации качества данных».В прошлом году Шанхайская лаборатория искусственного интеллекта, в которой работает Хэ Конгуи, выпустила открытую платформу данных OpenDataLab для искусственного интеллекта, предоставляющую более 5500 высококачественных наборов данных, «но это только на уровне общедоступных наборов данных. Мы надеемся, что данные обмен будет установлен два дня назад. Крупномасштабный альянс корпусных данных может предоставить исследовательским учреждениям и предприятиям более совершенные методы обмена данными».6 июля на Всемирной конференции по искусственному интеллекту 2023 года Шанхайская лаборатория искусственного интеллекта, Китайский институт научной и технологической информации, Шанхайская группа данных, Шанхайская ассоциация цифрового бизнеса, Национальный метеорологический центр, Центральное радио и телевидение Китая, Шанхайская группа прессы. Альянс модельных корпусных данных, совместно инициированный другими подразделениями, объявил об официальном создании.7 июля официальный веб-сайт Шанхайской биржи данных официально запустил корпус, и в общей сложности было перечислено около 30 продуктов корпусных данных, включая текст, аудио, изображения и другие мультимодальности, охватывающие финансы, транспорт и медицинские области.Но такое построение корпуса не является само собой разумеющимся. "Могут ли быть высококачественные корпуса, необходимые крупным предприятиям? Захочет ли целевая аудитория открывать данные?" Тан Цифэн, генеральный менеджер Шанхайской биржи данных, заявил на Всемирной конференции по искусственному интеллекту 2023 года, что трудности в основном заключаются в степень открытости и качество данных Два пути.Вэй Жилин поделился, что в настоящее время предоставление данных сталкивается со многими проблемами. Ведущие производители не желают открывать данные. В то же время всех беспокоит механизм безопасности в процессе обмена данными. Еще один важный вопрос заключается в том, что все еще существуют сомнения относительно механизма распределения доходов от открытого обращения данных.В частности, обмен данными должен решить три проблемы. Лин Ле, основатель и генеральный директор Shanghai Lingshu Technology Co., Ltd., объяснил Pengpai Technology, что, во-первых, данные легко подделать, и необходимо обеспечить их подлинность и достоверность. Во-вторых, данные легко скопировать, а это означает, что отношения собственности неясны, а для подтверждения и авторизованного использования требуется блокчейн. В-третьих, легко утечь конфиденциальность.Блокчейн можно комбинировать с технологией конфиденциальных вычислений, чтобы сделать данные доступными и невидимыми.## **Как решить распределение доходов**Тан Цифэн отметил, что для поставщиков с высоким качеством данных, но низкой открытостью, проблема доверия к обороту корпусных данных может быть эффективно решена через цепочку транзакций данных: «Одним из основных является вопрос о правах собственности и распределении выгод после участие в крупномасштабной модели».Лин Чанлэ, исполнительный вице-президент Междисциплинарного исследовательского института информационных технологий Университета Цинхуа, разрабатывает теоретическую систему того, как оценивать данные и распределять выгоды.«В какой-то степени многие человеческие знания, такие как ChatGPT, можно использовать бесплатно через несколько месяцев. Мы видим, что большая модель может изучать статьи некоторых писателей, писать статьи в том же стиле или генерировать картины Ван Гога, но это не так. не обязательно должен быть этот платеж, субъекты этих источников данных не получили от него выгоды», — сказал Лин Чанлле на Всемирной конференции по искусственному интеллекту 2023 года, поэтому может быть более радикальная точка зрения: права интеллектуальной собственности в эпоху крупных моделей не существует, или Говорят, что традиционной защиты интеллектуальной собственности не существует.Однако Лин Чанлэ считает, что после эпохи больших моделей защита прав интеллектуальной собственности перерастет в подтверждение прав на данные, ценообразование и транзакции. «Когда разработка крупномасштабных моделей идет глубже, таких как крупномасштабные отраслевые модели, требуемые данные не являются бесплатными и открытыми данными в Интернете. Для обучения моделей с чрезвычайно высокой точностью необходимы отраслевые знания или даже коммерческие секреты, знания, чтобы каждый мог внести свой вклад в такой корпус, должен существовать механизм распределения прав и интересов».«Карта активов данных», над которой сейчас работает Лин Чангл, должна использовать математику для доказательства набора механизмов распределения доходов для справедливого распределения прав на данные.**Как решить циркуляцию данных**Лю Цюань, заместитель главного инженера НИИ CCID Минпроминформа и иностранный академик РАЕН, отметил на WAIC «Интеграция чисел и реальности, интеллект впереди будущего» Промышленный блокчейн Экологический Форум, что недавно в отрасли появилась пекинская версия «Двадцати статей данных».Очень большой отклик, он решает основную проблему в процессе обращения данных. Наиболее очевидно, что проясняется вопрос о том, кто владеет государственными данными — публичные данные принадлежат правительству. Как насчет корпоративных данных и личных данных? «Пекинскому муниципальному обмену данными можно доверить выполнение доверенных операций».5 июля Пекинский муниципальный комитет Коммунистической партии Китая и Пекинское муниципальное народное правительство опубликовали уведомление «О реализации мнений по более эффективному использованию элементов данных и дальнейшему ускорению развития цифровой экономики». "Мнения по реализации" разделены на девять частей. В нем строится базовая система данных с учетом аспектов прав собственности на данные, транзакций по обращению, распределения доходов и управления безопасностью. В нем выдвигаются в общей сложности 23 конкретных требования, которые называются Пекинскими версия «Двадцати статей данных» в отрасли.«С внутренней точки зрения, согласно статистике, 80% ресурсов данных сосредоточены в государственных и государственных учреждениях. Мы хотим решить проблему предоставления данных, в значительной степени, мы надеемся, что они будут основаны на 20 статьях данных ( «Мнения Центрального комитета Коммунистической партии Китая и Государственного совета по созданию базовой системы данных о лучшем выполнении роли элементов данных»). Открытый обмен общедоступными данными может сформировать набор воспроизводимых механизмов и парадигм для продвижения данных, в коммунальных службах, а затем служить населению», — сказал Вэй Жилинь.Вэй Жилин сообщил, что по текущей статистике запас ресурсов данных в Китае в целом занимает второе место в мире, но эти данные разбросаны по разным местам. По словам Чжан Юбао, заместителя директора Научно-исследовательского института цифрового Китая Государственного информационного центра, на Всемирной конференции по искусственному интеллекту 2023 года 7 июля текущая национальная система обмена данными Китая включает: является Shenzhen Data Exchange, в Китае 17 центров обмена данными, в том числе Пекинский центр обмена данными.