Спостереження｜Хвиля великих моделей ось-ось вичерпає весь всесвіт текстів. Звідки беруться високоякісні дані?

Question

Джерело: The PaperАвтор: Шао ВеньЕксперти попереджають, що боти на основі штучного інтелекту, такі як ChatGPT, незабаром можуть «залишитися без тексту у всесвіті». У той же час використання даних, згенерованих ШІ, для «зворотного зв’язку» ШІ або спричинення колапсу моделі. Високоякісні дані, які використовуються для майбутнього навчання моделі, можуть ставати все дорожчими, а мережа стане фрагментованою та закритою.«Коли розробка великомасштабних моделей йде глибше, таких як великомасштабні промислові моделі, необхідні дані не є безкоштовними та відкритими даними в Інтернеті. Щоб навчити модель з високою точністю, потрібна галузева експертиза або навіть комерційна діяльність. таємниці Знання Щоб кожен міг зробити свій внесок у такий корпус, має бути механізм розподілу прав та інтересів».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c63d3da287-dd1a6f-7649e1) Джерело зображення: створено Unbounded AIБудучи однією з «трійки» інфраструктури штучного інтелекту, важливість даних завжди була самоочевидною. Оскільки бум великих мовних моделей наближається до свого піку, галузь приділяє більше уваги даним, ніж будь-коли раніше.На початку липня Стюарт Рассел, професор комп’ютерних наук Каліфорнійського університету в Берклі та автор книги «Штучний інтелект — сучасний підхід», попередив, що боти на основі штучного інтелекту, такі як ChatGPT, незабаром можуть «залишитися без тексту у всесвіті» ." ", а техніка навчання ботів шляхом збору великої кількості тексту "починає стикатися з труднощами". Дослідницька компанія Epoch вважає, що набори даних машинного навчання можуть вичерпати всі «високоякісні мовні дані» до 2026 року.«Якість і обсяг даних будуть ключовими для появи можливостей великомасштабної моделі на наступному етапі», — поділився Ву Чао, директор експертного комітету CITIC Think Tank і директор Науково-дослідного інституту цінних паперів China Securities. виступ на Всесвітній конференції зі штучного інтелекту (WAIC) у 2023 році. За оцінками, «20% якості моделі в майбутньому визначатиметься алгоритмом, а 80% — якістю даних. Далі, висока -якісні дані будуть ключем до покращення продуктивності моделі».Однак звідки беруться високоякісні дані? Наразі індустрія обробки даних все ще стикається з багатьма нагальними проблемами, наприклад, що є стандартом якості даних, як сприяти спільному використанню та обігові даних, а також як розробити систему ціноутворення та розподілу доходів.## **Терміново високоякісні дані**Вей Чжилінь, заступник генерального директора Shanghai Data Exchange, сказав в інтерв’ю The Paper (включаючи ЗМІ) 8 липня, що в «трійці» даних, обчислювальної потужності та алгоритмів дані є ядром, найдовшими та найдовшими. найосновніші елементи.Широкомасштабна мовна модель (LLM) сьогодні має дивовижну продуктивність, а механізм, що лежить в її основі, можна коротко назвати «інтелектуальною появою».Простіше кажучи, навички штучного інтелекту, яким раніше не навчали, тепер можна навчитися. А велика кількість наборів даних є важливою основою для «виникнення інтелекту».Велика мовна модель — це глибока нейронна мережа з мільярдами до трильйонів параметрів, яка «попередньо навчена» на величезному корпусі природної мови розміром у декілька терабайтів (Терабайт, 1 ТБ=1024 МБ), включаючи структуровані дані, онлайн-книги та інший вміст. Шань Хайцзюнь, віце-президент науково-дослідного інституту China Electronics Jinxin, сказав Peng Mei Technology під час Всесвітньої конференції зі штучного інтелекту 2023 року, що великі моделі, по суті, є імовірнісними моделями генерації, і їх основні переваги полягають у здатності розуміти (контекстне навчання) і міркувати ( ланцюг мислення) і має цінності (навчання з підкріпленням зворотного зв’язку людини). Найбільшим проривом ChatGPT стала поява GPT-3 з приблизно 175 мільярдами параметрів і обсягом даних 45 ТБ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb60d6123-dd1a6f-7649e1) Повний огляд усіх наборів даних від GPT-1 до підібраних мовних моделей Gopher з 2018 року до початку 2022 року. Незважений розмір у ГБ. Авторство зображення: Алан Д. Томпсон«OpenAI завжди працював над пошуком більш високоякісних даних і глибоким аналізом існуючих даних, щоб зробити свої можливості все більш і більш потужними». «Отримання великомасштабних, високоякісних і різноманітних даних, а також поглиблений аналіз цих даних може бути однією з важливих ідей для сприяння розвитку великих моделей», — сказав The Paper.Однак високоякісних даних бракує.Дослідження, проведене в листопаді минулого року Epoch, групою дослідників штучного інтелекту, підрахувало, що набори даних машинного навчання можуть вичерпати всі «високоякісні мовні дані» до 2026 року. А коли дослідження було опубліковано, світового буму великих моделей ще не було. Згідно з дослідженням, мовні дані у «високоякісних» наборах надходять із «книг, новинних статей, наукових робіт, Вікіпедії та відфільтрованого веб-контенту».У той же час практика збору даних генеративними організаціями розробки ШІ, такими як OpenAI, для навчання великих мовних моделей стає все більш суперечливою. Наприкінці червня на OpenAI був поданий колективний позов, звинувачений у крадіжці «великої кількості особистих даних» для навчання ChatGPT. Соцмережі, зокрема Reddit і Twitter, висловили невдоволення випадковим використанням даних на їхніх платформах.1 липня Маск ввів тимчасове обмеження на кількість прочитаних твітів з цієї причини.В інтерв’ю технологічному та фінансовому ЗМІ Insider 12 липня Рассел сказав, що багато звітів, хоча й непідтверджених, деталізують те, що OpenAI купував набори текстових даних у приватних джерел. Хоча існують різні можливі пояснення цієї покупки, «природним висновком є те, що недостатньо якісних публічних даних».Деякі експерти припускають, що, можливо, нові рішення з’являться до того, як дані будуть вичерпані. Наприклад, велика модель може постійно генерувати нові дані сама, а потім піддаватися певній якісній фільтрації, яка, у свою чергу, може бути використана для навчання моделі. Це називається самонавчанням або «зворотним зв’язком». Однак, згідно з документом, опублікованим на платформі препринтів arXiv дослідниками з Оксфордського університету, Кембриджського університету та Імперського коледжу Лондона в травні цього року, навчання штучного інтелекту за допомогою даних, створених штучним інтелектом, призведе до незворотних дефектів у моделі ШІ. це згортання моделі. Це означає, що високоякісні дані, які використовуються для навчання моделі в майбутньому, будуть ставати все дорожчими, мережа стане фрагментованою та закритою, а творці контенту докладуть усіх зусиль, щоб запобігти безкоштовному скануванню їхнього вмісту.Неважко помітити, що отримання високоякісних даних ставатиме дедалі складнішим. «Більшість наших даних зараз надходить з Інтернету. Звідки братимуться дані у другій половині року? Я вважаю, що це дуже важливо. Зрештою, кожен буде ділитися особистими даними, або у вас є дані, яких я не знаю Про це розповів молодий науковець Шанхайської лабораторії штучного інтелекту, відповідальний за OpenDataLab Хе Конгуй на Всесвітній конференції зі штучного інтелекту 2023 року.Ву Чао також сказав The Paper, що будь-який інший, хто матиме високоякісні дані або зможе генерувати постійний потік високоякісних даних, стане ключем до покращення продуктивності.## **Проблеми, орієнтовані на дані**He Conghui вважає, що парадигма всієї розробки моделі поступово зміниться з «модельно-орієнтованої» на «дата-орієнтовану». Але є проблема з орієнтованістю на дані — відсутність стандартів, і часто згадується критичність якості даних, але насправді зараз комусь важко чітко сказати, що таке хороша якість даних, а що таке стандарт.У процесі практики Хе Конхуй також зіткнувся з такою проблемою: «Наша практика в цьому процесі полягає в тому, щоб розбивати дані та робити їх дедалі більш детальними. З кожним полем підрозділу та темою підрозділу стандарт якості даних поступово підвищується. стає все меншим і меншим. Було запропоновано. У той же час недостатньо дивитися лише на дані, але також заглядати за даними. Ми об’єднаємо дані та відповідний даним намір покращити продуктивність моделі і сформулюйте набір механізмів ітерації якості даних».Минулого року Шанхайська лабораторія штучного інтелекту, де працює Хе Конхуй, випустила платформу відкритих даних OpenDataLab для штучного інтелекту, надавши понад 5500 високоякісних наборів даних, «але це лише на рівні публічних наборів даних. Ми сподіваємося, що дані Обмін буде встановлено два дні тому. Широкомасштабний альянс корпусних даних може надати дослідницьким установам і підприємствам кращі методи циркуляції даних».6 липня на Всесвітній конференції зі штучного інтелекту 2023 року Шанхайська лабораторія штучного інтелекту, Китайський інститут наукової та технологічної інформації, Шанхайська група даних, Шанхайська асоціація цифрового бізнесу, Національний метеорологічний центр, Центральне радіо та телебачення Китаю, Шанхайська прес-індустріальна група The large Альянс модельного корпусу даних, спільно ініційований іншими підрозділами, оголосив про офіційне заснування.7 липня офіційний веб-сайт Шанхайської біржі даних офіційно запустив корпус, і загалом було перераховано майже 30 продуктів корпусу даних, включаючи текст, аудіо, зображення та інші багатомодальні дані, що охоплюють фінанси, транспорт і медицину.Але така конструкція корпусу не є само собою зрозумілою. «Чи може існувати високоякісний корпус, необхідний великим підприємствам? Чи захоче цільова аудиторія відкривати дані?» Тан Ціфен, генеральний менеджер Shanghai Data Exchange, сказав на Всесвітній конференції зі штучного інтелекту 2023 року, що складність полягає в основному в ступінь відкритості та якість даних двома способами.Вей Чжилінь поділився, що постачання даних зараз стикається з багатьма проблемами.Провідні виробники не бажають відкривати дані.У той же час усіх також хвилює механізм безпеки в процесі обміну даними. Іншим важливим питанням є те, що все ще залишаються сумніви щодо механізму розподілу доходів від відкритого обігу даних.Зокрема, обмін даними повинен вирішити три проблеми. Лінь Ле, засновник і генеральний директор Shanghai Lingshu Technology Co., Ltd., пояснив Pengpai Technology, що, по-перше, дані легко підробити, і необхідно переконатися, що дані є автентичними та надійними. По-друге, дані легко копіювати, а це означає, що відносини власності нечіткі, і блокчейн потрібен для підтвердження та авторизованого використання. По-третє, це те, що конфіденційність легко витікати. Блокчейн можна поєднати з технологією обчислення конфіденційності, щоб зробити дані доступними та невидимими.## **Як вирішити розподіл доходу**Тан Цифен зазначив, що для постачальників із високою якістю даних, але низькою відкритістю, проблема довіри до обігу даних може бути ефективно вирішена через ланцюжок транзакцій даних. участь у масштабній моделі».Лін Чангл, виконавчий віце-президент Міждисциплінарного науково-дослідного інституту інформаційних технологій Університету Цінхуа, розробляє теоретичну систему визначення ціни на дані та розподілу вигод.«Певною мірою ChatGPT може безкоштовно використовувати багато людських знань протягом кількох місяців. Ми бачимо, що велика модель може вивчати статті деяких письменників, писати статті в тому ж стилі або створювати картини Ван Гога, але це не так. Цей платіж повинен бути, суб’єкти цих джерел даних не отримали від нього вигоди", – сказав Лін Чангл на Всесвітній конференції зі штучного інтелекту 2023 року, тож може бути більш радикальна точка зору: права інтелектуальної власності в епоху великих моделей не існує, або Кажуть, що традиційного захисту інтелектуальної власності не існує.Однак Лін Чангле вважає, що після ери великомасштабних моделей захист прав інтелектуальної власності розвинеться до підтвердження прав на дані, ціноутворення та транзакцій. «Коли розробка великомасштабних моделей йде глибше, наприклад, великомасштабних моделей промисловості, необхідні дані не є безкоштовними та відкритими в Інтернеті. Щоб навчити моделі з надзвичайно високою точністю, потрібна галузева експертиза або навіть комерційна діяльність. таємниці Знання Щоб кожен міг зробити свій внесок у такий корпус, має бути механізм розподілу прав та інтересів».«Карта активів даних», над якою зараз працює Лін Чангл, полягає в тому, щоб за допомогою математики довести набір механізмів розподілу доходу для справедливого розподілу прав на дані.**Як вирішити циркуляцію даних**Лю Цюань, заступник головного інженера Науково-дослідного інституту CCID Міністерства промисловості та інформаційних технологій та іноземний академік Російської академії природничих наук, згадав на WAIC «Інтеграція чисел і реальності, інтелект веде майбутнє» Промисловий блокчейн Екологічний На форумі нещодавно в галузі з’явилася пекінська версія «Двадцяти статей даних». Дуже великий відгук, вона вирішує основну проблему в процесі циркуляції даних. Найочевидніше, що питання про те, хто володіє державними даними, з’ясовано — публічні дані належать уряду. А як щодо корпоративних та персональних даних? «Пекінській муніципальній біржі даних можна доручити проведення довірених операцій».5 липня Пекінський муніципальний комітет Комуністичної партії Китаю та Пекінський муніципальний народний уряд оприлюднили повідомлення про «Погляди щодо впровадження щодо кращого використання елементів даних і подальшого прискорення розвитку цифрової економіки». «Погляди щодо реалізації» поділені на дев’ять частин. Вони створюють основну систему даних з аспектів прав власності на дані, трансакцій обігу, розподілу доходу та управління безпекою. У ньому пропонуються 23 конкретні вимоги, які називаються пекінською версією. «Двадцяти статей даних» у галузі.«З внутрішньої точки зору, згідно зі статистичними даними, 80% ресурсів даних зосереджено в державних і державних установах. Ми хочемо вирішити проблему постачання даних, в значній мірі, ми сподіваємося базуватися на 20 статтях даних ( «Центральний комітет Комуністичної партії Китаю та Державна рада щодо побудови базової системи даних, думки щодо кращого відтворення ролі елементів даних») Відкритий обмін загальнодоступними даними може сформувати набір відтворюваних механізмів і парадигм для просування сформованих даних в комунальних службах, а потім служити громадськості", - сказав Вей Жилінь.Вей Жилін сказав, що згідно з поточною статистикою, запас ресурсів даних у Китаї в цілому займає друге місце у світі, але ці дані розкидані в різних місцях. За словами Чжана Юбао, заступника директора Науково-дослідного інституту цифрового Китаю Державного інформаційного центру, на Всесвітній конференції зі штучного інтелекту 2023 року 7 липня поточна національна система обігу даних Китаю включає: Є два обміни даними, один — Шанхайський обмін даними один є Шеньчженьський центр обміну даними; у Китаї є 17 центрів обміну даними, включаючи Пекінський центр обміну даними.