Людські дані будуть використані OpenAI, що тоді?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0e2d3784c6-dd1a6f-7649e1) Джерело зображення: створено Unbounded AI«Більше, ніж більше» (Bigger than bigger) — реклама Apple того року, яка використовується для опису найгарячішої великої мовної моделі в області штучного інтелекту. Здається, в цьому немає нічого поганого.Від мільярдів до десятків мільярдів і сотень мільярдів параметри великої моделі поступово стають дикими.Відповідно, кількість даних, які використовуються для навчання ШІ, також експоненціально зросла.Візьмемо як приклад GPT OpenAI, від GPT-1 до GPT-3, його набір навчальних даних експоненціально зріс з 4,5 ГБ до 570 ГБ.На конференції Data+AI, проведеній Databricks нещодавно, Марк Андріссен, засновник a16z, вважав, що величезні дані, накопичені Інтернетом за останні два десятиліття, є важливою причиною зростання цієї нової хвилі ШІ, оскільки перший надає другому навчальні дані, які можна використовувати.Однак, навіть якщо користувачі мережі залишають багато корисних або марних даних в Інтернеті, для навчання штучному інтелекту ці дані можуть бути найнижчими.**У статті, опублікованій Epoch, організацією з дослідження та прогнозування штучного інтелекту, передбачається, що високоякісні текстові дані будуть вичерпані між 2023-2027 роками**.Хоча дослідницька група визнає, що існують серйозні обмеження в методах аналізу та що модель має високу неточність, важко заперечити, що швидкість, з якою ШІ споживає набори даних, є жахливою.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5430faddfa-dd1a6f-7649e1) Тенденції використання даних машинного навчання та виробництва даних низькоякісного тексту, високоякісного тексту та зображень｜EpochAIКоли «людські» дані закінчаться, навчання ШІ неминуче використовуватиме контент, створений самим ШІ. Однак такий «внутрішній цикл» створить великі проблеми.Нещодавно дослідники з Кембриджського університету, Оксфордського університету, Університету Торонто та інших університетів опублікували статті, в яких вказувалося, що використання контенту, створеного ШІ, як навчального ШІ призведе до краху нової моделі. **Отже, яка причина збою, спричиненого «генерованими даними» для навчання ШІ? Чи є якась допомога?## ***01*** Наслідки штучного інбридингуУ статті під назвою «Прокляття рекурсії: навчання зі згенерованими даними змушує моделі забути» дослідники зазначають, що «згортання моделі» є виродженим процесом моделей протягом кількох поколінь**.**Дані, згенеровані попереднім поколінням моделей, забруднять наступне покоління моделей**.Після кількох поколінь «успадкування» моделей вони будуть неправильно сприймати світ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8ee956d8d4-dd1a6f-7649e1) Схематична діаграма ітерації моделі｜arxivЗгортання моделі відбувається в два етапи:* На ранній стадії згортання моделі модель почне втрачати інформацію про розподіл вихідних даних, тобто «чисті людські дані»;* На більш пізньому етапі модель заплутає «неправильне сприйняття» вихідної інформації про розподіл попередніх поколінь моделей, тим самим спотворюючи реальність.Дослідники спочатку навчили моделі GMM (модель суміші Гаусса) і VAE (змінний автокодер) з нуля. Візьмемо GMM як приклад, ліворуч на малюнку нижче показано нормальний розподіл вихідних даних.Як бачите, спочатку модель дуже добре відповідає даним. До 50-ї ітерації розподіл даних, що лежить в основі, почав сприйматися неправильно. **Коли ітерація досягає 2000 разів, модель сходиться до дуже малої точки, що означає, що модель починає постійно виводити неправильні відповіді**.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-243d9a1853-dd1a6f-7649e1) Приклади даних підгонки GMM на ітераціях 0, 50, 100, 150, 200, 350, 2000｜arxivЩоб перевірити вплив попереднього навчання на результати експерименту, дослідники провели експерименти на LLM (велика мовна модель) OPT-125m із 125 мільйонами параметрів, розробленою Meta. Набір даних взято з wikitext2 у Вікіпедії.На відміну від невеликих моделей, таких як GMM і VAE, вартість навчання LLM з нуля дуже висока, тому всі вони проходять попереднє навчання. Експериментальні результати такі:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8caa0086fc-dd1a6f-7649e1)> Вхідні дані: за словами Пойнца Райта, деякі дії до 1360 року зазвичай виконувалися майстром-каменярем і невеликою командою мандрівних каменярів, доповнених місцевою парафіяльною працею. Але інші автори заперечують цю модель, припускаючи натомість, що головний архітектор спроектував шпиль парафіяльної церкви в англійському вертикальному стилі.> Результат: Покоління 0: будівлі епохи Відродження, такі як Собор Святого Іоанна в Лондоні. Найдавніша збережена будівля Вертикального Відродження датується Церквою Богоматері Гернсійської, збудованою наприкінці 19 століття XVIII-@ століття. Існує два типи вертикальних церков: Церков 1-го покоління: будівлі, такі як Базиліка Святого Петра в Римі або Базиліка Святого Петра в Буенос-Айресі. Немає доказів того, що ці будівлі були побудовані за правління папи Інокентія III, але можливо, що вони були побудовані за правління його наступника, папи Інокентія. Покоління 7: британська архітектура. В інтерв’ю The New York Times Райт сказав: «Я не думаю, що є щось погане в тому, що я можу робити те, що я хочу. Це просто не працює для мене». Він додав: «Я не знаю». якщо ви можете стверджувати, що це весело, 9-е покоління: архітектура Крім того, що це найбільший чорний@-@хвіст, білий@-@хвіст, синій@-@хвіст, червоний@-@хвіст, жовтий@- одне з місць проживанняВидно, що до моменту появи моделі 9-го покоління зміст виходу був абсолютно незрозумілим.Ілля Шумайлов, один з авторів статті, сказав, що з часом помилки в **даних, створених штучним інтелектом накопичуються, і основні моделі, навчені на цих даних, формують ще більш викривлене уявлення про реальність**.## ***02*** Чому модель вилітає?Основною причиною «краху моделі» є те, що штучний інтелект не є справжнім інтелектом. За його здатністю наближено оцінювати «інтелект» насправді стоїть статистичний метод, заснований на великій кількості даних.По суті, усі алгоритми машинного навчання без контролю дотримуються простого шаблону: **Отримавши серію даних, навчіть модель, яка може описати закони цих даних**.У цьому процесі дані з вищою ймовірністю в навчальному наборі з більшою ймовірністю будуть оцінені моделлю, а дані з нижчою ймовірністю будуть недооцінені моделлю.Наприклад, припустімо, що нам потрібно записати результати 100 кидків кубика, щоб обчислити ймовірність кожної грані. Теоретично ймовірність появи кожного обличчя однакова. У реальному житті через малий розмір вибірки може бути більше випадків 3 і 4. Але для моделі дані, які вона вивчає, полягають у тому, що 3 і 4 мають вищу ймовірність появи, тому вона прагне генерувати більше результатів 3 і 4.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4c328ee14e-dd1a6f-7649e1) Принципова діаграма «згортання моделі»｜arxivІншою другорядною причиною є помилка апроксимації функції. Це також легко зрозуміти, оскільки реальні функції часто дуже складні.У практичних застосуваннях спрощені функції часто використовуються для апроксимації реальних функцій, що призводить до помилок.## ***03*** Вам справді не пощастило?Турбуйтеся!Отже, маючи все менше даних про людей, чи справді немає шансів на навчання ШІ?Ні, ще є способи вирішити проблему вичерпання даних для навчання ШІ:**Ізоляція даних**Оскільки штучний інтелект стає все потужнішим, все більше людей почали використовувати штучний інтелект для допомоги собі в роботі, а AIGC в Інтернеті вибухнув, і «чисті набори даних людини» може ставати все важче знайти.Дафна Іпполіто, старший науковий співробітник Google Brain, дослідницького відділу глибокого навчання Google, сказала, що **в майбутньому буде ставати все важче знаходити високоякісні, гарантовані навчальні дані без штучного інтелекту**.Це схоже на предка людини, який страждає на генетичне захворювання високого ризику, але має надзвичайно сильну репродуктивну здатність. За короткий час він розмножив своїх нащадків по всіх куточках землі. Потім в якийсь момент спалахує генетична хвороба, і все людство вимирає.Щоб усунути «колапс моделі», один із підходів, запропонований дослідницькою групою, — це «перевага першого кроку», тобто збереження доступу до чистих штучно створених джерел даних, відокремлюючи AIGC від них.У той же час це вимагає від багатьох спільнот і компаній об’єднати зусилля, щоб захистити людські дані від забруднення AIGC.Тим не менш, дефіцит людських даних означає, що для цього існують вигідні можливості, і деякі компанії вже це роблять. Reddit заявив, що це значно збільшить вартість доступу до його API. Керівники компанії заявили, що ці зміни (частково) є відповіддю на крадіжку даних компаній, що займаються штучним інтелектом. «База даних Reddit справді цінна, — сказав The New York Times засновник і генеральний директор Reddit Стів Хаффман, — але нам не потрібно віддавати всю цю цінність безкоштовно деяким із найбільших компаній у світі».**Синтетичні дані**У той же час, професійно заснований на даних, згенерованих штучним інтелектом, він уже ефективно використовується для навчання ШІ. В очах деяких практиків хвилювання про те, що дані, згенеровані штучним інтелектом, спричинять крах моделі, є певною мірою «головною вечіркою».Се Ченгуан, засновник Light Wheel Intelligence, сказав Geek Park, що, як згадується в іноземних газетах, використання даних, згенерованих штучним інтелектом, для навчання моделей ШІ призводить до збоїв, а експериментальні методи є упередженими. Навіть людські дані можна розділити на придатні та непридатні, а експерименти, згадані в статті, безпосередньо використовуються для навчання без дискримінації, а не цільові дані навчання після перевірки якості та оцінки ефективності. Очевидно, існує ймовірність збою моделі.Се Чен розповів, що насправді GPT-4 OpenAI використовує для навчання велику кількість даних, створених моделлю GPT-3.5 попереднього покоління. Сем Альтман також висловив у нещодавньому інтерв’ю, що синтетичні дані є ефективним способом вирішення проблеми дефіциту великих модельних даних. Ключовим моментом є те, що існує ціла система, яка розрізняє, які дані, згенеровані штучним інтелектом, можна використовувати, а які ні, і постійно надає зворотний зв’язок відповідно до ефекту навченої моделі — це один із прийомів OpenAI, щоб пишатися ШІ. ​arena **, ця компанія не така проста, як зібрати більше грошей і придбати більше обчислювальної потужності.В індустрії штучного інтелекту використання синтетичних даних для навчання моделі вже стало консенсусом, який ще не відомий стороннім.Се Чен, який раніше відповідав за моделювання автономного водіння в таких компаніях, як Nvidia, Cruise і Weilai, вважає, що, судячи з поточного обсягу даних для різноманітних масштабних тренувань моделей, у найближчі 2-3 роки людина дані справді можуть бути «вичерпаними».Однак на основі спеціалізованих систем і методів синтетичні дані, створені ШІ, стануть невичерпним джерелом ефективних даних**. І сценарії використання не обмежуються текстом і зображеннями.Обсяг синтетичних даних, необхідних для таких галузей, як автономне водіння та робототехніка, буде набагато більшим, ніж обсяг текстових даних.Трьома елементами штучного інтелекту є дані, обчислювальна потужність і алгоритми. Джерело даних визначено, і велика модель алгоритму постійно розвивається. Єдиний тиск обчислювальної потужності, який залишився, я вважаю, що засновник Nvidia Хуан Реньсюнь може вирішити це плавно.

Людські дані будуть використані OpenAI, що тоді?

01 Наслідки штучного інбридингу

02 Чому модель вилітає?

03 Вам справді не пощастило?