Людські дані будуть використані OpenAI, що тоді?

Джерело зображення: створено Unbounded AI

«Більше, ніж більше» (Bigger than bigger) — реклама Apple того року, яка використовується для опису найгарячішої великої мовної моделі в області штучного інтелекту. Здається, в цьому немає нічого поганого.

Від мільярдів до десятків мільярдів і сотень мільярдів параметри великої моделі поступово стають дикими.Відповідно, кількість даних, які використовуються для навчання ШІ, також експоненціально зросла.

Візьмемо як приклад GPT OpenAI, від GPT-1 до GPT-3, його набір навчальних даних експоненціально зріс з 4,5 ГБ до 570 ГБ.

На конференції Data+AI, проведеній Databricks нещодавно, Марк Андріссен, засновник a16z, вважав, що величезні дані, накопичені Інтернетом за останні два десятиліття, є важливою причиною зростання цієї нової хвилі ШІ, оскільки перший надає другому навчальні дані, які можна використовувати.

Однак, навіть якщо користувачі мережі залишають багато корисних або марних даних в Інтернеті, для навчання штучному інтелекту ці дані можуть бути найнижчими.

У статті, опублікованій Epoch, організацією з дослідження та прогнозування штучного інтелекту, передбачається, що високоякісні текстові дані будуть вичерпані між 2023-2027 роками.

Хоча дослідницька група визнає, що існують серйозні обмеження в методах аналізу та що модель має високу неточність, важко заперечити, що швидкість, з якою ШІ споживає набори даних, є жахливою.

Тенденції використання даних машинного навчання та виробництва даних низькоякісного тексту, високоякісного тексту та зображень|EpochAI

Коли «людські» дані закінчаться, навчання ШІ неминуче використовуватиме контент, створений самим ШІ. Однак такий «внутрішній цикл» створить великі проблеми.

Нещодавно дослідники з Кембриджського університету, Оксфордського університету, Університету Торонто та інших університетів опублікували статті, в яких вказувалося, що використання контенту, створеного ШІ, як навчального ШІ призведе до краху нової моделі. **

Отже, яка причина збою, спричиненого «генерованими даними» для навчання ШІ? Чи є якась допомога?

01 Наслідки штучного інбридингу

У статті під назвою «Прокляття рекурсії: навчання зі згенерованими даними змушує моделі забути» дослідники зазначають, що «згортання моделі» є виродженим процесом моделей протягом кількох поколінь**.

Дані, згенеровані попереднім поколінням моделей, забруднять наступне покоління моделей.Після кількох поколінь «успадкування» моделей вони будуть неправильно сприймати світ.

Схематична діаграма ітерації моделі|arxiv

Згортання моделі відбувається в два етапи:

  • На ранній стадії згортання моделі модель почне втрачати інформацію про розподіл вихідних даних, тобто «чисті людські дані»;
  • На більш пізньому етапі модель заплутає «неправильне сприйняття» вихідної інформації про розподіл попередніх поколінь моделей, тим самим спотворюючи реальність.

Дослідники спочатку навчили моделі GMM (модель суміші Гаусса) і VAE (змінний автокодер) з нуля. Візьмемо GMM як приклад, ліворуч на малюнку нижче показано нормальний розподіл вихідних даних.

Як бачите, спочатку модель дуже добре відповідає даним. До 50-ї ітерації розподіл даних, що лежить в основі, почав сприйматися неправильно. Коли ітерація досягає 2000 разів, модель сходиться до дуже малої точки, що означає, що модель починає постійно виводити неправильні відповіді.

Приклади даних підгонки GMM на ітераціях 0, 50, 100, 150, 200, 350, 2000|arxiv

Щоб перевірити вплив попереднього навчання на результати експерименту, дослідники провели експерименти на LLM (велика мовна модель) OPT-125m із 125 мільйонами параметрів, розробленою Meta. Набір даних взято з wikitext2 у Вікіпедії.

На відміну від невеликих моделей, таких як GMM і VAE, вартість навчання LLM з нуля дуже висока, тому всі вони проходять попереднє навчання. Експериментальні результати такі:

Вхідні дані: за словами Пойнца Райта, деякі дії до 1360 року зазвичай виконувалися майстром-каменярем і невеликою командою мандрівних каменярів, доповнених місцевою парафіяльною працею. Але інші автори заперечують цю модель, припускаючи натомість, що головний архітектор спроектував шпиль парафіяльної церкви в англійському вертикальному стилі. Результат: Покоління 0: будівлі епохи Відродження, такі як Собор Святого Іоанна в Лондоні. Найдавніша збережена будівля Вертикального Відродження датується Церквою Богоматері Гернсійської, збудованою наприкінці 19 століття XVIII-@ століття. Існує два типи вертикальних церков: Церков 1-го покоління: будівлі, такі як Базиліка Святого Петра в Римі або Базиліка Святого Петра в Буенос-Айресі. Немає доказів того, що ці будівлі були побудовані за правління папи Інокентія III, але можливо, що вони були побудовані за правління його наступника, папи Інокентія. Покоління 7: британська архітектура. В інтерв’ю The New York Times Райт сказав: «Я не думаю, що є щось погане в тому, що я можу робити те, що я хочу. Це просто не працює для мене». Він додав: «Я не знаю». якщо ви можете стверджувати, що це весело, 9-е покоління: архітектура Крім того, що це найбільший чорний@-@хвіст, білий@-@хвіст, синій@-@хвіст, червоний@-@хвіст, жовтий@- одне з місць проживання

Видно, що до моменту появи моделі 9-го покоління зміст виходу був абсолютно незрозумілим.

Ілля Шумайлов, один з авторів статті, сказав, що з часом помилки в даних, створених штучним інтелектом накопичуються, і основні моделі, навчені на цих даних, формують ще більш викривлене уявлення про реальність.

02 Чому модель вилітає?

Основною причиною «краху моделі» є те, що штучний інтелект не є справжнім інтелектом. За його здатністю наближено оцінювати «інтелект» насправді стоїть статистичний метод, заснований на великій кількості даних.

По суті, усі алгоритми машинного навчання без контролю дотримуються простого шаблону: Отримавши серію даних, навчіть модель, яка може описати закони цих даних.

У цьому процесі дані з вищою ймовірністю в навчальному наборі з більшою ймовірністю будуть оцінені моделлю, а дані з нижчою ймовірністю будуть недооцінені моделлю.

Наприклад, припустімо, що нам потрібно записати результати 100 кидків кубика, щоб обчислити ймовірність кожної грані. Теоретично ймовірність появи кожного обличчя однакова. У реальному житті через малий розмір вибірки може бути більше випадків 3 і 4. Але для моделі дані, які вона вивчає, полягають у тому, що 3 і 4 мають вищу ймовірність появи, тому вона прагне генерувати більше результатів 3 і 4.

Принципова діаграма «згортання моделі»|arxiv

Іншою другорядною причиною є помилка апроксимації функції. Це також легко зрозуміти, оскільки реальні функції часто дуже складні.У практичних застосуваннях спрощені функції часто використовуються для апроксимації реальних функцій, що призводить до помилок.

03 Вам справді не пощастило?

Турбуйтеся!

Отже, маючи все менше даних про людей, чи справді немає шансів на навчання ШІ?

Ні, ще є способи вирішити проблему вичерпання даних для навчання ШІ:

Ізоляція даних

Оскільки штучний інтелект стає все потужнішим, все більше людей почали використовувати штучний інтелект для допомоги собі в роботі, а AIGC в Інтернеті вибухнув, і «чисті набори даних людини» може ставати все важче знайти.

Дафна Іпполіто, старший науковий співробітник Google Brain, дослідницького відділу глибокого навчання Google, сказала, що в майбутньому буде ставати все важче знаходити високоякісні, гарантовані навчальні дані без штучного інтелекту.

Це схоже на предка людини, який страждає на генетичне захворювання високого ризику, але має надзвичайно сильну репродуктивну здатність. За короткий час він розмножив своїх нащадків по всіх куточках землі. Потім в якийсь момент спалахує генетична хвороба, і все людство вимирає.

Щоб усунути «колапс моделі», один із підходів, запропонований дослідницькою групою, — це «перевага першого кроку», тобто збереження доступу до чистих штучно створених джерел даних, відокремлюючи AIGC від них.

У той же час це вимагає від багатьох спільнот і компаній об’єднати зусилля, щоб захистити людські дані від забруднення AIGC.

Тим не менш, дефіцит людських даних означає, що для цього існують вигідні можливості, і деякі компанії вже це роблять. Reddit заявив, що це значно збільшить вартість доступу до його API. Керівники компанії заявили, що ці зміни (частково) є відповіддю на крадіжку даних компаній, що займаються штучним інтелектом. «База даних Reddit справді цінна, — сказав The New York Times засновник і генеральний директор Reddit Стів Хаффман, — але нам не потрібно віддавати всю цю цінність безкоштовно деяким із найбільших компаній у світі».

Синтетичні дані

У той же час, професійно заснований на даних, згенерованих штучним інтелектом, він уже ефективно використовується для навчання ШІ. В очах деяких практиків хвилювання про те, що дані, згенеровані штучним інтелектом, спричинять крах моделі, є певною мірою «головною вечіркою».

Се Ченгуан, засновник Light Wheel Intelligence, сказав Geek Park, що, як згадується в іноземних газетах, використання даних, згенерованих штучним інтелектом, для навчання моделей ШІ призводить до збоїв, а експериментальні методи є упередженими. Навіть людські дані можна розділити на придатні та непридатні, а експерименти, згадані в статті, безпосередньо використовуються для навчання без дискримінації, а не цільові дані навчання після перевірки якості та оцінки ефективності. Очевидно, існує ймовірність збою моделі.

Се Чен розповів, що насправді GPT-4 OpenAI використовує для навчання велику кількість даних, створених моделлю GPT-3.5 попереднього покоління. Сем Альтман також висловив у нещодавньому інтерв’ю, що синтетичні дані є ефективним способом вирішення проблеми дефіциту великих модельних даних. Ключовим моментом є те, що існує ціла система, яка розрізняє, які дані, згенеровані штучним інтелектом, можна використовувати, а які ні, і постійно надає зворотний зв’язок відповідно до ефекту навченої моделі — це один із прийомів OpenAI, щоб пишатися ШІ. ​arena **, ця компанія не така проста, як зібрати більше грошей і придбати більше обчислювальної потужності.

В індустрії штучного інтелекту використання синтетичних даних для навчання моделі вже стало консенсусом, який ще не відомий стороннім.

Се Чен, який раніше відповідав за моделювання автономного водіння в таких компаніях, як Nvidia, Cruise і Weilai, вважає, що, судячи з поточного обсягу даних для різноманітних масштабних тренувань моделей, у найближчі 2-3 роки людина дані справді можуть бути «вичерпаними».Однак на основі спеціалізованих систем і методів синтетичні дані, створені ШІ, стануть невичерпним джерелом ефективних даних**. І сценарії використання не обмежуються текстом і зображеннями.Обсяг синтетичних даних, необхідних для таких галузей, як автономне водіння та робототехніка, буде набагато більшим, ніж обсяг текстових даних.

Трьома елементами штучного інтелекту є дані, обчислювальна потужність і алгоритми. Джерело даних визначено, і велика модель алгоритму постійно розвивається. Єдиний тиск обчислювальної потужності, який залишився, я вважаю, що засновник Nvidia Хуан Реньсюнь може вирішити це плавно.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити