Стискайте все безпосередньо! Головний науковий співробітник OpenAI Ілля Суцкевер так бачить неконтрольоване навчання

2023-08-21 01:46:52

Оригінальне джерело: Heart of the Machine

Кредит зображення: створено Unbounded AI‌

Нещодавно Ілля Суцкевер, головний науковий співробітник OpenAI, прочитав лекцію в Інституті Саймонса, яка присвячена дослідженням теорії обчислень.Одним реченням ми можемо поглянути на неконтрольоване навчання зі стисненої точки зору. Крім того, він поділився багатьма іншими цікавими думками. Серце машини сортувало загальний зміст промови, сподіваючись допомогти читачам глибше зрозуміти неконтрольоване навчання.

Суцкевер вперше розповів про зміну напряму своїх досліджень. Він сказав: «Нещодавно я переніс весь свій дослідницький фокус на дослідження вирівнювання штучного інтелекту». Це команда «Superalignment (супер вирівнювання)», створена OpenAI деякий час тому. який він очолює разом з Яном Лейке. Суцкевер сказав, що вони досягли певних результатів досліджень у вирівнюванні ШІ, але це не тема, на якій зосереджується ця розмова.

Тема цього виступу — «An observation on Generalization (спостереження над узагальненням)», і Ілля Суцкевер конкретно розповідає про теорію, яка пояснює неконтрольоване навчання.

По-перше, Ілля Суцкевер ставить низку широких запитань про «навчання»: що саме таке навчання? Чому навчання корисне? Чому навчання має бути корисним? Чому комп’ютери повинні мати здатність до навчання? Чому нейронні мережі можуть навчатися? Чому моделі машинного навчання можуть вивчати закони даних? Чи можемо ми описати навчання математичними термінами?

Контрольоване навчання

Sutskever починається з навчання під наглядом. Він каже, що було проведено значну офіційну роботу щодо навчання під наглядом, результатом роботи кількох дослідників багато років тому; ці результати часто називають теорією статистичного навчання.

Перевага контрольованого навчання полягає в тому, що воно може забезпечити точні математичні умови для успішного навчання. Тобто, якщо у вас є деякі дані з певного розподілу даних, то ви можете успішно досягти низьких втрат навчання і у вас достатньо даних навчання (більше ступенів свободи, ніж розподіл даних), тоді ваша помилка тесту має бути низькою.

З математичної точки зору навчання має бути успішним, якщо можна знайти функцію в класі функцій, яка забезпечує менші втрати при навчанні. Тому навчання під контролем дуже просте.

Дослідники виявили деякі теореми у відповідних дослідженнях, нижче наведено приклад. Суцкевер сказав, що пояснення теореми займе близько п’яти хвилин, але, очевидно, у нього обмежений час для виступу.

Загалом, теорема є «елегантною» та демонструє процес навчання під наглядом із лише трьома рядками математичних виведень.

Отже, контрольоване навчання є відносно добре зрозумілим. Ми знаємо, чому це спрацює — поки ми можемо збирати великі набори даних про контрольоване навчання, ми можемо бути впевнені, що моделі ставатимуть усе кращими. Звичайно, ще один момент також дуже важливий, тобто переконатися, що розподіл тестів узгоджується з розподілом навчання; тільки в цьому випадку теорія навчання під контролем може бути ефективною.

Отже, концепція навчання під наглядом дуже проста. У нас також уже є відповіді на питання, чому працює контрольоване навчання — ми знаємо, чому працює розпізнавання мовлення та класифікація зображень, оскільки вони базуються на ефективному та математично гарантованому контрольованому навчанні.

Тут Ілля Суцкевер до речі згадав про розмір VC. Він згадав, що багато дослідників у статистичній теорії навчання вважають, що розмір VC є ключовим компонентом, але призначення розміру VC було винайдено, щоб дозволити моделі обробляти параметри з нескінченною точністю.

Наприклад, якщо кожен параметр вашого лінійного класифікатора має нескінченну точність, але точність чисел з плаваючою комою насправді обмежена, і точність буде зменшуватися, тоді ви можете реалізувати деякі функції за допомогою розмірності VC і перетворити цей лінійний класифікатор. зводиться до контрольованої форми навчання, описаної попередньою формулою.

Що таке неконтрольоване навчання?

Далі розглянемо навчання без нагляду. Перш за все, що таке неконтрольоване навчання? Ілля Суцкевер сказав, що він ще не бачив задовільного пояснення неконтрольованого навчання, і ми не знаємо, як про це міркувати математично — у кращому випадку, ми можемо лише інтуїтивно.

Навчання без нагляду було давньою мрією машинного навчання. Суцкевер вважає, що цієї мети було досягнуто в експериментальних дослідженнях, де модель дивиться на дані, не повідомляючи про їхній зміст, і виявляє в них справжню та корисну приховану структуру.

Як це сталося? Чи можемо ми бути впевнені, що це станеться? Суцкевер каже, що ми не можемо, зрештою, ми не маємо тих самих теоретичних гарантій у неконтрольованому навчанні, які ми маємо в контрольованому навчанні.

Люди досліджують неконтрольоване навчання з 1980-х років, використовуючи схожу термінологію. Під час експерименту люди помітили, що коли обсяг даних невеликий, феномен неконтрольованого навчання не виникає, але з’явилися деякі популярні ідеї розвитку, такі як BERT, модель дифузії, старомодна модель мови тощо. Неконтрольоване навчання в той час також могло створити кілька класних зразків, але, звичайно, це було не так добре, як сьогоднішні технології.

Але оскільки ми не знаємо, як працює неконтрольоване навчання, це завжди викликало плутанину.

Наприклад, коли ви оптимізуєтеся для певної цілі (наприклад, реконструкції зображення або передбачення наступного слова), ви також можете піклуватися про іншу ціль (наприклад, класифікацію зображень або класифікацію документів), і модель також може добре працювати для цієї неоптимізованої цілі Отримайте хорошу продуктивність. Але чому? Не знаю, це результат експерименту. Суцкевер сказав, що це як магія.

Чи збираємося ми відмовитися від теорії і повністю підемо на позитивізм?

Ми знаємо, що неконтрольоване навчання полягає в тому, щоб вивчити структуру розподілу вхідних даних, а потім отримати з цього щось, що допоможе досягти мети. Але що, якщо вхідний розподіл є рівномірним? У цей час різні алгоритми неконтрольованого навчання будуть давати збій. Як ставитися до цього явища? Суцкевер каже, що нам потрібно зробити деякі припущення.

Метод навчання без нагляду: відповідність розподілу

Далі Суцкевер демонструє потенційний спосіб мислення про неконтрольоване навчання. Він сказав, що цей метод навчання без нагляду не став масовим, але він дуже цікавий. Воно має схожі характеристики з навчанням під наглядом, тобто має бути ефективним. чому? Це передбачає неконтрольований процес навчання, який називається відповідністю розподілу.

Далі, дозвольте мені коротко пояснити. Припустимо, що є два джерела даних X і Y, між якими немає відповідності; мета моделі полягає в тому, щоб знайти функцію F таку, що розподіл F(X) наближається до розподілу Y - це обмеження на F.

Це обмеження може мати значення для багатьох прикладних сценаріїв, таких як машинний переклад і розпізнавання мовлення. Наприклад, якщо є розподіл англійських речень, то після використання функції F ми можемо отримати розподіл, близький до розподілу французьких речень, тоді можна сказати, що ми отримали справжні обмеження F.

Якщо розміри X і Y достатньо високі, то F може мати велику кількість обмежень. Фактично, ви навіть можете відновити повну F з цих обмежень. Це приклад навчання без контролю під контролем, і воно має працювати, так само як має працювати навчання під контролем.

Крім того, шифри заміни також відповідають цій структурі.

Суцкевер сказав, що він самостійно відкрив феномен у 2015 році. Це змусило його задуматися: можливо, ми зможемо описати навчання без нагляду в якійсь значущій математичній формі.

Звичайно, сценарій машинного перекладу, описаний вище, є спрощеним штучним сценарієм, який не відповідає реальній ситуації застосування, і відповідний сценарій неконтрольованого навчання, природно, є таким самим.

Далі Суцкевер опише запропонований ним метод, який може дати математичне пояснення неконтрольованого навчання та забезпечити хороші результати неконтрольованого навчання.

Як ми всі знаємо, стиснення - це передбачення, і кожен компресор можна перетворити на предиктор, і навпаки. Існує однозначна відповідність між компресором ансамблю та предиктором ансамблю.

Суцкевер зазначив, що для того, щоб більш чітко проілюструвати міркування про неконтрольоване навчання, вигідно використовувати аспект стиснення обговорення.

На основі цього він поставив уявний експеримент.

Скажімо, у вас є два набори даних X і Y, які є двома файлами на вашому жорсткому диску; тоді у вас є чудовий алгоритм стиснення C. Також припустімо, що ви виконуєте спільне стиснення на X і Y, тобто спочатку з’єднуєте їх, а потім подаєте це в компресор.

Важливе питання зараз: що буде робити досить хороший компресор?

Суцкевер дав дуже інтуїтивну відповідь: компресор використовує шаблони, присутні в X, щоб допомогти стиснути Y; і навпаки.

Він сказав, що сцена завдання прогнозування насправді має подібне явище, але це здається більш інтуїтивно зрозумілим у стисненому контексті.

Якщо ваш компресор достатньо хороший, результати стиснення об’єднаних файлів мають бути не гіршими, ніж результати розділеного стиснення.

Таким чином, подальше стиснення, яке ви отримуєте шляхом конкатенації, є певною спільною структурою, яку помічає ваш компресор. Чим кращий компресор, тим більше звичайних структур він може витягти.

Різниця між двома результатами стиснення полягає в спільній структурі, взаємній алгоритмічній інформації.

Відповідно, ви можете розглядати Y як дані для контрольованого завдання, X як дані для неконтрольованого завдання, і у вас є певна форма математичних міркувань щодо цієї інформації – ви можете використовувати шаблони в X, щоб допомогти завданню Y.

Зверніть також увагу на те, як це узагальнюється для відповідності розподілу. Якщо у випадку зіставлення розподілу, скажімо, X — це мова 1, а Y — це мова 2, і існує якась проста функція F, яка перетворює один розподіл до іншого; тоді хороший компресор також помітить це й поставить, використовуючи це, навіть можливо відновити функцію всередині.

Таким чином утворюється замкнутий цикл. Отже, як ми охарактеризуємо навчання без контролю в математичній формі?

Математична формалізація неконтрольованого навчання

Зауважте, що опис у цьому розділі взаємозамінно використовує опис сценарію стиснення та сценарію передбачення.

Спочатку припустимо, що у нас є алгоритм машинного навчання A, роль якого полягає в стисканні Y. Алгоритм А має доступ до X. Нехай X — документ номер 1, а Y — документ номер 2. Ми хочемо, щоб наш алгоритм/компресор машинного навчання стискав Y і міг використовувати X, коли це доречно. Мета полягає в тому, щоб максимально стиснути Y.

Тоді ми повинні запитати себе: про що найбільше шкодуємо (жалюємо) про використання цього алгоритму?

Суцкевер пояснив: «Якщо я добре роблю свою роботу, і я не шкодую про це, це означає, що я отримав всю допомогу, яку можу отримати від цих немічених даних. Немічені дані допомогли якомога більше». Я. Я маю не шкодую про це." Це означає, що немає кращих прогнозів для кращого алгоритму стиснення. «Я отримав максимум від моїх немаркованих даних».

Суцкевер бачить це як важливий крок до роздумів про неконтрольоване навчання. Ви не знаєте, чи ваш набір даних без нагляду насправді корисний, але якщо ви мало шкодуєте про алгоритм навчання під наглядом, тоді ви отримали найкращий результат, кращого результату неможливо знайти.

Тепер до дещо незрозумілої теоретичної території.

Використання складності Колмогорова як остаточного компресора дає нам алгоритм із наднизьким рівнем жалю, але насправді це не алгоритм, оскільки він не обчислюється.

Дозвольте мені коротко пояснити складність Колмогорова: це ніби ви даєте мені якісь дані, а щоб їх стиснути, я надам вам найкоротшу програму. Складність за Колмогоровом дорівнює довжині цієї найкоротшої програми.

Нехай C — обчислюваний компресор, тоді для всіх X складність компресора Колмогорова менша, ніж довільний вихід компресора C плюс кількість кодових символів, необхідних для реалізації компресора.

Ми можемо довести це за допомогою аргументу моделювання. Припустимо, що є дуже хороший компресор C, тоді це може бути комп’ютерна програма, якщо ця комп’ютерна програма передана K для запуску, тоді вартість, необхідна K, є довжиною цієї програми. Компресор Колмогорова може імітувати інші комп’ютерні програми та інші компресори, тому він не обчислюється. Це як безкоштовна програма, яка емулює всі комп’ютерні програми, але це також найкращий із можливих компресорів.

Тепер узагальнимо компресор Колмогорова для використання додаткової інформації. Ми знаємо, що компресор Колмогорова не обчислюваний, не розв’язуваний, але схожий на пошук у всіх програмах. Це схоже на використання нейронної мережі для налаштування параметрів через SGD (стохастичний градієнтний спуск) для пошуку програми. Цей процес виконується на комп'ютері з певними ресурсами (пам'ять, кількість кроків), який схожий на дуже крихітний компресор Колмогорова. Між ними є схожість.

Нейронні мережі можуть імітувати аплети, які є крихітними комп’ютерами з циклами/ланцюгами. Ми можемо використовувати SGD, щоб навчити ці комп’ютери знаходити його «ланцюги» з даних.

Тут також застосовуються аргументи з моделювання. Якщо ви хочете розробити кращу архітектуру нейронної мережі, вам буде важко, тому що додавання або зміна з’єднань може моделюватися іншими архітектурами нейронної мережі, але насправді це важко зробити. Тому що це ті рідкісні випадки, які можуть призвести до величезних покращень. Так само, як перехід від RNN до Transformer. У RNN є вузьке місце: прихований стан. Але якщо ми зможемо знайти спосіб змусити RNN мати дуже великий прихований стан, тоді його продуктивність може знову наздогнати Transformer.

Отже, ми можемо використовувати умовну складність Колмогорова як рішення для неконтрольованого навчання наступним чином:

де C — обчислюваний компресор, а K(Y|X) — довжина найкоротшої програми, яка виводить Y, якщо X можна використовувати.

Це рішення для навчання без нагляду, яке не піддається обчисленню, але забезпечує корисну структуру.

Стискайте все безпосередньо!

Суцкевер йде ще далі і зазначає, що «стиснути все безпосередньо» також можливо.

Умовна складність Колмогорова K(Y|X) є неприродною в контексті машинного навчання, оскільки вона стискає Y на основі X, що значною мірою неможливо обумовити великими наборами даних, принаймні на даний момент. Ми можемо вмістити великі набори даних, але важко обумовити їх.

І вище сказано: якщо ви хочете робити прогнози щодо чогось Y, що ви контролюєте, звичайний компресор Колмогорова, який стискає об’єднані дані X і Y, працюватиме так само добре, як і умовний компресор. Звичайно, у фактичних деталях є більше тонкощів, але це насправді означає те, що ми можемо використовувати звичайний компресор Колмогорова для вирішення проблеми неконтрольованого навчання – просто об’єднайте всі ваші дані та виконайте стиснення, щоб ви могли отримати хороші результати. отримані на супервізійних завданнях.

Доказ цього є більш складним, тому я не буду вдаватися в це тут.

Важливий висновок полягає в тому, що регулярне стиснення за Колмогоровом (не обумовлене певним набором даних) є «найкращим можливим використанням» немаркованих даних. Це рішення проблеми навчання без нагляду.

здавлення суглоба є максимально ймовірним

Останнім пунктом, який Суцкевер зробив у своїй промові, було таке: це стиснення суглоба є максимально ймовірним, доки немає переобладнання.

Якщо у вас є набір даних, то сума ймовірностей для заданих параметрів є вартістю стиснення цього набору даних. Ви також оплачуєте вартість стиснення параметрів. І якщо ви хочете стиснути два набори даних, не проблема, просто додайте точки даних до свого набору даних, тобто додайте більше елементів до суми операції підсумовування вище.

Таким чином, спільне стиснення шляхом конкатенації даних є дуже природним підходом у контексті машинного навчання. Навпаки, проходження умовної колмогоровської складності набагато клопітніше.

Ми навіть можемо використовувати його, щоб пояснити, як працюють нейронні мережі. Ми можемо використовувати SGD для великих нейронних мереж як наш великий програмний пошуковик. Чим більша нейронна мережа, тим краще вона може апроксимувати звичайний компресор Колмогорова. Суцкевер прокоментував: «Можливо, саме тому нам подобаються великі нейронні мережі, тому що ми можемо наблизити ідею нездійсненного звичайного компресора Колмогорова, не шкодуючи. Оскільки ми навчаємо все більших і більших нейронних мереж, жаль зростатиме. Низький».

Чи ця теорія також стосується моделей GPT?

Відповідь Суцкевера на це ствердна, але щоб пояснити поведінку моделі GPT, не цитуючи твердження про стиснення чи контрольоване навчання, ви можете сказати, що «теорію» GPT можна отримати, міркуючи про умовний розподіл тексту.

Отже, чи можемо ми знайти інші методи прямої перевірки, щоб перевірити цю теорію? Чи можемо ми пояснити це з точки зору інших областей, таких як зір? Чи можемо ми отримати хороше самостійне навчання, якщо робимо це на піксельних даних?

Суцкевер сказав, що вони вже проводили таке дослідження в 2020 році, iGPT. Звичайно, це в основному дослідження для підтвердження концепції, і до практичного застосування ще далеко. Докладніше див. у статті «Генеративна попередня підготовка з пікселів».

Стаття показує, що якщо ви можете зробити чудовий прогноз наступного кроку, ви можете отримати чудове навчання без контролю. Ця стаття доводить твердження в полі зображення.

Простіше кажучи, спочатку перетворіть зображення на послідовність пікселів, кожен піксель має дискретне значення щільності. Все, що потрібно зробити, це використати той самий трансформатор, щоб передбачити наступний піксель. Це відрізняється від BERT, який передбачає прогнозування наступного токена, оскільки це ймовірність максимального стиснення.

Подивимося на результат:

Як показано, це лінійна точність зонда на CIFAR-10 для різних розмірів моделей iGPT, тобто точність наступного кроку прогнозування в задачі прогнозування пікселів неконтрольованого навчання. Можна побачити, що передбачення наступного пікселя настільки ж ефективно, як і передбачення наступного слова. Навчання без нагляду працює краще, коли розмір моделі більший.

Вони провели експериментальні дослідження та виявили, що на ImageNet продуктивність iGPT, яка була розширена багатьма способами, може наблизитися до найсучаснішого навчання під наглядом, але все ще є деякі прогалини.

Однак Суцкевер вважає, що це обчислювальна проблема, тому що методи навчання під наглядом, такі як SimCLR, використовують великі зображення з високою роздільною здатністю, і вони забезпечують невеликі зображення 64×64 для гігантського Трансформера (6,8 мільярда параметрів). Це як передбачити наступний піксель неконтрольованим способом на основі великого набору даних, а потім підібрати лінійні зонди на ImageNet із чудовими результатами.

На CIFAR-10 iGPT-L з 1,36 мільярда параметрів досяг точності 99%, як показано на малюнку нижче.

Лінійне представлення

Наприкінці розмови Суцкевер сказав, що хоче поговорити про лінійні представлення.

«Мені подобається теорія стиснення, тому що раніше не було способу чітко подумати про неконтрольоване навчання», — каже він. Тепер ми можемо це зробити певною мірою. Але теорія стиснення не може безпосередньо пояснити, чому уявлення лінійно роздільні, а також не може пояснити, що повинні існувати лінійні зонди. Лінійні уявлення всюдисущі, і причини їх формування повинні бути глибокими. Суцкевер вірить, що ми зможемо це сформулювати в майбутньому.

Ще одна річ, яку він вважає цікавою, це те, що авторегресійна модель перевершує BERT з точки зору лінійного представлення. Але досі незрозуміло чому.

Однак Суцкевер висловив власне припущення: при прогнозуванні наступного пікселя на основі всіх попередніх пікселів модель повинна спостерігати довгострокову структуру даних. BERT відкидає деякі піксельні маркери під час обробки векторів, і, враховуючи як частину минулого, так і частину майбутнього, модель може отримати досить хороші прогнози. Таким чином видаляються всі важкі завдання, а складність завдань значно знижується. Найскладніше завдання передбачення наступного пікселя набагато складніше, ніж найскладніше завдання передбачення у випадку передбачення BERT.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків