Сжимайте все напрямую! Главный научный сотрудник OpenAI Илья Суцкевер так видит неконтролируемое обучение

2023-08-21 01:46:52

Первоисточник: Сердце машины

Изображение предоставлено: создано Unbounded AI‌

Недавно Илья Суцкевер, главный научный сотрудник OpenAI, прочитал лекцию в Институте Саймонса, которая посвящена исследованиям в области теории вычислений.Одним предложением мы можем посмотреть на неконтролируемое обучение в сжатой перспективе. Кроме того, он поделился многими другими интересными наблюдениями. Сердце машины разбирало общее содержание речи, надеясь помочь читателям глубже понять неконтролируемое обучение.

Суцкевер впервые рассказал о смене направления своих исследований. Он сказал: «Не так давно я переключил все свои исследования на исследования выравнивания ИИ». Это команда «Супервыравнивание (супервыравнивание)», созданная OpenAI некоторое время назад. которым он руководит вместе с Яном Лейке. Суцкевер сказал, что они добились некоторых результатов исследований в области выравнивания ИИ, но это не та тема, которой посвящен этот доклад.

Тема этого выступления — «Наблюдение за обобщением (наблюдение за обобщением)», и Илья Суцкевер конкретно рассказывает о теории, объясняющей неконтролируемое обучение.

Во-первых, Илья Суцкевер задает ряд общих вопросов об «обучении»: что такое обучение? Почему учиться полезно? Почему обучение должно быть полезным? Почему компьютеры должны иметь возможность учиться? Почему нейронные сети могут обучаться? Почему модели машинного обучения могут изучать законы данных? Можем ли мы описать обучение в математических терминах?

Контролируемое обучение

Суцкевер начинает с контролируемого обучения. Он говорит, что несколько лет назад была проведена значительная официальная работа по обучению с учителем, результат нескольких исследователей; эти результаты часто называют статистической теорией обучения.

Преимущество контролируемого обучения состоит в том, что оно может обеспечить точное математическое условие для успешного обучения. То есть, если у вас есть какие-то данные из какого-то распределения данных, то вы можете успешно добиться низких потерь при обучении и у вас достаточно обучающих данных (больше степеней свободы, чем распределение данных), то ваша ошибка теста должна быть низкой.

Математически обучение должно быть успешным, если можно найти функцию в классе функций, обеспечивающую меньшие потери при обучении. Таким образом, контролируемое обучение очень просто.

Исследователи обнаружили некоторые теоремы в смежных исследованиях, пример ниже. Суцкевер сказал, что объяснение теоремы займет около пяти минут, но, по-видимому, у него мало времени для выступления.

В целом, теорема «элегантна» и демонстрирует контролируемый процесс обучения всего с тремя линиями математического вывода.

Таким образом, контролируемое обучение относительно хорошо изучено. Мы знаем, почему это сработает: пока мы можем собирать большие наборы данных для контролируемого обучения, мы можем быть уверены, что модели будут становиться все лучше и лучше. Конечно, очень важен и другой момент, а именно обеспечение соответствия тестового распределения обучающему распределению; только в этом случае теория обучения с учителем может быть эффективной.

Таким образом, концепция контролируемого обучения очень проста. У нас также уже есть ответы на вопрос, почему обучение с учителем работает — мы знаем, почему распознавание речи и классификация изображений работают, потому что они основаны на эффективном и математически гарантированном обучении с учителем.

Здесь Илья Суцкевер кстати упомянул о венчурном измерении. Он упомянул, что многие исследователи статистической теории обучения считают, что измерение VC является ключевым компонентом, но цель измерения VC была придумана для того, чтобы модель могла обрабатывать параметры с бесконечной точностью.

Например, если каждый параметр вашего линейного классификатора имеет бесконечную точность, но точность чисел с плавающей запятой в действительности ограничена, и точность будет уменьшаться, то вы можете реализовать некоторые функции через измерение VC и преобразовать этот линейный классификатор. сводится к форме обучения с учителем, описанной предыдущей формулой.

Что такое обучение без учителя?

Далее рассмотрим неконтролируемое обучение. Прежде всего, что такое неконтролируемое обучение? Илья Суцкевер сказал, что он еще не видел удовлетворительного объяснения неконтролируемого обучения, и мы не знаем, как рассуждать об этом математически — в лучшем случае, мы можем лишь догадываться.

Неконтролируемое обучение было давней мечтой в области машинного обучения. Суцкевер считает, что эта цель была достигнута в экспериментальных исследованиях, когда модель просматривает данные, не сообщая их содержание, и обнаруживает в них реальную и полезную скрытую структуру.

Как это произошло? Можем ли мы быть уверены, что это произойдет? Суцкевер говорит, что мы не можем, ведь у нас нет тех же теоретических гарантий при обучении без учителя, что и при обучении с учителем.

Люди изучают неконтролируемое обучение с 1980-х годов, используя аналогичную терминологию. В ходе эксперимента люди заметили, что при небольшом количестве данных явление обучения без учителя не проявляется, но появляются некоторые популярные идеи развития, такие как BERT, диффузионная модель, старомодная языковая модель и т. д. Неконтролируемое обучение в то время также могло генерировать несколько интересных образцов, но, конечно, это было не так хорошо, как сегодняшние технологии.

Но поскольку мы не знаем, как работает обучение без учителя, оно всегда сбивало с толку.

Например, когда вы оптимизируете для определенной цели (такой как реконструкция изображения или предсказание следующего слова), вы также можете заботиться о другой цели (такой как классификация изображений или классификация документов), и модель также может хорошо работать с этой неоптимизированной целью. , Получите хорошую производительность. Но почему? Не знаю, это результат эксперимента. Суцкевер сказал, что это было похоже на волшебство.

Неужели мы собираемся отказаться от теории и идти до конца на позитивизме?

Мы знаем, что неконтролируемое обучение заключается в том, чтобы изучить структуру входного распределения, а затем получить из нее что-то, что поможет достичь цели. Но что, если входное распределение является равномерным распределением? В это время различные алгоритмы обучения без учителя не работают. Как относиться к этому явлению? Суцкевер говорит, что нам нужно сделать некоторые предположения.

Метод обучения без учителя: сопоставление распределения

Далее Суцкевер показывает потенциальный способ мышления об обучении без учителя. Он сказал, что этот метод обучения без учителя не стал мейнстримом, но он очень интересен. Он имеет характеристики, аналогичные обучению с учителем, то есть он должен быть эффективным. почему? Это включает в себя неконтролируемый процесс обучения, называемый сопоставлением распределения.

Далее, позвольте мне кратко объяснить. Предположим, что есть два источника данных X и Y, между которыми нет соответствия; цель модели — найти такую функцию F, что распределение F(X) аппроксимирует распределение Y — это ограничение на F.

Это ограничение может иметь значение для многих сценариев приложений, таких как машинный перевод и распознавание речи. Например, если есть распределение английских предложений, после использования функции F мы можем получить распределение, близкое к распределению французских предложений, тогда можно сказать, что мы получили реальные ограничения F.

Если размерности как X, так и Y достаточно велики, то F может иметь большое количество ограничений. На самом деле, вы можете даже восстановить полную F из этих ограничений. Это пример обучения с учителем или обучения без учителя, и он должен работать так же, как должно работать обучение с учителем.

Кроме того, подстановочные шифры также подходят для этой схемы.

Суцкевер сказал, что он независимо открыл это явление в 2015 году. Это заставило его задуматься: может быть, мы можем описать обучение без учителя в какой-то осмысленной математической форме.

Конечно, описанный выше сценарий машинного перевода является упрощенным искусственным сценарием, который не соответствует реальной ситуации приложения, и соответствующий сценарий неконтролируемого обучения, естественно, такой же.

Далее Суцкевер опишет предложенный им метод, который может дать математическое объяснение обучения без учителя и гарантировать, что результаты обучения без учителя будут хорошими.

Как мы все знаем, сжатие — это предсказание, и каждый компрессор можно превратить в предиктор, и наоборот. Существует однозначное соответствие между ансамблевым компрессором и ансамблевым предиктором.

Суцкевер указал, что для того, чтобы более четко проиллюстрировать размышления о неконтролируемом обучении, полезно использовать в обсуждении аспект сжатия.

На основании этого он провел мысленный эксперимент.

Допустим, у вас есть два набора данных X и Y, которые представляют собой два файла на вашем жестком диске, тогда у вас есть отличный алгоритм сжатия C. Также предположим, что вы выполняете совместное сжатие для X и Y, то есть сначала объединяете их, а затем передаете их компрессору.

Теперь важный вопрос: что будет делать достаточно хороший компрессор?

Sutskever дал очень интуитивный ответ: компрессор использует шаблоны, присутствующие в X, для сжатия Y, и наоборот.

Он сказал, что сцена задачи прогнозирования на самом деле имеет похожее явление, но кажется более интуитивно понятным в сжатом контексте.

Если ваш компрессор достаточно хорош, результаты сжатия объединенных файлов должны быть не хуже, чем результаты разделенного сжатия.

Таким образом, дальнейшее сжатие, которое вы получаете путем конкатенации, представляет собой некую общую структуру, которую замечает ваш компрессор. Чем лучше компрессор, тем больше общих структур он может извлечь.

Разница между двумя результатами сжатия заключается в общей структуре, алгоритмической взаимной информации.

Соответственно, вы можете рассматривать Y как данные для контролируемой задачи, X как данные для неконтролируемой задачи, и у вас есть некоторая форма математического обоснования этой информации — вы можете использовать шаблоны в X, чтобы помочь задаче Y.

Обратите также внимание на то, как он обобщается на сопоставление распределения. Если в случае сопоставления дистрибутива, скажем, X — это язык 1, а Y — язык 2, и существует некоторая простая функция F, которая преобразует один дистрибутив в другой, то хороший компрессор также заметит это и поместит, используя его, даже возможно восстановить функцию внутренне.

Таким образом, образуется замкнутый цикл. Так как же описать обучение без учителя в математической форме?

Математическая формализация обучения без учителя

Обратите внимание, что описание в этом разделе использует описание сценария сжатия и сценария прогнозирования взаимозаменяемо.

Сначала предположим, что у нас есть алгоритм машинного обучения A, роль которого заключается в сжатии Y. Алгоритм A имеет доступ к X. Пусть X будет документом номер 1, а Y будет документом номер 2. Мы хотим, чтобы наш алгоритм/компрессор машинного обучения сжимал Y и мог использовать X, когда это необходимо. Цель состоит в том, чтобы максимально сжать Y.

Тогда мы должны спросить себя: в чем заключается самое большое сожаление (сожаление) об использовании этого алгоритма?

Суцкевер объяснил: "Если я хорошо справляюсь и мои сожаления невелики, это означает, что мне помогли все, что я мог получить от этих неразмеченных данных. Неразмеченные данные помогли в максимально возможной степени". ни о чем не жалею.» Это означает, что нет лучших предикторов для лучшего алгоритма сжатия. «Я получил максимальную отдачу от своих немаркированных данных».

Суцкевер считает это важным шагом на пути к обучению без учителя. Вы не знаете, полезен ли ваш неконтролируемый набор данных на самом деле, но если у вас мало сожалений по поводу алгоритма обучения с учителем, то у вас есть лучший результат, лучший результат невозможен.

Теперь в несколько неясную теоретическую территорию.

Использование сложности Колмогорова в качестве окончательного компрессора дает нам алгоритм с ультранизким сожалением, но на самом деле это не алгоритм, потому что он не поддается вычислению.

Кратко объясним колмогоровскую сложность: Это как вы мне даете какие-то данные, а чтобы их сжать, я вам дам максимально короткую программу. Колмогоровская сложность равна длине этой кратчайшей программы.

Пусть C — вычислимый компрессор, тогда для всех X сложность колмогоровского компрессора меньше произвольной производительности компрессора C плюс количество кодовых символов, необходимых для реализации компрессора.

Мы можем доказать это, используя аргумент моделирования. Предположим, что есть очень хороший компрессор C, тогда это может быть компьютерная программа, если эта компьютерная программа передана K для запуска, тогда стоимость, требуемая K, равна длине этой программы. Компрессор Колмогорова может моделировать другие компьютерные программы и другие компрессоры, поэтому он не поддается вычислению. Это как бесплатная программа, которая эмулирует все компьютерные программы, но это также лучший из возможных компрессоров.

Теперь мы обобщим компрессор Колмогорова, чтобы использовать дополнительную информацию. Мы знаем, что компрессор Колмогорова не вычислим, не разрешим, но как перебор всех программ. Это похоже на использование нейронной сети для настройки параметров через SGD (стохастический градиентный спуск) для поиска программы. Этот процесс выполняется на компьютере с определенными ресурсами (память, количество шагов), который подобен очень маленькому колмогоровскому компрессору. Между ними есть сходство.

Нейронные сети могут имитировать апплеты, представляющие собой крошечные компьютеры с циклами/схемами. Мы можем использовать SGD, чтобы обучить эти компьютеры находить его «схемы» из данных.

Аргументы моделирования применимы и здесь. Если вы хотите спроектировать лучшую архитектуру нейронной сети, вам будет сложно, потому что добавление или изменение соединений может быть смоделировано другими архитектурами нейронной сети, но на самом деле это сложно сделать. Потому что это те редкие случаи, которые могут привести к огромным улучшениям. Так же, как переход от RNN к Transformer. У RNN есть узкое место: скрытое состояние. Но если мы найдем способ заставить RNN иметь очень большое скрытое состояние, то его производительность может снова сравняться с Transformer.

Таким образом, мы можем использовать условную колмогоровскую сложность в качестве решения для обучения без учителя следующим образом:

где C — вычислимый компрессор, а K(Y|X) — длина кратчайшей программы, которая выводит Y, если можно использовать X.

Это решение для неконтролируемого обучения со сверхнизкими потерями, которое не поддается вычислению, но обеспечивает полезную основу.

Сжимайте все напрямую!

Суцкевер идет еще дальше и упоминает, что «сжатие всего напрямую» также возможно.

Условная колмогоровская сложность K(Y|X) неестественна в контексте машинного обучения, потому что она сжимает Y на основе X, что практически невозможно обусловить на больших наборах данных, по крайней мере, на данный момент. Мы можем подобрать большие наборы данных, но их трудно обусловить.

И выше сказано: если вы хотите делать прогнозы для чего-то Y, что вы контролируете, обычный компрессор Колмогорова, который сжимает конкатенированные данные X и Y, будет работать так же, как и условный компрессор. Конечно, в реальных деталях есть больше тонкостей, но на самом деле это означает, что мы можем использовать обычный компрессор Колмогорова для решения задачи обучения без учителя — просто соедините все ваши данные и выполните сжатие, чтобы вы могли получить хорошие результаты. полученные на контрольных заданиях.

Доказательство этого более сложное, поэтому я не буду вдаваться в него здесь.

Важным выводом является то, что обычное колмогоровское сжатие (без привязки к определенному набору данных) является «наилучшим возможным использованием» неразмеченных данных. Это решение для неконтролируемого обучения.

сдавление сустава является максимальной вероятностью

Последнее замечание, которое Суцкевер сделал в своем выступлении, было следующим: это совместное сжатие является максимальной вероятностью, пока нет переобучения.

Если у вас есть набор данных, то сумма вероятностей для заданных параметров является стоимостью сжатия этого набора данных. Вы также оплачиваете стоимость сжатия параметров. И если вы хотите сжать два набора данных, нет проблем, просто добавьте точки данных в свой набор данных, то есть добавьте больше элементов в вышеуказанную сумму операции суммирования.

Таким образом, совместное сжатие путем объединения данных — очень естественный подход в контексте машинного обучения. Напротив, пройти условную колмогоровскую сложность гораздо труднее.

Мы даже можем использовать его, чтобы объяснить, как работают нейронные сети. Мы можем использовать SGD для больших нейронных сетей в качестве нашего средства поиска больших программ. Чем больше нейронная сеть, тем лучше она может аппроксимировать обычный компрессор Колмогорова. Суцкевер прокомментировал: «Возможно, поэтому нам нравятся большие нейронные сети, потому что мы можем без сожалений приблизиться к идее неосуществимого обычного компрессора Колмогорова. По мере того, как мы будем обучать все более и более крупные нейронные сети, сожаление будет увеличиваться. Низкое».

Применяется ли эта теория и к моделям GPT?

Ответ Суцкевера на это — да, но для объяснения поведения модели ТШП, не приводя утверждения о сжатии или обучении с учителем, можно сказать, что «теорию» ТШП можно получить, рассуждая об условном распределении текста.

Итак, можем ли мы найти другие методы прямой проверки этой теории? Можем ли мы объяснить это с точки зрения других областей, таких как зрение? Можем ли мы получить хорошее обучение без учителя, если сделаем это на пиксельных данных?

Суцкевер сказал, что они уже провели такое исследование в 2020 году, iGPT. Конечно, это в основном экспериментальное исследование, и до практического применения еще далеко, подробнее см. в статье «Генеративное преобучение из пикселей».

В документе показано, что если вы можете сделать отличный предсказатель следующего шага, вы можете получить отличное обучение без учителя. Эта статья доказывает утверждение в области образов.

Проще говоря, сначала преобразуйте изображение в последовательность пикселей, каждый пиксель имеет дискретное значение плотности. Все, что нужно сделать, это использовать тот же Transformer для предсказания следующего пикселя. Это отличается от BERT, который должен предсказать следующий токен, потому что это вероятность максимального сжатия.

Посмотрим на результат:

Как показано, это линейная точность зонда на CIFAR-10 для различных размеров моделей iGPT, то есть точность прогнозирования следующего шага в задаче прогнозирования пикселей неконтролируемого обучения. Видно, что предсказание следующего пикселя так же эффективно, как предсказание следующего слова. Неконтролируемое обучение работает лучше, когда размер модели больше.

Они провели экспериментальные исследования и обнаружили, что в ImageNet производительность iGPT, которая была расширена во многих отношениях, может приблизиться к современному обучению с учителем, но все же есть некоторые пробелы.

Однако Суцкевер считает, что это вычислительная проблема, потому что методы обучения с учителем, такие как SimCLR, используют большие изображения с высоким разрешением, а для гигантского Трансформера (6,8 миллиарда параметров) они предоставляют маленькие изображения 64×64. Это похоже на предсказание следующего пикселя без присмотра на основе большого набора данных, а затем установка линейного датчика в ImageNet с отличными результатами.

На CIFAR-10 iGPT-L с 1,36 миллиардами параметров достиг точности 99%, как показано на рисунке ниже.

Линейное представление

В конце выступления Суцкевер сказал, что хочет поговорить о линейных представлениях.

«Мне нравится теория компрессии, потому что раньше не было способа строгого подхода к обучению без учителя, — говорит он, — теперь мы можем это сделать в определенной степени. Но теория сжатия не может напрямую объяснить, почему представления линейно разделимы, и не может объяснить, что должны быть линейные зонды. Линейные представления распространены повсеместно, и причины их формирования должны быть глубокими. Суцкевер считает, что в будущем мы сможем ее сформулировать.

Еще одна вещь, которую он находит интересной, заключается в том, что модель авторегрессии превосходит BERT с точки зрения линейного представления. Но до сих пор непонятно, почему.

Однако Суцкевер выдвинул собственное предположение: при прогнозировании следующего пикселя на основе всех предыдущих пикселей модели необходимо наблюдать дальнюю структуру данных. BERT отбрасывает некоторые пиксельные токены при обработке векторов, и, учитывая как часть прошлого, так и часть будущего, модель действительно может получать довольно хорошие прогнозы. Таким образом, все сложные задачи удаляются, а сложность задач значительно снижается. Самая сложная задача прогнозирования при прогнозировании следующего пикселя намного сложнее, чем самая сложная задача прогнозирования в случае прогнозирования BERT.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков