Орангутаны учатся играть в «Minecraft», метод на самом деле такой же, как у разумного тела GPT-4?

Question

Первоисточник: Синьчжиюань![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-817f1b7fd1-dd1a6f-1c6801) Источник изображения: сгенерировано Unbounded AI‌Обратите внимание, что этот игрок умело играет в «Minecraft», и он может легко собирать закуски и разбивать блоки.Как только камера повернулась, мы обнаружили, что настоящая личность игрока оказалась орангутангом!Да, это нечеловеческий эксперимент с биологической нейронной сетью от Ape Initiative.Главный герой эксперимента Канзи — 42-летний бонобо.После обучения он изучил различные навыки, бросил вызов окружающей среде, такой как деревни, пустынные храмы и порталы в нижнем царстве, и прошел таможенный до конца.Эксперты по ИИ обнаружили, что процесс обучения дрессировщиков орангутанов навыкам аналогичен тому, как люди обучают ИИ игре в Minecraft, например, контекстному обучению с подкреплением, RLHF, имитационному обучению, обучению на курсах и т. д.## **Когда орангутаны учатся играть в Minecraft**Канзи, бонобо из Ape Initiative, является одним из самых умных орангутангов в мире, понимает английский и пользуется сенсорным экраном.В Ape Initiative у Канзи есть доступ к различным электронным сенсорным экранам, которые, возможно, заложили основу для быстрого начала работы с «Minecraft».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b1cd0d717-dd1a6f-1c6801) В первый раз, когда люди показывали Канзи Minecraft, он находил зеленую стрелку, как только садился перед экраном, а затем водил пальцем по направлению к цели.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b8adf23fc2-dd1a6f-1c6801) ### **Изучите три навыка**За считанные секунды Канзи понял, как передвигаться в Minecraft.Впоследствии он также научился собирать награды.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-adf467c768-dd1a6f-1c6801) Каждый раз, когда будет собрана награда, она будет вознаграждена закусками, такими как арахис, виноград и яблоки.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-174f8cc831-dd1a6f-1c6801) Работа Канзи становится все более и более квалифицированной.Он распознает препятствия, которые представляют собой тот же зеленый цилиндр, что и целевая стрелка, и избегает их при сборе наград.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d15213ebd5-dd1a6f-1c6801) Конечно, Канзи также столкнется с трудностями. Для этого требовалось разбивать большие блоки с помощью инструмента для разрушения, которого он никогда раньше не видел.Увидев, что Канзи застрял, люди начали помогать, указывая на нужные кнопки инструментов. Однако Канзи все еще не мог понять это после прочтения.Людям приходилось делать это самим, ломая деревянные блоки инструментами. После просмотра Канзи задумался, но в глазах всех ожидающих он тоже последовал его примеру, нажав кнопку, и разбив деревянный блок. Люди мгновенно разразились аплодисментами.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6b5082eab-dd1a6f-1c6801) Теперь в дереве навыков Канзи есть две вещи: сбор закусок и разрушение блоков.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d060b9e587-dd1a6f-1c6801) Изучая пещерные навыки, сотрудники обнаружили, что если Канзи соскользнет с деревянного блока, который он пытался сломать, Канзи просто уйдет. Поэтому люди специально под него подгоняли задачу——Разбивайте деревянные блоки в пещере, полной алмазных стен, чтобы доказать свое умение собирать и разбивать.В пещере все было хорошо, однако у Канзи возникла проблема: он застрял в углу. В это время люди нужны, чтобы протянуть руку помощи.В конце концов, Канзи достиг дна пещеры, разбив последнюю стену.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d1d3d35671-dd1a6f-1c6801) Толпа взорвалась аплодисментами, а Kanzi дал коллективу пятерки.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abdf6e6a54-dd1a6f-1c6801) ### **Обманутые люди**Далее последовала интересная вещь: персонал пригласил игрока-человека сыграть в игру с Канзи, конечно, он не знал личность Канзи.Персонал намерен увидеть, сколько времени потребуется игроку, чтобы понять, что человек, играющий с ним в игру, не является человеком.Сначала этот младший брат просто почувствовал, что скорость движения противника была невероятно медленной,Когда перед его глазами показали фотографию Канзи, младший брат испугался и отшатнулся.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f301cf8384-dd1a6f-1c6801)## **Выбраться из лабиринта**После игры в «Minecraft» Канзи становился все более и более смелым.Всякий раз, когда Канзи получает награду, люди будут подтверждать его поведение в виде аплодисментов, а если это не удается, дрессировщик также поощряет его продолжать игру аплодисментами и аплодисментами.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cba51defa7-dd1a6f-1c6801) На этот раз он научился разблокировать карту подземного лабиринта:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-36bde9ea64-dd1a6f-1c6801) Разрушьте препятствия перед вами:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5c85364070-dd1a6f-1c6801) Найдите аметист:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0cf19e0192-dd1a6f-1c6801) Когда Канзи застрянет, он выйдет на прогулку и принесет палку, чтобы положить рядом с собой.Даже если он, к сожалению, потерпит неудачу, Канзи нажмет кнопку, чтобы регенерировать себя.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5fbb28924d-dd1a6f-1c6801) Последний уровень представляет собой огромный лабиринт, полный развилок.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f612834435-dd1a6f-1c6801) Из-за задержки с выходом из лабиринта Канзи забеспокоился и начал кричать веткой, или ломал ветку в гневе.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a083c00e0-dd1a6f-1c6801) В конце концов он успокоился и продолжил пробивать уровень, выбравшись из лабиринта.Сразу же Канзи окружили аплодисменты и возгласы возгласов.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1b46b0b748-dd1a6f-1c6801) Похоже, что «Мой мир» играл Канзи, бонобо.**Сходства между обучением орангутангов и обучением искусственному интеллекту**Наблюдать за тем, как бонобо мастерски играет в видеоигры, может показаться немного гротескным и сверхъестественным.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6aafab8128-dd1a6f-1c6801) Старший научный сотрудник Nvidia Джим Фан прокомментировал это:Хотя Канзи и его предки никогда в жизни не видели Minecraft, он быстро адаптировался к текстурам и физике Minecraft, отображаемым на электронных экранах.И это сильно отличается от естественной среды, в которой они жили и в которой жили. Этот уровень обобщения намного превосходит самые мощные модели видения на сегодняшний день.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6ee39c6559-dd1a6f-1c6801) Приемы обучения животных игре в Майнкрафт по сути те же принципы, что и при обучении искусственного интеллекта:**- Контекстное обучение с подкреплением:**Всякий раз, когда Канзи достигает определенного рубежа в игре, он получает фрукт или арахис, что побуждает его продолжать следовать правилам игры.**- РЛХФ：**Канзи не понимает человеческого языка, но он может видеть, как его тренеры подбадривают его, и время от времени отвечает. Аплодисменты тренировочного персонала дали Канзи сильный сигнал о том, что он на правильном пути.**- Обучение путем подражания:**После того, как дрессировщик показал Канзи, как выполнить задание, он сразу понял смысл соответствующей операции. Эффект презентации выходит далеко за рамки стратегии использования только вознаграждений.**- Учебная программа:**Тренер и Канзи начинают с очень простой среды и постепенно обучают Канзи навыкам управления. Наконец, Канзи может путешествовать по сложным пещерам, лабиринтам и пустотам.Мало того, что даже при аналогичных методах обучения зрительная система животного может распознавать и адаптироваться к новой среде за очень короткий промежуток времени, в то время как модель зрения ИИ потребует больше времени и затрат на обучение, и часто трудно достичь Идеальный эффект.Мы снова падаем в бездну парадокса Моравца:Искусственный интеллект ведет себя обратно пропорционально человеческим возможностям. В низкоуровневых интеллектуальных действиях, которые мы считаем немыслимыми или инстинктивными (например, восприятие и двигательный контроль), искусственный интеллект ужасен. Но в продвинутых интеллектуальных действиях, требующих рассуждения и абстракции (таких как логическое мышление и понимание языка), искусственный интеллект может легко превзойти человека.Это точно соответствует результатам, представленным в этом эксперименте:Наш лучший ИИ (GPT-4) близок к человеческому уровню в понимании языка, но сильно отстает от животных в восприятии, распознавании.**Нетизен: Оказывается, орангутаны злятся, когда играют в игры**###И Канзи, и LLM могут играть в Minecraft, но между тем, как учится Канзи и LLM, есть незначительная разница, о которой мы должны знать.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3faa1a4b33-dd1a6f-1c6801) Увидев отличные способности Канзи к обучению, пользователи сети начали подделывать.Некоторые люди предсказывают, что мир через 6 лет будет войной за планету обезьян...![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b013ba983-dd1a6f-1c6801) Или орангутанг пьет кока-колу и интегрируется в человеческое общество...![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3202fced5e-dd1a6f-1c6801) Даже Босса Ма застрелили и превратили в «обезьянью версию» Маска.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2480e7eb17-dd1a6f-1c6801) Также говорят, что Канзи - первый нечеловек, у которого есть ярость игрока, и он доволен.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-715705d4a7-dd1a6f-1c6801) «Если бы у Канзи был свой игровой канал, я бы честно смотрел его».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e2175d6681-dd1a6f-1c6801) «Нет большой разницы между людьми и бонобо, когда дело доходит до игр. Всех нас мотивируют вознаграждения для выполнения определенных задач и достижения целей, единственная разница заключается в фактическом содержании вознаграждений»."В Minecraft вознаграждения Канзи за добычу алмазов более немедленные и необработанные (еда), тогда как наши вознаграждения за добычу алмазов более отсроченные и связаны с игрой. В любом случае, это какое-то сумасшествие".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-869b21f3c0-dd1a6f-1c6801) Сначала GPT научились играть в «Minecraft», а теперь могут играть и бонобо, что заставляет людей с нетерпением ждать будущего использования Neuralink.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb0403770-dd1a6f-1c6801) **Джим Фан учит агентов ИИ играть в Minecraft**Люди уже накопили большой передовой опыт в обучении ИИ игре в Minecraft.Еще в мае этого года команда Jim Fan подключила ИИ-агент Nvidia к GPT-4 и создала совершенно нового ИИ-агента Voyager.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ef88be9204-dd1a6f-1c6801) Voyager не только превосходит AutoGPT по производительности, но и может проводить обучение в игре на протяжении всей сцены!Он может самостоятельно писать код, чтобы доминировать в «Minecraft» без вмешательства человека.Можно сказать, что после появления «Вояджера» мы на шаг приблизились к общему искусственному интеллекту AGI.**Настоящая цифровая жизнь**После доступа к GPT-4 «Вояджеру» вообще не нужно беспокоиться о людях, и он полностью самоучка.Он не только овладел базовыми навыками выживания — копанием, строительством домов, собирательством и охотой, но и научился самостоятельно проводить открытые исследования.Управляемый сам по себе, он постоянно расширяет свои предметы и оборудование, оснащается различными уровнями брони, использует щиты, чтобы блокировать Шанхай, и использует заборы для содержания животных.Появление больших языковых моделей открыло новые возможности для построения воплощенных агентов. Потому что агент на основе LLM может использовать мировые знания, содержащиеся в предварительно обученной модели, для создания согласованного плана действий или исполняемой стратегии.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9cf172f309-dd1a6f-1c6801) Джим Фан: У нас была эта идея до BabyAGI/AutoGPT, и мы потратили много времени на поиск лучшей безградиентной архитектуры.Внедрение GPT-4 в агент открывает новую парадигму («обучение» выполнением кода, а не градиентным спуском), позволяя агенту избавиться от дефекта неспособности учиться на всю жизнь.Ученый OpenAI Карпати также похвалил это: это «архитектура без градиентов» для продвинутых навыков. Здесь LLM эквивалентен префронтальной коре, а API-интерфейс минесвежевателя нижнего уровня генерируется с помощью кода.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f16c34102d-dd1a6f-1c6801) **3 ключевых компонента**Чтобы сделать Voyager эффективным агентом обучения на протяжении всей жизни, команды из Nvidia, Caltech и других учреждений предложили 3 ключевых компонента:**1. Итеративный механизм подсказок, сочетающий обратную связь с игрой, ошибки выполнения и самопроверку для улучшения программы****2. База кодов навыков для хранения и извлечения сложных моделей поведения****3. Автоматизированное обучение, максимально расширяющее возможности агента**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acd05c2cfc-dd1a6f-1c6801) Во-первых, Voyager попытается использовать популярный Java API Minecraft (Mineeflayer) для написания программы для достижения конкретной цели.Отзывы об игровой среде и ошибки реализации Java (если они есть) помогут GPT-4 улучшить программу.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-680a7324c1-dd1a6f-1c6801)> Слева: обратная связь с окружающей средой. GPT-4 понимает, что ему нужно еще 2 доски, прежде чем сделать палку.> Справа: ошибка выполнения. GPT-4 понял, что должен делать деревянный топор, а не топор "Акация", потому что топора "Акация" в Майнкрафте нет.Предоставляя текущее состояние и задачу агента, GPT-4 сообщает программе, выполнила ли она задачу.Кроме того, если задание не выполнено, GPT-4 также предоставит критику и подскажет, как выполнить задание.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ce8a34628a-dd1a6f-1c6801) самопроверкаВо-вторых, Voyager постепенно создает банк навыков, сохраняя успешные процедуры в векторной базе данных. Каждую программу можно получить, внедрив ее строку документации.Сложные навыки синтезируются путем объединения простых навыков, что позволяет способностям «Вояджера» быстро расти с течением времени и смягчить катастрофическую амнезию.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e021d2bee3-dd1a6f-1c6801)> Вверх: Добавить навыки. Каждый навык индексируется вложением его описания, которое может быть извлечено в подобных ситуациях в будущем.> Внизу: получение навыков. При столкновении с новой задачей, предложенной автоматизированной учебной программой, делается запрос и определяются 5 наиболее важных навыков.В-третьих, автоматический учебный план предлагает подходящие исследовательские задачи на основе текущего уровня навыков агента и состояния мира.Например, если вместо леса он окажется в пустыне, научитесь собирать песок и кактусы вместо железа. Уроки генерируются GPT-4 с целью «открыть как можно больше разнообразия».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f55d31b096-dd1a6f-1c6801) автоматический курсКак первый воплощенный интеллект, управляемый LLM, который может учиться на всю жизнь, сходство между процессом обучения "Вояджера" и процессом обучения орангутана может дать нам много вдохновения.Использованная литература: