Відзначимо, що цей гравець вміло грає в "Майнкрафт", і він з легкістю може збирати снеки і розбивати блоки.
Як тільки камера повернулася, ми виявили, що справжній гравець виявився орангутангом!
Так, це нелюдський експеримент із біологічною нейронною мережею від Ape Initiative.
Головний герой експерименту Канзі — 42-річний бонобо.
Після навчання він навчився різноманітним навичкам, випробував такі середовища, як села, пустельні храми та портали в нижньому царстві, і пройшов митницю до кінця.
Фахівці зі штучного інтелекту виявили, що процес навчання дресирувальників орангутангів освоєнню навичок подібний до того, як люди навчають штучному інтелекту грати в Minecraft, таким як навчання з контекстним підкріпленням, RLHF, імітаційне навчання, курсове навчання тощо.
Коли орангутанги вчаться грати в Minecraft
Канзі, бонобо з Ape Initiative, є одним із найрозумніших орангутангів у світі, розуміє англійську та використовує сенсорний екран.
У Ape Initiative Канзі має доступ до різних електронних сенсорних екранів, які, можливо, заклали основу для його швидкого початку роботи з "Minecraft".
Коли люди вперше показали Kanzi Minecraft, він знайшов зелену стрілку, щойно сів перед екраном, а потім провів пальцем до цілі.
### Вивчіть три навички
За кілька секунд Канзі зрозумів, як пересуватися в Minecraft.
Згодом він також навчився збирати нагороди.
Щоразу, коли буде отримана винагорода, вона буде винагороджуватися такими закусками, як арахіс, виноград і яблука.
Операція Канзі стає все більш майстерною.
Він розпізнає перешкоди, які є тим самим зеленим циліндром, що й цільова стріла, і уникає їх, збираючи нагороди.
Звичайно, Канзі також зіткнеться з труднощами. Це вимагало розбивання великих блоків за допомогою інструменту для розбивання, якого він ніколи раніше не бачив.
Побачивши, що Канзі застряг, люди почали допомагати, вказуючи на потрібні кнопки інструментів. Однак Канзі все одно не міг зрозуміти, прочитавши це.
Людям доводилося робити це самим, розбиваючи дерев’яні блоки інструментами. Канзі задумався після перегляду. На очах усіх, хто очікував, він також наслідував його приклад. Після натискання кнопки він розтрощив дерев’яний брусок. Люди миттєво вибухнули ура.
Тепер у дереві навичок Канзі є дві речі: збирати закуски та розбивати блоки.
Навчаючись печерним навичкам, персонал виявив, що якщо Канзі зісковзне з дерев’яного блоку, який він намагався зламати, Канзі просто піде геть. Тому люди спеціально створили для нього завдання——
Розбийте дерев'яні блоки в печері, повній діамантових стін, щоб довести свої навички колекціонування та руйнування.
У печері все було добре, але у Канзі виникла проблема: він застряг у кутку. У цей час потрібні люди, щоб простягнути руку допомоги.
Згодом Канзі досяг дна печери, розтрощивши останню стіну.
Натовп вибухнув радісними вигуками, а Канзі оцінив персонал.
### Обдурені люди
Далі сталася цікава річ: персонал запросив гравця-людину зіграти в гру з Канзі, звісно, він не знав, хто Канзі.
Персонал має намір побачити, скільки часу знадобиться гравцеві, щоб зрозуміти, що людина, яка грає з ним у гру, не є людиною.
Спочатку цей маленький брат просто відчув, що швидкість руху суперника неймовірно повільна,
Коли йому перед очима показали зображення Канзі, братик злякався й відсахнувся.
Вийти з лабіринту
Після гри в "Майнкрафт" Канзі ставав все більш мужнім.
Кожного разу, коли Канзі отримує нагороду, люди підтверджують його поведінку у формі вітань, а якщо це не вдається, тренер також заохочуватиме його продовжувати гру, плескаючи та аплодуючи.
У цей час він навчився відкривати карту підземного лабіринту:
Знищіть перешкоди перед собою:
Знайдіть аметист:
Коли Канзі застрягне, він вийде погуляти і принесе палицю, щоб поставити її поруч.
Навіть якщо він, на жаль, зазнає невдачі, Канзі натисне кнопку, щоб відновитися.
Останній рівень - це величезний лабіринт, повний вил.
Через затримку виходу з лабіринту Канзі занепокоївся і почав кричати гілкою або зламав гілку в гніві.
Зрештою воно заспокоїлося і продовжило пробиватися через рівень, і вибралося з лабіринту.
Відразу Канзі оточили аплодисменти та вигуки.
Здається, «Мій світ» грав бонобо Канзі.
Подібність між навчанням орангутангів і навчанням ШІ
Спостерігати, як бонобо вправно грає у відеогру, може здатися трохи гротескним і дивним.
Старший науковий співробітник Nvidia Джим Фан прокоментував це -
Хоча Канзі та його предки ніколи в житті не бачили Minecraft, він швидко адаптувався до текстур і фізики Minecraft, які відображалися на електронних екранах.
І це дуже відрізняється від природного середовища, якому вони піддавалися та в якому жили. Цей рівень узагальнення значно перевищує найпотужніші моделі бачення на сьогоднішній день.
Методи навчання тварин грі в Майнкрафт по суті ті ж принципи, що й навчання штучного інтелекту:
- Навчання з підкріпленням на основі контексту:
Щоразу, коли Канзі досягає певної віхи в грі, він отримує фрукт або арахіс, що мотивує його продовжувати дотримуватися правил гри.
- RLHF:
Канзі не розуміє людської мови, але він бачить, як його тренери підбадьорюють його та час від часу відповідають. Схвальні вигуки тренерського персоналу дали Канзі сильний сигнал, що він на правильному шляху.
- Навчання шляхом наслідування:
Після того, як тренер показав Канзі, як виконати завдання, він одразу зрозумів сенс відповідної операції. Ефект від презентації виходить далеко за рамки стратегії використання лише винагород.
- Навчання за програмою:
Тренер і Канзі починають з дуже простого середовища і поступово навчають Канзі навичкам контролю. Нарешті, Канзі може подорожувати складними печерами, лабіринтами та пустелями.
Мало того, навіть за подібних методів навчання зорова система тварини може розпізнавати нове середовище та адаптуватися до нього за дуже короткий проміжок часу, тоді як модель бачення AI потребує більше часу та витрат на навчання, і часто важко досягти Ідеальний ефект.
Ми знову потрапляємо в безодню парадоксу Моравека:
Штучний інтелект поводиться обернено людським можливостям. У діяльності низького рівня інтелекту, яку ми вважаємо немисливою або інстинктивною (наприклад, сприйняття та руховий контроль), штучний інтелект жахливий. Але в передових інтелектуальних видах діяльності, які вимагають міркувань і абстракцій (наприклад, логічних міркувань і розуміння мови), штучний інтелект може легко перевершити людей.
Це точно відповідає результатам, представленим у цьому експерименті:
Наш найкращий штучний інтелект (GPT-4) близький до людського рівня розуміння мови, але значно відстає від тварин у сприйнятті та розпізнаванні.
Користувачі мережі: Виявляється, орангутанги зляться, коли грають в ігри
І Канзі, і магістри можуть грати в Майнкрафт, але існує незначна різниця між тим, як Канзі навчається, і тим, як навчаються магістри, про яку ми повинні знати.
Зіткнувшись із чудовою здатністю Канзі до навчання, користувачі мережі почали обманювати.
Деякі люди пророкують, що через 6 років у світі буде війна за планету мавп...
Або орангутанг п'є кока-колу і інтегрується в людське суспільство...
Навіть боса Ма застрелили і перетворили на «мавпячу версію» Маска.
Також кажуть, що Канзі — перша нелюдина, яка має гнів геймера, і він задоволений.
«Якби Канзі мав власний ігровий канал, я б дивився його чесно».
«Немає великої різниці між людьми та бонобо, коли справа доходить до ігор. Нас усіх мотивують винагороди виконувати певні завдання та досягати цілей, єдина різниця полягає в фактичному змісті винагород».
"У Minecraft нагороди Канзі за видобуток алмазів є більш миттєвими та необробленими (їжа), тоді як наші нагороди за видобуток алмазів є більш відкладеними та пов’язаними з грою. У будь-якому випадку, якась божевілля".
Спочатку GPT навчився грати в Minecraft, а тепер бонобо також можуть грати, що змушує людей з нетерпінням чекати майбутнього використання Neuralink.
Джим Фан вчить агентів ШІ грати в Minecraft
Люди вже накопичили великий досвід у навчанні штучного інтелекту грати в Minecraft.
Ще в травні цього року команда Джима Фана підключила AI-агент Nvidia до GPT-4 і створила абсолютно новий AI-агент Voyager.
Voyager не тільки перевершує AutoGPT за продуктивністю, але й може проводити безперервне навчання в грі на всій сцені!
Він може самостійно писати код, щоб домінувати над "Minecraft" без втручання людини.
Можна сказати, що після появи Voyager ми стали на крок ближче до загального штучного інтелекту AGI.
Справжнє цифрове життя
Після доступу до GPT-4 Вояджеру взагалі не потрібно турбуватися про людей, і він повністю самоучка.
Воно не тільки оволоділо базовими навичками виживання копання, будівництва будинків, колекціонування та полювання, а й навчилося самостійно проводити відкриті дослідження.
Керуючись самим собою, він постійно розширює свої предмети та обладнання, оснащений різними рівнями броні, використовує щити, щоб блокувати Шанхай, і використовує паркани, щоб утримувати тварин.
Поява великих мовних моделей принесла нові можливості для створення втілених агентів. Оскільки агент на базі LLM може використовувати світові знання, що містяться в попередньо навченій моделі, для створення узгодженого плану дій або виконуваної стратегії.
Джим Фан: У нас була ця ідея ще до BabyAGI/AutoGPT, і ми витратили багато часу, щоб знайти найкращу безградієнтну архітектуру
Введення GPT-4 в агент відкриває нову парадигму («навчання» за допомогою виконання коду, а не градієнтного спуску), дозволяючи агенту позбутися дефекту нездатності вчитися протягом усього життя.
Вчений OpenAI Karpathy також високо оцінив це: це «безградієнтна архітектура» для просунутих навичок. Тут LLM еквівалентний префронтальній корі головного мозку, а API нижчого рівня Mineflayer генерується за допомогою коду.
3 ключові компоненти
Щоб зробити Voyager ефективним агентом навчання протягом усього життя, команди з Nvidia, Caltech та інших установ запропонували 3 ключові компоненти:
1. Ітеративний механізм підказок, який поєднує відгуки про гру, помилки виконання та самоперевірку для покращення програми
2. База кодів навичок для зберігання та отримання складної поведінки
3. Автоматизований навчальний посібник, який максимізує дослідження агента
По-перше, Voyager спробує використовувати популярний Minecraft Java API (Mineflayer), щоб написати програму для досягнення конкретної мети.
Відгуки про ігрове середовище та помилки реалізації Java (якщо такі є) допоможуть GPT-4 покращити програму.
Ліворуч: екологічний відгук. GPT-4 розуміє, що йому потрібно ще 2 дошки, перш ніж зробити палицю.
Справа: помилка виконання. GPT-4 зрозумів, що він повинен зробити дерев'яну сокиру, а не «Акацієву», тому що «Акацієвої» сокири в Minecraft немає.
Надаючи поточний стан і завдання агента, GPT-4 повідомляє програмі, чи виконала вона завдання.
Крім того, якщо завдання не виконується, GPT-4 також надасть критику та запропонує, як виконати завдання.
самоперевірка
По-друге, Voyager поступово створює банк навичок, зберігаючи успішні процедури у векторній базі даних. Кожну програму можна отримати, вставивши її рядок документації.
Складні навички синтезуються шляхом поєднання простих навичок, що дозволяє здібностям Вояджера швидко зростати з часом і пом’якшувати катастрофічну амнезію.
Вгору: додайте навички. Кожен навик індексується за допомогою вбудовування його опису, який можна отримати в подібних ситуаціях у майбутньому.
Внизу: отримати навички. При зустрічі з новим завданням, запропонованим автоматизованою навчальною програмою, створюється запит і визначаються 5 найкращих відповідних навичок.
По-третє, автоматичний навчальний план пропонує відповідні дослідницькі завдання на основі поточного рівня навичок агента та стану світу.
Наприклад, якщо він опиниться в пустелі, а не в лісі, навчіться збирати пісок і кактуси замість заліза. Уроки генеруються GPT-4 на основі мети «відкрити якомога різноманітніше».
автоматичний курс
Будучи першим втіленим інтелектом, керованим LLM, який може вчитися все життя, подібність між процесом навчання Вояджера та процесом навчання орангутанга може дати нам багато натхнення.
Література:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Орангутанги вчаться грати в "Майнкрафт", метод насправді такий же, як у GPT-4 intelligent body?
Перше джерело: Xinzhiyuan
Відзначимо, що цей гравець вміло грає в "Майнкрафт", і він з легкістю може збирати снеки і розбивати блоки.
Як тільки камера повернулася, ми виявили, що справжній гравець виявився орангутангом!
Так, це нелюдський експеримент із біологічною нейронною мережею від Ape Initiative.
Головний герой експерименту Канзі — 42-річний бонобо.
Після навчання він навчився різноманітним навичкам, випробував такі середовища, як села, пустельні храми та портали в нижньому царстві, і пройшов митницю до кінця.
Фахівці зі штучного інтелекту виявили, що процес навчання дресирувальників орангутангів освоєнню навичок подібний до того, як люди навчають штучному інтелекту грати в Minecraft, таким як навчання з контекстним підкріпленням, RLHF, імітаційне навчання, курсове навчання тощо.
Коли орангутанги вчаться грати в Minecraft
Канзі, бонобо з Ape Initiative, є одним із найрозумніших орангутангів у світі, розуміє англійську та використовує сенсорний екран.
У Ape Initiative Канзі має доступ до різних електронних сенсорних екранів, які, можливо, заклали основу для його швидкого початку роботи з "Minecraft".
За кілька секунд Канзі зрозумів, як пересуватися в Minecraft.
Згодом він також навчився збирати нагороди.
Він розпізнає перешкоди, які є тим самим зеленим циліндром, що й цільова стріла, і уникає їх, збираючи нагороди.
Побачивши, що Канзі застряг, люди почали допомагати, вказуючи на потрібні кнопки інструментів. Однак Канзі все одно не міг зрозуміти, прочитавши це.
Людям доводилося робити це самим, розбиваючи дерев’яні блоки інструментами. Канзі задумався після перегляду. На очах усіх, хто очікував, він також наслідував його приклад. Після натискання кнопки він розтрощив дерев’яний брусок. Люди миттєво вибухнули ура.
Розбийте дерев'яні блоки в печері, повній діамантових стін, щоб довести свої навички колекціонування та руйнування.
У печері все було добре, але у Канзі виникла проблема: він застряг у кутку. У цей час потрібні люди, щоб простягнути руку допомоги.
Згодом Канзі досяг дна печери, розтрощивши останню стіну.
Далі сталася цікава річ: персонал запросив гравця-людину зіграти в гру з Канзі, звісно, він не знав, хто Канзі.
Персонал має намір побачити, скільки часу знадобиться гравцеві, щоб зрозуміти, що людина, яка грає з ним у гру, не є людиною.
Спочатку цей маленький брат просто відчув, що швидкість руху суперника неймовірно повільна,
Коли йому перед очима показали зображення Канзі, братик злякався й відсахнувся.
Вийти з лабіринту
Після гри в "Майнкрафт" Канзі ставав все більш мужнім.
Кожного разу, коли Канзі отримує нагороду, люди підтверджують його поведінку у формі вітань, а якщо це не вдається, тренер також заохочуватиме його продовжувати гру, плескаючи та аплодуючи.
Навіть якщо він, на жаль, зазнає невдачі, Канзі натисне кнопку, щоб відновитися.
Відразу Канзі оточили аплодисменти та вигуки.
Подібність між навчанням орангутангів і навчанням ШІ
Спостерігати, як бонобо вправно грає у відеогру, може здатися трохи гротескним і дивним.
Хоча Канзі та його предки ніколи в житті не бачили Minecraft, він швидко адаптувався до текстур і фізики Minecraft, які відображалися на електронних екранах.
І це дуже відрізняється від природного середовища, якому вони піддавалися та в якому жили. Цей рівень узагальнення значно перевищує найпотужніші моделі бачення на сьогоднішній день.
- Навчання з підкріпленням на основі контексту:
Щоразу, коли Канзі досягає певної віхи в грі, він отримує фрукт або арахіс, що мотивує його продовжувати дотримуватися правил гри.
- RLHF:
Канзі не розуміє людської мови, але він бачить, як його тренери підбадьорюють його та час від часу відповідають. Схвальні вигуки тренерського персоналу дали Канзі сильний сигнал, що він на правильному шляху.
- Навчання шляхом наслідування:
Після того, як тренер показав Канзі, як виконати завдання, він одразу зрозумів сенс відповідної операції. Ефект від презентації виходить далеко за рамки стратегії використання лише винагород.
- Навчання за програмою:
Тренер і Канзі починають з дуже простого середовища і поступово навчають Канзі навичкам контролю. Нарешті, Канзі може подорожувати складними печерами, лабіринтами та пустелями.
Мало того, навіть за подібних методів навчання зорова система тварини може розпізнавати нове середовище та адаптуватися до нього за дуже короткий проміжок часу, тоді як модель бачення AI потребує більше часу та витрат на навчання, і часто важко досягти Ідеальний ефект.
Ми знову потрапляємо в безодню парадоксу Моравека:
Штучний інтелект поводиться обернено людським можливостям. У діяльності низького рівня інтелекту, яку ми вважаємо немисливою або інстинктивною (наприклад, сприйняття та руховий контроль), штучний інтелект жахливий. Але в передових інтелектуальних видах діяльності, які вимагають міркувань і абстракцій (наприклад, логічних міркувань і розуміння мови), штучний інтелект може легко перевершити людей.
Це точно відповідає результатам, представленим у цьому експерименті:
Наш найкращий штучний інтелект (GPT-4) близький до людського рівня розуміння мови, але значно відстає від тварин у сприйнятті та розпізнаванні.
Користувачі мережі: Виявляється, орангутанги зляться, коли грають в ігри
І Канзі, і магістри можуть грати в Майнкрафт, але існує незначна різниця між тим, як Канзі навчається, і тим, як навчаються магістри, про яку ми повинні знати.
Деякі люди пророкують, що через 6 років у світі буде війна за планету мавп...
"У Minecraft нагороди Канзі за видобуток алмазів є більш миттєвими та необробленими (їжа), тоді як наші нагороди за видобуток алмазів є більш відкладеними та пов’язаними з грою. У будь-якому випадку, якась божевілля".
Люди вже накопичили великий досвід у навчанні штучного інтелекту грати в Minecraft.
Ще в травні цього року команда Джима Фана підключила AI-агент Nvidia до GPT-4 і створила абсолютно новий AI-агент Voyager.
Він може самостійно писати код, щоб домінувати над "Minecraft" без втручання людини.
Можна сказати, що після появи Voyager ми стали на крок ближче до загального штучного інтелекту AGI.
Справжнє цифрове життя
Після доступу до GPT-4 Вояджеру взагалі не потрібно турбуватися про людей, і він повністю самоучка.
Воно не тільки оволоділо базовими навичками виживання копання, будівництва будинків, колекціонування та полювання, а й навчилося самостійно проводити відкриті дослідження.
Керуючись самим собою, він постійно розширює свої предмети та обладнання, оснащений різними рівнями броні, використовує щити, щоб блокувати Шанхай, і використовує паркани, щоб утримувати тварин.
Поява великих мовних моделей принесла нові можливості для створення втілених агентів. Оскільки агент на базі LLM може використовувати світові знання, що містяться в попередньо навченій моделі, для створення узгодженого плану дій або виконуваної стратегії.
Введення GPT-4 в агент відкриває нову парадигму («навчання» за допомогою виконання коду, а не градієнтного спуску), дозволяючи агенту позбутися дефекту нездатності вчитися протягом усього життя.
Вчений OpenAI Karpathy також високо оцінив це: це «безградієнтна архітектура» для просунутих навичок. Тут LLM еквівалентний префронтальній корі головного мозку, а API нижчого рівня Mineflayer генерується за допомогою коду.
Щоб зробити Voyager ефективним агентом навчання протягом усього життя, команди з Nvidia, Caltech та інших установ запропонували 3 ключові компоненти:
1. Ітеративний механізм підказок, який поєднує відгуки про гру, помилки виконання та самоперевірку для покращення програми
2. База кодів навичок для зберігання та отримання складної поведінки
3. Автоматизований навчальний посібник, який максимізує дослідження агента
Відгуки про ігрове середовище та помилки реалізації Java (якщо такі є) допоможуть GPT-4 покращити програму.
Надаючи поточний стан і завдання агента, GPT-4 повідомляє програмі, чи виконала вона завдання.
Крім того, якщо завдання не виконується, GPT-4 також надасть критику та запропонує, як виконати завдання.
По-друге, Voyager поступово створює банк навичок, зберігаючи успішні процедури у векторній базі даних. Кожну програму можна отримати, вставивши її рядок документації.
Складні навички синтезуються шляхом поєднання простих навичок, що дозволяє здібностям Вояджера швидко зростати з часом і пом’якшувати катастрофічну амнезію.
По-третє, автоматичний навчальний план пропонує відповідні дослідницькі завдання на основі поточного рівня навичок агента та стану світу.
Наприклад, якщо він опиниться в пустелі, а не в лісі, навчіться збирати пісок і кактуси замість заліза. Уроки генеруються GPT-4 на основі мети «відкрити якомога різноманітніше».
Будучи першим втіленим інтелектом, керованим LLM, який може вчитися все життя, подібність між процесом навчання Вояджера та процесом навчання орангутанга може дати нам багато натхнення.
Література: