27 жовтня Boston Dynamics, провідний світовий розробник робототехніки, продемонстрував на своєму сайті нове дослідження, яке розробило робота-собаку, керованого гідом, що говорить, шляхом поєднання ChatGPT, Spot та інших моделей штучного інтелекту.
Повідомляється, що робот-собака може розмовляти з людьми за текстовими та голосовими підказками, а також забезпечує візуальну функцію запитань та відповідей, яка може аналізувати знімок, зроблений камерою, та автоматично генерувати описи зображень.
Boston Dynamics заявляє, що великомовні моделі, такі як ChatGPT, продемонстрували потужні можливості керування та виведення, що надихнуло їх контролювати поведінку та функції прийняття рішень фізичних роботів. Наприклад, введення якихось конкретних даних про визначні пам'ятки, картинок і т.д. дозволяє роботу забезпечувати логічні і організовані функції екскурсовода.
Крім того, це також посилює антропоморфні здібності фізичних роботів, наприклад, розповідати вам холодний жарт і робити кумедну дію, яка робить вас щасливими. Якщо використовувати традиційний метод зачіски, це буде дуже складна справа.
Принципи технології робота-собаки для екскурсовода
Boston Dynamics використовує власного чотириногого робота Spot як фізичну структуру робота для реалізації основних функцій, таких як ходьба, моніторинг, навігація та сканування.
Для того, щоб робот-собака міг говорити і взаємодіяти з людьми, розробники оснастили його динаміком Respeaker V2, кільцевим мікрофоном зі світлодіодами, який можна підключити до EAP 2 від Spot через USB для передачі даних.
1) Точковий EAP 2) Динамік 3) Динамік Bluetooth 4) Точковий кронштейн і камера кріплення
Комп'ютер використовувався як керуючий мозок робота-собаки і взаємодіяв з ним через Spot SDK. Для того, щоб змусити собаку-робота виконувати антропоморфні дії, такі як кивок і витягування шиї, використовується точкова рука Спота і камера-затискач.
Змусьте робота-собаку розмовляти за допомогою ChatGPT
Після того, як фізичне апаратне середовище створено, щоб робот-собака мав функцію діалогу, науково-дослідний персонал використовує GPT-3.5 і GPT-4 у поєднанні з Spot SDK і виконує просте тонке налаштування інструкцій, щоб робот-собака мав функцію первинного судження гіда та діалогу.
Далі, щоб дозволити Spot взаємодіяти з людьми та навколишнім середовищем, інтегровано VQA та програмне забезпечення для перетворення мовлення в текст. У той же час камера-захват робота і фронтальна натільна камера подаються в BLIP-2 і відображаються в режимі візуального запитань і відповідей (наприклад, «Що такого цікавого в цій картинці?»). та інші прості запитання) або режим підпису зображення, щоб запустити його.
Процес виконується приблизно раз на секунду, а результати вводяться безпосередньо в підказку.
Для того, щоб дозволити собаці-роботу реалізувати функцію «слухання», розробники вводять дані мікрофона в мовну модель Whisper від OpenAI в англійський текст.
Для того, щоб собака-робот міг розмовляти з людиною, йому потрібно перетворити голосові команди людини на текст для підказки ChatGPT, тому інструмент перетворення також необхідний. Випробувавши різноманітні інструменти, розробники вирішили скористатися хмарним сервісом ElevenLabs.
Дивовижні явища в експериментах
В ході численних тестових бесід розробники виявили дивовижний феномен, робот-собака, схоже, має просту здатність до самостійного прийняття рішень.
Наприклад, коли ви запитаєте робота-собаку, хто такий Марк Райберт (виконавчий директор Boston Dynamics)? Він відповів: «Я не знаю, хто він, давайте підемо в довідкову службу і запитаємо». "**
Опинившись на стійці обслуговування, собака-робот продовжував запитувати у обслуговуючого персоналу, хто такий Марк Райберт?
Коли розробники запитують: хто твої батьки? Собака-робот ходив по виставкових зонах Spot V1 і Big Dog, і вважав цих роботів своїми батьками. Насправді вони мають кореляцію**.
Собака-робот також показує цікаву сторону, і може активно розпитувати перехожих, чи немає навколо якихось таємничих істот.
У Boston Dynamics заявили, що продовжать оптимізацію функцій продукту і надалі. Поєднання ChatGPT та фізичних роботів відкриває двері для фізичної посадки великих мовних моделей, які можуть широко використовуватися в екскурсоводах, розвагах, логістиці, спілкуванні та інших сферах.
Про Boston Dynamics
Boston Dynamics була заснована в 1992 році зі штаб-квартирою в Бостоні, штат Массачусетс. Те, що починалося як філія Массачусетського технологічного інституту (MIT), переросло в незалежну компанію.
Boston Dynamics відома розробкою високопросунутих, гнучких і практичних роботів, а її продукція використовується в промисловій, дослідницькій та споживчій сферах, в основному це роботи-представники: BigDog, Atlas, Spot, Handle тощо.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Об'єднавши ChatGPT з фізичними роботами, Boston Dynamics розробила монстра!
Першоджерело: AIGC Open Community
27 жовтня Boston Dynamics, провідний світовий розробник робототехніки, продемонстрував на своєму сайті нове дослідження, яке розробило робота-собаку, керованого гідом, що говорить, шляхом поєднання ChatGPT, Spot та інших моделей штучного інтелекту.
Повідомляється, що робот-собака може розмовляти з людьми за текстовими та голосовими підказками, а також забезпечує візуальну функцію запитань та відповідей, яка може аналізувати знімок, зроблений камерою, та автоматично генерувати описи зображень.
Boston Dynamics заявляє, що великомовні моделі, такі як ChatGPT, продемонстрували потужні можливості керування та виведення, що надихнуло їх контролювати поведінку та функції прийняття рішень фізичних роботів. Наприклад, введення якихось конкретних даних про визначні пам'ятки, картинок і т.д. дозволяє роботу забезпечувати логічні і організовані функції екскурсовода.
Крім того, це також посилює антропоморфні здібності фізичних роботів, наприклад, розповідати вам холодний жарт і робити кумедну дію, яка робить вас щасливими. Якщо використовувати традиційний метод зачіски, це буде дуже складна справа.
Принципи технології робота-собаки для екскурсовода
Boston Dynamics використовує власного чотириногого робота Spot як фізичну структуру робота для реалізації основних функцій, таких як ходьба, моніторинг, навігація та сканування.
Комп'ютер використовувався як керуючий мозок робота-собаки і взаємодіяв з ним через Spot SDK. Для того, щоб змусити собаку-робота виконувати антропоморфні дії, такі як кивок і витягування шиї, використовується точкова рука Спота і камера-затискач.
Змусьте робота-собаку розмовляти за допомогою ChatGPT
Після того, як фізичне апаратне середовище створено, щоб робот-собака мав функцію діалогу, науково-дослідний персонал використовує GPT-3.5 і GPT-4 у поєднанні з Spot SDK і виконує просте тонке налаштування інструкцій, щоб робот-собака мав функцію первинного судження гіда та діалогу.
Далі, щоб дозволити Spot взаємодіяти з людьми та навколишнім середовищем, інтегровано VQA та програмне забезпечення для перетворення мовлення в текст. У той же час камера-захват робота і фронтальна натільна камера подаються в BLIP-2 і відображаються в режимі візуального запитань і відповідей (наприклад, «Що такого цікавого в цій картинці?»). та інші прості запитання) або режим підпису зображення, щоб запустити його.
Процес виконується приблизно раз на секунду, а результати вводяться безпосередньо в підказку.
Дивовижні явища в експериментах
В ході численних тестових бесід розробники виявили дивовижний феномен, робот-собака, схоже, має просту здатність до самостійного прийняття рішень.
Наприклад, коли ви запитаєте робота-собаку, хто такий Марк Райберт (виконавчий директор Boston Dynamics)? Він відповів: «Я не знаю, хто він, давайте підемо в довідкову службу і запитаємо». "**
Опинившись на стійці обслуговування, собака-робот продовжував запитувати у обслуговуючого персоналу, хто такий Марк Райберт?
Коли розробники запитують: хто твої батьки? Собака-робот ходив по виставкових зонах Spot V1 і Big Dog, і вважав цих роботів своїми батьками. Насправді вони мають кореляцію**.
Собака-робот також показує цікаву сторону, і може активно розпитувати перехожих, чи немає навколо якихось таємничих істот.
У Boston Dynamics заявили, що продовжать оптимізацію функцій продукту і надалі. Поєднання ChatGPT та фізичних роботів відкриває двері для фізичної посадки великих мовних моделей, які можуть широко використовуватися в екскурсоводах, розвагах, логістиці, спілкуванні та інших сферах.
Про Boston Dynamics
Boston Dynamics була заснована в 1992 році зі штаб-квартирою в Бостоні, штат Массачусетс. Те, що починалося як філія Массачусетського технологічного інституту (MIT), переросло в незалежну компанію.
Boston Dynamics відома розробкою високопросунутих, гнучких і практичних роботів, а її продукція використовується в промисловій, дослідницькій та споживчій сферах, в основному це роботи-представники: BigDog, Atlas, Spot, Handle тощо.