Корпорація Майкрософт написала інструкцію GPT-4V: 166 сторінок повних і детальних пояснень, включаючи швидкі демонстраційні приклади слів.

Джерело: Qubits

Випущена мультимодальна модель King GPT-4V, 166 сторінок «інструкції»! І його виробляє Microsoft Team.

Яку роботу можна написати на 166 сторінках?

Він не тільки детально оцінює продуктивність GPT-4V у десяти найкращих завданнях, а й демонструє все, від базового розпізнавання зображень до складних логічних міркувань;

Він також навчає повному набору мультимодальних великих моделей навички використання слів підказок——

Він навчить вас крок за кроком писати слова підказки від 0 до 1, а професійний рівень відповіді легко зрозуміти з першого погляду.Це дійсно робить поріг для використання GPT-4V неіснуючим.

Варто зазначити, що автор цієї статті також є «всекитайським класом». Усі сім авторів є китайцями, а лідером є жінка, головний науковий менеджер, яка працювала в Microsoft 17 років.

До випуску 166-сторінкового звіту вони також брали участь у дослідженні останньої DALL·E 3 від OpenAI і мають глибоке розуміння цієї сфери.

Порівняно з 18-сторінковим документом OpenAI GPT-4V, цей 166-сторінковий «Посібник з харчування» відразу був визнаний обов’язковим до прочитання для користувачів GPT-4V:

Деякі користувачі мережі нарікали: це не папір, це майже 166-сторінкова книга.

Деякі користувачі мережі вже запанікували, прочитавши:

Не просто дивіться на деталі відповіді GPT-4V.Я справді боюся потенційних можливостей ШІ.

Отже, про що саме йдеться в «папері» Microsoft і який «потенціал» він показує щодо GPT-4V?

**Що йдеться у 166-сторінковому звіті Microsoft? **

У цій статті досліджується метод GPT-4V, суть якого полягає в одному слові "спробувати".

Дослідники Microsoft розробили серію вхідних даних, що охоплюють кілька доменів, передали їх у GPT-4V, а також спостерігали та записували вихідні дані GPT-4V.

Згодом вони оцінили здатність GPT-4V виконувати різні завдання, а також надали нові методи підказок для використання GPT-4V, включаючи чотири основні аспекти:

**1. Використання GPT-4V: **

5 способів використання: вхідні зображення (images), підзображення (sub-images), тексти (texts), тексти сцен (scene texts) і візуальні покажчики (visual pointers).

3 підтримувані можливості: дотримання інструкцій, ланцюжок думок і короткочасне навчання в контексті.

Наприклад, це здатність виконувати інструкції, продемонстрована GPT-4V після зміни методу опитування на основі ланцюга мислення:

**2. Продуктивність GPT-4V в 10 основних завданнях: **

Візуальне розуміння відкритого світу, візуальний опис, мультимодальні знання, здоровий глузд, розуміння тексту сцени, міркування в документі, написання Кодування, часові міркування, абстрактне міркування, розуміння емоцій

Серед них є такі «запитання про образи», для вирішення яких потрібен певний IQ:

**3. Навички підказки для великих мультимодальних моделей, подібних до GPT-4V: **

Пропонується нова мультимодальна техніка ключового слова «візуальне посилання» (visual referring ing), яка може вказувати на завдання, що цікавить, шляхом безпосереднього редагування вхідного зображення та використовується в поєднанні з іншими методами ключового слова.

**4. Потенціал дослідження та впровадження мультимодальних великих моделей: **

Передбачено два типи областей, на яких повинні зосередитись дослідники мультимодального навчання, включаючи впровадження (потенційні сценарії застосування) та напрямки досліджень.

Наприклад, це один із можливих сценаріїв для GPT-4V, знайдений дослідниками - виявлення несправності:

Але будь то нова технологія швидких слів чи сценарії застосування GPT-4V, найбільше всіх хвилює справжня сила GPT-4V.

Тому ця «інструкція з експлуатації» згодом використала понад 150 сторінок для демонстрації різноманітних демонстрацій, у яких детально описано можливості GPT-4V усупереч різним відповідям.

Давайте подивимося, наскільки розвинулися мультимодальні можливості GPT-4V сьогодні.

Досконало володіють зображеннями в професійних сферах, а також можуть отримати знання зараз

Ідентифікація зображення

Найпростіша ідентифікація – це, звичайно, шматок пирога, наприклад знаменитості з усіх верств суспільства в технологічних, спортивних і розважальних колах:

Ви можете не тільки побачити, хто ці люди, але й зрозуміти, що вони роблять. Наприклад, на зображенні нижче Хуанг представляє нові відеокарти Nvidia.

Окрім людей, для GPT-4V неабиякою проблемою є орієнтири, які можуть не лише визначати ім’я та місце розташування, а й давати детальні введення.

Ліворуч: Таймс-сквер, Нью-Йорк, праворуч: храм Кінкакудзі, Кіото

Однак чим більше відомих людей і місць, тим легше судити, тому потрібні складніші зображення, щоб показати можливості GPT-4V.

Наприклад, у медичній візуалізації для наступної КТ легень GPT-4V дав такий висновок:

На багатьох ділянках обох легенів спостерігаються ущільнення та матове помутніння, а в легенях може бути інфекція або запалення. Також може бути утворення або вузлик у верхній частці правої легені.

Навіть не повідомляючи GPT-4V тип і місце розташування зображення, він може оцінити його сам.

На цьому зображенні GPT-4V успішно ідентифікував його як магнітно-резонансну томографію (МРТ) зображення мозку.

У той же час GPT-4V також виявив велике скупчення рідини, яке вважалося гліомою високого ступеня злоякісності.

Після професійної оцінки висновок, наданий GPT-4V, є цілком правильним.

Окрім цього «серйозного» вмісту, GPT-4V також зафіксував смайлики «нематеріальної культурної спадщини» сучасного людського суспільства.

Машиний переклад, лише для довідки

GPT-4 може не тільки інтерпретувати меми в смайликах, але й емоції, виражені людськими виразами в реальному світі.

На додаток до цих реальних зображень, розпізнавання тексту також є важливим завданням машинного зору.

У зв'язку з цим GPT-4V може не тільки розпізнавати мови, написані латинськими буквами, але також розпізнавати інші мови, такі як китайська, японська та грецька.

Навіть рукописні математичні формули:

### Обґрунтування зображення

Наведена вище ДЕМОНСТРАЦІЯ, незалежно від того, наскільки вона професійна чи складна для розуміння, все ще входить до сфери визнання, але це лише верхівка айсберга навичок GPT-4V.

Окрім розуміння змісту зображення, GPT-4V також має певні можливості міркування.

Простіше кажучи, GPT-4V може знайти відмінності між двома зображеннями (хоча деякі помилки все ще є).

На наступному наборі зображень відмінності між короною та луком були виявлені GPT-4V.

Якщо ви збільшите складність, GPT-4V також може вирішити графічні проблеми в тесті IQ.

Характеристики або логічні зв’язки в трьох вищезазначених питаннях відносно прості, але складність виникне наступним чином:

Звичайно, складність полягає не в самій графіці. Зверніть увагу на четвертий текстовий опис на картинці. Розташування графіки в оригінальному питанні не те, що показано на картинці.

### Примітка до малюнка

Окрім відповідей на різноманітні запитання за допомогою тексту, GPT-4V також може виконувати низку операцій із зображеннями.

Наприклад, у нас є групове фото чотирьох гігантів зі штучним інтелектом, і нам потрібен GPT-4V, щоб обрамити персонажів і позначити їхні імена та короткі представлення.

GPT-4V спочатку відповів на ці питання текстом, а потім надав оброблені картинки:

### Аналіз динамічного вмісту

На додаток до цього статичного вмісту, GPT-4V також може виконувати динамічний аналіз, але він не передає моделі безпосередньо відео.

Наведені нижче п’ять зображень взяті з навчального відео з приготування суші. Завдання GPT-4V полягає в тому, щоб вгадати порядок, у якому з’являються ці зображення (на основі розуміння змісту).

Для однієї і тієї ж серії зображень можуть бути різні способи їх розуміння, тому GPT-4V буде робити висновки на основі текстових підказок.

Наприклад, у наступному наборі зображень, незалежно від того, чи буде дія людини відкривати двері чи закривати двері, результати сортування будуть абсолютно протилежними.

Звичайно, за змінами статусу персонажів на кількох малюнках ми також можемо зробити висновок, що вони роблять.

Або навіть передбачити, що буде далі:

### "Навчання на місці"

GPT-4V не тільки володіє сильними візуальними навичками, але головним є те, що його можна вивчити та негайно продати.

Наприклад, якщо GPT-4V попросити прочитати приладову панель автомобіля, спочатку отримана відповідь буде неправильною:

Потім я передав метод GPT-4V у тексті, але ця відповідь все ще неправильна:

Потім я показав приклад GPT-4V, і відповідь була схожою, але, на жаль, числа були складені випадковим чином.

Лише один приклад справді трохи малий, але зі збільшенням кількості зразків (насправді залишився лише один), важка робота нарешті окупається, і GPT-4V дає правильну відповідь.

GPT-4V показує лише так багато ефектів. Звичайно, він також підтримує більше полів і завдань. Тут неможливо показати їх по одному. Якщо вам цікаво, ви можете прочитати оригінальний звіт.

Отже, яка команда стоїть за наслідками таких артефактів, як GPT-4V?

Лідирують випускники Цинхуа

Загалом є 7 авторів цієї статті, усі з яких є китайцями, 6 з яких є основними авторами.

Провідний автор проекту, Ліцзюан Ван, є головним менеджером з досліджень хмарних обчислень і ШІ в Microsoft.

Вона закінчила Університет науки і технологій Хуачжун і отримала ступінь доктора філософії в Університеті Цінхуа в Китаї. Вона приєдналася до Microsoft Research Asia у 2006 році та Microsoft Research в Редмонді в 2016 році.

Сфера її досліджень — глибоке навчання та машинне навчання на основі мультимодального перцептивного інтелекту, який, зокрема, включає попереднє навчання моделі візуальної мови, створення субтитрів зображень, виявлення цілей та інші технології ШІ.

Оригінальна адреса:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити