Мультимодальну заборону ChatGPT скасовано, користувачі мережі божеволіють!

**Джерело:**Xinzhiyuan

У середу OpenAI щойно оголосив про зняття заборони на мультимодальні можливості ChatGPT.

Тепер, як тільки він виходить в Інтернет, користувачі мережі миттєво божеволіють.

Далі розглянемо, наскільки сильні можливості ChatGPT щодо розпізнавання зображень.

Зробіть фотографію та завантажте її, і код буде згенеровано миттєво

Користувач мережі записав відео та завантажив зображення дошки під час зустрічі, а потім попросив ChatGPT написати код.

Крім того, ви можете завантажити намальований від руки ескіз і попросити ChatGPT створити веб-сторінку в HTML.

Вууууууууууу, код з’являвся щохвилини.

Це просто мультимодальні можливості, продемонстровані Грегом Брокманом під час випуску GPT-4 цього року.

Для іншого прикладу сфотографуйте свій блокнот зі списком справ.

Потім нехай GPT-4 створить графічний інтерфейс Python Tkinter, і тоді це було реалізовано...

Стародавні сувої рукописів, перекладені з першого погляду

Ось ще один рукописний малюнок алхіміка 17 століття Роберта Бойля. Чи може GPT-4 його прочитати?

Це шматок пирога для цього.

Наприклад, «Каталонський медичний посібник з лікарських муміє».

ChatGPT також може транскрибувати та перекладати.

Бенджамін Брін, доцент історії UCSC, сказав:

Це матиме значний вплив на істориків. Уявіть індивідуальний мультимодальний GPT-4, навчений на певному наборі рукописів. Він може не тільки транскрибувати, а й перекладати та класифікувати. (Саме це, писати без LLM, це велика справа, на мій погляд).

Підсумок діаграми також дуже 6

Ви також можете надати команду GPT-4 для отримання даних на основі діаграми.

Потім можна створити код Python, щоб відтворити діаграму та зробити її більш схожою на діаграму.

Потім додайте до нього графік біржових трендів, і він також зможе проаналізувати та підсумувати характеристики.

Розпізнавати зображення "Вищий IQ"

Надайте GPT-4 абстрактну картинку.

Насправді він може точно визначити метафору «важливості спілкування», яку хочуть висловити ці чотири зображення. Це обурливо.

GPT-4V може навіть читати почерк лікарів.

Деякі японські користувачі мережі безпосередньо використовували Sun Wukong із «Dragon Ball» для проходження тесту ChatGPT.

Існують також різні коди підтвердження для "ти людина?"

Завантажте частину своєї роботи, і GPT-4 також може надати вам пропозиції щодо покращення.

Деякі користувачі мережі виявили, що GPT-4V дав правильну відповідь на це запитання в статті «Космос-1», але в процесі міркування сталася помилка.

Завдяки цій функції дітям більше не потрібно робити домашнє завдання.

Резюме від користувачів мережі

На додаток до вищезазначеного досвіду деякі користувачі мережі написали довгу статтю, в якій представили свій власний тест GPT-4V.

Тест 1: Візуальні запитання та відповіді

Дайте мені смайлик і подивіться, наскільки добре GPT-4V його розуміє?

GPT-4V вдало пояснює, чому це цікаво, і згадує окремі компоненти картини і як вони пов'язані між собою.

Варто зазначити, що GPT-4V може читати коментарі в дужках і відповідати на них.

Незважаючи на це, GPT-4V все ж помилився, позначивши смажену курку як «NVIDIA BURGER» замість «GPU».

Потім перевірте це знову за допомогою монети, фотографії американського пенні. GPT-4V здатний успішно визначити походження та номінал монети.

Але якщо це зображення кількох монет із запитом GPT-4V, скільки я маю грошей?

На даний момент він може визначити лише кількість монет, але не тип валюти.

Тест 2: розпізнавання OCR

Захоплюйте текстові зображення з веб-сторінок і завантажуйте їх GPT-4V дуже добре читає вміст.

Тест 3: Математика OCR

Математичне OCR – це спеціальна форма оптичного розпізнавання символів, яка націлена на математичні рівняння.

Користувач мережі поставив GPT-4V математичну задачу та представив її у вигляді скріншота документа.

Ця задача передбачає обчислення довжини лінії застібки-блискавки під двома кутами з підказкою «розв’язати» на зображенні.

Модель ідентифікує проблеми, які можна розв’язати за допомогою тригонометрії, визначає функції, які потрібно використовувати, і надає покрокову інструкцію щодо вирішення проблеми. Тоді GPT-4V дає правильну відповідь на запитання.

При цьому на системній картці GPT-4V зазначено, що в моделі можуть бути відсутні математичні символи.

Різні тести, включаючи тести з рівняннями або виразами, написаними від руки на папері, можуть свідчити про недостатню здатність моделі відповідати на математичні запитання.

Тест 4: Виявлення об’єктів

Запит GPT-4V виявити собаку на зображенні та надати значення x_min, y_min, x_max і y_max, пов’язані з положенням собаки, координати обмежувальної рамки, повернуті GPT-4V, не збігаються положення собаки.

Хоча GPT-4V дуже потужний у відповідях на запитання про зображення, ця модель не може замінити моделі точного налаштування виявлення об’єктів, коли ви хочете знати, де знаходиться об’єкт на зображенні.

Тест 5: код підтвердження

Було виявлено, що GPT-4V здатний розпізнавати зображення, що містять коди перевірки, але часто не пройшов тест.

У прикладі вибору сіток світлофорів GPT-4V вибрав менше сіток, що містять світлофори.

Тест 6: кросворди та судоку

У тесті Sudoku GPT-4V розпізнав гру, але неправильно зрозумів структуру дошки, тому дав неточні результати.

До речі, мережева функція ChatGPT повертається.

Література:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити