Мультимодальні можливості ChatGPT викликали шалене захоплення, але його власна стаття показала, що GPT-4V все ще має недоліки

Автор: Кайл Віггерс

Джерело: TechCrunch

*Джерело зображення: створено інструментом Unbounded AI

Коли OpenAI вперше випустив свою флагманську модель ШІ текстового покоління GPT-4, компанія рекламувала мультимодальність моделі — іншими словами, її здатність розуміти не лише текст, але й зображення. OpenAI каже, що GPT-4 може створювати підписи та навіть пояснювати відносно складні зображення, наприклад ідентифікувати адаптер Lightning Cable із зображення підключеного до нього iPhone.

Але оскільки GPT-4 був випущений наприкінці березня, OpenAI зберіг можливості зображення моделі, як повідомляється, через занепокоєння щодо неправильного використання та проблем конфіденційності. До недавнього часу точна природа цих проблем залишалася загадкою. Раніше цього тижня OpenAI опублікував технічний документ, у якому детально описано свою роботу щодо зменшення проблемних аспектів інструменту аналізу зображень GPT-4.

На сьогоднішній день GPT-4 із підтримкою зору (всередині OpenAI іменується як «GPT-4V») регулярно використовується лише тисячами користувачів програми Be My Eyes, яка допомагає людям із вадами зору та незрячим орієнтуватися в оточенні. Однак протягом останніх кількох місяців OpenAI також почав працювати з «червоними командами», щоб дослідити модель на наявність ознак неочікуваної поведінки, згідно з документом.

У документі OpenAI стверджує, що має засоби захисту, щоб запобігти зловмисному використанню GPT-4V, наприклад, злому CAPTCHA, ідентифікації особи або оцінці її віку чи раси, а також робити висновки на основі інформації, якої немає на фото. . OpenAI також заявив, що працював над тим, щоб придушити більш шкідливі упередження в GPT-4V, особливо ті, що стосуються зовнішності, статі чи раси людини.

Але, як і у випадку з усіма моделями штучного інтелекту, запобіжні заходи можуть бути лише такими.

У документі показано, що GPT-4V іноді важко було зробити правильні висновки, наприклад, неправильно поєднуючи два рядки тексту в зображенні, щоб створити фіктивний термін. Як і базовий GPT-4, GPT-4V схильний до галюцинацій або фабрикації фактів в авторитетному тоні. Крім того, він пропускає слова чи символи, ігнорує математичні символи та не розпізнає досить очевидні об’єкти та налаштування місць.

Тому не дивно, що OpenAI прямо заявляє, що GPT-4V не можна використовувати для виявлення небезпечних речовин або хімікатів на зображеннях. (Цей репортер навіть не думав про такий варіант використання, але, очевидно, OpenAI настільки зацікавлений у перспективі, що компанія вважала за потрібне вказати на це). Червоні команди виявили, що хоча модель іноді правильно ідентифікувала отруйні продукти, такі як отруйні гриби, вона також неправильно ідентифікувала такі речовини, як фентаніл, карфентаніл і кокаїн на зображеннях хімічних структур.

GPT-4V також показав погані результати при застосуванні для медичної візуалізації, іноді даючи неправильні відповіді на те саме запитання, коли він давав правильну відповідь у попередніх ситуаціях. Крім того, GPT-4V не знає деяких стандартних практик, таких як перегляд сканованих зображень пацієнтом обличчям до вас (тобто права сторона зображення відповідає лівій стороні пацієнта), що також може призвести до неправильного діагнозу.

Крім того, OpenAI попереджає, що GPT-4V також не розуміє нюансів певних символів ненависті - наприклад, він не знає сучасного значення храмового хреста (що означає перевагу білої раси) у Сполучених Штатах. Ще більш дивним і, можливо, симптомом його галюцинаторних тенденцій, було помічено те, що GPT-4V пише пісні чи вірші, вихваляючи певні ненависні фігури чи групи, коли їм дають зображення, навіть якщо ці фігури чи групи не представлені. Назвіть їх чітко.

GPT-4V також дискримінує певну стать і тип статури — хоча лише тоді, коли захист прибутку OpenAI вимкнено. В одному тесті, коли його попросили дати пораду жінці в купальнику, GPT-4V дав відповіді, які майже повністю пов’язані з поняттями ваги та фізичного стану жінки, пише OpenAI. Ми підозрюємо, що це було б не так, якби людина на зображенні була чоловіком.

Судячи із застережень у газеті, робота над GPT-4V все ще триває — ще кілька кроків від оригінального бачення OpenAI. У багатьох випадках компанії доводилося застосовувати надто суворі заходи безпеки, щоб запобігти розповсюдженню моделями токсичної чи дезінформації чи порушення особистої конфіденційності.

OpenAI стверджує, що створює «пом’якшення» та «процеси», щоб розширити можливості моделі «безпечним» способом, наприклад дозволити GPT-4V описувати обличчя та людей, не називаючи їх. Але ця стаття показує, що GPT-4V не є всемогутнім, і OpenAI ще має багато роботи.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити