Джерело зображення: створено інструментом Unbounded AI
Багато моделей ШІ припускають, що люди завжди впевнені у своїх рішеннях. Це може мати сумні наслідки.
Для багатьох із нас технології пропонують спосіб подолати невизначеність. Якщо ми не можемо пригадати якийсь факт або чогось не розуміємо, ми можемо просто пошукати його та отримати відповідь. У якому році завершилася Паризька мирна конференція? Погуглити… 1920 рік. Скільки миль становить пробіг на 10 км? 6,2 милі. Хто знімається разом із лауреатом премії «Оскар» Бренданом Фрейзером у його дебютному повнометражному фільмі «The Encino Man»? Шон Естін і Полі Шор.
Цікаво, що все частіше відбувається протилежне – комп’ютери покладаються на людей, щоб перевірити їхню роботу. Системи штучного інтелекту «людина в циклі» покладаються на втручання людини, щоб переконатися, що штучний інтелект не зчитує інформацію неправильно та не дає неточні прогнози. Ця ситуація часто є більш критичною, ніж основні моменти фільму.
Наприклад, радіолог дивиться на рентгенівську діагностику штучного інтелекту, щоб визначити, чи він не пропустив перелом або ураження. Тоді люди можуть виправити будь-які помилки та забезпечити пацієнту належне лікування. Це чудове партнерство, але є невелика проблема: люди рідко бувають на 100 відсотків впевнені у своїх висновках.
Той самий рентгенолог може побачити на рентгенівському знімку ділянку кісткової тканини іншого кольору та запитати: «Це ураження чи нерівність на самому рентгенівському знімку? Якщо це ураження, то яка причина, і це доброякісне чи злоякісне?" "Навіть висококваліфіковані експерти - і, можливо, особливо експерти - часто включають цей вид невизначеності у свої спостереження та рішення. Якщо вони вважають, що ймовірність встановлення іншого діагнозу становить 10%, вони можуть обговорити це з пацієнтом і відповідно спланувати.
Незважаючи на те, що це здається нам природним, петлеві системи «людина-машина» не міркують таким чином. Вони розглядають людське втручання як подвійне: або люди знають те, що вони знають, або ні. У свою чергу, це може обмежити здатність систем ШІ зменшувати ризик людських помилок у партнерстві.
Отже, чи можливо, щоб ці системи краще розуміли нюанси прийняття рішень людиною, тим самим покращуючи свої можливості та нашу власну продуктивність? Команда дослідників з Кембриджського університету перевірила це питання в новій дослідницькій статті.
**ти впевнений? **
У першому тесті дослідники використовували концептуальні моделі — моделі машинного навчання, які покращують прогнози за допомогою зворотного зв’язку людини — на двох наборах даних. Перший набір даних під назвою "CheXpert" класифікує рентген грудної клітки. Інший набір даних під назвою UMNIST підсумовує числа у зразках рукописного тексту. Як і більшість концептуальних моделей, жодна модель раніше не вивчалася щодо невизначеності, тому дослідники хотіли побачити, як вони впораються з невизначеністю.
Кетрін Коллінз, провідний автор дослідження та аспірант інженерії Кембриджського університету, сказала: «Багато розробників наполегливо працюють над вирішенням невизначеності в моделях, але менше роботи над вирішенням невизначеності з людської точки зору». подивіться, що відбувається, коли люди висловлюють невпевненість, що особливо важливо в критичних для безпеки середовищах».
Відповідь: не дуже добре. Дослідники виявили, що продуктивність моделі знизилася, навіть коли невизначеність у моделюванні була низькою, і продовжувала знижуватися, коли невизначеність зростала. Це свідчить про те, що ці моделі, незважаючи на те, що вони є точними під час дії повністю детермінованого втручання, «не узагальнюють умови, коли користувачі втручання не впевнені щодо природи певних концепцій».
У наступному тесті дослідники використовували набір даних класифікації зображень птахів і представили реальних людей. Учасників попросили визначити особливі риси птахів на зображеннях. Птах різнокольоровий, однотонний, плямистий чи смугастий? Його хвіст має форму вилки, кола, віяла чи квадрата? тощо
Однак зображення не завжди найкраще представляють птахів. Птах на зображенні може бути силуетом на яскравому тлі або його пір’я на хвості можуть бути закриті гілками дерев. Тож дослідники дали учасникам-людям можливість використовувати «м’які мітки» — поняття, які не є або/або, а натомість дозволяють людям позначати рівні достовірності від 0 до 100 (0 означає «не знаю», а 100 означає «абсолютно впевнений»). .
Наприклад, якщо випробовувані вважають дуже правдоподібним те, що форма пташиного крила широка, вони можуть перемістити повзунок до 80. Але якщо вони не впевнені, круглі чи загострені крила, вони можуть рухати повзунок менше (наприклад, до 20 і 10 відповідно).
Дослідники виявили, що коли машини замінюють люди, продуктивність знижується. Однак вони також виявили, що навчання моделі невизначеності може пом’якшити деякі помилки людей-учасників. Однак ці моделі не ідеальні. Іноді людська невизначеність допомагає, іноді – шкодить продуктивності моделі.
«Нам потрібні кращі інструменти для повторного калібрування цих моделей, щоб люди, які їх використовують, мали можливість висловитися, коли вони невпевнені», — сказав Метью Баркер, співавтор дослідження. «У певному сенсі ця робота викликає більше запитань, ніж дає відповідей, але навіть незважаючи на те, що люди можуть помилятися, коли мова заходить про невизначеність, ми можемо підвищити надійність цих петлевих систем «людина-машина», беручи до уваги ступінь і надійність людської поведінки».
Дослідники з Прінстонського університету, Інституту Алана Тюрінга та Google DeepMind також приєдналися до команди Кембриджа в дослідженні. Вони представили свою доповідь на конференції AAI/ACM зі штучного інтелекту, етики та суспільства 2023 року в Монреалі. Стаття наразі опублікована як препринт на arXiv.
Назустріч невизначеному майбутньому
Дослідники сподіваються, що їх стаття одного разу допоможе розробити петлеві системи «людина-машина», які враховують невизначеність, тим самим зменшуючи ризик помилок людини та штучного інтелекту. Однак це дослідження є лише першим кроком до цієї мети.
Це також розкриває кілька проблем для майбутніх досліджень. Ці проблеми включають: як розробити моделі штучного інтелекту та стратегії втручання, які враховують добре відомі людські помилки прогнозування (такі як надмірна самовпевненість); створити інтерфейси, які допомагають людям вимірювати свою невизначеність; і навчити моделі штучного інтелекту працювати з різними типами невизначеності, такими як як різницю між сумнівом у своїх власних знаннях і тим, як відбуватимуться випадкові ефекти.
Якщо ці проблеми можна вирішити, людська невпевненість може краще підтримувати «людську» частину «людино-машинного циклу» і таким чином сприяти покращенню продуктивності цих моделей.
«Як сказали деякі наші колеги, невизначеність — це форма прозорості, і це дуже важливо», — додав Коллінз. «Нам потрібно з’ясувати, коли довіряти моделям, коли довіряти людям і чому. У деяких програмах ми зосереджуємося на ймовірності, а не на ймовірності».
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Дослідження: чи стане невизначеність у прийнятті людських рішень ключем до покращення ШІ?
Автор: Кевін Дікінсон
Джерело: FreeThink
Для багатьох із нас технології пропонують спосіб подолати невизначеність. Якщо ми не можемо пригадати якийсь факт або чогось не розуміємо, ми можемо просто пошукати його та отримати відповідь. У якому році завершилася Паризька мирна конференція? Погуглити… 1920 рік. Скільки миль становить пробіг на 10 км? 6,2 милі. Хто знімається разом із лауреатом премії «Оскар» Бренданом Фрейзером у його дебютному повнометражному фільмі «The Encino Man»? Шон Естін і Полі Шор.
Цікаво, що все частіше відбувається протилежне – комп’ютери покладаються на людей, щоб перевірити їхню роботу. Системи штучного інтелекту «людина в циклі» покладаються на втручання людини, щоб переконатися, що штучний інтелект не зчитує інформацію неправильно та не дає неточні прогнози. Ця ситуація часто є більш критичною, ніж основні моменти фільму.
Наприклад, радіолог дивиться на рентгенівську діагностику штучного інтелекту, щоб визначити, чи він не пропустив перелом або ураження. Тоді люди можуть виправити будь-які помилки та забезпечити пацієнту належне лікування. Це чудове партнерство, але є невелика проблема: люди рідко бувають на 100 відсотків впевнені у своїх висновках.
Той самий рентгенолог може побачити на рентгенівському знімку ділянку кісткової тканини іншого кольору та запитати: «Це ураження чи нерівність на самому рентгенівському знімку? Якщо це ураження, то яка причина, і це доброякісне чи злоякісне?" "Навіть висококваліфіковані експерти - і, можливо, особливо експерти - часто включають цей вид невизначеності у свої спостереження та рішення. Якщо вони вважають, що ймовірність встановлення іншого діагнозу становить 10%, вони можуть обговорити це з пацієнтом і відповідно спланувати.
Незважаючи на те, що це здається нам природним, петлеві системи «людина-машина» не міркують таким чином. Вони розглядають людське втручання як подвійне: або люди знають те, що вони знають, або ні. У свою чергу, це може обмежити здатність систем ШІ зменшувати ризик людських помилок у партнерстві.
Отже, чи можливо, щоб ці системи краще розуміли нюанси прийняття рішень людиною, тим самим покращуючи свої можливості та нашу власну продуктивність? Команда дослідників з Кембриджського університету перевірила це питання в новій дослідницькій статті.
**ти впевнений? **
У першому тесті дослідники використовували концептуальні моделі — моделі машинного навчання, які покращують прогнози за допомогою зворотного зв’язку людини — на двох наборах даних. Перший набір даних під назвою "CheXpert" класифікує рентген грудної клітки. Інший набір даних під назвою UMNIST підсумовує числа у зразках рукописного тексту. Як і більшість концептуальних моделей, жодна модель раніше не вивчалася щодо невизначеності, тому дослідники хотіли побачити, як вони впораються з невизначеністю.
Кетрін Коллінз, провідний автор дослідження та аспірант інженерії Кембриджського університету, сказала: «Багато розробників наполегливо працюють над вирішенням невизначеності в моделях, але менше роботи над вирішенням невизначеності з людської точки зору». подивіться, що відбувається, коли люди висловлюють невпевненість, що особливо важливо в критичних для безпеки середовищах».
Відповідь: не дуже добре. Дослідники виявили, що продуктивність моделі знизилася, навіть коли невизначеність у моделюванні була низькою, і продовжувала знижуватися, коли невизначеність зростала. Це свідчить про те, що ці моделі, незважаючи на те, що вони є точними під час дії повністю детермінованого втручання, «не узагальнюють умови, коли користувачі втручання не впевнені щодо природи певних концепцій».
У наступному тесті дослідники використовували набір даних класифікації зображень птахів і представили реальних людей. Учасників попросили визначити особливі риси птахів на зображеннях. Птах різнокольоровий, однотонний, плямистий чи смугастий? Його хвіст має форму вилки, кола, віяла чи квадрата? тощо
Однак зображення не завжди найкраще представляють птахів. Птах на зображенні може бути силуетом на яскравому тлі або його пір’я на хвості можуть бути закриті гілками дерев. Тож дослідники дали учасникам-людям можливість використовувати «м’які мітки» — поняття, які не є або/або, а натомість дозволяють людям позначати рівні достовірності від 0 до 100 (0 означає «не знаю», а 100 означає «абсолютно впевнений»). .
Наприклад, якщо випробовувані вважають дуже правдоподібним те, що форма пташиного крила широка, вони можуть перемістити повзунок до 80. Але якщо вони не впевнені, круглі чи загострені крила, вони можуть рухати повзунок менше (наприклад, до 20 і 10 відповідно).
Дослідники виявили, що коли машини замінюють люди, продуктивність знижується. Однак вони також виявили, що навчання моделі невизначеності може пом’якшити деякі помилки людей-учасників. Однак ці моделі не ідеальні. Іноді людська невизначеність допомагає, іноді – шкодить продуктивності моделі.
«Нам потрібні кращі інструменти для повторного калібрування цих моделей, щоб люди, які їх використовують, мали можливість висловитися, коли вони невпевнені», — сказав Метью Баркер, співавтор дослідження. «У певному сенсі ця робота викликає більше запитань, ніж дає відповідей, але навіть незважаючи на те, що люди можуть помилятися, коли мова заходить про невизначеність, ми можемо підвищити надійність цих петлевих систем «людина-машина», беручи до уваги ступінь і надійність людської поведінки».
Дослідники з Прінстонського університету, Інституту Алана Тюрінга та Google DeepMind також приєдналися до команди Кембриджа в дослідженні. Вони представили свою доповідь на конференції AAI/ACM зі штучного інтелекту, етики та суспільства 2023 року в Монреалі. Стаття наразі опублікована як препринт на arXiv.
Назустріч невизначеному майбутньому
Дослідники сподіваються, що їх стаття одного разу допоможе розробити петлеві системи «людина-машина», які враховують невизначеність, тим самим зменшуючи ризик помилок людини та штучного інтелекту. Однак це дослідження є лише першим кроком до цієї мети.
Це також розкриває кілька проблем для майбутніх досліджень. Ці проблеми включають: як розробити моделі штучного інтелекту та стратегії втручання, які враховують добре відомі людські помилки прогнозування (такі як надмірна самовпевненість); створити інтерфейси, які допомагають людям вимірювати свою невизначеність; і навчити моделі штучного інтелекту працювати з різними типами невизначеності, такими як як різницю між сумнівом у своїх власних знаннях і тим, як відбуватимуться випадкові ефекти.
Якщо ці проблеми можна вирішити, людська невпевненість може краще підтримувати «людську» частину «людино-машинного циклу» і таким чином сприяти покращенню продуктивності цих моделей.
«Як сказали деякі наші колеги, невизначеність — це форма прозорості, і це дуже важливо», — додав Коллінз. «Нам потрібно з’ясувати, коли довіряти моделям, коли довіряти людям і чому. У деяких програмах ми зосереджуємося на ймовірності, а не на ймовірності».