OpenAI також бореться з даними! Компанія визнає, що використання сканерів для самообмеження важко розвіяти підозри громадськості

Джерело: "Science and Technology Innovation Board Daily"

Редагувати пісню Ziqiao

Джерело зображення: створено Unbounded AI

Дані, обчислювальна потужність і алгоритми вважаються трьома основними елементами генеративного ШІ, і важко сказати, що важливіше.

Однак для таких зіркових компаній, як OpenAI, обчислювальна потужність — це, в основному, економічна проблема. Великі компанії накопичують велику кількість дорогого апаратного забезпечення завдяки своїй «грошовій спроможності», а проблема дефіциту даних стає ще більшим головним болем. шлях завжди ставить вони в моральній кризі.

Візьмемо OpenAI як приклад: його поведінка щодо збору загальнодоступних даних для навчання моделей ШІ вже давно викликає суперечки. **Згідно з останнім звітом іноземного технологічного ЗМІ Insider, OpenAI нещодавно визнав, що запустив робота веб-сканера під назвою GPTBot, який використовується для сканування та збору даних для масштабного навчання моделей. **

OpenAI підозрюють у «злодії даних»

Веб-сканер — це комп’ютерна програма, яка імітує поведінку людини (користувача мережі) і автоматично переглядає та збирає мережеву інформацію. Веб-сканер може зберігати дані, які він відвідує, а засіб захоплення даних аналізує та повторно використовує дані, визначає вподобання користувачів Інтернету, а потім надсилає їх до відповідних груп користувачів.

**Незрозуміло, як довго скануючі боти OpenAI ховаються в Інтернеті, і деякі підозрюють, що OpenAI таємно збирає онлайн-дані кожного місяцями чи роками. **

Зіткнувшись із такими «звинуваченнями», OpenAI активно захищався.Компанія заявила, що GPTBot суворо дотримуватиметься правил будь-якого платного доступу, не збиратиме інформацію, яка потребує оплати, і не збиратиме дані, які можна відстежити до особистих людей.

Крім того, OpenAI запустив метод блокування GPTbot.Користувачі можуть змінювати свій файл robots.txt або блокувати свої IP-адреси, щоб заборонити доступ сканерам. Компанія також нещодавно оголосила про угоду з Associated Press, згідно з якою OpenAI оплачуватиме контент AP, необхідний для даних навчання ШІ.

Втрачена довіра

Як засіб збору даних, сама технологія сканера не розрізняє законну та незаконну. **Однак ініціатива OpenAI щодо встановлення обмежень на інструменти сканера, здається, не зможе відновити довіру громадськості до цієї великої модельної компанії. **

Ніл Кларк, головний редактор ветеранського науково-фантастичного журналу «Clarkworld» і лауреат премії Г’юго, сказав: «OpenAI та інші масштабні модельні компанії неодноразово демонстрували, що вони не поважають права авторів, художників. та інших творчих людей. в основному на захищеній авторським правом роботі інших».

Він також навів приклад: CCBot — ще один робот-сканер, яким керує організація Common Crawl. Common Crawl наразі є основним постачальником навчальних даних для моделей штучного інтелекту. «Наскільки мені відомо, ніхто успішно не просив Common Crawl видалити дані. ", - сказав Кларк. "Я спробував і не отримав відповіді".

З іншого боку, коли справа доходить до боротьби з великими корпораціями, звичайні люди здебільшого знаходяться в невигідному становищі. Як сказав Кларк, оскільки OpenAI готовий платити за дані великих компаній, таких як (Associated Press), чому він не платить за інформацію інших людей? «Я запитав OpenAI про це, але не отримав відповіді».

Однак сам Кларк стоїть на протилежному боці OpenAI.Світ Clark, який він заснував, стикається з потоком контенту, створеного штучним інтелектом. Кларк зазначив, що після відкриття ChatGPT наприкінці минулого року кількість спаму, створеного штучним інтелектом, зросла, а вартість виявлення таких робіт була високою, тому журнал тимчасово призупинив прийом рукописів.

Висновок

Раніше на OpenAI подавали позов кілька сторін за проблеми з авторським правом, у тому числі колективний позов, запропонований юридичною фірмою Clarkson, і авторами бестселерів, такими як Пол Трембле та Мона Авад. Знаменитості подають до суду від своїх справжніх імен.

З подальшою ітерацією генеративної технології штучного інтелекту подібні суперечки будуть тільки зростати.

Великі компанії частіше стають об’єктами публічної критики.Навіть якщо вони наважуються взяти на себе відповідальність, досягти повної відповідності збору даних нелегко. Через величезну кількість параметрів великі моделі потрібно навчати та розгортати за допомогою таких технологій, як розподілені обчислення та хмарні сервіси, що збільшує ризик крадіжки даних, підробки, неправильного використання або витоку.

Як збалансувати захист особистої конфіденційності та заохочувати технологічні інновації, а також як знайти оптимальний шлях між виживанням підприємства та сумісним виробництвом – це вже питання, яких не може уникнути кожна компанія, що займається генеративним ШІ.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити