OpenAI также борется с данными! Компания признает, что использование краулеров для ограничения себя сложно развеять подозрения общественности.

2023-08-10 01:57:17

Источник: "Ежедневный совет по научным и технологическим инновациям"

Редактировать песню Цзыцяо

Источник изображения: сгенерировано Unbounded AI

Данные, вычислительная мощность и алгоритмы считаются тремя основными элементами генеративного ИИ, и трудно сказать, что важнее.

Однако для звездных компаний, таких как OpenAI, вычислительная мощность является главным экономическим вопросом. их в нравственном кризисе.

Взяв в качестве примера OpenAI, его поведение по сбору общедоступных данных для обучения моделей ИИ уже давно вызывает споры. **Согласно последнему отчету иностранного технологического издания Insider, OpenAI недавно признала, что запустила робота-поискателя веб-страниц под названием GPTBot, который используется для сканирования и сбора данных для крупномасштабного обучения моделей. **

OpenAI подозревается в «краже данных»

Поисковый робот — это компьютерная программа, которая имитирует поведение человека (пользователя сети) и автоматически просматривает и собирает сетевую информацию. Поисковый робот может сохранять данные, которые он посещает, а сборщик данных анализирует и повторно использует данные, делает выводы о предпочтениях пользователей Интернета, а затем передает их соответствующим группам пользователей.

** Неясно, как долго поисковые роботы OpenAI скрываются в сети, и некоторые подозревают, что OpenAI тайно собирает все онлайн-данные в течение месяцев или лет. **

Столкнувшись с такими «обвинениями», OpenAI активно защищалась: компания заявила, что GPTBot будет строго соблюдать правила любого платного доступа, не будет собирать информацию, требующую оплаты, и не будет собирать данные, по которым можно установить личность людей.

Кроме того, OpenAI запустил метод блокировки GPTbot.Пользователи могут изменить свой файл robots.txt или заблокировать свои IP-адреса, чтобы запретить доступ поисковым роботам. Компания также недавно объявила о сделке с Associated Press, по которой OpenAI будет платить за контент AP, необходимый для данных обучения ИИ.

Потерянное доверие

Как средство сбора данных, сама технология сканирования не делает различий между законными и незаконными. **Однако инициатива OpenAI по установлению ограничений на свои инструменты сканирования, похоже, не сможет восстановить доверие общественности к этой крупной модельной компании. **

Нил Кларк, главный редактор ветеранского научно-фантастического журнала «Clarkworld» и обладатель премии «Хьюго», заявил: «OpenAI и другие крупные модельные компании неоднократно демонстрировали, что они не уважают права авторов, художников и другие творческие люди, основанные в основном на чужих работах, защищенных авторским правом».

Он также привел пример: CCBot — еще один робот-краулер, которым управляет организация Common Crawl. Common Crawl в настоящее время является основным поставщиком обучающих данных для моделей искусственного интеллекта. «Насколько я знаю, никто успешно не просил Common Crawl удалить данные. , — сказал Кларк. — Я пытался, но не получил ответа.

С другой стороны, когда дело доходит до борьбы с крупными корпорациями, обычные люди в основном оказываются в невыгодном положении. Как сказал Кларк, если OpenAI готов платить за данные крупных компаний, таких как (Associated Press), почему он не платит за информацию других людей? «Я спросил об этом у OpenAI, но не получил ответа».

Однако сам Кларк стоит на противоположной стороне OpenAI: основанный им «Мир Кларка» столкнулся с потоком контента, созданного ИИ. Кларк указал, что после того, как ChatGPT открылся в конце прошлого года, количество спам-сообщений, созданных ИИ, резко возросло, а стоимость обнаружения таких работ была высокой, и журнал временно приостановил прием рукописей.

Заключение

Ранее на OpenAI подали в суд несколько сторон за нарушение авторских прав, в том числе коллективный иск, продвигаемый юридической фирмой Clarkson и авторами бестселлеров, такими как Пол Тремблей и Мона Авад.Знаменитости подают иски от своих настоящих имен.

С дальнейшим развитием технологии генеративного ИИ подобные споры будут только усиливаться.

Крупные компании чаще становятся объектом публичной критики: даже если они осмелятся взять на себя ответственность, добиться полного соблюдения требований по сбору данных непросто. Из-за огромного количества параметров большие модели необходимо обучать и развертывать с помощью таких технологий, как распределенные вычисления и облачные сервисы, что увеличивает риск кражи, подделки, неправильного использования или утечки данных.

Как сбалансировать защиту личной жизни и поощрение технологических инноваций, а также как найти оптимальный путь между выживанием предприятия и производством, соответствующим требованиям, — это уже проблемы, которых не может избежать каждая компания, занимающаяся генеративным ИИ.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков

Награда
1
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
Gate 2025 Q2 Report Released
34k Популярность
Altcoin Season Update
12k Популярность
Bitcoin Whale Moves
6k Популярность
4Gate Derivatives Volume Hits New High
16k Популярность
5CPI Data Incoming
61k Популярность
6Join Gate VIP to Win MacBook
31k Популярность
7MicroStrategy Buys More Bitcoin
2k Популярность
8BTC Hits New High
95k Популярность
9My Gate Moments
27k Популярность
10VIP Exclusive Airdrop Carnival
27k Популярность

Закрепить

Карта сайта