Источник: "Ежедневный совет по научным и технологическим инновациям"
Редактировать песню Цзыцяо
Источник изображения: сгенерировано Unbounded AI
Данные, вычислительная мощность и алгоритмы считаются тремя основными элементами генеративного ИИ, и трудно сказать, что важнее.
Однако для звездных компаний, таких как OpenAI, вычислительная мощность является главным экономическим вопросом. их в нравственном кризисе.
Взяв в качестве примера OpenAI, его поведение по сбору общедоступных данных для обучения моделей ИИ уже давно вызывает споры. **Согласно последнему отчету иностранного технологического издания Insider, OpenAI недавно признала, что запустила робота-поискателя веб-страниц под названием GPTBot, который используется для сканирования и сбора данных для крупномасштабного обучения моделей. **
OpenAI подозревается в «краже данных»
Поисковый робот — это компьютерная программа, которая имитирует поведение человека (пользователя сети) и автоматически просматривает и собирает сетевую информацию. Поисковый робот может сохранять данные, которые он посещает, а сборщик данных анализирует и повторно использует данные, делает выводы о предпочтениях пользователей Интернета, а затем передает их соответствующим группам пользователей.
** Неясно, как долго поисковые роботы OpenAI скрываются в сети, и некоторые подозревают, что OpenAI тайно собирает все онлайн-данные в течение месяцев или лет. **
Столкнувшись с такими «обвинениями», OpenAI активно защищалась: компания заявила, что GPTBot будет строго соблюдать правила любого платного доступа, не будет собирать информацию, требующую оплаты, и не будет собирать данные, по которым можно установить личность людей.
Кроме того, OpenAI запустил метод блокировки GPTbot.Пользователи могут изменить свой файл robots.txt или заблокировать свои IP-адреса, чтобы запретить доступ поисковым роботам. Компания также недавно объявила о сделке с Associated Press, по которой OpenAI будет платить за контент AP, необходимый для данных обучения ИИ.
Потерянное доверие
Как средство сбора данных, сама технология сканирования не делает различий между законными и незаконными. **Однако инициатива OpenAI по установлению ограничений на свои инструменты сканирования, похоже, не сможет восстановить доверие общественности к этой крупной модельной компании. **
Нил Кларк, главный редактор ветеранского научно-фантастического журнала «Clarkworld» и обладатель премии «Хьюго», заявил: «OpenAI и другие крупные модельные компании неоднократно демонстрировали, что они не уважают права авторов, художников и другие творческие люди, основанные в основном на чужих работах, защищенных авторским правом».
Он также привел пример: CCBot — еще один робот-краулер, которым управляет организация Common Crawl. Common Crawl в настоящее время является основным поставщиком обучающих данных для моделей искусственного интеллекта. «Насколько я знаю, никто успешно не просил Common Crawl удалить данные. , — сказал Кларк. — Я пытался, но не получил ответа.
С другой стороны, когда дело доходит до борьбы с крупными корпорациями, обычные люди в основном оказываются в невыгодном положении. Как сказал Кларк, если OpenAI готов платить за данные крупных компаний, таких как (Associated Press), почему он не платит за информацию других людей? «Я спросил об этом у OpenAI, но не получил ответа».
Однако сам Кларк стоит на противоположной стороне OpenAI: основанный им «Мир Кларка» столкнулся с потоком контента, созданного ИИ. Кларк указал, что после того, как ChatGPT открылся в конце прошлого года, количество спам-сообщений, созданных ИИ, резко возросло, а стоимость обнаружения таких работ была высокой, и журнал временно приостановил прием рукописей.
Заключение
Ранее на OpenAI подали в суд несколько сторон за нарушение авторских прав, в том числе коллективный иск, продвигаемый юридической фирмой Clarkson и авторами бестселлеров, такими как Пол Тремблей и Мона Авад.Знаменитости подают иски от своих настоящих имен.
С дальнейшим развитием технологии генеративного ИИ подобные споры будут только усиливаться.
Крупные компании чаще становятся объектом публичной критики: даже если они осмелятся взять на себя ответственность, добиться полного соблюдения требований по сбору данных непросто. Из-за огромного количества параметров большие модели необходимо обучать и развертывать с помощью таких технологий, как распределенные вычисления и облачные сервисы, что увеличивает риск кражи, подделки, неправильного использования или утечки данных.
Как сбалансировать защиту личной жизни и поощрение технологических инноваций, а также как найти оптимальный путь между выживанием предприятия и производством, соответствующим требованиям, — это уже проблемы, которых не может избежать каждая компания, занимающаяся генеративным ИИ.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
OpenAI также борется с данными! Компания признает, что использование краулеров для ограничения себя сложно развеять подозрения общественности.
Источник: "Ежедневный совет по научным и технологическим инновациям"
Редактировать песню Цзыцяо
Данные, вычислительная мощность и алгоритмы считаются тремя основными элементами генеративного ИИ, и трудно сказать, что важнее.
Однако для звездных компаний, таких как OpenAI, вычислительная мощность является главным экономическим вопросом. их в нравственном кризисе.
Взяв в качестве примера OpenAI, его поведение по сбору общедоступных данных для обучения моделей ИИ уже давно вызывает споры. **Согласно последнему отчету иностранного технологического издания Insider, OpenAI недавно признала, что запустила робота-поискателя веб-страниц под названием GPTBot, который используется для сканирования и сбора данных для крупномасштабного обучения моделей. **
OpenAI подозревается в «краже данных»
Поисковый робот — это компьютерная программа, которая имитирует поведение человека (пользователя сети) и автоматически просматривает и собирает сетевую информацию. Поисковый робот может сохранять данные, которые он посещает, а сборщик данных анализирует и повторно использует данные, делает выводы о предпочтениях пользователей Интернета, а затем передает их соответствующим группам пользователей.
** Неясно, как долго поисковые роботы OpenAI скрываются в сети, и некоторые подозревают, что OpenAI тайно собирает все онлайн-данные в течение месяцев или лет. **
Столкнувшись с такими «обвинениями», OpenAI активно защищалась: компания заявила, что GPTBot будет строго соблюдать правила любого платного доступа, не будет собирать информацию, требующую оплаты, и не будет собирать данные, по которым можно установить личность людей.
Кроме того, OpenAI запустил метод блокировки GPTbot.Пользователи могут изменить свой файл robots.txt или заблокировать свои IP-адреса, чтобы запретить доступ поисковым роботам. Компания также недавно объявила о сделке с Associated Press, по которой OpenAI будет платить за контент AP, необходимый для данных обучения ИИ.
Потерянное доверие
Как средство сбора данных, сама технология сканирования не делает различий между законными и незаконными. **Однако инициатива OpenAI по установлению ограничений на свои инструменты сканирования, похоже, не сможет восстановить доверие общественности к этой крупной модельной компании. **
Нил Кларк, главный редактор ветеранского научно-фантастического журнала «Clarkworld» и обладатель премии «Хьюго», заявил: «OpenAI и другие крупные модельные компании неоднократно демонстрировали, что они не уважают права авторов, художников и другие творческие люди, основанные в основном на чужих работах, защищенных авторским правом».
Он также привел пример: CCBot — еще один робот-краулер, которым управляет организация Common Crawl. Common Crawl в настоящее время является основным поставщиком обучающих данных для моделей искусственного интеллекта. «Насколько я знаю, никто успешно не просил Common Crawl удалить данные. , — сказал Кларк. — Я пытался, но не получил ответа.
С другой стороны, когда дело доходит до борьбы с крупными корпорациями, обычные люди в основном оказываются в невыгодном положении. Как сказал Кларк, если OpenAI готов платить за данные крупных компаний, таких как (Associated Press), почему он не платит за информацию других людей? «Я спросил об этом у OpenAI, но не получил ответа».
Однако сам Кларк стоит на противоположной стороне OpenAI: основанный им «Мир Кларка» столкнулся с потоком контента, созданного ИИ. Кларк указал, что после того, как ChatGPT открылся в конце прошлого года, количество спам-сообщений, созданных ИИ, резко возросло, а стоимость обнаружения таких работ была высокой, и журнал временно приостановил прием рукописей.
Заключение
Ранее на OpenAI подали в суд несколько сторон за нарушение авторских прав, в том числе коллективный иск, продвигаемый юридической фирмой Clarkson и авторами бестселлеров, такими как Пол Тремблей и Мона Авад.Знаменитости подают иски от своих настоящих имен.
С дальнейшим развитием технологии генеративного ИИ подобные споры будут только усиливаться.
Крупные компании чаще становятся объектом публичной критики: даже если они осмелятся взять на себя ответственность, добиться полного соблюдения требований по сбору данных непросто. Из-за огромного количества параметров большие модели необходимо обучать и развертывать с помощью таких технологий, как распределенные вычисления и облачные сервисы, что увеличивает риск кражи, подделки, неправильного использования или утечки данных.
Как сбалансировать защиту личной жизни и поощрение технологических инноваций, а также как найти оптимальный путь между выживанием предприятия и производством, соответствующим требованиям, — это уже проблемы, которых не может избежать каждая компания, занимающаяся генеративным ИИ.