С ChatGPT чтение по-прежнему полезно?

Question

**Автор:** Ли Цзы, доктор философии в области социологии технологий, постдокторант кафедры медицинских гуманитарных наук и этики Колумбийского университета.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c20cf94718-dd1a6f-1c6801) Источник изображения: сгенерировано Unbounded AI‌В первой половине года родился ChatGPT, и был раскрыт потенциал искусственного интеллекта, что вызвало обсуждение кризиса выживания во многих отраслях. GPT может сдать квалификационные экзамены на адвоката и инженера, написать сочинение в колледже без плохих оценок и даже «понимать» шутки. Он может отвечать на вопросы людей, организовывать яркие языковые структуры и имитировать различные языковые стили, а сочетание больших языковых моделей и технологий искусственного интеллекта для создания изображений, таких как Midjourney, может позволить людям, не получившим художественного образования, использовать несколько слова «Создавайте» потрясающие художественные образы.Суть ChatGPT на самом деле состоит в большой языковой модели (Large Language Model, LLM), на которую наложен генеративный искусственный интеллект. Большая языковая модель, как следует из названия, является большой и использует большое количество морфем для обучения компьютерной модели методами машинного обучения. Генеративная формула использует метод прогнозирования для отображения наиболее вероятных морфемных связей во время диалога.Для «процессоров» и «потребителей» знаний возможности больших языковых моделей плюс генеративный искусственный интеллект огромны. Массивные морфемные данные, глубокая нейронная сеть и огромные вычислительные мощности эквивалентны «сглаживанию» всех знаний из Интернета, а затем их «сборке» посредством взаимодействия человека с компьютером.** С точки зрения вычислительной логики ChatGPT эквивалентен более мощной поисковой системе. ** Обычные поисковые системы, такие как Google и Baidu, «счищают» информацию со всего Интернета в режиме краулера и сортируют по сложным алгоритмам. Метод искусственного интеллекта с использованием машинного обучения эквивалентен сортировке информации предиктивным образом в соответствии с языковой логикой. Обработка знаний стала удобнее и быстрее, а потребление стало более кратким и понятным, иногда даже слишком простым, дающим возможности для списывания на экзаменационных работах.В ответ на это технологические оптимисты считают, что, поскольку контент, который теперь могут генерировать машины, может не требовать от большинства людей использования своего мозга для его реализации, точно так же, как поисковые системы заменяют библиотечные карточки, а калькуляторы заменяют счеты. Действительно, даже если ИИ не будет вмешиваться в окончательное принятие решений, те задачи, которые требуют большого количества повторяющихся записей или механического перечисления и сортировки, действительно могут обеспечить значительную производительность и помочь людям в обработке и потреблении знаний.Итак, полезно ли читать? Может ли уйти с работы и персонал крупных университетов и научно-исследовательских институтов?## **Чему может «обучиться» машина**Большие языковые модели и генеративный искусственный интеллект подняли неизбежную тему для будущих «производителей» знаний: что такое знание? Как производить разнообразные, беспристрастные и достоверные знания?«Обучаемость» искусственного интеллекта поразительна. Существующая большая языковая модель и применение искусственного интеллекта не могут быть отделены от машинного обучения как его предпосылки. Слово «обучение» по сути означает использование большого количества данных для обучения модели прогнозирования и поиск баланса между точностью и универсальностью прогноза. Этот вид предсказания фактически основан на существующих знаниях, и предсказание языковой модели также основано на связи между существующими языками. Например, введите «тушеное в соевом соусе», и машина предскажет «мясо», а затем, основываясь на других входных данных, таких как местоположение, люди, привычки и т. в коричневом соусе" и так далее.Как сбылось это предсказание? Знакомая нам система координат двумерна. Например, во всей популяции есть приблизительное соответствие между ростом и весом, учитывая рост, машина предсказывает средний вес, который является прогнозом на основе существующих данных. Добавьте еще одно измерение, например пол, тогда оно станет трехмерной координатой, и предсказания мужчин и женщин будут разными. Если так будет продолжаться, размерности данных могут стать бесконечными, и модель машинного обучения состоит в том, чтобы находить такие связи в многомерном пространстве, которые человеческий мозг не может представить, и постоянно корректировать веса между различными измерениями. Например, «насколько важным» является предсказание соотношения роста к весу, которое можно скорректировать после ввода большого количества данных.** Поэтому искусственный интеллект, основанный на машинном обучении, будет соединять данные различных размерностей в пространстве большей размерности, иметь возможность обнаруживать потенциальные связи между данными, а также будет «учиться» некоторым вещам, которых в реальности не существует, но очень вероятные связи. **Используемый в языковой модели искусственный интеллект также может изучать различные языковые стили и выкапывать «суть» и «проблемы» в существующем тексте.**Чем больше данных, тем более зрелой является модель и тем выше ее вычислительные и интеллектуальные возможности. ** Подобно ИИ, таким как BERT и GPT, которые родились в крупных учреждениях, многие люди считают, что они достигли «точки перегиба» технологии, и вполне разумно, чтобы количественные изменения приводили к качественным изменениям — это хорошо. вещь для производителей знаний. Однако у больших моделей также есть присущие им проблемы, и чем крупнее модель, тем острее проблемы, особенно в отношении разнообразных, справедливых и правдивых аспектов знания.## **Как создать настоящий**##** и непредвзятое знание? **Новое знание может быть получено из связей и новых моделей существующих знаний, и это справедливо как на уровне человека, так и на уровне машины. Однако достаточно ли существующих знаний? Это достаточно? Это справедливо? Если основа существующих знаний недостаточна или даже предвзята, новые знания, построенные на ней, также будут предвзятыми.С тех пор как ИИ с машинным обучением стал широко применяться, ученые постоянно выявляли предубеждения, присущие этим моделям: сексизм, расизм, неэтичный результат и так далее. Разработчики используют различные патчи и методы исправления, чтобы восполнить это, но большинство проблем скрыто в процессе производства данных и обучения, а предвзятость ИИ также является отражением и усилением социальных предрассудков.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-422b1ca786-dd1a6f-1c6801) Еще одна проблема — качество данных. Машинное обучение предполагает не только возможность обучения моделей, но и количество и качество данных. Существующий процесс разработки уделяет больше внимания производительности модели и даже суевериям, но игнорирует основную проблему источников данных. Большая часть данных сегодня зависит от ручной очистки и форматирования, категоризации, маркировки и так далее. Часто этот процесс получения данных непрозрачен, даже зачеркнут. Например, за разработкой ИИ крупных компаний большое количество «грязной и беспорядочной» рабочей силы передается на аутсорсинг «фабрикам ИИ» в слаборазвитых районах. С одной стороны, этот процесс имеет проблемы с трудовой этикой, а с другой стороны, он также создает проблемы с качеством данных.В эпоху больших моделей эта проблема может скрываться глубже: не у каждого исследователя или команды есть возможность разрабатывать модели ИИ с нуля, особенно большие языковые модели и модели больших изображений, большинство из которых основаны на существующих моделях, на которые производится тонкая настройка. Проблемы и отклонения самой большой модели будут перенесены в другие прикладные модели. И чем ниже девиация, тем сложнее с ней бороться путем доводки и коррекции девиации.Режим генерации прогнозов существующей языковой модели даже усилит существующее отклонение данных, что приведет к эффекту «переобучения»: например, определенное заболевание имеет высокую долю статистических данных в определенной этнической группе, около 60%. ; Но если языковая модель используется для создания портрета пациента, то вероятность того, что сгенерированное описание пациента будет принадлежать к этой группе, составляет более 90%.Сейчас обучение некоторых моделей ИИ принимает режим «взаимного боя» — так называемую «генеративно-состязательную сеть» (generative adversarial network), позволяющую двум моделям непрерывно генерировать и корректировать друг друга. Этот метод действительно повышает эффективность обучения модели, но любое небольшое отклонение будет увеличиваться в этом «взаимодействии». По тому же принципу, если производитель знаний, который работает в тесном контакте с машиной, полагается на такого рода «поколение», тогда некоторые отклонения от модели будут встроены в новые знания, и новые знания будут поглощены как данные, что в дальнейшем усиливает предвзятость модели. ** Производители знаний должны сохранять бдительность в этом процессе.## **Что такое новые знания? Может ли «поколение» ИИ представлять новые знания? **Что такое так называемое новое знание? Если ИИ должен полностью использоваться для производства знаний, то производители знаний должны рассматривать этот вопрос с точки зрения сочетания человека и машины. Любая информация, а также знания, полученные человеком из реального мира, нуждаются в «очистке» и «форматировании» в данные. В дополнение к качеству данных, упомянутому выше, важен также процесс генерации данных. Короче говоря, какую проблему нужно изучать? В какие данные переводится этот вопрос? Как получаются эти данные, и полностью ли они отражают вопросы, которые хотят изучить производители знаний?Эта проблема актуальна и для производителей «традиционных» знаний. Возьмите историю в качестве примера.Хотя история изучает прошлые события, никакие прошлые события не могут быть на 100% убедительными. Ученые обычно постоянно ищут новые исторические материалы, чтобы дополнить свое понимание исторических вопросов, а также найти забытые точки зрения и голоса в прошлом. Интересно, что современная историография часто обращается к большому количеству данных, особенно к прошлым экономическим, демографическим и климатическим данным, и даже полагается на машинное обучение, чтобы привнести новое понимание и перспективы в историю.Точно так же, полагаясь на сгенерированные машиной идеи и мнения, можно повысить важность определенных источников данных. Сегодняшние производители знаний слишком полагаются на мейнстрим, Интернет и электронную информацию, чтобы создавать вещи, которые были «переведены» в данные другими. ** В эпоху ИИ удобство и расширяемость, обеспечиваемые ИИ, потенциально облегчат людям игнорирование неосновных и экспериментальных знаний, которые не были оцифрованы, электронизированы, и, таким образом, упустят возможность формирования новых точек зрения и перспектив. . **На более глубоком уровне новые знания часто возникают в результате раскопок новых материалов, столкновения различных точек зрения и точек зрения и повторной деконструкции существующих знаний. Большая языковая модель предоставляет много возможностей для отображения знаний, но ее внутренняя логика и структура могут противоречить этому методу производства.** В зависимости от метода обучения большой языковой модели и характеристик выходных данных, генерируемых моделью, вес выходного контента с более высоким рейтингом и более высокой вероятностью станет больше, а функции станут более уникальными **. «Сгенерированный ИИ» почти стал прилагательным для описания невыразительных, повторяющихся, бессмысленных слов, которые произносятся так, как будто их не было. Это правда, что для потребителей знаний «наиболее вероятные» ответы значительно снижают порог понимания, но для производителей знаний эти вещи могут вместо этого стать препятствием.## **Куда должны двигаться производители знаний в новую эпоху? **Возможно, многие исследователи социальных наук, такие как я, сталкивались с этой проблемой при использовании ChatGPT: попросите его объяснить концепцию, и это логично: автор никогда не писал книги, никогда не публиковал статью. Чем уже и специализированнее поле, тем больше вероятность «бессмыслицы».Возвращаясь к принципу ИИ, такого рода «создание» на самом деле извлекает «возможные» связи слов и предложений из массива данных, но этих связей в действительности не существует. Грубо говоря, они просто «звучат одинаково». . Это новое явление теперь называется «галлюцинацией». Для производителей знаний очень важным навыком является то, как использовать искусственный интеллект для извлечения закономерностей и связей в существующей базе знаний, но при этом сохранять бдительность в отношении «видения» машины, что существует, а что сомнительно.«Диалог» с ИИ также станет новым навыком. Нынешний ИИ по-прежнему остается загадочным «черным ящиком» для большинства нетехнических людей (даже технарей). **Как начать с нижнего или среднего уровня технологии, чтобы более эффективно общаться с машинами, понимать и бороться с «видением», требуется сотрудничество производителей знаний и технических практиков**.Для исследования новых знаний, новых перспектив и новых материалов уникальная структура и интерпретация каждой области по-прежнему очень важны в настоящее время. Прогностические модели больших языковых моделей и генеративный ИИ по-прежнему имеют тенденцию быть одиночными и повторяющимися, и чем более ограниченным является учебный материал, тем более ограниченными будут возможности. Если вы хотите объединить возможности машины и человека, вы должны начать с источника производства данных, использовать точные, разнообразные, достоверные и новые данные для обучения моделей ИИ и создать безопасную модель взаимодействия человека и компьютера.Появление больших языковых моделей и генеративного ИИ — это только начало проблем, стоящих перед исследователями. Вместо обсуждения "замены" лучше поискать возможность обкатки и развития под более предусмотрительным взглядом.