GPT-4 стал обозревателем Nature? Выпускники Стэнфорда и Цинхуа протестировали около 5000 статей, и более 50% результатов совпали с мнением рецензентов-людей.

**Источник:**Синьчжиюань

Введение. Ученые из Стэнфорда обнаружили, что мнения рецензентов, выдаваемые GPT-4 на статьи Nature и ICLR, более чем на 50 % совпадают с мнениями рецензентов-людей. Кажется, позволить крупным моделям помогать нам в рецензировании статей — это не фантастика.

GPT-4 успешно повышен до уровня рецензента!

Недавно исследователи из Стэнфордского университета и других учреждений отправили тысячи лучших статей с конференций из Nature, ICLR и т. д. в GPT-4, что позволило ему генерировать комментарии к обзору и предложения по исправлению, а затем сравнивать их с мнениями, высказанными рецензентами. Сравнивать.

Бумажный адрес:

В результате GPT-4 не только отлично справился со своей задачей, но даже сделал ее лучше, чем люди!

Более 50% высказанных им мнений совпадают как минимум с одним рецензентом.

И более 82,4% авторов заявили, что мнения, высказанные GPT-4, были весьма полезны.

Джеймс Цзоу, автор статьи, заключил: «Нам по-прежнему нужна качественная человеческая обратная связь, но LLM может помочь авторам улучшить первый вариант статьи перед официальным рецензированием.

## Мнения, которые дает вам GPT-4, могут быть лучше, чем у людей

Итак, как заставить LLM просмотреть вашу рукопись?

Это очень просто: просто извлеките текст из бумажного PDF-файла, отправьте его в GPT-4, и он немедленно сгенерирует обратную связь.

В частности, нам нужно извлечь и проанализировать заголовок, аннотацию, рисунки, заголовки таблиц и основной текст статьи из PDF-файла.

Затем сообщите GPT-4, что вам необходимо заполнить форму обратной связи ведущих журнальных конференций отрасли, которая состоит из четырех частей: являются ли результаты важными и новыми, причины принятия статьи, причины отклонения статьи и т. д. и предложения по улучшению.

Как видно на картинке ниже, GPT-4 дал очень конструктивные мнения, а отзыв состоял из четырех частей.

Какие недостатки в этой статье?

GPT-4 многозначительно отметил: Хотя в документе упоминается феномен модального разрыва, он не предлагает метод сокращения разрыва и не доказывает преимущества этого.

Исследователи сравнили отзывы людей и отзывы LLM о 3096 статьях серии Nature и 1709 статьях ICLR.

Двухэтапный конвейер сопоставления комментариев извлекает точки комментариев из LLM и отзывов пользователей соответственно, а затем выполняет семантическое сопоставление текста для сопоставления общих точек комментариев между LLM и отзывами людей.

На рисунке ниже показан конкретный двухэтапный конвейер сопоставления отзывов.

Для каждого парного отзыва дается рейтинг сходства с обоснованием.

Исследователи установили порог сходства на уровне 7, и слабо совпадающие комментарии будут отфильтровываться.

В двух наборах данных Nature и ICLR средняя длина токенов статей и комментариев людей следующая.

В этом исследовании приняли участие 308 исследователей из 110 институтов искусственного интеллекта и институтов вычислительной биологии в США.

Каждый исследователь загрузил написанную им статью, прочитал отзывы LLM, а затем оставил свою оценку и чувства по поводу отзывов LLM.

Результаты показывают, что исследователи обычно считают, что обратная связь, генерируемая LLM, во многом совпадает с результатами рецензентов-людей и обычно очень полезна.

Если и есть какой-то недостаток, так это то, что он немного менее конкретен.

如下图所示,对于提交给Nature的论文,大约三分之一(30.85%) комментариев GPT-4 совпадают с комментариями рецензентов.

В статьях ICLR более трети (39,23%) комментариев GPT-4 совпадают с комментариями рецензентов.

## У LLM и рецензентов несколько разные приоритеты

Ниже приведены комментарии LLM и комментарии людей к одному и тому же документу ICLR. Видно, что у LLM очень порочное видение, и комментарии очень точны.

Например, по сравнению с предыдущими исследованиями рецензенты заявили:

Сравнение некорректное. В частности, не учитываются потери согласованности меток и согласованности центра метода GNN. Более справедливым сравнением было бы использование метода GNN, учитывающего обе потери.

Оценка GPT-4 такова:

В статье отсутствует детальное сравнение с существующими методами. Хотя авторы сравнили исходные данные для некоторых методов, необходимо более полное сравнение.

С точки зрения теоретической достоверности, рецензенты дали такое мнение:

ИМХО, доказательство теории слишком тривиально. Окончательный вывод заключается в том, что если сходство уместно, то предсказанное действие является точным. Поскольку модель изучает правильное сходство, это эквивалентно утверждению, что если модель h хорошо обучена, выходные данные будут правильными. Это очевидно.

Мнение GPT-4 таково:

Автору следует предоставить больше теоретического анализа для сравнения связи между передачей информации и ограничениями согласованности, чтобы читателям было легче понять.

Что касается воспроизводимости исследований, рецензенты надеются, что статья сможет предоставить код, позволяющий другим читателям воспроизвести эксперимент.

Такое же мнение по этому поводу высказала и GPT-4: «Авторам следует предоставить более подробную информацию об условиях эксперимента, чтобы обеспечить воспроизводимость исследования».

Пользователи, принявшие участие в опросе, в целом считают, что отзывы LLM могут помочь повысить точность рецензий и снизить нагрузку на рецензентов. И большинство пользователей намерены снова использовать систему обратной связи LLM.

Интересно, что рецензенты LLM имеют свои уникальные характеристики по сравнению с рецензентами-людьми.

Например, он упоминает импакт-факторы в 7,27 раз чаще, чем рецензенты-люди.

Рецензенты-люди с большей вероятностью будут запрашивать дополнительные эксперименты по абляции, в то время как LLM сосредоточится на запросе экспериментов на большем количестве наборов данных.

Пользователи сети сказали: «Эта работа потрясающая!»

Некоторые также говорят, что на самом деле я занимаюсь этим уже давно и использую различные программы LLM, которые помогают мне обобщать и улучшать мои статьи.

Кто-то спросил, будут ли рецензенты GPT предвзятыми, чтобы соответствовать сегодняшним стандартам рецензирования?

Некоторые люди также поднимали вопрос о количественной оценке совпадения между мнениями GPT и человеческими отзывами.Полезен ли этот показатель?

Поймите, что в идеале у рецензентов не должно быть слишком много пересекающихся мнений, и они выбираются с целью представить разные точки зрения.

Но, по крайней мере, это исследование позволяет нам понять, что LLM действительно может использоваться как инструмент для редактирования статей.

Три шага: позвольте LLM просмотреть рукопись за вас

  1. Создайте сервер анализа PDF и запустите его в фоновом режиме:

conda env create -f conda_environment.ymlconda active ScienceBeampython -m sciencebeam_parser.service.server --port=8080 # Убедитесь, что это работает в фоновом режиме 2. Создайте и запустите сервер обратной связи LLM:

conda create -n llm python=3.10conda active llmpip install -r require.txtcat YOUR_OPENAI_API_KEY > key.txt # Замените YOUR_OPENAI_API_KEY на ваш ключ API OpenAI, начинающийся с "sk-"python main.py

  1. Откройте веб-браузер и загрузите свою статью:

Откройте и загрузите свою статью, и вы получите отзыв от LLM примерно через 120 секунд.

## об авторе

Вэйсинь Лян

Вэйсинь Лян — аспирант кафедры компьютерных наук Стэнфордского университета и сотрудник Стэнфордской лаборатории искусственного интеллекта (SAIL) под руководством профессора Джеймса Цзоу.

До этого он получил степень магистра электротехники в Стэнфордском университете под руководством профессора Джеймса Цзоу и профессора Чжоу Юя, а также степень бакалавра компьютерных наук в Чжэцзянском университете под руководством профессора Кая Бу и профессора Минли Сун. .

Он проходил стажировку в Amazon Alexa AI, Apple и Tencent, а также работал с профессорами Дэниелом Джурафски, Дэниелом А. Макфарландом и Сереной Юнг.

Юхуэй Чжан

Юхуэй Чжан — аспирант кафедры компьютерных наук Стэнфордского университета под руководством профессора Серены Юнг.

Его исследования сосредоточены на создании мультимодальных систем искусственного интеллекта и разработке творческих приложений, которые извлекают выгоду из мультимодальной информации.

До этого он закончил бакалавриат и магистратуру в Университете Цинхуа и Стэнфордском университете и работал с выдающимися исследователями, такими как профессор Джеймс Цзоу, профессор Крис Мэннинг и профессор Юре Лесковец.

Ханьчэн Цао

Ханьчэн Цао — аспирант шестого курса факультета компьютерных наук Стэнфордского университета (специализация в области управленческих наук и инженерии), а также член группы НЛП и группы взаимодействия человека и компьютера в Стэнфордском университете под руководством профессора Дэна. МакФарланд и Майкл Бернштейн.

В 2018 году он получил степень бакалавра в области электронной инженерии в Университете Цинхуа с отличием.

С 2015 года работал научным сотрудником в Университете Цинхуа под руководством профессора Ли Юна и профессора Василиса Костакоса (Университет Мельбурна). Осенью 2016 года он работал под руководством профессора Ханана Самета, заслуженного профессора Университета Мэриленда. Летом 2017 года он работал студентом по обмену и научным сотрудником в группе динамики человека в медиалаборатории Массачусетского технологического института под руководством Алекса «Сэнди» Пентланда, профессора Сяовэнь Донг.

Его исследовательские интересы включают вычислительную социальную науку, социальные вычисления и науку о данных.

Использованная литература:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить