GPT-4 стал обозревателем Nature? Выпускники Стэнфорда и Цинхуа протестировали около 5000 статей, и более 50% результатов совпали с мнением рецензентов-людей.

Question

**Источник:**Синьчжиюань**Введение.** Ученые из Стэнфорда обнаружили, что мнения рецензентов, выдаваемые GPT-4 на статьи Nature и ICLR, более чем на 50 % совпадают с мнениями рецензентов-людей. Кажется, позволить крупным моделям помогать нам в рецензировании статей — это не фантастика.GPT-4 успешно повышен до уровня рецензента!Недавно исследователи из Стэнфордского университета и других учреждений отправили тысячи лучших статей с конференций из Nature, ICLR и т. д. в GPT-4, что позволило ему генерировать комментарии к обзору и предложения по исправлению, а затем сравнивать их с мнениями, высказанными рецензентами. Сравнивать.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed5158ceb6-dd1a6f-69ad2a) Бумажный адрес:В результате GPT-4 не только отлично справился со своей задачей, но даже сделал ее лучше, чем люди!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8ea8567a02-dd1a6f-69ad2a) Более 50% высказанных им мнений совпадают как минимум с одним рецензентом.И более 82,4% авторов заявили, что мнения, высказанные GPT-4, были весьма полезны.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc4a8b7e4a-dd1a6f-69ad2a) Джеймс Цзоу, автор статьи, заключил: «Нам по-прежнему нужна качественная человеческая обратная связь, но LLM может помочь авторам улучшить первый вариант статьи перед официальным рецензированием.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c95ebaf37f-dd1a6f-69ad2a) ## **Мнения, которые дает вам GPT-4, могут быть лучше, чем у людей**Итак, как заставить LLM просмотреть вашу рукопись?Это очень просто: просто извлеките текст из бумажного PDF-файла, отправьте его в GPT-4, и он немедленно сгенерирует обратную связь.В частности, нам нужно извлечь и проанализировать заголовок, аннотацию, рисунки, заголовки таблиц и основной текст статьи из PDF-файла.Затем сообщите GPT-4, что вам необходимо заполнить форму обратной связи ведущих журнальных конференций отрасли, которая состоит из четырех частей: являются ли результаты важными и новыми, причины принятия статьи, причины отклонения статьи и т. д. и предложения по улучшению.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-99f82aa845-dd1a6f-69ad2a) Как видно на картинке ниже, GPT-4 дал очень конструктивные мнения, а отзыв состоял из четырех частей.Какие недостатки в этой статье?GPT-4 многозначительно отметил: Хотя в документе упоминается феномен модального разрыва, он не предлагает метод сокращения разрыва и не доказывает преимущества этого.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a75cd81009-dd1a6f-69ad2a) Исследователи сравнили отзывы людей и отзывы LLM о 3096 статьях серии Nature и 1709 статьях ICLR.Двухэтапный конвейер сопоставления комментариев извлекает точки комментариев из LLM и отзывов пользователей соответственно, а затем выполняет семантическое сопоставление текста для сопоставления общих точек комментариев между LLM и отзывами людей.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6e7f4502ec-dd1a6f-69ad2a) На рисунке ниже показан конкретный двухэтапный конвейер сопоставления отзывов.Для каждого парного отзыва дается рейтинг сходства с обоснованием.Исследователи установили порог сходства на уровне 7, и слабо совпадающие комментарии будут отфильтровываться.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-666999854c-dd1a6f-69ad2a) В двух наборах данных Nature и ICLR средняя длина токенов статей и комментариев людей следующая.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5099128c94-dd1a6f-69ad2a) В этом исследовании приняли участие 308 исследователей из 110 институтов искусственного интеллекта и институтов вычислительной биологии в США.Каждый исследователь загрузил написанную им статью, прочитал отзывы LLM, а затем оставил свою оценку и чувства по поводу отзывов LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa16a428ce-dd1a6f-69ad2a) Результаты показывают, что исследователи обычно считают, что обратная связь, генерируемая LLM, во многом совпадает с результатами рецензентов-людей и обычно очень полезна.Если и есть какой-то недостаток, так это то, что он немного менее конкретен.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c59fbf66e3-dd1a6f-69ad2a)如下图所示，对于提交给Nature的论文，大约三分之一（30.85%) комментариев GPT-4 совпадают с комментариями рецензентов.В статьях ICLR более трети (39,23%) комментариев GPT-4 совпадают с комментариями рецензентов.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f97da8249a-dd1a6f-69ad2a) ## **У LLM и рецензентов несколько разные приоритеты**Ниже приведены комментарии LLM и комментарии людей к одному и тому же документу ICLR. Видно, что у LLM очень порочное видение, и комментарии очень точны.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5da421cd8a-dd1a6f-69ad2a) Например, по сравнению с предыдущими исследованиями рецензенты заявили:>Сравнение некорректное. В частности, не учитываются потери согласованности меток и согласованности центра метода GNN. Более справедливым сравнением было бы использование метода GNN, учитывающего обе потери.Оценка GPT-4 такова:> В статье отсутствует детальное сравнение с существующими методами. Хотя авторы сравнили исходные данные для некоторых методов, необходимо более полное сравнение.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-add7471006-dd1a6f-69ad2a) С точки зрения теоретической достоверности, рецензенты дали такое мнение:> ИМХО, доказательство теории слишком тривиально. Окончательный вывод заключается в том, что если сходство уместно, то предсказанное действие является точным. Поскольку модель изучает правильное сходство, это эквивалентно утверждению, что если модель h хорошо обучена, выходные данные будут правильными. Это очевидно.Мнение GPT-4 таково:> Автору следует предоставить больше теоретического анализа для сравнения связи между передачей информации и ограничениями согласованности, чтобы читателям было легче понять.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1d4e989d52-dd1a6f-69ad2a) Что касается воспроизводимости исследований, рецензенты надеются, что статья сможет предоставить код, позволяющий другим читателям воспроизвести эксперимент.Такое же мнение по этому поводу высказала и GPT-4: «Авторам следует предоставить более подробную информацию об условиях эксперимента, чтобы обеспечить воспроизводимость исследования».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b5397c5954-dd1a6f-69ad2a)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3cd2b9ce5b-dd1a6f-69ad2a) Пользователи, принявшие участие в опросе, в целом считают, что отзывы LLM могут помочь повысить точность рецензий и снизить нагрузку на рецензентов. И большинство пользователей намерены снова использовать систему обратной связи LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c81068ffbb-dd1a6f-69ad2a) Интересно, что рецензенты LLM имеют свои уникальные характеристики по сравнению с рецензентами-людьми.Например, он упоминает импакт-факторы в 7,27 раз чаще, чем рецензенты-люди.Рецензенты-люди с большей вероятностью будут запрашивать дополнительные эксперименты по абляции, в то время как LLM сосредоточится на запросе экспериментов на большем количестве наборов данных.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5936a65bb9-dd1a6f-69ad2a) Пользователи сети сказали: «Эта работа потрясающая!»Некоторые также говорят, что на самом деле я занимаюсь этим уже давно и использую различные программы LLM, которые помогают мне обобщать и улучшать мои статьи.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cb1384de5a-dd1a6f-69ad2a) Кто-то спросил, будут ли рецензенты GPT предвзятыми, чтобы соответствовать сегодняшним стандартам рецензирования?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-35621b5367-dd1a6f-69ad2a) Некоторые люди также поднимали вопрос о количественной оценке совпадения между мнениями GPT и человеческими отзывами.Полезен ли этот показатель?Поймите, что в идеале у рецензентов не должно быть слишком много пересекающихся мнений, и они выбираются с целью представить разные точки зрения.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d52f5c677d-dd1a6f-69ad2a) Но, по крайней мере, это исследование позволяет нам понять, что LLM действительно может использоваться как инструмент для редактирования статей.## **Три шага: позвольте LLM просмотреть рукопись за вас**1. Создайте сервер анализа PDF и запустите его в фоновом режиме:*conda env create -f conda_environment.ymlconda active ScienceBeampython -m sciencebeam_parser.service.server *--port=8080 # Убедитесь, что это работает в фоновом режиме*2. Создайте и запустите сервер обратной связи LLM:*conda create -n llm python=3.10conda active llmpip install -r require.txtcat YOUR_OPENAI_API_KEY > key.txt # Замените YOUR_OPENAI_API_KEY на ваш ключ API OpenAI, начинающийся с "sk-"python main.py3. Откройте веб-браузер и загрузите свою статью:Откройте и загрузите свою статью, и вы получите отзыв от LLM примерно через 120 секунд.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea66ec7536-dd1a6f-69ad2a) ## **об авторе****Вэйсинь Лян**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a96905164d-dd1a6f-69ad2a) Вэйсинь Лян — аспирант кафедры компьютерных наук Стэнфордского университета и сотрудник Стэнфордской лаборатории искусственного интеллекта (SAIL) под руководством профессора Джеймса Цзоу.До этого он получил степень магистра электротехники в Стэнфордском университете под руководством профессора Джеймса Цзоу и профессора Чжоу Юя, а также степень бакалавра компьютерных наук в Чжэцзянском университете под руководством профессора Кая Бу и профессора Минли Сун. .Он проходил стажировку в Amazon Alexa AI, Apple и Tencent, а также работал с профессорами Дэниелом Джурафски, Дэниелом А. Макфарландом и Сереной Юнг.**Юхуэй Чжан**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-08b1234bb7-dd1a6f-69ad2a) Юхуэй Чжан — аспирант кафедры компьютерных наук Стэнфордского университета под руководством профессора Серены Юнг.Его исследования сосредоточены на создании мультимодальных систем искусственного интеллекта и разработке творческих приложений, которые извлекают выгоду из мультимодальной информации.До этого он закончил бакалавриат и магистратуру в Университете Цинхуа и Стэнфордском университете и работал с выдающимися исследователями, такими как профессор Джеймс Цзоу, профессор Крис Мэннинг и профессор Юре Лесковец.**Ханьчэн Цао**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c177675ce7-dd1a6f-69ad2a) Ханьчэн Цао — аспирант шестого курса факультета компьютерных наук Стэнфордского университета (специализация в области управленческих наук и инженерии), а также член группы НЛП и группы взаимодействия человека и компьютера в Стэнфордском университете под руководством профессора Дэна. МакФарланд и Майкл Бернштейн.В 2018 году он получил степень бакалавра в области электронной инженерии в Университете Цинхуа с отличием.С 2015 года работал научным сотрудником в Университете Цинхуа под руководством профессора Ли Юна и профессора Василиса Костакоса (Университет Мельбурна). Осенью 2016 года он работал под руководством профессора Ханана Самета, заслуженного профессора Университета Мэриленда. Летом 2017 года он работал студентом по обмену и научным сотрудником в группе динамики человека в медиалаборатории Массачусетского технологического института под руководством Алекса «Сэнди» Пентланда, профессора Сяовэнь Донг.Его исследовательские интересы включают вычислительную социальную науку, социальные вычисления и науку о данных.Использованная литература: