Победить GPT-4 впервые? 70 миллиардов параметров Xwin-LM достигает вершины Стэнфордской альпаки_, модель 13B превосходит ChatGPT

Question

Источник: Синьчжиюань**Введение:** Первое место GPT-4 в Стэнфордском турнире «Альпака» фактически отняло «тёмная лошадка».Появилась первая модель, превзошедшая GPT-4 на Альпаке!В июне этого года, как только был объявлен список Альпака, GPT-4 заняла первое место с абсолютным лидерством, с коэффициентом выигрыша более 95%.Три месяца спустя темная лошадка по имени Xwin-LM фактически вытащила GPT-4, который прочно занимал первое место в списке, из ТОП-1?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2aa2d5066b-dd1a6f-6d2ef1) адрес проекта:Более того, Xwin-LM также завоевал три без исключения первые места в соревновании с моделями с одинаковыми параметрами:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-af4ec75598-dd1a6f-6d2ef1)> Xwin-LM-70B-V0.1: Процент побед над Davinci-003 в тесте Альпака достиг 95,57%, заняв первое место в Альпаке. Это также первая модель, превзошедшая GPT-4 на Альпаке. Кроме того, его процент побед над GPT-4 составляет 60,61.> Xwin-LM-13B-V0.1: Достигнут процент побед 91,76% на Альпаке, заняв первое место среди всех моделей 13B.> Xwin-LM-7B-V0.1: Достигнут процент побед 87,82% на Альпаке, заняв первое место среди всех моделей 7B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-36582fbdf2-dd1a6f-6d2ef1)## **Xwin-LM: 70 миллиардов параметров превосходят GPT-4**Xwin-LM настроен на основе Llama 2. Эта модель предназначена для разработки технологий согласования с открытым исходным кодом для больших языковых моделей, включая контролируемую точную настройку (SFT), модель вознаграждения (RM), выборку отклонения и усиление обратной связи с человеком. обучение (RLHF).Подождите.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e82e6b8adc-dd1a6f-6d2ef1) **1. Оценка эффективности**Исследователи оценили процент побед Xwin-LM над Text-Davinci-003, ChatGPT и GPT-4 на 805 задачах.Видно, что модель Xwin-LM 70B полностью доминировала в списке, став первой в оценке производительности индикаторов Alpaca, и впервые победила GPT-4 с процентом выигрыша 60,61% против GPT-4.Модели Xwin-LM других размеров, такие как Xwin-LM-13B-V0.1 и Xwin-LM-7B-V0.1, также значительно превосходят другие модели того же размера по производительности.Xwin-LM-7B-V0.1 даже превосходит более крупный Llama 2-13B-Chat.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3244aba5ef-dd1a6f-6d2ef1) **2. Сравнение случаев**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-062b82b341-dd1a6f-6d2ef1) В первом случае исследователи спросили GPT-4 и Xwin-LM:«Я поставила тарелку поверх яблок и отнесла ее из кухни в столовую. Где сейчас яблоки?»Ответ GPT-4:«Яблоко сейчас в ресторане, и когда вы несете тарелку из кухни в ресторан, оно оказывается под тарелкой».Тут GPT-4 дал ответ, лишенный здравого смысла.В реальной жизни существует гравитация.Яблоко под тарелкой остается в исходном состоянии и с тарелкой в ресторан не пойдет.Напротив, ответ Xwin-LM больше соответствует действительности, а также дает возможность привлечь Apple на кухню:«Яблоко все еще на кухне, потому что ты только что передвинул тарелку.Яблоки находятся под тарелкой, поэтому, если вы хотите отнести яблоки в ресторан, вам следует переместить яблоки прямо или положить яблоки на тарелку, а затем переместить тарелку в ресторан. "Во втором случае исследователи спросили GPT-4 и Xwin-LM:«Как сказать «добрый вечер» по-французски?»Ответ GPT-4:«По-французски «добрый вечер» переводится как «bonsoir».И ответ Xwin-LM:«На французском языке «добрый вечер» переводится как «бонсуар». Это приветствие используется вечером и ночью, обычно после 18:00.Это сочетание слов «бон» (что означает «хорошо») и «суар» (что означает «вечер»). Чтобы произнести это слово, скажите «кость-свар».Хотя ответ GPT-4 был правильным, Xwin-LM не только правильно ответил на вопрос, но также объяснил происхождение и произношение слова «добрый вечер» во французском выражении, предоставляя пользователю более подробную информацию.**3. Задачи НЛП**В следующей таблице Xwin-LM сравнивается с другими LLM по основным задачам НЛП.Видно, что производительность модели Xwin-LM-70B-V0.1 относительно высока во всех задачах, и особенно хорошо она работает в 5-кадровых задачах MMLU и 10-кадровых задачах HellaSwag.И в целом Xwin-LM-70B-V0.1 является лучшим по производительности.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0f088c927b-dd1a6f-6d2ef1) **4. Способность рассуждать**Исследователи предположили, что для получения желаемых результатов при использовании Xwin-LM для вывода необходимо строго придерживаться шаблона диалога для вывода.Xwin-LM использует формат подсказок, установленный Vicuna, и поддерживает многоходовой диалог.Чат между любопытным пользователем и помощником по искусственному интеллекту. Помощник дает полезные, подробные и вежливые ответы на вопросы пользователя. ПОЛЬЗОВАТЕЛЬ: Привет! АССИСТЕНТ: Здравствуйте. ПОЛЬЗОВАТЕЛЬ: Кто вы? АССИСТЕНТ: Я Xwin-LM.s>......**Пример обнимающегося лица***из трансформеров импортировать AutoTokenizer, AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1") tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "Чат между любопытным пользователем и помощником с искусственным интеллектом." "Помощник дает полезные, подробные и вежливые ответы на вопросы пользователя." "ПОЛЬЗОВАТЕЛЬ: Здравствуйте, вы можете мне помочь?" "ASSISTANT:")inputs = tokenizer(, return_tensors ="pt")samples = model.generate(**inputs, max_new_tokens=4096, temp=0,7)output = tokenizer.decode(samples [0] [inputs["input_ids"].shape [1] :],skip_special_tokens=True)print(output) *# Конечно! Я здесь, чтобы помочь. Пожалуйста, не стесняйтесь задавать вопросы или описывать возникшую у вас проблему, и я сделаю все возможное, чтобы помочь вам.***Пример VLLM**Поскольку Xwin-LM настроен на основе Llama 2, он также поддерживает использование VLLM для быстрого вывода.from vllm import LLM, SamplingParams( := "Чат между любопытным пользователем и помощником по искусственному интеллекту. " "Помощник дает полезные, подробные и вежливые ответы на вопросы пользователя. " "ПОЛЬЗОВАТЕЛЬ: Здравствуйте, можете мне помочь? " "ASSISTANT:")sampling_params = SamplingParams(temperature=0.7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], выборка_параметров)для вывода в выходах:=output. сгенерированный_текст = вывод.выходы [0] .text печать(сгенерированный_текст)## **Альпака: простота в использовании, быстрота, низкая стоимость, проверено человеческими комментариями**В качестве автоматического инструмента оценки LLM Alpaca объединяет AlpacaFarm и Aviary.С одной стороны, он использует тот же код, что и AlpacaFarm (кэширование/случайные перестановки/гиперпараметры), с другой стороны, он использует подсказку по сортировке, аналогичную Aviary.В то же время подсказки Aviary также были изменены, чтобы уменьшить склонность к более длительному результату.Команда заявила, что Альпака обладает выдающимися эффектами:- Согласованность с голосованием большинства людей, выше, чем у одного комментатора-человека.- Коэффициент выигрыша сильно коррелирует с человеческими комментариями (0,94).![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7163c6fdde-dd1a6f-6d2ef1) **- Коэффициент выигрыша**Выходные данные модели превосходят text-davinci-003 (т. е. справочный текст) для каждой инструкции.В частности, мы сначала собрали пары выходных данных желаемой модели для каждой инструкции из набора данных Альпака и соединили каждый выход с выходными данными эталонной модели (text-davinci-003) по той же инструкции.Затем эти выходные данные одновременно подаются на автоматический оценщик, позволяя ему судить, какой из них лучше (то есть, на основании предпочтений оценщика).Наконец, предпочтения всех инструкций в наборе данных усредняются, чтобы получить коэффициент выигрыша модели относительно text-davinci-003. Если две модели равны, то это считается половиной предпочтения.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e0c6c964e-dd1a6f-6d2ef1) Бумажный адрес:**- ОГРАНИЧЕНИЯ**Хотя Альпака обеспечивает эффективный способ сравнения способности модели следовать инструкциям, она не является золотым стандартом для всесторонней оценки способностей модели.Как подробно описано в статье AlpacaFarm, процент выигрышей автоматических аннотаторов зависит от длины. Хотя человеческие аннотации также страдают от этой предвзятости, неясно, повысят ли более длинные ответы полезность для последующих задач.Кроме того, оценочный набор AlpacaFarm хоть и разнообразен, но в основном состоит из простых инструкций.Наконец, Альпака не оценивает безопасность какой-либо модели.Использованная литература: