Переможете GPT-4 вперше? 70 мільярдів параметрів Xwin-LM досягає вершини Stanford Alpaca_, модель 13B перевершує ChatGPT

Question

Джерело: Xinzhiyuan**Вступ:** Перше місце GPT-4 у Стенфордській альпаці фактично пограбувала темна конячка.З'явилася перша модель, яка перевершила GPT-4 на Альпаці!У червні цього року, як тільки було оголошено список Альпака, GPT-4 зайняв перше місце з абсолютним лідерством, з показником виграшу понад 95%.Через три місяці темна конячка на ім'я Xwin-LM фактично витіснила GPT-4, який міцно очолив список, із ТОП-1?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2aa2d5066b-dd1a6f-6d2ef1) адреса проекту:Більше того, Xwin-LM також виграв три без винятку першості в конкурсі з однаковими параметрами моделей:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-af4ec75598-dd1a6f-6d2ef1)> Xwin-LM-70B-V0.1: коефіцієнт перемоги над Davinci-003 у тесті Alpaca досяг 95,57%, ставши першим у рейтингу Alpaca. Це також перша модель, яка перевершила GPT-4 на Alpaca. Крім того, його виграш проти GPT-4 становить 60,61.> Xwin-LM-13B-V0.1: досягнуто 91,76% виграшу на Alpaca, посів перше місце серед усіх моделей 13B.> Xwin-LM-7B-V0.1: досягнуто показника виграшу 87,82% на Alpaca, посів перше місце серед усіх моделей 7B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-36582fbdf2-dd1a6f-6d2ef1)## **Xwin-LM: 70 мільярдів параметрів перевершують GPT-4**Xwin-LM налаштовано на основі Llama 2. Ця модель розроблена для розробки технологій вирівнювання з відкритим кодом для великих мовних моделей, включаючи контрольоване тонке налаштування (SFT), модель винагороди (RM), вибірку відхилень і посилення зворотного зв’язку людини навчання (RLHF).чекати.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e82e6b8adc-dd1a6f-6d2ef1) **1. Оцінка продуктивності**Дослідники оцінили коефіцієнт перемоги Xwin-LM проти Text-Davinci-003, ChatGPT і GPT-4 у 805 задачах.Можна побачити, що модель 70B від Xwin-LM повністю домінувала в списку, ставши першою в оцінці ефективності показників Alpaca, і вперше перемогла GPT-4, з коефіцієнтом перемоги 60,61% проти GPT-4.Моделі інших розмірів Xwin-LM, такі як Xwin-LM-13B-V0.1 і Xwin-LM-7B-V0.1, також значно перевершують інші моделі такого ж розміру за продуктивністю.Xwin-LM-7B-V0.1 навіть перевершує більший Llama 2-13B-Chat.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3244aba5ef-dd1a6f-6d2ef1) **2. Порівняння випадків**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-062b82b341-dd1a6f-6d2ef1) У першому випадку дослідники запитали GPT-4 і Xwin-LM:"Я поставив тарілку на яблука і відніс тарілку з кухні в їдальню. Де зараз яблука?"Відповідь GPT-4:«Яблуко зараз у ресторані, і коли ви несете тарілку з кухні в ресторан, воно під тарілкою».Тут GPT-4 дав відповідь, в якій бракує здорового глузду. У реальному житті діє гравітація. Яблуко під тарілкою залишається в початковому стані і не піде з тарілкою в ресторан.На відміну від цього, відповідь Xwin-LM більше відповідає дійсності, а також дає можливість принести Apple на кухню:«Яблуко все ще на кухні, тому що ви щойно пересунули тарілку.Яблука знаходяться під тарілкою, тому, якщо ви хочете взяти яблука в ресторан, вам слід перенести яблука безпосередньо або покласти яблука на тарілку, а потім перенести тарілку в ресторан. "У другому випадку дослідники запитали GPT-4 і Xwin-LM:«Як сказати «добрий вечір» французькою?»Відповідь GPT-4:«По-французьки «добрий вечір» виражається як «bonsoir».І відповідь Xwin-LM:«Французькою «добрий вечір» перекладається як «bonsoir». Це вітання використовується ввечері та вночі, зазвичай після 18 години.Це поєднання "bon" (що означає добре) і "soir" (що означає вечір). Щоб вимовити його, скажіть «bone-swahr».Незважаючи на те, що відповідь GPT-4 була правильною, Xwin-LM не лише правильно відповів на запитання, але й пояснив походження та вимову «доброго вечора» у французькому виразі, надаючи користувачеві більш повну інформацію.**3. НЛП завдання**У наступній таблиці порівнюється Xwin-LM з іншими LLM щодо базових завдань НЛП.Можна побачити, що продуктивність моделі Xwin-LM-70B-V0.1 є відносно високою в усіх завданнях, і вона особливо добре працює в завданнях MMLU 5-shot і HellaSwag 10-shot.І на загальному рівні Xwin-LM-70B-V0.1 є найкращим показником.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0f088c927b-dd1a6f-6d2ef1) **4. Здатність міркувати**Дослідники припустили, що для отримання бажаних результатів при використанні Xwin-LM для логічного висновку необхідно суворо дотримуватися шаблону діалогу для висновку.Xwin-LM використовує формат підказок, встановлений Vicuna, і підтримує багатооборотний діалог.Чат між допитливим користувачем і помічником зі штучним інтелектом. Помічник дає корисні, докладні та ввічливі відповіді на запитання користувача. КОРИСТУВАЧ: Привіт! АСИСТЕНТ: Привіт.s>КОРИСТУВАЧ: Хто ви? ПОМІЧНИК: Я Xwin-LM.s>......**Приклад HuggingFace***з трансформаторів імпортувати AutoTokenizer, AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "Чат між цікавим користувачем і помічником зі штучним інтелектом. " "Помічник дає корисні, докладні та ввічливі відповіді на запитання користувача. " "КОРИСТУВАЧ: Привіт, чи можете ви мені допомогти? " "ПОМІЧНИК:")inputs = tokenizer(, return_tensors ="pt")samples = model.generate(**inputs, max_new_tokens=4096, temperature=0.7)output = tokenizer.decode(samples [0] [inputs["input_ids"].shape [1] :], skip_special_tokens=True)print(output) *# Звичайно! Я тут, щоб допомогти. Будь ласка, не соромтеся поставити своє запитання або опишіть проблему, яка у вас виникла, і я зроблю все можливе, щоб допомогти вам.***Приклад VLLM**Оскільки Xwin-LM налаштовано на основі Llama 2, він також підтримує використання VLLM для швидкого висновку.from vllm import LLM, SamplingParams( := "Чат між цікавим користувачем і помічником зі штучним інтелектом. " "Помічник дає корисні, докладні та ввічливі відповіді на запитання користувача. " "КОРИСТУВАЧ: Привіт, чи можете ви мені допомогти? ""ПОМІЧНИК:")sampling_params = SamplingParams(temperature=0,7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], параметри вибірки)для виведення у виходи: = вихід. створений_текст = вихід.виходи [0] .text print(generated_text)## **Альпака: простий у використанні, швидкий, низька вартість, перевірено людською анотацією**Як автоматичний інструмент оцінювання LLM, Alpaca поєднує в собі AlpacaFarm і Aviary.З одного боку, він використовує той самий код, що й AlpacaFarm (кешування/випадкові перестановки/гіперпараметри), з іншого боку, він використовує підказку для сортування, подібну до Aviary.У той же час, підказки Aviary також були змінені, щоб зменшити упередженість у бік довшого результату.Команда сказала, що Альпака має видатні ефекти:- Узгодженість із голосуванням більшості людей, вище, ніж один анотатор людини- Коефіцієнт виграшу сильно корелює з анотаціями людини (0,94)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7163c6fdde-dd1a6f-6d2ef1) **- Коефіцієнт виграшу**Вихід моделі перевершує text-davinci-003 (тобто текст посилання) на основі кожної інструкції.Зокрема, ми спочатку зібрали пари виходів потрібної моделі для кожної інструкції з набору даних Alpaca та поєднали кожен вивід із виходом еталонної моделі (text-davinci-003) за тією самою інструкцією.Потім ці вихідні дані одночасно передаються в автоматичний оцінювач, дозволяючи йому визначити, який з них кращий (тобто, уподобання оцінювача).Нарешті, переваги всіх інструкцій у наборі даних усереднюються, щоб отримати коефіцієнт виграшу моделі відносно text-davinci-003. Якщо обидві моделі однакові, то це вважається половинним перевагою.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e0c6c964e-dd1a6f-6d2ef1) Адреса паперу:**- ОБМЕЖЕННЯ**Хоча Альпака забезпечує ефективний спосіб порівняння здатності моделі виконувати інструкції, вона не є золотим стандартом для комплексної оцінки здатності моделі.Як зазначено в статті AlpacaFarm, коефіцієнт виграшу автоматичних анотаторів залежить від довжини. Хоча людські анотації також страждають від цієї упередженості, незрозуміло, чи підвищать довші відповіді корисність для подальших завдань.Крім того, оціночний набір AlpacaFarm, хоч і різноманітний, в основному складається з простих інструкцій.Нарешті, Alpaca не оцінює безпеку жодної моделі.Література: