Скріншот документа Microsoft показав, що GPT-3.5 має лише 20 мільярдів параметрів? Коло ШІ було шоковане, а користувачі мережі кричали, що це обурливо!

Question

Першоджерело: Новий Чжиюань![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-305182ec3b-dd1a6f-69ad2a) Джерело зображення: Створено Unbounded AIGPT-3.5 має лише 20 мільярдів параметрів?Сьогодні велике модельне коло було підірвано скріншотом у газеті Microsoft, що відбувається?Буквально кілька днів тому Microsoft опублікувала статтю про arXiv, в якій запропонувала дрібномасштабну дифузійну модель всього з 75М параметрів - CodeFusion.З точки зору продуктивності, 75 мільйонів параметрів CodeFusion можна порівняти з сучасною моделлю 350M-175B за показниками точності топ-1.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acfed1ccb0-dd1a6f-69ad2a) Адреса:Робота над цією статтею дуже цікава, але що привертає загальну особливу увагу, так це -Коли автор порівнює ChatGPT (gpt-3.5-turbo), номінальна кількість параметрів становить лише 20В!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e997f2dfa9-dd1a6f-69ad2a) До цього всі здогадуються про кількість параметрів GPT-3,5 становили 175 мільярдів, що еквівалентно скороченню майже в десять разів!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f9a57eb606-dd1a6f-69ad2a) Згідно з одкровеннями цієї статті, користувачі мережі також звернулися до Вікіпедії, щоб оновити введення GPT-3.5 і безпосередньо змінили розмір параметра на 20B.Як тільки новина з'явилася, вона прямо з'явилася в гарячому пошуку Чжиху, і користувачі мережі вибухнули.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1151c7af0f-dd1a6f-69ad2a) Деякі люди сказали, поспішайте повернутися і дістаньте мою попередню публікацію в блозі про дистиляцію моделі, щоб переглянути та переглянути.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0c8dc90491-dd1a6f-69ad2a) ## **Це "улун" чи "факт"? **Як тільки одкровення користувачів мережі з'явилися, вони миттєво викликали бурхливі дискусії.Наразі подивитися прийшло понад 680 000 людей.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-03822c6176-dd1a6f-69ad2a) Старший брат сказав, що кілька авторів статті також використовують Twitter, і, за оцінками, пройде небагато часу, перш ніж вони пояснять це особисто.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ae81eab0f0-dd1a6f-69ad2a) З приводу цього загадкового "20В" у користувачів мережі теж різні думки.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a431a67d4a-dd1a6f-69ad2a) Деякі припускають, що це, швидше за все, помилка автора. Наприклад, спочатку це було 120В, або 200В.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-68d7626a77-dd1a6f-69ad2a) У поєднанні з різними оцінками в реальності дійсно існує багато невеликих моделей, які можуть досягти подібних результатів, як ChatGPT, наприклад, Mistral-7B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-41a9ceb875-dd1a6f-69ad2a) Можливо, це теж побічне підтвердження того, що GPT-3.5 дійсно не великий.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-507e9e6fc9-dd1a6f-69ad2a) Багато користувачів мережі також вважають, що параметри 20В можуть бути точними, і зітхнули:"Це неймовірно! Ні Falcon-180B, ні Llama2-70B не можуть зрівнятися з моделлю 20B».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-031d17ddca-dd1a6f-69ad2a) Деякі користувачі мережі також вважають, що GPT-3.5-Turbo є доопрацьованою версією GPT-3.5.І цей "витік" параметрів якраз підтверджує ті чутки про те, що GPT-3.5-Turbo не такий хороший, як старий GPT-3.5.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e40bddc14-dd1a6f-69ad2a) Однак, згідно з офіційною документацією OpenAI, за винятком text-davinci та code-davinci, які більше не використовуються, всі представники сімейства GPT-3.5 засновані на gpt-3.5-turbo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-60557d480b-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf126d0a67-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e05153a7a7-dd1a6f-69ad2a) ## **Microsoft випускає CodeFusion**Документ Microsoft, який показав, що GPT3.5 має лише 20B параметрів, хоче представити дифузійну модель для генерації коду.Дослідники оцінили CodeFusion, модель для завдання генерації коду для природної мови для правил умовного форматування (CF) Bash, Python і Microsoft Excel.Експерименти показали, що CodeFusion (всього 75М параметрів) за точністю топ-1 можна порівняти з найсучаснішим LLM (параметри 350M-175B), а також має відмінну продуктивність і співвідношення параметрів з точки зору точності топ-3 і топ-5.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-28bac32ec5-dd1a6f-69ad2a) **Архітектура моделі**CODEFUSION ВИКОРИСТОВУЄТЬСЯ ДЛЯ ЗАВДАНЬ ГЕНЕРАЦІЇ КОДУ, І ЙОГО НАВЧАННЯ ПОДІЛЯЄТЬСЯ НА ДВІ ФАЗИ, ПЕРШИЙ ЕТАП — ЦЕ ПОПЕРЕДНЄ НАВЧАННЯ БЕЗ НАГЛЯДУ, А ДРУГИЙ ЕТАП — ДООПРАЦЮВАННЯ ПІД НАГЛЯДОМ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-236bb1a5ff-dd1a6f-69ad2a) НА ПЕРШОМУ ЕТАПІ CODEFUSION ВИКОРИСТОВУЄ ФРАГМЕНТИ КОДУ БЕЗ МІТОК ДЛЯ НАВЧАННЯ ДЕШУМЕРА ТА ДЕКОДЕРА. Він також використовує тренувальний шар вбудовування, L, для вбудовування фрагментів коду в суміжні простори.НА ДРУГОМУ ЕТАПІ CODEFUSION ВИКОНУЄ КОНТРОЛЬОВАНЕ ТОНКЕ НАЛАШТУВАННЯ, ВИКОРИСТОВУЮЧИ ДАНІ З ПАР ТЕКСТ-КОД. На цьому етапі кодувальник, знешумлювач і декодер налаштовані на краще виконання завдання.КРІМ ТОГО, CODEFUSION СПИРАЄТЬСЯ НА ПОПЕРЕДНІ ДОСЛІДЖЕННЯ ДИФУЗІЇ ТЕКСТУ, ЩОБ ОБ'ЄДНАТИ ПРИХОВАНЕ ПРЕДСТАВЛЕННЯ D З ДЕКОДЕРА В МОДЕЛЬ. Це необхідно для підвищення продуктивності моделі. Під час процесу навчання, на різних етапах, модель вводить певний шум, а потім обчислює функцію втрат, щоб переконатися, що згенерований фрагмент коду більше відповідає очікуваному стандарту.ТАКИМ ЧИНОМ, CODEFUSION — ЦЕ НЕВЕЛИКА МОДЕЛЬ, ЯКА ВИКОНУЄ РОБОТУ З ГЕНЕРАЦІЇ КОДУ ТА ПОСТІЙНО ПОКРАЩУЄ СВОЮ ПРОДУКТИВНІСТЬ ЗА ДОПОМОГОЮ ДВОХ ФАЗ НАВЧАННЯ ТА ПОГЛИНАННЯ ШУМУ. Ця модель натхненна вивченням дифузії тексту та покращує функцію втрат, об'єднуючи приховане представлення декодера для кращого створення високоякісних фрагментів коду.## **Результати оцінювання**У наведеній нижче таблиці підсумовано продуктивність моделі CODEFUSION і кожної базової моделі в топ-1, топ-3 і топ-5 налаштувань.У топ-1 продуктивність CODEFUSION порівнянна, а в деяких випадках навіть краща, особливо в завданнях на Python, де лише GPT-3 (175B) працює трохи краще, ніж CODEFUSION (75M). Однак з точки зору топ-3 і топ-5 CODEFUSION значно перевершив всі базові моделі.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2f73f1df62-dd1a6f-69ad2a) У наведеній нижче таблиці наведено середні результати різноманітності CODEFUSION та авторегресійних моделей (включаючи T5, CodeT5, StarCoder, CodeGen та GPT-3) для кожного еталонного завдання, а також розглянуто результати, отримані першими 5 поколіннями кожної моделі.У ПОРІВНЯННІ З АВТОРЕГРЕСІЙНИМИ МОДЕЛЯМИ, CODEFUSION ГЕНЕРУЄ БІЛЬШ РІЗНОМАНІТНІ РЕЗУЛЬТАТИ І ПРАЦЮЄ КРАЩЕ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1289d29ab6-dd1a6f-69ad2a) В експерименті з абляцією автори зупинили процес знешумлення та згенерували фрагмент коду поточного стану в діапазоні кроку часу t∈[0, T]. Нормалізація відстані редагування рядка використовується для вимірювання результатів, отриманих для кожного такту часу (з кроком кожні 100 кроків).ТАКИЙ ПІДХІД ДОПОМАГАЄ УЗАГАЛЬНИТИ ТА ПРОДЕМОНСТРУВАТИ ПОКРОКОВИЙ ПРОГРЕС МОДЕЛІ CODEFUSION, ЯК ПОКАЗАНО НА МАЛЮНКУ НИЖЧЕ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-59696a2139-dd1a6f-69ad2a) З огляду на все це, яка саме кількість параметрів у GPT-3.5? Який технічний та інший зв'язок між GPT-4 і GPT-3.5?GPT-3.5 – це ансамбль невеликих експертних моделей чи універсальна модель? Він дистилюється більшою моделлю чи навчається на більших даних?Відповіді на ці питання будуть розкриті лише тоді, коли вони будуть по-справжньому відкритими.Ресурси: