CMU та дослідники з Університету Цінхуа спільно випустили структуру 2Model, яка може швидко навчити невелику професійну модель на основі даних користувача. Вклавши лише 5 доларів США в збір даних і 20 хвилин навчання, ви можете отримати невелику модель, яка на 20% працює на 20% краще, ніж у середньому ChatGPT, зменшивши при цьому розмір параметрів моделі в 700 разів.
Джерело зображення: створено Unbounded AI
Широкомасштабні мовні моделі (LLM) дозволяють користувачам створювати потужні системи обробки природної мови за допомогою підказок і контекстного навчання. З іншої точки зору, однак, LLMs регресували в певних завданнях обробки природної мови: розгортання цих моделей вимагає багато обчислювальних ресурсів, і взаємодія з моделями через API може викликати потенційні проблеми конфіденційності.
У відповідь на ці проблеми дослідники з Університету Карнегі-Меллона (CMU) та Університету Цінхуа спільно запустили структуру 2Model. Метою цієї структури є поєднання методів генерації та пошуку даних на основі LLM для подолання вищезгаданих проблем. Використовуючи структуру 2Model, користувачі можуть автоматично збирати дані та ефективно навчати невеликі спеціалізовані моделі для конкретних завдань, просто надаючи ті самі підказки, що й LLM.
Дослідники провели експерименти з трьома підзадачами обробки природної мови. Взявши невелику кількість зразкових підказок як вхідні дані, збір даних і 20 хвилин навчання коштує лише 5 доларів США, модель, згенерована фреймворком 2Model, демонструє підвищення продуктивності на 20% порівняно з більш потужною моделлю LLM gpt-3.5-turbo. При цьому розміри моделі зменшили до 700 разів. Дослідники додатково перевірили вплив цих даних на продуктивність моделі в реальних сценаріях, дозволяючи розробникам моделі передбачити надійність моделі до розгортання. Фреймворк уже доступний у формі відкритого коду:
* Адреса репозиторію фреймворку GitHub:
*Відеопосилання на демонстрацію фреймворку:
Посилання на документи, пов’язані з фреймворком:
фон
Створення системи з нуля для конкретного завдання обробки природної мови часто досить складне. Розробник системи повинен чітко визначити обсяг завдання, отримати конкретний набір даних, вибрати відповідну архітектуру моделі, навчити та оцінити модель, а потім розгорнути її для практичного застосування.
Широкомасштабні мовні моделі (LLM), такі як GPT-3, забезпечують простіше вирішення цього процесу. Користувачам потрібно лише надати підказки до завдань (інструкції) та деякі приклади (приклади), і LLM може створити відповідний текстовий вихід. Однак генерування тексту з підказок може потребувати інтенсивних обчислень, а використання підказок не є таким стабільним, як спеціально навчена модель. Крім того, зручність використання LLM обмежена вартістю, швидкістю та конфіденційністю.
Щоб подолати ці проблеми, дослідники розробили структуру 2Model. Цей фреймворк поєднує генерацію даних на основі LLM із методами пошуку для вирішення вищезазначених обмежень. Система спочатку витягує з нього ключову інформацію, потім генерує та отримує навчальні дані, і, нарешті, створює спеціалізовану модель, готову до розгортання.
Фреймворк 2Model автоматизує такі основні кроки:
Отримання наборів даних і моделей: збирайте відповідні набори даних і попередньо навчені моделі.
Генерація набору даних: використовуйте LLM для створення наборів даних із псевдомітками.
Точне налаштування моделі: точне налаштування моделі шляхом змішування отриманих і згенерованих даних.
Тестування моделі: протестуйте модель на тестових наборах даних і реальних наборах даних, наданих користувачами.
Після емпіричної оцінки кількох різних завдань вартість 2Model значно зменшилася, і розмір моделі також значно зменшився, але продуктивність перевищує gpt-3.5-turbo. Фреймворк 2Model служить не тільки інструментом для ефективної побудови систем обробки природної мови, але також служить платформою для вивчення методів навчання модельного ансамблю.
Рамка
Основною особливістю фреймворку 2Model є високий ступінь автоматизації. Його процес охоплює кілька зв’язків, таких як збір даних, навчання моделі, оцінка та розгортання, як показано на малюнку вище. Серед них ключову роль відіграє автоматизована система збору даних, яка отримує дані, тісно пов’язані з потребами користувачів, шляхом пошуку набору даних і генерації даних на основі LLM. Потім система отримує попередньо навчену модель і точно налаштовує її на отриманому наборі даних. Нарешті, навчена модель оцінюється на тестовому наборі та створюється веб-інтерфейс користувача (UI) для взаємодії з моделлю.
Ключові особливості фреймворку 2Model включають:
Драйвер: основна ідея 2Model полягає в тому, щоб використовувати його як драйвер. Користувачі можуть безпосередньо описувати необхідні завдання, не вдаючись до конкретних деталей реалізації машинного навчання.
Автоматичний збір даних: структура використовує технологію пошуку та генерації набору даних для отримання даних, які точно відповідають завданням користувача, таким чином створюючи набори даних, необхідні для навчання.
Попередньо навчені моделі: фреймворк використовує попередньо навчені моделі та налаштовує їх, заощаджуючи багато часу та витрат на навчання.
Оцінка ефекту: 2Model підтримує тестування та оцінку моделі на фактичних наборах даних, уможливлюючи попередній прогноз та оцінку ефективності перед розгортанням моделі, тим самим підвищуючи надійність моделі.
Ці характеристики роблять структуру 2Model потужним інструментом для ефективного завершення процесу побудови систем обробки природної мови та надання розширених функцій, таких як автоматичний збір даних, оцінка моделі та створення інтерфейсу користувача.
Експеримент і результати
З точки зору дизайну експерименту, дослідники вибрали три різні завдання для оцінки продуктивності системи 2Model:
Машинне зчитування QA: використовуйте SQuAD як фактичний набір даних оцінки.
Перетворення японського NL в код (Japanese NL-to-Code): використовуйте MCoNaLa як фактичний набір даних оцінки.
Нормалізація тимчасового виразу: використовуйте набір часових даних як фактичний набір даних оцінки.
Крім того, дослідники також вибрали GPT-3.5-turbo як еталонну модель для порівняння. Результати експерименту дозволяють зробити такі висновки:
У всіх завданнях, крім завдання генерації коду, модель, згенерована системою 2Model, значно краща, ніж базова модель GPT-3.5-turbo, хоча розмір параметра згенерованої моделі набагато менший, ніж у GPT-3.5-turbo.
Змішуючи набір отриманих даних і згенерований набір даних для навчання, ви можете досягти результатів, порівнянних із навчанням безпосередньо за допомогою фактичного набору даних. Це підтверджує, що фреймворк 2Model може значно знизити вартість анотацій вручну.
Тестовий набір даних, згенерований генератором даних, може ефективно розрізняти продуктивність різних моделей на фактичних наборах даних. Це вказує на те, що згенеровані дані мають високу якість і достатню ефективність у навчанні моделі.
У завданні перетворення японського коду система 2Model працює гірше, ніж GPT-3.5-turbo.
Це може бути пов’язано з такими причинами, як низька якість згенерованих наборів даних і відсутність відповідних попередньо навчених моделей.
У сукупності система 2Model успішно створює високоякісні невеликі моделі для багатьох завдань, значно зменшуючи потребу в анотованих даних вручну. Однак для деяких завдань все ще потрібні подальші вдосконалення.
Підсумуйте
Фреймворк 2Model, запроваджений дослідницькою групою, дозволяє автоматично будувати моделі для конкретних завдань лише за допомогою підказок природної мови. Це нововведення значно знижує поріг для побудови налаштованих моделей обробки природної мови та ще більше розширює діапазон застосування технології NLP.
Результати перевірочного експерименту показують, що модель, згенерована фреймворком 2Model, значно менша, ніж модель великої мови, і вона перевершує такі моделі, як GPT-3.5-turbo, у багатьох завданнях. У той же час набір оціночних даних, згенерований цією структурою, також підтвердив свою ефективність для оцінки ефективності різних моделей на реальних наборах даних. Це забезпечує значну цінність у керуванні остаточним розгортанням моделі.
Фреймворк 2Model забезпечує недорогий, простий у використанні підхід для галузей і користувачів для отримання моделей NLP, які відповідають конкретним потребам. Це має велике значення для сприяння широкому застосуванню технології НЛП. Майбутня робота буде зосереджена на подальшій оптимізації продуктивності фреймворку.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
За 1 інструкцію + 5 доларів США + 20 хвилин ви можете навчити маленьку професійну модель, _2Model дізнайтеся більше
Широкомасштабні мовні моделі (LLM) дозволяють користувачам створювати потужні системи обробки природної мови за допомогою підказок і контекстного навчання. З іншої точки зору, однак, LLMs регресували в певних завданнях обробки природної мови: розгортання цих моделей вимагає багато обчислювальних ресурсів, і взаємодія з моделями через API може викликати потенційні проблеми конфіденційності.
У відповідь на ці проблеми дослідники з Університету Карнегі-Меллона (CMU) та Університету Цінхуа спільно запустили структуру 2Model. Метою цієї структури є поєднання методів генерації та пошуку даних на основі LLM для подолання вищезгаданих проблем. Використовуючи структуру 2Model, користувачі можуть автоматично збирати дані та ефективно навчати невеликі спеціалізовані моделі для конкретних завдань, просто надаючи ті самі підказки, що й LLM.
Дослідники провели експерименти з трьома підзадачами обробки природної мови. Взявши невелику кількість зразкових підказок як вхідні дані, збір даних і 20 хвилин навчання коштує лише 5 доларів США, модель, згенерована фреймворком 2Model, демонструє підвищення продуктивності на 20% порівняно з більш потужною моделлю LLM gpt-3.5-turbo. При цьому розміри моделі зменшили до 700 разів. Дослідники додатково перевірили вплив цих даних на продуктивність моделі в реальних сценаріях, дозволяючи розробникам моделі передбачити надійність моделі до розгортання. Фреймворк уже доступний у формі відкритого коду:
фон
Створення системи з нуля для конкретного завдання обробки природної мови часто досить складне. Розробник системи повинен чітко визначити обсяг завдання, отримати конкретний набір даних, вибрати відповідну архітектуру моделі, навчити та оцінити модель, а потім розгорнути її для практичного застосування.
Широкомасштабні мовні моделі (LLM), такі як GPT-3, забезпечують простіше вирішення цього процесу. Користувачам потрібно лише надати підказки до завдань (інструкції) та деякі приклади (приклади), і LLM може створити відповідний текстовий вихід. Однак генерування тексту з підказок може потребувати інтенсивних обчислень, а використання підказок не є таким стабільним, як спеціально навчена модель. Крім того, зручність використання LLM обмежена вартістю, швидкістю та конфіденційністю.
Щоб подолати ці проблеми, дослідники розробили структуру 2Model. Цей фреймворк поєднує генерацію даних на основі LLM із методами пошуку для вирішення вищезазначених обмежень. Система спочатку витягує з нього ключову інформацію, потім генерує та отримує навчальні дані, і, нарешті, створює спеціалізовану модель, готову до розгортання.
Фреймворк 2Model автоматизує такі основні кроки:
Після емпіричної оцінки кількох різних завдань вартість 2Model значно зменшилася, і розмір моделі також значно зменшився, але продуктивність перевищує gpt-3.5-turbo. Фреймворк 2Model служить не тільки інструментом для ефективної побудови систем обробки природної мови, але також служить платформою для вивчення методів навчання модельного ансамблю.
Рамка
Ключові особливості фреймворку 2Model включають:
Ці характеристики роблять структуру 2Model потужним інструментом для ефективного завершення процесу побудови систем обробки природної мови та надання розширених функцій, таких як автоматичний збір даних, оцінка моделі та створення інтерфейсу користувача.
Експеримент і результати
З точки зору дизайну експерименту, дослідники вибрали три різні завдання для оцінки продуктивності системи 2Model:
Крім того, дослідники також вибрали GPT-3.5-turbo як еталонну модель для порівняння. Результати експерименту дозволяють зробити такі висновки:
Це може бути пов’язано з такими причинами, як низька якість згенерованих наборів даних і відсутність відповідних попередньо навчених моделей.
У сукупності система 2Model успішно створює високоякісні невеликі моделі для багатьох завдань, значно зменшуючи потребу в анотованих даних вручну. Однак для деяких завдань все ще потрібні подальші вдосконалення.
Підсумуйте
Фреймворк 2Model, запроваджений дослідницькою групою, дозволяє автоматично будувати моделі для конкретних завдань лише за допомогою підказок природної мови. Це нововведення значно знижує поріг для побудови налаштованих моделей обробки природної мови та ще більше розширює діапазон застосування технології NLP.
Результати перевірочного експерименту показують, що модель, згенерована фреймворком 2Model, значно менша, ніж модель великої мови, і вона перевершує такі моделі, як GPT-3.5-turbo, у багатьох завданнях. У той же час набір оціночних даних, згенерований цією структурою, також підтвердив свою ефективність для оцінки ефективності різних моделей на реальних наборах даних. Це забезпечує значну цінність у керуванні остаточним розгортанням моделі.
Фреймворк 2Model забезпечує недорогий, простий у використанні підхід для галузей і користувачів для отримання моделей NLP, які відповідають конкретним потребам. Це має велике значення для сприяння широкому застосуванню технології НЛП. Майбутня робота буде зосереджена на подальшій оптимізації продуктивності фреймворку.