С помощью 1 инструкции + 5 долларов США + 20 минут вы можете обучить небольшую профессиональную модель, _2Модель узнать больше

CMU и исследователи из Университета Цинхуа совместно выпустили платформу 2Model, которая позволяет быстро обучать небольшую профессиональную модель на основе данных пользователя. Вложив всего 5 долларов США в сбор данных и 20 минут обучения, вы можете получить небольшую модель, которая работает на 20% лучше, чем в среднем по ChatGPT, при этом уменьшив размер параметров модели в 700 раз.

Источник изображения: Создано Unbounded AI

Крупномасштабные языковые модели (LLM) позволяют пользователям создавать мощные системы обработки естественного языка с помощью подсказок и контекстного обучения. Однако с другой точки зрения LLM регрессировали в некоторых задачах обработки естественного языка: развертывание этих моделей требует много вычислительных ресурсов, а взаимодействие с моделями через API может вызвать потенциальные проблемы конфиденциальности.

Чтобы решить эти проблемы, исследователи из Университета Карнеги-Меллон (CMU) и Университета Цинхуа совместно запустили платформу 2Model. Целью этой структуры является объединение методов генерации и поиска данных на основе LLM для преодоления вышеуказанных проблем. Используя платформу 2Model, пользователям нужно только предоставлять те же подсказки, что и LLM, для автоматического сбора данных и эффективного обучения небольших специализированных моделей, подходящих для конкретных задач.

Исследователи провели эксперименты над тремя подзадачами обработки естественного языка. Принимая в качестве входных данных небольшое количество примеров подсказок, сбор данных стоит всего 5 долларов США и 20 минут обучения, модель, созданная с помощью платформы 2Model, показывает улучшение производительности на 20% по сравнению с более мощной моделью LLM gpt-3.5-turbo. При этом размер модели уменьшен до 700 раз. Исследователи также проверили влияние этих данных на производительность модели в реальных сценариях, что позволило разработчикам моделей прогнозировать надежность модели перед ее развертыванием. Фреймворк уже доступен с открытым исходным кодом:

* Адрес репозитория GitHub фреймворка:

  • Ссылка на демонстрационное видео Framework:
  • Ссылки на документы, касающиеся структуры:

фон

Построение системы с нуля для конкретной задачи НЛП обычно представляет собой довольно сложную задачу. Создателю системы необходимо четко определить объем задачи, получить конкретный набор данных, выбрать подходящую архитектуру модели, провести обучение и оценку модели, а затем развернуть ее для практического применения.

Крупномасштабные языковые модели (LLM), такие как GPT-3, обеспечивают более простое решение этого процесса. Пользователям нужно только предоставить подсказки к задачам (инструкции) и несколько примеров (примеров), и LLM может генерировать соответствующий текстовый вывод. Однако генерация текста из подсказок может потребовать больших вычислительных ресурсов, а использование подсказок не так стабильно, как специально обученная модель. Кроме того, удобство использования LLM ограничено стоимостью, скоростью и конфиденциальностью.

Чтобы преодолеть эти проблемы, исследователи разработали структуру 2Model. Эта структура сочетает в себе генерацию данных на основе LLM с методами поиска для устранения вышеупомянутых ограничений. Система сначала извлекает из него ключевую информацию, затем генерирует и извлекает обучающие данные и, наконец, создает специализированную модель, готовую к развертыванию.

Платформа 2Model автоматизирует следующие основные шаги:

  • Извлечение наборов данных и моделей: собирайте соответствующие наборы данных и предварительно обученные модели.
  • Генерация наборов данных: используйте LLM для создания наборов данных с псевдомаркировкой.
  • Точная настройка модели: точная настройка модели путем смешивания полученных и сгенерированных данных.
  • Тестирование модели: протестируйте модель на наборах тестовых и реальных данных, предоставленных пользователями.

После эмпирической оценки множества различных задач стоимость 2Model значительно снижается, а размер модели также значительно уменьшается, но производительность превосходит gpt-3.5-turbo. Платформа 2Model не только служит инструментом для эффективного построения систем обработки естественного языка, но также служит платформой для изучения методов обучения ансамбля моделей.

Рамки

Основной особенностью платформы 2Model является высокая степень автоматизации. Его процесс охватывает множество звеньев, таких как сбор данных, обучение модели, оценка и развертывание, как показано на рисунке выше. Среди них ключевую роль играет автоматизированная система сбора данных. Она получает данные, тесно связанные с потребностями пользователей, посредством поиска наборов данных и генерации данных на основе LLM. Затем система извлекает предварительно обученную модель и настраивает ее на основе полученного набора данных. Наконец, обученная модель оценивается на тестовом наборе и создается веб-интерфейс пользователя (UI) для взаимодействия с моделью.

Ключевые особенности платформы 2Model включают в себя:

  • Драйвер: Основная идея 2Model заключается в том, чтобы использовать его в качестве драйвера, и пользователи могут напрямую описывать необходимые задачи без необходимости разбираться в конкретных деталях реализации машинного обучения.
  • Автоматический сбор данных: платформа использует технологию поиска и генерации наборов данных для получения данных, которые полностью соответствуют задачам пользователя, тем самым создавая наборы данных, необходимые для обучения.
  • Предварительно обученные модели. Платформа использует предварительно обученные модели и настраивает их, экономя много затрат и времени на обучение.
  • Оценка эффекта: 2Model поддерживает тестирование и оценку модели на фактических наборах данных, позволяя предварительно прогнозировать и оценивать производительность перед развертыванием модели, тем самым повышая ее надежность.

Эти характеристики делают инфраструктуру 2Model мощным инструментом, который может эффективно завершить процесс построения систем обработки естественного языка и предоставить расширенные функции, такие как автоматический сбор данных, оценка модели и создание интерфейсов взаимодействия с пользователем.

Эксперименты и результаты

Что касается планирования эксперимента, исследователи выбрали три разные задачи для оценки производительности системы 2Model:

  • Машинное чтение QA: используйте SQuAD в качестве фактического набора данных для оценки.
  • Преобразование японского NL в код (японский NL в код): используйте MCoNaLa в качестве фактического набора оценочных данных.
  • Нормализация временных выражений: используйте набор временных данных в качестве фактического набора данных оценки.

Кроме того, исследователи также выбрали GPT-3.5-turbo в качестве эталонной модели для сравнения. Результаты эксперимента позволяют сделать следующие выводы:

  • Во всех задачах, кроме задачи генерации кода, модели, сгенерированные системой 2Model, значительно лучше базовой модели GPT-3.5-turbo, хотя масштаб параметров сгенерированной модели значительно меньше, чем у GPT-3.5-turbo.
  • Смешивая набор поисковых данных и сгенерированный набор данных для обучения, можно добиться результатов, сравнимых с обучением непосредственно с использованием фактического набора данных. Это подтверждает, что платформа 2Model может значительно снизить стоимость ручного аннотирования.
  • Набор тестовых данных, сгенерированный генератором данных, позволяет эффективно различать производительность различных моделей на реальном наборе данных. Это указывает на то, что сгенерированные данные имеют высокое качество и имеют достаточный эффект с точки зрения обучения модели.
  • В задаче преобразования японского кода в код система 2Model работает хуже, чем GPT-3.5-turbo.

Это может быть связано с такими причинами, как низкое качество сгенерированных наборов данных и отсутствие соответствующих предварительно обученных моделей.

В совокупности система 2Model успешно генерирует высококачественные небольшие модели для множества задач, что значительно снижает необходимость ручного аннотирования данных. Однако по некоторым задачам все еще необходимы дальнейшие улучшения.

Подведем итог

Платформа 2Model, запущенная исследовательской группой, реализует функцию автоматического построения моделей для конкретных задач только с помощью подсказок на естественном языке. Это нововведение значительно снижает порог построения индивидуальных моделей обработки естественного языка и еще больше расширяет сферу применения технологии НЛП.

Результаты проверочного эксперимента показывают, что модель, созданная с помощью платформы 2Model, значительно меньше по размеру, чем большие языковые модели, и превосходит такие модели, как GPT-3.5-turbo, при выполнении нескольких задач. В то же время набор оценочных данных, созданный с помощью платформы, также оказался эффективным при оценке эффективности различных моделей на реальных наборах данных. Это обеспечивает значительную ценность при окончательном развертывании модели.

Платформа 2Model обеспечивает недорогой и простой в использовании подход для отрасли и широкого круга пользователей, позволяющий получить модели НЛП, отвечающие конкретным потребностям. Это имеет большое значение для содействия широкому применению технологии НЛП. Будущая работа будет по-прежнему сосредоточена на дальнейшей оптимизации производительности платформы.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить