С момента появления ChatGPT по всему миру идет «гонка вооружений» за большие модели. По имеющимся данным, с января по июль этого года в Китае было выпущено в общей сложности 64 большие модели. По состоянию на июль 2023 года в Китае было выпущено в общей сложности 130 крупных моделей.
«Сто образцов войны» недостаточно, чтобы описать сегодняшнюю палящую «военную ситуацию», так какая же большая модель лучше? Это неотделимо от оценки больших моделей.
Однако на данном этапе не существует признанного и эффективного метода оценки, что привело к «войне списков» в области оценки больших моделей в стране и за рубежом. Неполная статистика, в настоящее время на рынке представлено не менее 50 оценочных инструментов (систем), и результаты подобных списков могут сильно различаться. Сомнения общественности по поводу «точек причесывания» бесконечны.
** В отрасли принято считать, что существует два критерия проявления для оценки большой модели: один — количество параметров, а другой — набор оценки. **
Так называемое количество параметров относится к количеству параметров, которые могут быть изучены в модели, включая вес и смещение модели. Размер количества параметров определяет сложность модели, а большее количество параметров и количество слоев являются отличительными признаками, отличающими большие модели от маленьких. В 2022 году будет представлена партия крупных моделей в США, от выпущенной Stability AI Diffusion, генеративной модели из текста в изображения, до ChatGPT, запущенного OpenAI, масштаб параметров модели начал входить в эпоху десятков миллиардов и сотен миллиардов.
** С точки зрения поверхностных индикаторов, модели с сотнями миллиардов параметров, как правило, работают лучше, чем десятки миллиардов параметров. Однако это не абсолютно, и параметры кучи не обязательно улучшают возможности. Итак, как модель с одинаковым уровнем параметров должна различать хорошее и плохое? Это требует введения второго оценочного измерения большой модели - оценочного набора.
Оценочный набор представляет собой однозадачный или многозадачный унифицированный эталонный набор данных, построенный для эффективной оценки комплексного эффекта базовой модели и алгоритма ее тонкой настройки в различных сценариях и разных задачах, и имеет две формы: открытую и закрытую.
** Эти оценочные наборы похожи на экзаменационные работы для различных областей, и, тестируя баллы больших моделей в этих «экзаменационных работах», люди могут более интуитивно сравнивать производительность больших моделей. **
В эпоху малых моделей большинство модельных институтов будут использовать эффект академических оценочных наборов в качестве основы для оценки качества моделей. В настоящее время крупные производители моделей также начали более активно участвовать в академическом бенчмаркинге, рассматривая его как авторитетную рекламную и маркетинговую основу.
На рынке представлено множество больших оценочных наборов моделей, таких как MMLU, китайская оценочная модель C-, SuperCLUE и т. Д.
-1- Инструмент оценки
ММЛУ
Massive Multitask Language Understanding, оценка понимания речи для больших моделей, является одной из самых известных оценок семантического понимания для больших моделей, запущенной исследователями из Калифорнийского университета в Беркли в сентябре 2020 года. **Тест охватывает 57 заданий, включая элементарную математику, историю США, информатику, право и многое другое. ** Задание охватывает широкий спектр знаний и составляется на английском языке для оценки охвата базовых знаний и понимания большой модели.
Адрес доклада:
Официальный сайт:
Таблица лидеров Big Model:
С-
C- - это комплексный набор для оценки базовой модели на китайском языке. Совместно запущенный исследователями из Шанхайского университета Цзяотун, Университета Цинхуа и Эдинбургского университета в мае 2023 года, он содержит 13 948 вопросов с несколькими вариантами ответов**, охватывающих 52 различные дисциплины и четыре уровня сложности** для измерения понимания больших китайских моделей.
Адрес доклада:
Адрес проекта:
Официальный сайт:
СуперПОДСКАЗКА
Китайский комплексный оценочный тест общих больших моделей, возможности моделей оцениваются по трем различным измерениям: базовые способности, профессиональные способности и китайские характерные способности.
Среди них к базовым способностям относятся: ** Семантическое понимание, диалог, логическое рассуждение, моделирование ролей, кодирование, генерация и создание и другие 10 способностей. **
Профессиональные компетенции включают: Включает в себя средние, университетские и профессиональные экзамены, охватывающие более 50 компетенций от математики, физики, географии до социальных наук.
Способность китайской характеристики: Для заданий с китайской спецификой она включает в себя более 10 способностей, таких как китайские идиомы, поэзия, литература и глифы.
Адрес проекта:
Официальный сайт:
Список SuperCLUE Langya
Китайский универсальный бенчмарк анонимной оценки боя большой модели, такой же, как и ChatbotArena, краудсорсинг различных продуктов больших моделей для анонимной и случайной оценки противостояния, результаты основаны на рейтинговой системе Эло.
Адрес проекта:
Либ
Арена чат-ботов
ChatbotArena — это эталонная платформа для больших языковых моделей (LLM) от LMSYS Org, исследовательской организации, основанной Калифорнийским университетом в Беркли, Калифорнийским университетом в Сан-Диего и Университетом Карнеги-Меллона.
** Бенчмарк-платформа LLM для анонимных случайных совпадений на краудсорсинговой основе. **Войдите на боевую платформу через адрес демо-опыта. Введите интересующий вас вопрос, после отправки вопроса анонимная модель будет играть в парах, чтобы генерировать релевантные ответы соответственно, требуя от пользователей оценить ответы и выбрать один из 4 вариантов оценки: модель А лучше, модель Б лучше, ничья и все плохо. Поддержка нескольких раундов разговора. Наконец, система подсчета очков Эло используется для всесторонней оценки возможностей больших моделей. (Вы можете указать модель самостоятельно, чтобы увидеть эффект, но он не будет учитываться в итоговом рейтинге).
Адрес проекта:
Официальный сайт:
Флаг
Flag — это платформа для оценки крупномасштабных моделей, использующая трехмерную систему оценки «capability-task-index»** для предоставления всесторонних и подробных результатов оценки. Платформа предоставила более 30 способностей, 5 заданий и 4 категории показателей, всего более 600 измерений комплексной оценки, в том числе 22 набора данных субъективной и объективной оценки и 84433 вопроса.
На первом этапе Flag была запущена система оценки моделей на большом языке, многоязычный инструмент оценки больших моделей с открытым исходным кодом mCLIP- и инструмент оценки генерации текста и изображений с открытым исходным кодом Image. Libra также продолжит изучать перекрестные исследования оценки языковых моделей и психологии, образования, этики и других социальных дисциплин, чтобы оценить языковую модель более научно и всесторонне. Флаг, предназначенный для крупных разработчиков и пользователей моделей, призван помочь командам разработчиков понять слабые стороны своих моделей и стимулировать технологические инновации.
Адрес проекта:
Официальный сайт:
ОткрытыйКомпас
В августе 2023 года Шанхайская лаборатория искусственного интеллекта (Shanghai AI Lab) официально запустила открытую систему оценки больших моделей OpenCompass, которая поддерживает универсальную оценку различных моделей больших языковых моделей и мультимодальных моделей с помощью полной воспроизводимой среды оценки с открытым исходным кодом** и регулярно публикует список результатов оценки.
Официальный сайт:
Адрес проекта:
JioNLP
Для изучения эффекта помощи и вспомогательной способности модели LLM для пользователей-людей, может ли она достичь уровня «умного помощника», из различных профессиональных экзаменов в материковом Китае были выведены вопросы с несколькими вариантами ответов, ориентированные на охват объективных знаний о модели, составляющие 32%; Субъективные вопросы взяты из ежедневных сводок и в основном исследуют влияние пользователей на общие функции LLM.
Адрес проекта:
Измерение наборов данных
Оценка большой модели безопасности Цинхуа
Коллекция обзоров, собранных Цинхуа, охватывает восемь категорий, включая язык вражды, предвзятые и дискриминационные высказывания, преступление и закон, неприкосновенность частной жизни, этику и мораль, включая более 40 категорий безопасности второго уровня, разделенных на детализированные категории**.
Адрес:
ЛЛМ-3
Запущенный Лабораторией НЛП Фуданьского университета, он фокусируется на оценке профессиональных знаний и способностей, охватывая 13 дисциплин и более 50 дисциплин второго уровня, определенных Министерством образования, таких как философия, экономика, право, образование, литература, история, наука, инженерия, сельское хозяйство, медицина, военная наука, менеджмент, искусство и т. д., в общей сложности около 20 Вт стандартных генеративных вопросов и ответов. Для того, чтобы предотвратить возникновение феномена зачистки рейтингов, в оценке LLM-3 используется новый режим оценки, а именно режим «экзамена с банком вопросов».
Адрес:
ГАОКАО-Скамья
GAOKAO-bench — это система оценивания, которая использует вопросы для вступительных экзаменов в китайский колледж в качестве набора данных для оценки способности понимать язык и способности к логическому мышлению больших моделей.
Адрес проекта:
PandaLM
Он напрямую обучает автоматизированную модель оценки и оценивает две модели-кандидата по трехбалльной системе 0.1.2.
Адрес проекта:
БИГ-скамья
Коллекция обзоров, опубликованных Google, состоит из 204 заданий по таким темам, как лингвистика, развитие ребенка, математика, здравый смысл, биологическая физика, социальная предвзятость, разработка программного обеспечения и многое другое.
Адрес проекта:
ММКУ
Oracle Yi AI Research Institute предлагает тест для измерения точности китайских больших моделей в работе с многозадачностью, и тестовое содержание набора данных охватывает четыре основные области: медицина, право, психология и образование. **Количество вопросов достигло 10 000+, в том числе 2819 вопросов в области медицины, 3695 вопросов в области права, 2001 вопрос в области психологии и 3331 вопрос в области образования.
Адрес проекта:
ДЕЙСТВОВАЛ
Тест оценки компетенций Microsoft Big Model Basic Competency Assessment Benchmark, запущенный в апреле 2023 года, в основном измеряет общие способности больших моделей в человеческом познании и решении проблем, охватывая 20 официальных, публичных и высококачественных вступительных и квалификационных экзаменов для обычных кандидатов по всему миру, включая данные на китайском и английском языках. Поэтому тест больше ориентирован на результаты тестов на человека, охватывая как китайский, так и английский языки.
Адрес доклада:
GSM8K
Большая модель OpenAI, Mathematical Reasoning Proficiency Assessment Benchmark, охватывает 8500 высококачественных наборов данных математических задач на уровне средней школы. Набор данных больше, чем предыдущий набор данных для математических текстовых задач, язык более разнообразен, а вопросы более сложны. Тест был выпущен в октябре 2021 года и остается очень сложным тестовым бенчмарком.
Адрес доклада:
РУЛЬ
Метод оценки HELM в основном включает в себя три модуля: сцена, адаптация и индикаторы**, и в каждом запуске оценки необходимо указать сцену, запрос для модели адаптации и один или несколько индикаторов. Он в основном охватывает английский язык с 7 показателями, включая точность, неопределенность/калибровку, надежность, справедливость, предвзятость, токсичность и эффективность вывода; Задачи включают вопросы и ответы, поиск информации, рефераты, классификацию текста и многое другое.
Адрес доклада:
Адрес проекта:
Китайский-LLalA-Альпака
Он оценивается как относительная величина, при этом предпочтение отдается GPT4 и частично ChatGPT3.
Адрес проекта:
МТ-скамья
Оцените возможности многооборотного диалога и следования инструкциям больших моделей. Набор данных включает в себя 80 (8категория*10 вопросов) высококачественных многораундовых диалоговых вопросов, на каждый из которых отвечают 6 известных больших моделей (GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B и LLaMA-13B), отсортированных вручную для получения 3,3 тыс. парных пар.
Адрес доклада:
Судейство LLM-as-a-judge с помощью MT-Bench и Chatbot Arena
GitHub
Адрес проекта:
/дерево/главная/fastchat/llm_judge
Адрес для скачивания данных:
-2- Режим оценки
С помощью приведенных выше инструментов оценки было обнаружено, что существующие распространенные режимы оценки больших моделей можно условно разделить на четыре типа:
**1. Оценивайте вопросы. ** В основном собирают различные оценочные наборы данных, а затем разделяют наборы данных по различным измерениям. При разработке некоторых задач, которые позволяют большим моделям выполнять эти наборы данных, баллы вычисляются по стандартным ответам. Типичными примерами являются OpenCompass, таблица лидеров openLLM от huggingface и т. д.
**2. Пусть судьей будет GPT-4. Соберите наборы данных для оценки (некоторые наборы данных, которые не имеют открытого исходного кода и не имеют стандартных ответов, также будут включены), а затем позвольте GPT-4 оценить результаты генерации большой модели. Есть два способа оценить этот процесс оценки: один — оценить напрямую, а другой — разработать некоторые параметры, такие как факты, точность, соответствие требованиям безопасности и т. д., а затем оценить их на более детальном уровне.
**3. Режим арены. **Похоже на арену в соревновательной игре. Каждый раз, когда две большие модели играют PK, пользователь (иногда GPT-4) оценивает, какая модель лучше, выигрышная большая модель получает дополнительные очки, а проигравшая крупная модель имеет минус. Когда будет выполнено достаточное количество раундов PK, будет произведено ранжирование больших моделей, которое является относительно справедливым и может объективно отражать силу модели. Типичным примером является таблица лидеров Chatbot Arena Калифорнийского университета в Беркли.
**4. Оценка индивидуальных компетенций. Например, для математических способностей, способностей к программированию, способности к рассуждению и т. д. оценка этих способностей может не только определить, действительно ли большая модель обладает способностью к мышлению, подобной человеческой, но и напрямую помочь выбрать большие модели (например, помощники по коду) в конкретных областях.
-3- Результаты оценки "очень разные"
Существует множество различных инструментов оценки, и результаты оценки разных инструментов оценки также «очень разные».
15 августа был опубликован отчет об опыте работы с большими моделями искусственного интеллекта, в котором была проведена горизонтальная оценка опыта использования отечественных основных крупных моделей. В списке оценивались 8 основных моделей искусственного интеллекта в Китае с 500 вопросами, и, наконец, Сюньфэй Синхуо занял первое место, Baidu Wenxin — второе, а Али Тунъи Цяньвэнь — второе с конца.
В сентябре, в последнем выпуске популярного оценочного списка с открытым исходным кодом C-последнем выпуске списка, большая модель Yuntian Lifei «Yuntianshu» заняла первое место, в то время как GPT-4 заняла только десятое место.
В том же месяце SuperCLUE опубликовал свой сентябрьский список больших моделей. GPT-4 занял первое место в общем списке, в то время как SenseChat 3.0 от SenseTime возглавил китайский список.
19 октября Стэнфордский университет опубликовал Индекс прозрачности базовых моделей за 2023 год, в котором оцениваются 10 основных базовых моделей прозрачности, при этом Llama 2 заняла первое место, а GPT-4 — третье.
Почему результаты различных инструментов рецензирования так сильно отличаются? Основные причины следующие:
**1.Каждый популярный набор академических обзоров имеет свою собственную направленность. ** Например, GSM8K и MMLU, которые чаще всего используются Meta, представляют собой тестовые наборы для разных уровней - первый - элементарная математика, второй - более продвинутые междисциплинарные вопросы и ответы. Точно так же, как ученики в классе сдают экзамены по разным предметам, большие модели, естественно, занимают разные места в разных списках.
**2.Увеличивается доля субъективных вопросов при оценке больших моделей. ** В текущем оценочном списке крупных моделей в стране и за рубежом идея сочетания субъективных вопросов и объективных вопросов общепризнана индустрией. Но проблема субъективных вопросов заключается в том, последовательны ли критерии оценки в сознании каждого. А «оценка человеческой команды» неизбежно упирается в потолок количества вопросов, а для больших оценок моделей, чем больше количество вопросов, тем эффективнее выводы.
**3. Вертикальная конкуренция между специализированными моделями и крупными моделями общего назначения приводит к искажению ранжирования. ** В реальном сценарии приземления корпоративным клиентам в производстве, здравоохранении, финансах и других отраслях необходимо выполнить вторичную тонкую настройку в соответствии со своими собственными базами данных при доступе к возможностям больших моделей. Это также означает, что результаты, полученные при непосредственном участии исходной общей большой модели в вертикальном поле вопросов и ответов, не могут представлять реальную производительность продукта большой модели в вертикальном поле.
**4. Феномен «чистки списка», вызванный тестовым набором с открытым исходным кодом. ** Многие новые большие модели могут превзойти GPT-4 в списке тестовых наборов с открытым исходным кодом, отчасти из-за подозрений в «чистке проблем». Например, C- в настоящее время раскрывается только вопрос, но ответ не раскрывается, и крупные производители моделей, участвующие в тесте, либо находят аннотатор данных, чтобы повторить вопрос, либо используют GPT-4 для повторного выполнения вопроса, а затем вычитают ответ для обучения большой модели, чтобы они могли получить полные оценки в соответствующем предметном тесте.
Могут ли наборы для рецензирования с закрытым исходным кодом избежать «чистки списка»? В противном случае, если оценочный набор с закрытым исходным кодом не обновляется, участвующие модели могут вытащить историческую историю из фонового режима, чтобы «сжульничать» и повторить проверенные вопросы. Это эквивалентно «ложному закрытому исходному коду».
**В ответ на вышеуказанные проблемы отрасль также изучает соответствующие решения. **
Например, из-за сложности согласованных критериев оценки субъективных вопросов при оценке больших моделей, а также из-за проблемы, связанной с тем, что «оценка человеческой команды» касается потолка количества вопросов, отрасль начала применять модель «оценка человека + GPT4». В Китае SuperCLUE решит рассматривать GPT4 как «учителя оценивания» и позволит ему присоединиться к человеческой команде, чтобы помочь в подсчете баллов.
Другой пример — проблема «чистки списка», инсайдеры отрасли считают, что «оценочный набор должен быть закрытым, чтобы не быть обманутым, но хорошая оценка большой модели должна быть открытой оценкой процесса, в которой всем удобно контролировать оценку». "
Некоторые люди также считают, что сделать процесс оценки большой модели публичным — это хорошая идея, но, учитывая справедливость и беспристрастность оценки, все равно должно быть большое количество закрытых оценочных наборов, и «закрытая книжная экспертиза» может по-настоящему оценить возможности модели.
Кроме того, существуют крупные модели оценки с защитой от кистей, такие как LLM-3, запущенный Лабораторией НЛП Фуданьского университета, в котором используется новый режим оценки, то есть режим «экзамена по банку вопросов». В LLM-3 каждая участвующая система должна выполнить случайную выборку из 1000 вопросов из общего банка вопросов в сравнении с моделью того же учреждения, чтобы гарантировать, что каждый вопрос оценки не дублируется. Процесс оценки будет проводиться в режиме онлайн, а отправка вопросов в одном раунде оценки будет осуществляться последовательно, то есть отправка следующего вопроса будет зависеть от ответа на предыдущий вопрос, чтобы избежать злонамеренного сканирования.
Поскольку большие модели охватывают широкий спектр областей и областей применения, индикаторы и методы оценки, на которые необходимо обращать внимание большим моделям в разных областях и приложениях, различны. Таким образом, различные учреждения и организации могут предлагать различные критерии и методы оценки для конкретных областей применения и потребностей. «Несмотря на то, что единого стандарта не существует, важность оценки заключается в том, чтобы предоставить способ оценки и сравнения производительности и эффективности различных больших моделей, а также помочь пользователям выбрать большую модель, которая соответствует их потребностям».
Вопрос о том, как сделать по-настоящему всестороннюю и всестороннюю оценку больших моделей, также «запутался» в академических кругах и промышленности. Тем не менее, авторитетные институты должны укреплять научные исследования, как можно скорее формировать консенсус, содействовать технологическому прогрессу и развитию промышленности.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Новые большие модели утверждают, что превосходят GPT-4 на каждом шагу, и мы собрали эти инструменты для обзора
Источник: ИИ-пионер
С момента появления ChatGPT по всему миру идет «гонка вооружений» за большие модели. По имеющимся данным, с января по июль этого года в Китае было выпущено в общей сложности 64 большие модели. По состоянию на июль 2023 года в Китае было выпущено в общей сложности 130 крупных моделей.
«Сто образцов войны» недостаточно, чтобы описать сегодняшнюю палящую «военную ситуацию», так какая же большая модель лучше? Это неотделимо от оценки больших моделей.
Однако на данном этапе не существует признанного и эффективного метода оценки, что привело к «войне списков» в области оценки больших моделей в стране и за рубежом. Неполная статистика, в настоящее время на рынке представлено не менее 50 оценочных инструментов (систем), и результаты подобных списков могут сильно различаться. Сомнения общественности по поводу «точек причесывания» бесконечны.
** В отрасли принято считать, что существует два критерия проявления для оценки большой модели: один — количество параметров, а другой — набор оценки. **
Так называемое количество параметров относится к количеству параметров, которые могут быть изучены в модели, включая вес и смещение модели. Размер количества параметров определяет сложность модели, а большее количество параметров и количество слоев являются отличительными признаками, отличающими большие модели от маленьких. В 2022 году будет представлена партия крупных моделей в США, от выпущенной Stability AI Diffusion, генеративной модели из текста в изображения, до ChatGPT, запущенного OpenAI, масштаб параметров модели начал входить в эпоху десятков миллиардов и сотен миллиардов.
** С точки зрения поверхностных индикаторов, модели с сотнями миллиардов параметров, как правило, работают лучше, чем десятки миллиардов параметров. Однако это не абсолютно, и параметры кучи не обязательно улучшают возможности. Итак, как модель с одинаковым уровнем параметров должна различать хорошее и плохое? Это требует введения второго оценочного измерения большой модели - оценочного набора.
Оценочный набор представляет собой однозадачный или многозадачный унифицированный эталонный набор данных, построенный для эффективной оценки комплексного эффекта базовой модели и алгоритма ее тонкой настройки в различных сценариях и разных задачах, и имеет две формы: открытую и закрытую.
** Эти оценочные наборы похожи на экзаменационные работы для различных областей, и, тестируя баллы больших моделей в этих «экзаменационных работах», люди могут более интуитивно сравнивать производительность больших моделей. **
В эпоху малых моделей большинство модельных институтов будут использовать эффект академических оценочных наборов в качестве основы для оценки качества моделей. В настоящее время крупные производители моделей также начали более активно участвовать в академическом бенчмаркинге, рассматривая его как авторитетную рекламную и маркетинговую основу.
На рынке представлено множество больших оценочных наборов моделей, таких как MMLU, китайская оценочная модель C-, SuperCLUE и т. Д.
-1- Инструмент оценки
ММЛУ
Massive Multitask Language Understanding, оценка понимания речи для больших моделей, является одной из самых известных оценок семантического понимания для больших моделей, запущенной исследователями из Калифорнийского университета в Беркли в сентябре 2020 года. **Тест охватывает 57 заданий, включая элементарную математику, историю США, информатику, право и многое другое. ** Задание охватывает широкий спектр знаний и составляется на английском языке для оценки охвата базовых знаний и понимания большой модели.
Адрес доклада:
Официальный сайт:
Таблица лидеров Big Model:
С-
C- - это комплексный набор для оценки базовой модели на китайском языке. Совместно запущенный исследователями из Шанхайского университета Цзяотун, Университета Цинхуа и Эдинбургского университета в мае 2023 года, он содержит 13 948 вопросов с несколькими вариантами ответов**, охватывающих 52 различные дисциплины и четыре уровня сложности** для измерения понимания больших китайских моделей.
Адрес доклада:
Адрес проекта:
Официальный сайт:
СуперПОДСКАЗКА
Китайский комплексный оценочный тест общих больших моделей, возможности моделей оцениваются по трем различным измерениям: базовые способности, профессиональные способности и китайские характерные способности.
Среди них к базовым способностям относятся: ** Семантическое понимание, диалог, логическое рассуждение, моделирование ролей, кодирование, генерация и создание и другие 10 способностей. **
Профессиональные компетенции включают: Включает в себя средние, университетские и профессиональные экзамены, охватывающие более 50 компетенций от математики, физики, географии до социальных наук.
Способность китайской характеристики: Для заданий с китайской спецификой она включает в себя более 10 способностей, таких как китайские идиомы, поэзия, литература и глифы.
Адрес проекта:
Официальный сайт:
Список SuperCLUE Langya
Китайский универсальный бенчмарк анонимной оценки боя большой модели, такой же, как и ChatbotArena, краудсорсинг различных продуктов больших моделей для анонимной и случайной оценки противостояния, результаты основаны на рейтинговой системе Эло.
Адрес проекта:
Либ
Арена чат-ботов
ChatbotArena — это эталонная платформа для больших языковых моделей (LLM) от LMSYS Org, исследовательской организации, основанной Калифорнийским университетом в Беркли, Калифорнийским университетом в Сан-Диего и Университетом Карнеги-Меллона.
** Бенчмарк-платформа LLM для анонимных случайных совпадений на краудсорсинговой основе. **Войдите на боевую платформу через адрес демо-опыта. Введите интересующий вас вопрос, после отправки вопроса анонимная модель будет играть в парах, чтобы генерировать релевантные ответы соответственно, требуя от пользователей оценить ответы и выбрать один из 4 вариантов оценки: модель А лучше, модель Б лучше, ничья и все плохо. Поддержка нескольких раундов разговора. Наконец, система подсчета очков Эло используется для всесторонней оценки возможностей больших моделей. (Вы можете указать модель самостоятельно, чтобы увидеть эффект, но он не будет учитываться в итоговом рейтинге).
Адрес проекта:
Официальный сайт:
Флаг
Flag — это платформа для оценки крупномасштабных моделей, использующая трехмерную систему оценки «capability-task-index»** для предоставления всесторонних и подробных результатов оценки. Платформа предоставила более 30 способностей, 5 заданий и 4 категории показателей, всего более 600 измерений комплексной оценки, в том числе 22 набора данных субъективной и объективной оценки и 84433 вопроса.
На первом этапе Flag была запущена система оценки моделей на большом языке, многоязычный инструмент оценки больших моделей с открытым исходным кодом mCLIP- и инструмент оценки генерации текста и изображений с открытым исходным кодом Image. Libra также продолжит изучать перекрестные исследования оценки языковых моделей и психологии, образования, этики и других социальных дисциплин, чтобы оценить языковую модель более научно и всесторонне. Флаг, предназначенный для крупных разработчиков и пользователей моделей, призван помочь командам разработчиков понять слабые стороны своих моделей и стимулировать технологические инновации.
Адрес проекта:
Официальный сайт:
ОткрытыйКомпас
В августе 2023 года Шанхайская лаборатория искусственного интеллекта (Shanghai AI Lab) официально запустила открытую систему оценки больших моделей OpenCompass, которая поддерживает универсальную оценку различных моделей больших языковых моделей и мультимодальных моделей с помощью полной воспроизводимой среды оценки с открытым исходным кодом** и регулярно публикует список результатов оценки.
Официальный сайт:
Адрес проекта:
JioNLP
Для изучения эффекта помощи и вспомогательной способности модели LLM для пользователей-людей, может ли она достичь уровня «умного помощника», из различных профессиональных экзаменов в материковом Китае были выведены вопросы с несколькими вариантами ответов, ориентированные на охват объективных знаний о модели, составляющие 32%; Субъективные вопросы взяты из ежедневных сводок и в основном исследуют влияние пользователей на общие функции LLM.
Адрес проекта:
Измерение наборов данных
Оценка большой модели безопасности Цинхуа
Коллекция обзоров, собранных Цинхуа, охватывает восемь категорий, включая язык вражды, предвзятые и дискриминационные высказывания, преступление и закон, неприкосновенность частной жизни, этику и мораль, включая более 40 категорий безопасности второго уровня, разделенных на детализированные категории**.
Адрес:
ЛЛМ-3
Запущенный Лабораторией НЛП Фуданьского университета, он фокусируется на оценке профессиональных знаний и способностей, охватывая 13 дисциплин и более 50 дисциплин второго уровня, определенных Министерством образования, таких как философия, экономика, право, образование, литература, история, наука, инженерия, сельское хозяйство, медицина, военная наука, менеджмент, искусство и т. д., в общей сложности около 20 Вт стандартных генеративных вопросов и ответов. Для того, чтобы предотвратить возникновение феномена зачистки рейтингов, в оценке LLM-3 используется новый режим оценки, а именно режим «экзамена с банком вопросов».
Адрес:
ГАОКАО-Скамья
GAOKAO-bench — это система оценивания, которая использует вопросы для вступительных экзаменов в китайский колледж в качестве набора данных для оценки способности понимать язык и способности к логическому мышлению больших моделей.
Адрес проекта:
PandaLM
Он напрямую обучает автоматизированную модель оценки и оценивает две модели-кандидата по трехбалльной системе 0.1.2.
Адрес проекта:
БИГ-скамья
Коллекция обзоров, опубликованных Google, состоит из 204 заданий по таким темам, как лингвистика, развитие ребенка, математика, здравый смысл, биологическая физика, социальная предвзятость, разработка программного обеспечения и многое другое.
Адрес проекта:
ММКУ
Oracle Yi AI Research Institute предлагает тест для измерения точности китайских больших моделей в работе с многозадачностью, и тестовое содержание набора данных охватывает четыре основные области: медицина, право, психология и образование. **Количество вопросов достигло 10 000+, в том числе 2819 вопросов в области медицины, 3695 вопросов в области права, 2001 вопрос в области психологии и 3331 вопрос в области образования.
Адрес проекта:
ДЕЙСТВОВАЛ
Тест оценки компетенций Microsoft Big Model Basic Competency Assessment Benchmark, запущенный в апреле 2023 года, в основном измеряет общие способности больших моделей в человеческом познании и решении проблем, охватывая 20 официальных, публичных и высококачественных вступительных и квалификационных экзаменов для обычных кандидатов по всему миру, включая данные на китайском и английском языках. Поэтому тест больше ориентирован на результаты тестов на человека, охватывая как китайский, так и английский языки.
Адрес доклада:
GSM8K
Большая модель OpenAI, Mathematical Reasoning Proficiency Assessment Benchmark, охватывает 8500 высококачественных наборов данных математических задач на уровне средней школы. Набор данных больше, чем предыдущий набор данных для математических текстовых задач, язык более разнообразен, а вопросы более сложны. Тест был выпущен в октябре 2021 года и остается очень сложным тестовым бенчмарком.
Адрес доклада:
РУЛЬ
Метод оценки HELM в основном включает в себя три модуля: сцена, адаптация и индикаторы**, и в каждом запуске оценки необходимо указать сцену, запрос для модели адаптации и один или несколько индикаторов. Он в основном охватывает английский язык с 7 показателями, включая точность, неопределенность/калибровку, надежность, справедливость, предвзятость, токсичность и эффективность вывода; Задачи включают вопросы и ответы, поиск информации, рефераты, классификацию текста и многое другое.
Адрес доклада:
Адрес проекта:
Китайский-LLalA-Альпака
Он оценивается как относительная величина, при этом предпочтение отдается GPT4 и частично ChatGPT3.
Адрес проекта:
МТ-скамья
Оцените возможности многооборотного диалога и следования инструкциям больших моделей. Набор данных включает в себя 80 (8категория*10 вопросов) высококачественных многораундовых диалоговых вопросов, на каждый из которых отвечают 6 известных больших моделей (GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B и LLaMA-13B), отсортированных вручную для получения 3,3 тыс. парных пар.
Адрес доклада:
Судейство LLM-as-a-judge с помощью MT-Bench и Chatbot Arena
GitHub
Адрес проекта:
/дерево/главная/fastchat/llm_judge
Адрес для скачивания данных:
-2- Режим оценки
С помощью приведенных выше инструментов оценки было обнаружено, что существующие распространенные режимы оценки больших моделей можно условно разделить на четыре типа:
**1. Оценивайте вопросы. ** В основном собирают различные оценочные наборы данных, а затем разделяют наборы данных по различным измерениям. При разработке некоторых задач, которые позволяют большим моделям выполнять эти наборы данных, баллы вычисляются по стандартным ответам. Типичными примерами являются OpenCompass, таблица лидеров openLLM от huggingface и т. д.
**2. Пусть судьей будет GPT-4. Соберите наборы данных для оценки (некоторые наборы данных, которые не имеют открытого исходного кода и не имеют стандартных ответов, также будут включены), а затем позвольте GPT-4 оценить результаты генерации большой модели. Есть два способа оценить этот процесс оценки: один — оценить напрямую, а другой — разработать некоторые параметры, такие как факты, точность, соответствие требованиям безопасности и т. д., а затем оценить их на более детальном уровне.
**3. Режим арены. **Похоже на арену в соревновательной игре. Каждый раз, когда две большие модели играют PK, пользователь (иногда GPT-4) оценивает, какая модель лучше, выигрышная большая модель получает дополнительные очки, а проигравшая крупная модель имеет минус. Когда будет выполнено достаточное количество раундов PK, будет произведено ранжирование больших моделей, которое является относительно справедливым и может объективно отражать силу модели. Типичным примером является таблица лидеров Chatbot Arena Калифорнийского университета в Беркли.
**4. Оценка индивидуальных компетенций. Например, для математических способностей, способностей к программированию, способности к рассуждению и т. д. оценка этих способностей может не только определить, действительно ли большая модель обладает способностью к мышлению, подобной человеческой, но и напрямую помочь выбрать большие модели (например, помощники по коду) в конкретных областях.
-3- Результаты оценки "очень разные"
Существует множество различных инструментов оценки, и результаты оценки разных инструментов оценки также «очень разные».
15 августа был опубликован отчет об опыте работы с большими моделями искусственного интеллекта, в котором была проведена горизонтальная оценка опыта использования отечественных основных крупных моделей. В списке оценивались 8 основных моделей искусственного интеллекта в Китае с 500 вопросами, и, наконец, Сюньфэй Синхуо занял первое место, Baidu Wenxin — второе, а Али Тунъи Цяньвэнь — второе с конца.
В сентябре, в последнем выпуске популярного оценочного списка с открытым исходным кодом C-последнем выпуске списка, большая модель Yuntian Lifei «Yuntianshu» заняла первое место, в то время как GPT-4 заняла только десятое место.
В том же месяце SuperCLUE опубликовал свой сентябрьский список больших моделей. GPT-4 занял первое место в общем списке, в то время как SenseChat 3.0 от SenseTime возглавил китайский список.
19 октября Стэнфордский университет опубликовал Индекс прозрачности базовых моделей за 2023 год, в котором оцениваются 10 основных базовых моделей прозрачности, при этом Llama 2 заняла первое место, а GPT-4 — третье.
Почему результаты различных инструментов рецензирования так сильно отличаются? Основные причины следующие:
**1.Каждый популярный набор академических обзоров имеет свою собственную направленность. ** Например, GSM8K и MMLU, которые чаще всего используются Meta, представляют собой тестовые наборы для разных уровней - первый - элементарная математика, второй - более продвинутые междисциплинарные вопросы и ответы. Точно так же, как ученики в классе сдают экзамены по разным предметам, большие модели, естественно, занимают разные места в разных списках.
**2.Увеличивается доля субъективных вопросов при оценке больших моделей. ** В текущем оценочном списке крупных моделей в стране и за рубежом идея сочетания субъективных вопросов и объективных вопросов общепризнана индустрией. Но проблема субъективных вопросов заключается в том, последовательны ли критерии оценки в сознании каждого. А «оценка человеческой команды» неизбежно упирается в потолок количества вопросов, а для больших оценок моделей, чем больше количество вопросов, тем эффективнее выводы.
**3. Вертикальная конкуренция между специализированными моделями и крупными моделями общего назначения приводит к искажению ранжирования. ** В реальном сценарии приземления корпоративным клиентам в производстве, здравоохранении, финансах и других отраслях необходимо выполнить вторичную тонкую настройку в соответствии со своими собственными базами данных при доступе к возможностям больших моделей. Это также означает, что результаты, полученные при непосредственном участии исходной общей большой модели в вертикальном поле вопросов и ответов, не могут представлять реальную производительность продукта большой модели в вертикальном поле.
**4. Феномен «чистки списка», вызванный тестовым набором с открытым исходным кодом. ** Многие новые большие модели могут превзойти GPT-4 в списке тестовых наборов с открытым исходным кодом, отчасти из-за подозрений в «чистке проблем». Например, C- в настоящее время раскрывается только вопрос, но ответ не раскрывается, и крупные производители моделей, участвующие в тесте, либо находят аннотатор данных, чтобы повторить вопрос, либо используют GPT-4 для повторного выполнения вопроса, а затем вычитают ответ для обучения большой модели, чтобы они могли получить полные оценки в соответствующем предметном тесте.
Могут ли наборы для рецензирования с закрытым исходным кодом избежать «чистки списка»? В противном случае, если оценочный набор с закрытым исходным кодом не обновляется, участвующие модели могут вытащить историческую историю из фонового режима, чтобы «сжульничать» и повторить проверенные вопросы. Это эквивалентно «ложному закрытому исходному коду».
**В ответ на вышеуказанные проблемы отрасль также изучает соответствующие решения. **
Например, из-за сложности согласованных критериев оценки субъективных вопросов при оценке больших моделей, а также из-за проблемы, связанной с тем, что «оценка человеческой команды» касается потолка количества вопросов, отрасль начала применять модель «оценка человека + GPT4». В Китае SuperCLUE решит рассматривать GPT4 как «учителя оценивания» и позволит ему присоединиться к человеческой команде, чтобы помочь в подсчете баллов.
Другой пример — проблема «чистки списка», инсайдеры отрасли считают, что «оценочный набор должен быть закрытым, чтобы не быть обманутым, но хорошая оценка большой модели должна быть открытой оценкой процесса, в которой всем удобно контролировать оценку». "
Некоторые люди также считают, что сделать процесс оценки большой модели публичным — это хорошая идея, но, учитывая справедливость и беспристрастность оценки, все равно должно быть большое количество закрытых оценочных наборов, и «закрытая книжная экспертиза» может по-настоящему оценить возможности модели.
Кроме того, существуют крупные модели оценки с защитой от кистей, такие как LLM-3, запущенный Лабораторией НЛП Фуданьского университета, в котором используется новый режим оценки, то есть режим «экзамена по банку вопросов». В LLM-3 каждая участвующая система должна выполнить случайную выборку из 1000 вопросов из общего банка вопросов в сравнении с моделью того же учреждения, чтобы гарантировать, что каждый вопрос оценки не дублируется. Процесс оценки будет проводиться в режиме онлайн, а отправка вопросов в одном раунде оценки будет осуществляться последовательно, то есть отправка следующего вопроса будет зависеть от ответа на предыдущий вопрос, чтобы избежать злонамеренного сканирования.
Поскольку большие модели охватывают широкий спектр областей и областей применения, индикаторы и методы оценки, на которые необходимо обращать внимание большим моделям в разных областях и приложениях, различны. Таким образом, различные учреждения и организации могут предлагать различные критерии и методы оценки для конкретных областей применения и потребностей. «Несмотря на то, что единого стандарта не существует, важность оценки заключается в том, чтобы предоставить способ оценки и сравнения производительности и эффективности различных больших моделей, а также помочь пользователям выбрать большую модель, которая соответствует их потребностям».
Вопрос о том, как сделать по-настоящему всестороннюю и всестороннюю оценку больших моделей, также «запутался» в академических кругах и промышленности. Тем не менее, авторитетные институты должны укреплять научные исследования, как можно скорее формировать консенсус, содействовать технологическому прогрессу и развитию промышленности.