З моменту появи ChatGPT у всьому світі триває «гонка озброєнь» за великими моделями. Згідно з повідомленнями, з січня по липень цього року в Китаї було випущено загалом 64 великі моделі. Станом на липень 2023 року в Китаї загалом було випущено 130 великих моделей.
«Стомодельної війни» недостатньо, щоб описати сьогоднішню спекотну «воєнну ситуацію», тож яка велика модель краща? Це невіддільно від оцінки великих моделей.
Однак на даному етапі не існує визнаного та ефективного методу оцінки, що призвело до «війни списків» у сфері оцінювання великих моделей у країні та за кордоном. Неповна статистика, в даний час на ринку існує не менше 50 інструментів (систем) оцінки, а результати подібних списків можуть сильно відрізнятися. Сумніви громадськості щодо «точок чищення» безмежні.
** У промисловості загалом вважають, що існує два критерії прояву для оцінки великої моделі: один – це кількість параметрів, а інший – це набір оцінок. **
Так звана кількість параметрів відноситься до кількості параметрів, які можна вивчити в моделі, включаючи вагу та ухил моделі. Розмір кількості параметрів визначає складність моделі, а більша кількість параметрів і кількість шарів є відмінними рисами, що відрізняють великі моделі від маленьких. У 2022 році в США буде представлена партія великих моделей, від випущеної Stability AI Diffusion, генеративної моделі з тексту в зображення, до ChatGPT, запущеного компанією OpenAI, масштаб параметрів моделі почав вступати в епоху десятків мільярдів і сотень мільярдів.
** З точки зору поверхневих показників, моделі з сотнями мільярдів параметрів, як правило, працюють краще, ніж десятки мільярдів параметрів. Однак це не абсолютно, і параметри купи не обов'язково покращують можливості. Отже, як модель з однаковим рівнем параметрів повинна розрізняти хороше і погане? Це вимагає введення другого оціночного виміру великої моделі - оціночної множини.
Оціночна вибірка являє собою однозадачний або багатозадачний уніфікований еталонний набір даних, побудований для ефективної оцінки комплексного ефекту базової моделі і алгоритму її тонкого налаштування в різних сценаріях і різних завданнях, і має дві форми: відкриту і закриту.
**Ці набори оцінювання схожі на екзаменаційні роботи для різних галузей, і, перевіряючи бали великих моделей у цих «екзаменаційних роботах», люди можуть більш інтуїтивно порівнювати продуктивність великих моделей. **
В епоху малих моделей більшість модельних установ будуть використовувати ефект наборів академічного оцінювання як основу для оцінки якості моделей. Тепер великі виробники моделей також почали активніше брати участь в академічному бенчмаркінгу, розглядаючи його як авторитетну підтримку та маркетингову основу.
На ринку є багато великих наборів оцінки моделей, таких як MMLU, китайська модель оцінки C-, SuperCLUE тощо.
-1- Інструмент оцінювання
MMLU
Massive Multitask Language Understanding, оцінка розуміння мови для великих моделей, є однією з найвідоміших оцінок семантичного розуміння для великих моделей, запущена дослідниками з Університету Каліфорнійського університету в Берклі у вересні 2020 року. **Тест охоплює 57 завдань, серед яких елементарна математика, історія США, інформатика, право тощо. ** Завдання охоплює широкий спектр знань та англійською мовою для оцінки базового охоплення знань та розуміння великої моделі.
Паперова адреса:
Офіційний сайт:
Таблиця лідерів великих моделей:
З-
C- це комплексний китайський набір для оцінки базової моделі. Спільно запущений дослідниками з Шанхайського університету Цзяо Тун, Університету Цінхуа та Единбурзького університету в травні 2023 року, він містить 13 948 запитань із кількома варіантами відповідей**, що охоплюють 52 різні дисципліни та чотири рівні складності** для вимірювання розуміння китайських великих моделей.
Паперова адреса:
Адреса проекту:
Офіційний сайт:
SuperCLUE
Китайський комплексний оціночний еталон загальних великих моделей, можливості моделей оцінюються з трьох різних вимірів: базових здібностей, професійних здібностей і китайських характерних здібностей.
Серед них базові можливості здібностей включають: ** Семантичне розуміння, діалог, логічне мислення, рольове моделювання, код, генерацію та створення та інші 10 здібностей. **
До професійних компетентностей належать: Включає середні, університетські та фахові іспити, що охоплюють понад 50 компетентностей від математики, фізики, географії до суспільних наук.
Китайська характерна здатність: Для завдань з китайською специфікою вона включає понад 10 здібностей, таких як китайські ідіоми, поезія, література та гліфи.
Адреса проекту:
Офіційний сайт:
Список SuperCLUE Langya
Китайський універсальний тест анонімної оцінки бою великих моделей, такий самий, як і ChatbotArena, краудсорсинг різних великих моделей продуктів для анонімної та випадкової оцінки протистояння, результати засновані на рейтинговій системі Elo.
Адреса проекту:
ЛІБ
Арена чат-ботів
ChatbotArena — це еталонна платформа для великих мовних моделей (LLM) від LMSYS Org, дослідницької організації, заснованої Каліфорнійським університетом у Берклі, Каліфорнійським університетом у Сан-Дієго та Університетом Карнегі-Меллона.
**Бенчмарк-платформа LLM для анонімних випадкових збігів на краудсорсинговій основі. **Увійдіть на бойову платформу через адресу демонстраційного досвіду. Введіть питання, яке вас цікавить, після надсилання запитання анонімна модель гратиме в парах, щоб згенерувати релевантні відповіді відповідно, вимагаючи від користувачів оцінити відповіді та вибрати один із 4 варіантів суддівства: модель A краща, модель B краща, нічия та всі погані. Підтримка кількох раундів розмови. Нарешті, скорингова система Ело використовується для всебічної оцінки можливостей великих моделей. (Ви можете вказати модель самостійно, щоб побачити ефект, але він не буде врахований у підсумковому рейтингу).
Адреса проекту:
Офіційний сайт:
Прапор
Flag — це великомасштабна платформа оцінювання моделей, яка використовує тривимірну систему оцінювання «capability-task-index»** для надання всебічних і детальних результатів оцінки. Платформа надала понад 30 здібностей, 5 завдань та 4 категорії показників, загалом понад 600 вимірів комплексного оцінювання, включаючи 22 набори даних суб'єктивної та об'єктивної оцінки та 84433 запитання.
На першому етапі Flag було запущено систему оцінки великомовних моделей, багатомовний інструмент оцінки великих моделей з відкритим вихідним кодом mCLIP та інструмент оцінки генерації тексту та зображень з відкритим вихідним кодом Image. Libra також продовжить досліджувати перехресні дослідження оцінки мовних моделей і психології, освіти, етики та інших соціальних дисциплін, щоб оцінити мовну модель більш науково і всебічно. Орієнтований на великих розробників і користувачів моделей, Flag розроблений, щоб допомогти командам розробників зрозуміти слабкі сторони своїх моделей і стимулювати технологічні інновації.
Адреса проекту:
Офіційний сайт:
OpenCompass
У серпні 2023 року Шанхайська лабораторія штучного інтелекту (Shanghai AI Lab) офіційно запустила відкриту систему оцінювання великих моделей OpenCompass, яка підтримує єдину оцінку різних моделей великих мовних моделей і мультимодальних моделей за допомогою повної відтворюваної системи оцінювання з відкритим вихідним кодом**, і регулярно публікує список результатів оцінки.
Офіційний сайт:
Адреса проекту:
JioNLP
Щоб дослідити ефект допомоги та допоміжні здібності моделі LLM для користувачів-людей, чи може вона досягти рівня «розумного помічника», запитання з кількома варіантами відповідей виводяться з різних професійних іспитів у материковому Китаї, зосереджуючись на охопленні об'єктивних знань моделі, що становить 32%; Суб'єктивні запитання походять із щоденних підсумків і в основному вивчають вплив користувачів на загальні функції LLM.
Адреса проекту:
Вимірювання наборів даних
Оцінка великої моделі безпеки Цінхуа
Колекція оглядів, зібраних Цінхуа, охоплює вісім категорій, включаючи мову ворожнечі, упереджену та дискримінаційну мову, злочинність та право, конфіденційність, етику та мораль, включаючи понад 40 категорій безпеки другого рівня, розділених на тонкі категорії**.
Адреса:
LLM-3
Запущений лабораторією НЛП Університету Фудань, він зосереджений на оцінці професійних знань і здібностей, охоплюючи 13 дисциплін і понад 50 дисциплін другого рівня, визначених Міністерством освіти, таких як філософія, економіка, право, освіта, література, історія, наука, інженерія, сільське господарство, медицина, військова наука, менеджмент, мистецтво тощо, із загальною кількістю близько 20 стандартних генеративних запитань і відповідей. Для того, щоб запобігти виникненню феномену змикання рейтингу, оцінювання LLM-3 використовує новий режим оцінювання, а саме режим «іспиту банку запитань».
Адреса:
GAOKAO-Bench
GAOKAO-bench – це система оцінювання, яка використовує запитання вступних іспитів до китайського коледжу як набір даних для оцінки здатності розуміти мову та здатності до логічного мислення великих моделей.
Адреса проекту:
PandaLM
Він безпосередньо тренує автоматизовану модель підрахунку балів і оцінює дві моделі кандидатів за трибальною системою 0,1,2.
Адреса проекту:
BIG-лавка
Колекція оглядів, опублікованих Google, BIG-bench складається з 204 завдань на такі теми, як лінгвістика, розвиток дитини, математика, міркування здорового глузду, біологічна фізика, соціальні упередження, розробка програмного забезпечення тощо.
Адреса проекту:
MMCU
Науково-дослідний інститут штучного інтелекту Oracle Yi пропонує тест для вимірювання точності китайських великих моделей у роботі з багатозадачністю, а тестовий зміст набору даних охоплює чотири основні сфери: медичне лікування, право, психологію та освіту. **Кількість питань сягнула 10 000+, з них 2819 питань у галузі медицини, 3695 питань у галузі права, 2001 питання у сфері психології та 3331 питання у сфері освіти.
Адреса проекту:
ДІЯЛИ
Тест Microsoft Big Model Basic Competency Assessment Benchmark, запущений у квітні 2023 року, в основному вимірює загальну здатність великих моделей у людському пізнанні та вирішенні проблем, охоплюючи 20 офіційних, публічних і високоякісних вступних і кваліфікаційних іспитів для звичайних кандидатів у всьому світі, включаючи дані китайською та англійською мовами. Тому тест більше схиляється до результатів тестування на людях, охоплюючи як китайську, так і англійську мови.
Паперова адреса:
GSM8K
Велика модель OpenAI, Mathematical Reasoning Proficiency Assessment Benchmark, охоплює 8 500 високоякісних наборів даних з математичних задач на рівні середньої школи. Набір даних більший, ніж попередній набір даних математичної текстової задачі, мова різноманітніша, а запитання складніші. Тест був випущений у жовтні 2021 року і залишається дуже складним тестовим бенчмарком.
Паперова адреса:
КЕРМА
Метод оцінювання HELM в основному включає три модулі: сцена, адаптація та індикатори**, і кожен запуск оцінювання повинен вказувати сцену, підказку для моделі адаптації та один або кілька індикаторів. В основному він охоплює англійську мову з 7 показниками, включаючи точність, невизначеність/калібрування, надійність, справедливість, упередженість, токсичність та ефективність висновків; Завдання включають запитання та відповіді, пошук інформації, реферати, класифікацію тексту тощо.
Паперова адреса:
Адреса проекту:
Китайська-LLalA-Alpaca
Він оцінюється як відносне значення, при цьому перевага віддається GPT4 і частково ChatGPT3.
Адреса проекту:
МТ-лавка
Оцініть багатооборотний діалог і інструкцію, наступні можливості великих моделей. Набір даних включає 80 високоякісних багатораундових діалогових запитань, на кожне з яких відповідають 6 відомих великих моделей (GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B та LLaMA-13B), відсортованих вручну для отримання 3,3 тисячі пар.
Паперова адреса:
Суддівство LLM як судді з MT-Bench та Chatbot Arena
github
Адреса проекту:
/tree/main/fastchat/llm_judge
Адреса завантаження даних:
-2- Режим оцінювання
За допомогою наведених вище інструментів оцінювання було виявлено, що поточні загальні способи оцінювання великих моделей можна умовно звести до чотирьох типів:
**1. Оцініть запитання. ** В основному збирайте різноманітні набори оціночних даних, а потім розділяйте набори даних на різні вимірні можливості. Розробляючи деякі завдання, які дозволяють великим моделям виконувати ці набори даних, бали обчислюються за стандартними відповідями. Типовими прикладами є OpenCompass, таблиця лідерів openLLM від huggingface тощо.
**2. Нехай суддею буде GPT-4. Зберіть набори даних для оцінки (деякі набори даних, які не мають відкритого вихідного коду та не мають стандартних відповідей, також будуть включені), а потім дозвольте GPT-4 оцінити результати великої генерації моделі. Існує два способи оцінити цей процес суддівства: один – це пряма оцінка, а інший – розробити деякі параметри, такі як факти, точність, відповідність вимогам безпеки тощо, а потім оцінити їх на більш детальному рівні.
**3. Режим арени. ** Схоже на арену в змагальній грі. Кожен раз дві великі моделі гравців PK, користувач (іноді GPT-4) оцінює, яка модель краще, у великої моделі-переможця з'являються додаткові бали, а у програшної великої моделі з'являється мінус. Коли буде виконано достатню кількість раундів PK, буде рейтинг балів великих моделей, який є відносно справедливим і може об'єктивно відображати силу моделі. Типовим прикладом є таблиця лідерів Chatbot Arena Каліфорнійського університету в Берклі.
**4. Оцінка індивідуальних компетенцій. Наприклад, для математичних здібностей, здібностей до кодування, здатності міркувати і т.д. оцінка цих здібностей може не тільки визначити, чи дійсно велика модель має здатність мислити, подібну до людської, але і безпосередньо допомогти вибрати великі моделі (наприклад, помічники коду) в конкретних областях.
-3- Результати оцінювання "дуже різні"
Існує багато різних інструментів оцінки, і результати оцінювання різних інструментів оцінювання також «дуже різні».
15 серпня було оприлюднено звіт установи про досвід роботи з великими моделями штучного інтелекту, в якому було проведено горизонтальну оцінку досвіду використання вітчизняних мейнстрімних великих моделей. У списку було оцінено 8 основних моделей штучного інтелекту в Китаї за допомогою 500 запитань, і, нарешті, Сюньфей Сінхуо посів перше місце, Байду Веньсінь — друге, а Алі Тун'ї Цяньвень — друге знизу.
У вересні в останньому випуску популярного списку оцінки відкритого вихідного коду C-останньому випуску списку велика модель Юньтянь Ліфея «Юньтяньшу» посіла перше місце, тоді як GPT-4 посіла лише десяте місце.
Того ж місяця SuperCLUE опублікувала свій вересневий список великих моделей. GPT-4 посів перше місце в загальному списку, тоді як SenseChat 3.0 від SenseTime очолив китайський список.
19 жовтня Стенфордський університет оприлюднив Індекс прозорості базової моделі 2023 року, який оцінив 10 основних базових моделей на прозорість, причому Llama 2 посіла перше місце, а GPT-4 — третє.
Чому результати різних інструментів рецензування такі різні? Основні причини наступні:
**1.Кожен популярний комплект академічних оглядів має свою спрямованість. **Наприклад, GSM8K та MMLU, які найчастіше використовуються Meta, є тестовими наборами для різних рівнів – перший — елементарна математика, другий — більш просунута мультидисциплінарна запитання та відповідь. Подібно до того, як учні в класі складають іспити з різних предметів, великі моделі, природно, по-різному ранжуються в різних списках.
**2.Збільшується частка суб'єктивних питань у великій модельній оцінці. ** У поточному оціночному списку великих моделей у країні та за кордоном ідея поєднання суб'єктивних питань та об'єктивних питань загалом визнана галуззю. Але проблема суб'єктивних запитань полягає в тому, чи однакові критерії оцінювання у свідомості кожного. А «рейтинг людської команди» неминуче торкається стелі кількості питань, а для великих модельних оцінок, чим більша кількість питань, тим ефективніші висновки.
**3. Вертикальна конкуренція між спеціалізованими моделями та великими моделями загального призначення призводить до спотворення рейтингу. ** У реальному сценарії посадки корпоративним клієнтам у виробництві, охороні здоров'я, фінансах та інших галузях необхідно виконати вторинне тонке налаштування відповідно до власних баз даних під час доступу до можливостей великих моделей. Це також означає, що результати, отримані при безпосередній участі вихідної загальної великої моделі у вертикальному полі запитань і відповідей, не можуть відображати реальну продуктивність великого модельного продукту у вертикальному полі.
**4. Феномен «чищення списку», викликаний тестовим набором з відкритим вихідним кодом. **Багато нових великих моделей можуть перевершити GPT-4 у списку тестових наборів з відкритим вихідним кодом, частково через підозру на «виправлення проблем». Наприклад, C- в даний час розкривається тільки питання, але відповідь не розкривається, і виробники великих моделей, які беруть участь в тесті, або знаходять анотатора даних, щоб виконати питання ще раз, або використовують GPT-4, щоб зробити питання ще раз, а потім віднімають відповідь, щоб навчити велику модель, щоб вони могли отримати повні оцінки у відповідному предметному тесті.
Чи можуть набори рецензій із закритим вихідним кодом уникнути «чищення списку»? В іншому випадку, якщо набір оцінювання із закритим вихідним кодом не оновлюється, моделі-учасники можуть витягнути історичну історію з фону, щоб «накрутити» та повторити перевірені запитання. Це еквівалентно "помилковому закритому джерелу".
**У відповідь на вищезазначені проблеми галузь також вивчає відповідні рішення. **
Наприклад, через складність узгоджених критеріїв оцінювання суб'єктивних питань при оцінці великої моделі, а також проблему того, що «оцінка людської команди» торкається стелі кількості питань, індустрія почала впроваджувати модель «людина + оцінка GPT4». У Китаї SuperCLUE вирішить розглядати GPT4 як «вчителя оцінювання» і дозволить йому приєднатися до людської команди, щоб допомогти в підрахунку балів.
Іншим прикладом є проблема «чищення списку», інсайдери галузі вважають, що «набір оцінок повинен бути закритий, щоб уникнути обману, але хороша оцінка великої моделі повинна бути відкритою оцінкою процесу, яка зручна для всіх для нагляду за оцінкою». "
Деякі люди також вважають, що це гарне бачення – оприлюднити процес оцінювання великої моделі, але з огляду на справедливість та неупередженість оцінювання, все одно має бути велика кількість закритих наборів оцінювання, і «експертиза за закритою книгою» може справді оцінити здатність моделі.
Крім того, існують великі моделі оцінювання оцінок із захистом від пензля, такі як LLM-3, запущений лабораторією НЛП Університету Фудань, який використовує новий режим оцінювання, тобто режим «іспиту банку запитань». У LLM-3 кожна система-учасниця повинна заповнити випадкову вибірку з 1000 питань із загального банку запитань, за моделлю однієї установи, щоб гарантувати, що кожне оціночне запитання не дублюється. Процес оцінювання буде проводитися онлайн, а відправка питань в одному раунді оцінювання буде здійснюватися по черзі, тобто відправка наступного питання буде залежати від відповіді на попереднє питання, щоб уникнути зловмисного сканування.
Оскільки великі моделі включають широкий спектр областей і застосувань, показники і методи оцінки, на які потрібно звернути увагу великим моделям в різних областях і додатках, відрізняються. Тому різні установи та організації можуть пропонувати різні критерії та методи оцінювання для конкретних сфер застосування та потреб. «Хоча єдиного стандарту не існує, значення оцінки полягає в тому, щоб забезпечити спосіб оцінити та порівняти продуктивність та ефективність різних великих моделей, а також допомогти користувачам вибрати велику модель, яка відповідає їхнім потребам».
Як зробити по-справжньому всебічну і всебічну оцінку великих моделей, також «заплутано» в авангарді наукових кіл і промисловості. Незважаючи на це, авторитетні інституції повинні посилювати дослідження, якнайшвидше формувати консенсус і сприяти технічному прогресу та розвитку промисловості.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Нові великі моделі стверджують, що перевершують GPT-4 на кожному кроці, і ми зібрали ці інструменти огляду
Джерело: AI Pioneer Officer
З моменту появи ChatGPT у всьому світі триває «гонка озброєнь» за великими моделями. Згідно з повідомленнями, з січня по липень цього року в Китаї було випущено загалом 64 великі моделі. Станом на липень 2023 року в Китаї загалом було випущено 130 великих моделей.
«Стомодельної війни» недостатньо, щоб описати сьогоднішню спекотну «воєнну ситуацію», тож яка велика модель краща? Це невіддільно від оцінки великих моделей.
Однак на даному етапі не існує визнаного та ефективного методу оцінки, що призвело до «війни списків» у сфері оцінювання великих моделей у країні та за кордоном. Неповна статистика, в даний час на ринку існує не менше 50 інструментів (систем) оцінки, а результати подібних списків можуть сильно відрізнятися. Сумніви громадськості щодо «точок чищення» безмежні.
** У промисловості загалом вважають, що існує два критерії прояву для оцінки великої моделі: один – це кількість параметрів, а інший – це набір оцінок. **
Так звана кількість параметрів відноситься до кількості параметрів, які можна вивчити в моделі, включаючи вагу та ухил моделі. Розмір кількості параметрів визначає складність моделі, а більша кількість параметрів і кількість шарів є відмінними рисами, що відрізняють великі моделі від маленьких. У 2022 році в США буде представлена партія великих моделей, від випущеної Stability AI Diffusion, генеративної моделі з тексту в зображення, до ChatGPT, запущеного компанією OpenAI, масштаб параметрів моделі почав вступати в епоху десятків мільярдів і сотень мільярдів.
** З точки зору поверхневих показників, моделі з сотнями мільярдів параметрів, як правило, працюють краще, ніж десятки мільярдів параметрів. Однак це не абсолютно, і параметри купи не обов'язково покращують можливості. Отже, як модель з однаковим рівнем параметрів повинна розрізняти хороше і погане? Це вимагає введення другого оціночного виміру великої моделі - оціночної множини.
Оціночна вибірка являє собою однозадачний або багатозадачний уніфікований еталонний набір даних, побудований для ефективної оцінки комплексного ефекту базової моделі і алгоритму її тонкого налаштування в різних сценаріях і різних завданнях, і має дві форми: відкриту і закриту.
**Ці набори оцінювання схожі на екзаменаційні роботи для різних галузей, і, перевіряючи бали великих моделей у цих «екзаменаційних роботах», люди можуть більш інтуїтивно порівнювати продуктивність великих моделей. **
В епоху малих моделей більшість модельних установ будуть використовувати ефект наборів академічного оцінювання як основу для оцінки якості моделей. Тепер великі виробники моделей також почали активніше брати участь в академічному бенчмаркінгу, розглядаючи його як авторитетну підтримку та маркетингову основу.
На ринку є багато великих наборів оцінки моделей, таких як MMLU, китайська модель оцінки C-, SuperCLUE тощо.
-1- Інструмент оцінювання
MMLU
Massive Multitask Language Understanding, оцінка розуміння мови для великих моделей, є однією з найвідоміших оцінок семантичного розуміння для великих моделей, запущена дослідниками з Університету Каліфорнійського університету в Берклі у вересні 2020 року. **Тест охоплює 57 завдань, серед яких елементарна математика, історія США, інформатика, право тощо. ** Завдання охоплює широкий спектр знань та англійською мовою для оцінки базового охоплення знань та розуміння великої моделі.
Паперова адреса:
Офіційний сайт:
Таблиця лідерів великих моделей:
З-
C- це комплексний китайський набір для оцінки базової моделі. Спільно запущений дослідниками з Шанхайського університету Цзяо Тун, Університету Цінхуа та Единбурзького університету в травні 2023 року, він містить 13 948 запитань із кількома варіантами відповідей**, що охоплюють 52 різні дисципліни та чотири рівні складності** для вимірювання розуміння китайських великих моделей.
Паперова адреса:
Адреса проекту:
Офіційний сайт:
SuperCLUE
Китайський комплексний оціночний еталон загальних великих моделей, можливості моделей оцінюються з трьох різних вимірів: базових здібностей, професійних здібностей і китайських характерних здібностей.
Серед них базові можливості здібностей включають: ** Семантичне розуміння, діалог, логічне мислення, рольове моделювання, код, генерацію та створення та інші 10 здібностей. **
До професійних компетентностей належать: Включає середні, університетські та фахові іспити, що охоплюють понад 50 компетентностей від математики, фізики, географії до суспільних наук.
Китайська характерна здатність: Для завдань з китайською специфікою вона включає понад 10 здібностей, таких як китайські ідіоми, поезія, література та гліфи.
Адреса проекту:
Офіційний сайт:
Список SuperCLUE Langya
Китайський універсальний тест анонімної оцінки бою великих моделей, такий самий, як і ChatbotArena, краудсорсинг різних великих моделей продуктів для анонімної та випадкової оцінки протистояння, результати засновані на рейтинговій системі Elo.
Адреса проекту:
ЛІБ
Арена чат-ботів
ChatbotArena — це еталонна платформа для великих мовних моделей (LLM) від LMSYS Org, дослідницької організації, заснованої Каліфорнійським університетом у Берклі, Каліфорнійським університетом у Сан-Дієго та Університетом Карнегі-Меллона.
**Бенчмарк-платформа LLM для анонімних випадкових збігів на краудсорсинговій основі. **Увійдіть на бойову платформу через адресу демонстраційного досвіду. Введіть питання, яке вас цікавить, після надсилання запитання анонімна модель гратиме в парах, щоб згенерувати релевантні відповіді відповідно, вимагаючи від користувачів оцінити відповіді та вибрати один із 4 варіантів суддівства: модель A краща, модель B краща, нічия та всі погані. Підтримка кількох раундів розмови. Нарешті, скорингова система Ело використовується для всебічної оцінки можливостей великих моделей. (Ви можете вказати модель самостійно, щоб побачити ефект, але він не буде врахований у підсумковому рейтингу).
Адреса проекту:
Офіційний сайт:
Прапор
Flag — це великомасштабна платформа оцінювання моделей, яка використовує тривимірну систему оцінювання «capability-task-index»** для надання всебічних і детальних результатів оцінки. Платформа надала понад 30 здібностей, 5 завдань та 4 категорії показників, загалом понад 600 вимірів комплексного оцінювання, включаючи 22 набори даних суб'єктивної та об'єктивної оцінки та 84433 запитання.
На першому етапі Flag було запущено систему оцінки великомовних моделей, багатомовний інструмент оцінки великих моделей з відкритим вихідним кодом mCLIP та інструмент оцінки генерації тексту та зображень з відкритим вихідним кодом Image. Libra також продовжить досліджувати перехресні дослідження оцінки мовних моделей і психології, освіти, етики та інших соціальних дисциплін, щоб оцінити мовну модель більш науково і всебічно. Орієнтований на великих розробників і користувачів моделей, Flag розроблений, щоб допомогти командам розробників зрозуміти слабкі сторони своїх моделей і стимулювати технологічні інновації.
Адреса проекту:
Офіційний сайт:
OpenCompass
У серпні 2023 року Шанхайська лабораторія штучного інтелекту (Shanghai AI Lab) офіційно запустила відкриту систему оцінювання великих моделей OpenCompass, яка підтримує єдину оцінку різних моделей великих мовних моделей і мультимодальних моделей за допомогою повної відтворюваної системи оцінювання з відкритим вихідним кодом**, і регулярно публікує список результатів оцінки.
Офіційний сайт:
Адреса проекту:
JioNLP
Щоб дослідити ефект допомоги та допоміжні здібності моделі LLM для користувачів-людей, чи може вона досягти рівня «розумного помічника», запитання з кількома варіантами відповідей виводяться з різних професійних іспитів у материковому Китаї, зосереджуючись на охопленні об'єктивних знань моделі, що становить 32%; Суб'єктивні запитання походять із щоденних підсумків і в основному вивчають вплив користувачів на загальні функції LLM.
Адреса проекту:
Вимірювання наборів даних
Оцінка великої моделі безпеки Цінхуа
Колекція оглядів, зібраних Цінхуа, охоплює вісім категорій, включаючи мову ворожнечі, упереджену та дискримінаційну мову, злочинність та право, конфіденційність, етику та мораль, включаючи понад 40 категорій безпеки другого рівня, розділених на тонкі категорії**.
Адреса:
LLM-3
Запущений лабораторією НЛП Університету Фудань, він зосереджений на оцінці професійних знань і здібностей, охоплюючи 13 дисциплін і понад 50 дисциплін другого рівня, визначених Міністерством освіти, таких як філософія, економіка, право, освіта, література, історія, наука, інженерія, сільське господарство, медицина, військова наука, менеджмент, мистецтво тощо, із загальною кількістю близько 20 стандартних генеративних запитань і відповідей. Для того, щоб запобігти виникненню феномену змикання рейтингу, оцінювання LLM-3 використовує новий режим оцінювання, а саме режим «іспиту банку запитань».
Адреса:
GAOKAO-Bench
GAOKAO-bench – це система оцінювання, яка використовує запитання вступних іспитів до китайського коледжу як набір даних для оцінки здатності розуміти мову та здатності до логічного мислення великих моделей.
Адреса проекту:
PandaLM
Він безпосередньо тренує автоматизовану модель підрахунку балів і оцінює дві моделі кандидатів за трибальною системою 0,1,2.
Адреса проекту:
BIG-лавка
Колекція оглядів, опублікованих Google, BIG-bench складається з 204 завдань на такі теми, як лінгвістика, розвиток дитини, математика, міркування здорового глузду, біологічна фізика, соціальні упередження, розробка програмного забезпечення тощо.
Адреса проекту:
MMCU
Науково-дослідний інститут штучного інтелекту Oracle Yi пропонує тест для вимірювання точності китайських великих моделей у роботі з багатозадачністю, а тестовий зміст набору даних охоплює чотири основні сфери: медичне лікування, право, психологію та освіту. **Кількість питань сягнула 10 000+, з них 2819 питань у галузі медицини, 3695 питань у галузі права, 2001 питання у сфері психології та 3331 питання у сфері освіти.
Адреса проекту:
ДІЯЛИ
Тест Microsoft Big Model Basic Competency Assessment Benchmark, запущений у квітні 2023 року, в основному вимірює загальну здатність великих моделей у людському пізнанні та вирішенні проблем, охоплюючи 20 офіційних, публічних і високоякісних вступних і кваліфікаційних іспитів для звичайних кандидатів у всьому світі, включаючи дані китайською та англійською мовами. Тому тест більше схиляється до результатів тестування на людях, охоплюючи як китайську, так і англійську мови.
Паперова адреса:
GSM8K
Велика модель OpenAI, Mathematical Reasoning Proficiency Assessment Benchmark, охоплює 8 500 високоякісних наборів даних з математичних задач на рівні середньої школи. Набір даних більший, ніж попередній набір даних математичної текстової задачі, мова різноманітніша, а запитання складніші. Тест був випущений у жовтні 2021 року і залишається дуже складним тестовим бенчмарком.
Паперова адреса:
КЕРМА
Метод оцінювання HELM в основному включає три модулі: сцена, адаптація та індикатори**, і кожен запуск оцінювання повинен вказувати сцену, підказку для моделі адаптації та один або кілька індикаторів. В основному він охоплює англійську мову з 7 показниками, включаючи точність, невизначеність/калібрування, надійність, справедливість, упередженість, токсичність та ефективність висновків; Завдання включають запитання та відповіді, пошук інформації, реферати, класифікацію тексту тощо.
Паперова адреса:
Адреса проекту:
Китайська-LLalA-Alpaca
Він оцінюється як відносне значення, при цьому перевага віддається GPT4 і частково ChatGPT3.
Адреса проекту:
МТ-лавка
Оцініть багатооборотний діалог і інструкцію, наступні можливості великих моделей. Набір даних включає 80 високоякісних багатораундових діалогових запитань, на кожне з яких відповідають 6 відомих великих моделей (GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B та LLaMA-13B), відсортованих вручну для отримання 3,3 тисячі пар.
Паперова адреса:
Суддівство LLM як судді з MT-Bench та Chatbot Arena
github
Адреса проекту:
/tree/main/fastchat/llm_judge
Адреса завантаження даних:
-2- Режим оцінювання
За допомогою наведених вище інструментів оцінювання було виявлено, що поточні загальні способи оцінювання великих моделей можна умовно звести до чотирьох типів:
**1. Оцініть запитання. ** В основному збирайте різноманітні набори оціночних даних, а потім розділяйте набори даних на різні вимірні можливості. Розробляючи деякі завдання, які дозволяють великим моделям виконувати ці набори даних, бали обчислюються за стандартними відповідями. Типовими прикладами є OpenCompass, таблиця лідерів openLLM від huggingface тощо.
**2. Нехай суддею буде GPT-4. Зберіть набори даних для оцінки (деякі набори даних, які не мають відкритого вихідного коду та не мають стандартних відповідей, також будуть включені), а потім дозвольте GPT-4 оцінити результати великої генерації моделі. Існує два способи оцінити цей процес суддівства: один – це пряма оцінка, а інший – розробити деякі параметри, такі як факти, точність, відповідність вимогам безпеки тощо, а потім оцінити їх на більш детальному рівні.
**3. Режим арени. ** Схоже на арену в змагальній грі. Кожен раз дві великі моделі гравців PK, користувач (іноді GPT-4) оцінює, яка модель краще, у великої моделі-переможця з'являються додаткові бали, а у програшної великої моделі з'являється мінус. Коли буде виконано достатню кількість раундів PK, буде рейтинг балів великих моделей, який є відносно справедливим і може об'єктивно відображати силу моделі. Типовим прикладом є таблиця лідерів Chatbot Arena Каліфорнійського університету в Берклі.
**4. Оцінка індивідуальних компетенцій. Наприклад, для математичних здібностей, здібностей до кодування, здатності міркувати і т.д. оцінка цих здібностей може не тільки визначити, чи дійсно велика модель має здатність мислити, подібну до людської, але і безпосередньо допомогти вибрати великі моделі (наприклад, помічники коду) в конкретних областях.
-3- Результати оцінювання "дуже різні"
Існує багато різних інструментів оцінки, і результати оцінювання різних інструментів оцінювання також «дуже різні».
15 серпня було оприлюднено звіт установи про досвід роботи з великими моделями штучного інтелекту, в якому було проведено горизонтальну оцінку досвіду використання вітчизняних мейнстрімних великих моделей. У списку було оцінено 8 основних моделей штучного інтелекту в Китаї за допомогою 500 запитань, і, нарешті, Сюньфей Сінхуо посів перше місце, Байду Веньсінь — друге, а Алі Тун'ї Цяньвень — друге знизу.
У вересні в останньому випуску популярного списку оцінки відкритого вихідного коду C-останньому випуску списку велика модель Юньтянь Ліфея «Юньтяньшу» посіла перше місце, тоді як GPT-4 посіла лише десяте місце.
Того ж місяця SuperCLUE опублікувала свій вересневий список великих моделей. GPT-4 посів перше місце в загальному списку, тоді як SenseChat 3.0 від SenseTime очолив китайський список.
19 жовтня Стенфордський університет оприлюднив Індекс прозорості базової моделі 2023 року, який оцінив 10 основних базових моделей на прозорість, причому Llama 2 посіла перше місце, а GPT-4 — третє.
Чому результати різних інструментів рецензування такі різні? Основні причини наступні:
**1.Кожен популярний комплект академічних оглядів має свою спрямованість. **Наприклад, GSM8K та MMLU, які найчастіше використовуються Meta, є тестовими наборами для різних рівнів – перший — елементарна математика, другий — більш просунута мультидисциплінарна запитання та відповідь. Подібно до того, як учні в класі складають іспити з різних предметів, великі моделі, природно, по-різному ранжуються в різних списках.
**2.Збільшується частка суб'єктивних питань у великій модельній оцінці. ** У поточному оціночному списку великих моделей у країні та за кордоном ідея поєднання суб'єктивних питань та об'єктивних питань загалом визнана галуззю. Але проблема суб'єктивних запитань полягає в тому, чи однакові критерії оцінювання у свідомості кожного. А «рейтинг людської команди» неминуче торкається стелі кількості питань, а для великих модельних оцінок, чим більша кількість питань, тим ефективніші висновки.
**3. Вертикальна конкуренція між спеціалізованими моделями та великими моделями загального призначення призводить до спотворення рейтингу. ** У реальному сценарії посадки корпоративним клієнтам у виробництві, охороні здоров'я, фінансах та інших галузях необхідно виконати вторинне тонке налаштування відповідно до власних баз даних під час доступу до можливостей великих моделей. Це також означає, що результати, отримані при безпосередній участі вихідної загальної великої моделі у вертикальному полі запитань і відповідей, не можуть відображати реальну продуктивність великого модельного продукту у вертикальному полі.
**4. Феномен «чищення списку», викликаний тестовим набором з відкритим вихідним кодом. **Багато нових великих моделей можуть перевершити GPT-4 у списку тестових наборів з відкритим вихідним кодом, частково через підозру на «виправлення проблем». Наприклад, C- в даний час розкривається тільки питання, але відповідь не розкривається, і виробники великих моделей, які беруть участь в тесті, або знаходять анотатора даних, щоб виконати питання ще раз, або використовують GPT-4, щоб зробити питання ще раз, а потім віднімають відповідь, щоб навчити велику модель, щоб вони могли отримати повні оцінки у відповідному предметному тесті.
Чи можуть набори рецензій із закритим вихідним кодом уникнути «чищення списку»? В іншому випадку, якщо набір оцінювання із закритим вихідним кодом не оновлюється, моделі-учасники можуть витягнути історичну історію з фону, щоб «накрутити» та повторити перевірені запитання. Це еквівалентно "помилковому закритому джерелу".
**У відповідь на вищезазначені проблеми галузь також вивчає відповідні рішення. **
Наприклад, через складність узгоджених критеріїв оцінювання суб'єктивних питань при оцінці великої моделі, а також проблему того, що «оцінка людської команди» торкається стелі кількості питань, індустрія почала впроваджувати модель «людина + оцінка GPT4». У Китаї SuperCLUE вирішить розглядати GPT4 як «вчителя оцінювання» і дозволить йому приєднатися до людської команди, щоб допомогти в підрахунку балів.
Іншим прикладом є проблема «чищення списку», інсайдери галузі вважають, що «набір оцінок повинен бути закритий, щоб уникнути обману, але хороша оцінка великої моделі повинна бути відкритою оцінкою процесу, яка зручна для всіх для нагляду за оцінкою». "
Деякі люди також вважають, що це гарне бачення – оприлюднити процес оцінювання великої моделі, але з огляду на справедливість та неупередженість оцінювання, все одно має бути велика кількість закритих наборів оцінювання, і «експертиза за закритою книгою» може справді оцінити здатність моделі.
Крім того, існують великі моделі оцінювання оцінок із захистом від пензля, такі як LLM-3, запущений лабораторією НЛП Університету Фудань, який використовує новий режим оцінювання, тобто режим «іспиту банку запитань». У LLM-3 кожна система-учасниця повинна заповнити випадкову вибірку з 1000 питань із загального банку запитань, за моделлю однієї установи, щоб гарантувати, що кожне оціночне запитання не дублюється. Процес оцінювання буде проводитися онлайн, а відправка питань в одному раунді оцінювання буде здійснюватися по черзі, тобто відправка наступного питання буде залежати від відповіді на попереднє питання, щоб уникнути зловмисного сканування.
Оскільки великі моделі включають широкий спектр областей і застосувань, показники і методи оцінки, на які потрібно звернути увагу великим моделям в різних областях і додатках, відрізняються. Тому різні установи та організації можуть пропонувати різні критерії та методи оцінювання для конкретних сфер застосування та потреб. «Хоча єдиного стандарту не існує, значення оцінки полягає в тому, щоб забезпечити спосіб оцінити та порівняти продуктивність та ефективність різних великих моделей, а також допомогти користувачам вибрати велику модель, яка відповідає їхнім потребам».
Як зробити по-справжньому всебічну і всебічну оцінку великих моделей, також «заплутано» в авангарді наукових кіл і промисловості. Незважаючи на це, авторитетні інституції повинні посилювати дослідження, якнайшвидше формувати консенсус і сприяти технічному прогресу та розвитку промисловості.