新晉大模型動不動聲稱超越GPT-4，我們整理了這些評測工具

巴比特_

2023-10-24 07:33:22

文章來源：AI先鋒官

圖片來源：由無界AI生成

自ChatGPT問世以來，全球掀起了大模型的“軍備競賽”。據報導，今年1-7月國內共發佈了64個大模型。截至2023年7月，中國累計有130個大模型問世。

“百模大戰”都不足以形容如今的焦灼“戰況”，那麼究竟哪家大模型更勝一籌呢？這就離不開大模型的評測。

然而，現階段並不存在一個公認有效的評測方式，這就導致國內外的大模型評測領域出現「榜單大戰」。不完全統計，目前市面上的評測工具（系統）不下50個，同類榜單的結果卻可以千差萬別。公眾關於“刷分”的質疑更是不絕於耳。

**業界一般認為，評價一款大模型有兩個顯化標準：一是參數量，二是評測集。 **

所謂參數量，是指模型中可學習的參數數量，包括模型的權重和偏置。參數量的大小決定了模型的複雜程度，更多的參數和層數，是大模型區別於小模型的標誌性特點。 2022年，美國一批大模型亮相，從Stability AI發佈由文字到圖像的生成式模型Diffusion，再到OpenAI推出的ChatGPT，模型參數規模開始進入百億、千億級別時代。

**從表面指標看，千億參數的模型普遍比百億級表現更好。 **不過這也不絕對，堆參數也未必就能提升能力。那麼，同樣參數級別的模型應該如何分辨優劣？這就需要引入大模型的第二個評測維度——評測集。

評測集是為有效評估基礎模型及其微調演算法在不同場景、不同任務上的綜合效果，所構建的單任務或多任務的統一基準數據集，有公開和封閉兩種形態。

**這些評測集就像針對不同領域的考卷，通過測試大模型在這些“考卷”中的得分，人們可以更直觀地比較大模型的性能高低。 **

在小模型時代，大多數模型機構都會使用學術類評測集效果來作為評判模型好壞的依據。現在，大模型廠商也開始更加主動地參與到學術界基準測試框架中來，視其為權威背書與營銷依據。

市面上已出現不少大模型的評測集，例如國際上用的較多的大模型評測集MMLU、中文評估模型C-、SuperCLUE等。

-1- 評測工具

MMLU

全稱Massive Multitask Language Understanding，是一種針對大模型的語言理解能力的測評，是目前最著名的大模型語義理解測評之一，由UC Berkeley大學的研究人員在2020年9月推出。 **該測試涵蓋57項任務，包括初等數學、美國歷史、計算機科學、法律等。 **任務涵蓋的知識很廣泛，語言是英文，用以評測大模型基本的知識覆蓋範圍和理解能力。

論文位址：

官方網站：

大模型排行榜：

C-

C- 是一個全面的中文基礎模型評估套件。由上海交通大學、清華大學和愛丁堡大學研究人員在2023年5月份聯合推出，它包含了13948個多項選擇題，涵蓋了52個不同的學科和四個難度級別，用以評測大模型中文理解能力。

論文位址：

專案位址：

官方網站：

超級線索

中文通用大模型綜合性評測基準，從三個不同的維度評價模型的能力：基礎能力、專業能力和中文特性能力。

其中基礎能力能力包括： **語義理解、對話、邏輯推理、角色類比、代碼、生成與創作等10項能力。 **

專業能力包括：包括了中學、大學與專業考試，涵蓋了從數學、物理、地理到社會科學等50多項能力。

中文特性能力：針對有中文特點的任務，包括了中文成語、詩歌、文學、字形等10項多種能力。

專案位址：

官方網站：

SuperCLUE琅琊榜

中文通用大模型匿名對戰評價基準，與ChatbotArena相同以眾包方式讓不同的大模型產品進行匿名、隨機的對抗測評，結果基於Elo評級系統。

專案位址：

燎原

聊天機器人競技場

ChatbotArena是一個大型語言模型（LLM）的基準平臺，該專案方LMSYS Org是由加州大學伯克利分校、加州大學聖地牙哥分校和卡內基梅隆大學合作創立的研究組織。

**以眾包方式進行匿名隨機對戰的LLM基準平臺。 **通過demo體驗地址進入對戰平臺。輸入自己感興趣的問題，提交問題后，匿名模型會兩兩對戰，分別生成相關答案，需要使用者對答案做出評判，從4個評判選項中選擇一個：模型A更好、模型B更好、平手、都很差。支援多輪對話。最終使用Elo評分系統對大模型的能力進行綜合評估。（可以自己指定模型看效果，但不計入最終排名情況）。

專案位址：

官方網站：

旗

Flag（天秤）由智源研究院將聯合多個高校團隊打造，是一種採用“能力—任務—指標”三維評測框架的大模型評測平臺，旨在提供全面、細緻的評測結果。該平臺已提供了 30 多種能力、5 種任務和 4 大類指標，共 600 多個維度的全面評測，任務維度包括 22 個主客觀評測數據集和 84433 道題目。

Flag（天秤）第一期已推出大語言模型評測體系、開源多語言文圖大模型評測工具mCLIP- 和開源文圖生成評測工具 Image。天秤平臺還將繼續探索語言大模型評測與心理學、教育學、倫理學等社會學科的交叉研究，以期更加科學、全面地評價語言大模型。 Flag 針對大模型開發者和消費者，旨在説明各個開發團隊瞭解自身模型的薄弱之處，並推動技術創新。

專案位址：

官方網站：

開放指南針

2023年8月，上海人工智慧實驗室（上海AI實驗室）正式推出OpenCompass大模型開放評測體系，通過完整開源可復現的評測框架，支援大語言模型、多模態模型各類模型的一站式評測，並定期公佈評測結果榜單。

官方網站：

專案位址：

JioNLP

考察 LLM 模型對人類用戶的説明效果、輔助能力，可否達到一個「智慧助手」的水平題型，選擇題來源於中國大陸國內各種專業性考試，重點在於考察模型對客觀知識的覆蓋面，佔比 32%; 主觀題來源於日常總結，主要考察使用者對 LLM 常用功能的效果。

專案位址：

評測數據集

清華安全大模型測評

清華收集的一個評測集，涵蓋了仇恨言論、偏見歧視言論、犯罪違法、隱私、倫理道德等八大類別，包括細粒度劃分的40餘個二級安全類別。

位址：

法學碩士-3

由復旦大學NLP實驗室推出，聚焦於專業知識能力評測，涵蓋哲學、經濟學、法學、教育學、文學、歷史學、理學、工學、農學、醫學、軍事學、管理學、藝術學等教育部劃定的13個學科門類、50餘個二級學科，共計約20W道標準生成式問答題目。 為了防止刷榜現象的發生，LLM-3評測採用了一種新穎的評測模式，即“題庫考試”模式。

位址：

高考-板凳

GAOKAO-bench是一個以中國高考題目為數據集，測評大模型語言理解能力、邏輯推理能力的測評框架。

專案位址：

熊貓LM

其是直接訓練了一個自動化打分模型，0.1.2三分制用模型對兩個候選模型進行打分。

專案位址：

大板凳

google推出的一個評測集，BIG-bench由 204 項任務組成，任務主題涉及語言學、兒童發展、數學、常識推理、生物學物理學、社會偏見、軟體開發等等領域的問題。

專案位址：

MMCU

甲骨易AI研究院提出一種衡量中文大模型處理多任務準確度的測試，數據集的**測試內容涵蓋四大領域：醫療、法律、心理學和教育。 **題目的數量達到1萬+，其中包括醫療領域2819道題，法律領域3695道題，心理學領域2001道，教育領域3331道。

專案位址：

被強迫

微軟發佈的大模型基礎能力評測基準，在2023年4月推出，主要評測大模型在人類認知和解決問題的一般能力，涵蓋全球20種面向普通人類考生的官方、公共和高標準錄取和資格考試，包含中英文數據。因此，該測試更加傾向於人類考試結果，涵蓋了中英文。

論文位址：

GSM8K

OpenAI發佈的大模型數學推理能力評測基準，涵蓋了8500個中學水準的高品質數學題數據集。數據集比之前的數學文字題數據集規模更大，語言更具多樣性，題目也更具挑戰性。該項測試在2021年10月份發佈，至今仍然是非常困難的一種測試基準。

論文位址：

掌舵

HELM評測方法主要包括場景、適配、指標三個模組，每次評測的運行都需要指定一個場景，一個適配模型的提示，以及一個或多個指標。它評測主要覆蓋的是英語，有7個指標，包括準確率、不確定性/校准、魯棒性、公平性、偏差、毒性、推斷效率; 任務包括問答、資訊檢索、摘要、文本分類等。

論文位址：

專案位址：

中國-LLalA-羊駝

它的打分就是相對值，優先使用gpt4，部分使用chatgpt3。

專案位址：

MT-bench

評估大模型的多輪對話和指令追隨能力。數據集包括80個（8category*10question）高品質且多輪對話的問題，每個問題由6個知名大模型（ GPT-4， GPT-3.5， Claud-v1， Vicuna-13B， Alpaca-13B， and LLaMA-13B）回答，人工排序得到3.3K pair對。

論文位址：

通過MT-Bench和Chatbot Arena評判LLM作為法官

GitHub

專案位址：

/tree/main/fastchat/llm_judge

資料下載位址：

-2- 評測模式

通過上述評測工具發現，目前常見的大模型評測模式可以大致總結為四種：

**1.做題打分。 **主要是收集各種各樣的評測數據集，然後把數據集分為不同的維度能力。通過設計一些讓大模型去做這些數據集的任務，與標準答案進行對照計算分數。典型的如OpenCompass，huggingface的openLLM leaderboard等。

**2.讓GPT-4做裁判。 **收集評測用的數據集（一些不是公開開源的、不帶標準答案的數據集也會包含在內），然後讓GPT-4給大模型的生成結果進行評判。此評判過程又有兩種打分方式，一是直接打分，一是設計一些維度，例如事實性、準確性、安全合規性等，然後更細粒度地進行評測。

**3.競技場模式。 **類似於競技遊戲裡面的競技場。每次拉兩個大模型選手PK，由使用者（有時候也會用GPT-4）來評測哪個模型更好，贏的大模型有加分，輸的大模型有減分。當執行了足夠多的PK輪次后，就會有一個大模型的得分排行榜，這個榜單相對來說還是比較公正的，能夠較為客觀得體現模型的能力強弱。典型的例子如UC伯克利發佈的Chatbot Arena Leaderboard。

**4.針對單項能力的評測。 **例如針對數學能力、代碼能力、推理能力等，評測這些能力既可以判斷一個大模型是否真的具備類似人類的思考能力，其評測結果也能夠直接説明在特定領域場合中選擇大模型（例如代碼助手）。

-3- 評價結果「天差地別」

評測工具五花八門，不同評測工具的評價結果也“天差地別”。

8月15日，一家機構的人工智慧大模型體驗報告發佈，對國內主流大模型進行使用體驗的橫向測評。該榜單用500道題目評測了國內8款主流AI大模型，最終訊飛星火排名第一，百度文心一言排名第二，阿裡通義千問排在倒數第二。

9月，學術界當紅開源評測榜單C-最新一期排行榜中，雲天勵飛的大模型“雲天書”排在第一，而GPT-4僅名列第十。

同月，SuperCLUE發佈了大模型9月榜單。總榜上GPT-4排名第一，而商湯科技的SenseChat3.0拿下中文榜單首位。

10月19日，斯坦福大學發佈了2023基礎模型透明度指數，對10個主流基礎模型進行了透明度評級，Llama 2排名第一、GPT-4排名第三。

為什麼各大評測工具的評價結果截然不同呢？究其原因，主要有以下幾點：

**1.每個流行學術評測集都有自己的側重點。 **比如Meta最常選用的GSM8K和MMLU，是不同水平的考試集——前者是小學數學，後者則是更高級的多學科問答。就像一個班的學生參加不同學科的考試，大模型們在不同榜單上自然排名不同。

**2.主觀題在大模型評測中比例上升。 **在現行海內外大模型評測榜單中，主觀題與客觀題結合的思路普遍被業內認可。但主觀題的挑戰在於，每個人心中的評價標準是否一致。以及「人類團隊評分」必然會觸及題目數量的天花板，而對於大模型評測而言，題量越大得出的結論則越有效。

**3.專用模型與通用大模型之間在垂直領域的同台競技導致排名失真。 **在實際落地場景中，製造業、醫療、金融等行業內企業客戶在接入大模型能力時都需要根據自身資料庫做二次微調。這也意味著，原版通用大模型直接參與垂直領域問答所得出的結果，並不能夠代表大模型產品在垂直領域的真實表現。

**4.開源測試集引發的“刷榜”現象。 **不少新晉大模型之所以能在開源測試集榜單上的排名超越GPT-4，一些原因是因為涉嫌“刷題”。例如C-目前只公開了題目但沒有公開答案，參與測試的大模型廠商要麼找數據標註員把題目做一遍，要麼用GPT-4把題做一遍，再把答案扣下來訓練大模型，這樣都能在相應學科測試中獲得滿分。

閉源評測集就能規避「刷榜」嗎？不然，如果閉源評測集不進行更新換題，參與評測的模型可以從後台拉出歷史記錄進行“作弊”，重做被測試過的問題。這等同於「虛假閉源」。。

**針對上述問題，業界也在探索相應的解決方案。 **

例如，對於大模型評測主觀題評價標準難以一致，以及「人類團隊評分」觸及題目數量天花板的問題，業內開始採用「人類+GPT4評分」的模式。國內如SuperCLUE會選擇將GPT4視作“評卷老師”，讓其加入人類團隊輔助評分。

再如「刷榜」問題，業內人士認為，「評測集應該是封閉的，避免被作弊，但一個好的大模型評測應該是過程公開的評測，方便大家對評測做監督。 ”

也有人認為，將大模型評測過程公開是很好的願景，但考慮到評測的公平公正性，還是應有大量的封閉評測集，“閉卷考試”才能真正的評價出模型的能力。

此外還有防刷分的大模型評測，比如復旦大學NLP實驗室推出LLM-3採用了一種新穎的評測模式，即“題庫考試”模式。在LLM-3中，每個參與評測的系統需要完成從總題庫中隨機抽樣的1000題，針對同一機構的模型，確保每次評測題目不重複。評測過程將採用在線方式，一輪評測中題目的發送串行進行，即下一題的發送將會視上一道題目的回答情況而定，避免惡意爬取行為。

由於大模型涉及的領域和應用非常廣泛，不同領域、不同應用的大模型需要關注的指標和評估方法不盡相同。因此，針對具體應用領域和需求，不同機構和組織可能會提出不同的評估標準和方法。 “儘管沒有統一的標準，但測評的意義在於提供了一種評估和比較不同大模型性能和效果的方法，説明使用者選擇適合自己需求的大模型。”

如何作出真正綜合全面的大模型評測，學界和產業界最前沿也“一頭霧水”。即便如此，權威機構更應加強研究，儘快形成共識，促進技術進步和行業發展。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人點讚了這條動態

讚賞
1
留言
分享

留言

0/400

暫無留言

話題
1/3
16 BTC全民空投限時派送中
91658 熱度
2白宮加密報告發布
77508 熱度
3Gate Alpha積分擼40U
64574 熱度
4Alpha 積分系統上線
15958 熱度
5加密市場反彈
144397 熱度