📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
谷歌這一“大招”,要逼死多少AI標註公司?
原文來源:AI 新智能
如果說,當下的生成式AI,是一個正在茁壯成長的孩子,那麼源源不斷的數據,就是其餵養其生長的食物。
而數據標註,就是製作這一“食物”的過程。
然而,這一過程真的很卷,很累人。
隨著AI技術的不斷進步,人工數據標註的局限性也日益顯現。人工數據標註不僅耗時耗力,而且質量有時難以保障。
這些結果表明,RLAIF不需要依賴於人工**標註,是RLHF的可行替代方案。 **
那麼,倘若這一技術將來真的推廣、普及,眾多還在靠人工“拉框”的數據標註企業,從此是否就真的要被逼上絕路了?
1 數據標註現狀
如果要簡單地總結目前國內標註行業的現狀,那就是:**勞動量大,但效率卻不太高,屬於費力不討好的狀態。 **
標註企業被稱為AI領域的數據工廠,通常集中在東南亞、非洲或是中國的河南、山西、山東等人力資源豐富的地區。
為了控製成本,標註公司的老闆們會在縣城裡租一塊場地,擺上電腦,有訂單了就在附近招人兼職來做,沒單子就解散休息。
簡單來說,這個工種有點類似馬路邊上的臨時裝修工。
之後,“標註師”需要先標註出這個問題屬於什麼類型,隨後給這些回答分別打分並排序。
此前,人們在談論國產大模型與GPT-4等先進大模型的差距時,總結出了國內數據質量不高的原因。
但數據質量為何不高?一部分原因,就出在數據標註的“流水線”上。
目前,中文大模型的數據來源是兩類,一類是開源的數據集;一類是通過爬蟲爬來的中文互聯網數據。
**中文大模型表現不夠好的主要原因之一就是互聯網數據質量,**比如,專業人士在查找資料的時候一般不會用百度。
可這時,問題又來了:對於專業團隊來說,在數據方面不僅回報週期長,而且先行者很有可能會吃虧。
例如,某家標註團隊花了很多錢和時間,做了很多數據,別人可能花很少的錢就可以直接打包買走。
面對這樣的“搭便車困境”,國內大模型紛紛陷入了數據雖多,但質量卻不高的詭異困境。
既然如此,那目前國外一些較為領先的AI企業,如OpenAI,他們是怎麼解決這一問題的?
例如,此前就曝出其曾以2美元/小時的價格,僱傭了大量肯尼亞勞工進行有毒信息的標註工作。
**但關鍵的區別,就在於如何解決數據質量和標註效率的問題。 **
具體來說,OpenAI在這方面,與國內企業最大的不同,就在於如何降低人工標註的“主觀性”、“不穩定性”的影響。
2 OpenAI的方式
為了降低這樣人類標註員的“主觀性”和“不穩定性”,OpenAI大致採用了兩個主要的策略:
1、人工反饋與強化學習相結合;
這裡先說說第一點,在標註方式上,OpenAI的人工反饋,與國內最大的區別,就在於其主要是對智能係統的行為進行排序或評分,而不是對其輸出進行修改或標註。
智能係統的行為,是指智能係統在一個複雜的環境中,根據自己的目標和策略,做出一系列的動作或決策。
例如玩一個遊戲、控制一個機器人、與一個人對話等。
通常來說,智能係統的行為比輸出更難以用“正確”或“錯誤”來判斷,更需要用偏好或滿意度來評價。
而這種以“偏好”或“滿意度”為標準的評價體系,由於不需要修改或標註具體的內容,從而減少了人類主觀性、知識水平等因素對數據標註質量以及準確性的影響。
2、多樣化、大規模的數據來源渠道;
國內的數據標註來源主要是第三方標註公司或科技公司自建團隊,這些團隊多為本科生組成,缺乏足夠的專業性和經驗,難以提供高質量和高效率的反饋。
OpenAI不僅使用開源數據集和互聯網爬蟲來獲取數據,還與多家數據公司和機構合作,例如Scale AI、Appen、Lionbridge AI等,來獲取更多樣化和高質量的數據。
與國內的同行相比,這些數據公司和機構標註的手段要“自動”和“智能”得多。
同時,Snorkel還可以利用規則、模型、知識庫等多種信號來為數據添加標籤,而不需要人工直接標註每個數據點。這樣可以大大減少人工標註的成本和時間。
如此一來,“先行者會吃虧”的搭便車困境,也被強大的技術和行業壁壘給消弭了。
3 標準化VS小作坊
由此可見,**AI自動標註技術,真正淘汰的只是那些還在使用純人工的標註公司。 **
儘管數據標註聽上去是一個“勞動密集型”產業,但是一旦深入細節,便會發現,追求高質量的數據並不是一件容易的事。
以海外數據標註的獨角獸Scale AI為代表,Scale AI不僅僅在使用非洲等地的廉價人力資源,同樣還招聘了數十名博士,來應對各行業的專業數據。
而要想最大程度地保障數據質量,除了前面提到的使用AI輔助標註外,**Scale AI的另一大創新,就是了一個統一的數據平台。 **
這些平台,包括了Scale Audit、Scale Analytics、ScaleData Quality 等。通過這些平台,客戶可以監控和分析標註過程中的各種指標,並對標註數據進行校驗和優化,評估標註的準確性、一致性和完整性。
在這方面,目前國內大部分的標註企業,都仍在使用“人工審核”的方式來審核數據標註的質量,只有百度等少數巨頭引入了較為先進的管理和評估工具,如EasyData智能數據服務平台。
如果在關鍵的數據審核方面,沒有專門的工具來監控和分析標註結果和指標,那對數據質量的把關,就仍舊只能淪為靠“老師傅”眼力見的作坊式水準。
由此可見,AI標註的出現,並不是國內標註企業的末日,而只是一種低效、廉價、缺乏技術含量的勞動密集型標註方式的末日。