📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
兩行代碼解決大語言模型對話局限! 港中文賈佳亞團隊聯合MIT發佈超長文本擴展技術
中途迷失、模型偷懶、上下文越長大模型越笨...... 如果體驗過大語言模型產品,使用者多少會對文本輸入長度帶來的限制有所感觸,比如當想和大模型討論一些稍長的內容,需要拆分輸入,而前面輸入的要點,很快就會被大模型忘記。
這是典型的大語言模型對話缺陷! 就像先天有注意力缺陷的兒童,難以專注看完一本新書。 而缺陷的關鍵,在於模型缺乏長文本處理能力。 這個局面如今被打破。
近日,賈佳亞團隊聯合MIT發佈的新技術和新模型悄然登上各大開源網站的熱榜:hugging face熱榜第一、paperwithcode熱度第一,Github全部python項目熱度第五、github stars一周內破千,Twitter上的相關技術帖子流覽量近18萬......
這項名為LongLoRA的技術實用但卻簡單得令人驚訝:只需兩行代碼、一台8卡A100機器,便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens; 同時,該研究團隊還發佈了首個擁有70B參數量的長文本對話大語言模型LongAlpaca。
全球首個70B長文本大語言模型發佈
LongLoRA的提出,讓全球大語言模型的對話缺陷第一次得到解決,自此,幾十頁的論文、幾百頁的報告、鴻篇巨制不再成為大模型盲區。
對此,有專業人士激動地表示,LongLoRA是大語言模型迷宮中的希望之燈! 它代表著業界對長文本大語言模型的重新思考和關注,有效擴展了大語言模型的上下文視窗,允許模型考慮和處理較長的文本序列,是大語言模型的革新性發明。
為此,研究團隊特意收集了9k條長文本問答語料對,包含針對名著、論文、深度報導甚至財務報表的各類問答。
光會回答長問題還不夠,該團隊又挑選了3k的短問答語料與9K的長問答語料混合訓練,讓長文本大模型同時具備短文本對話能力。 這個完整的數據集被稱為LongAlpaca-12k,目前已經開源。
在LongAlpaca-12k數據集基礎上,研究團隊對不同參數大小7B、13B、70B進行了訓練和評測,開源模型包括LongAlpaca-7B, LongAlpaca-13B和LongAlpaca-70B。
看小說、改論文、指點經濟堪稱全能王
話不多說,盲選幾個demo,一起看看應用了LongLoRA技術疊加12K問答語料的大模型LongAlpaca效果。
可以看出,經過訓練的LongAlpaca模型已經可以很輕鬆地接受新的長篇學術論文,在學術相關問題的回答上相當精準。
接下來,再看看LongAlpaca模型在頗高閱讀和理解門檻的經濟領域的解讀表現。
LongAlpaca還可以讀新的長篇小說,讀完后對內容進行分析。 下面選取的對比模型是13B參數的LongAlpaca和Llama2,且看各自表現。
而 Llama2 的回答較為簡單。 “雖然他確實大鬧天宮,但說他代表著不敗的力量並不一定準確。 事實上,他最終在西遊記中被強大的唐三藏打敗。 “Llama2沒有給出正確答案,並且還提出需要更多的內容資訊。
而Llama2的回答則是,“通過與外星人的互動,她希望能更深入地瞭解宇宙的本質,以及自己在宇宙中的位置。 葉文潔逐漸意識到,外星人和他們的技術並不能解決她的問題。 “回答籠統,之後開始對小說整體進行評論,答非所問。
從模型給出的答案可發現,一些模型如Llama2 [2] 可能在預訓練過程中見過相關小說,但如果在提問時進行僅根據小說題目進行短文本提問的話,回答並不理想。
兩個模型的回答對比,高下立見。 LongAlpaca改學術論文、點評全球經濟大勢和讀小說,都是一把好手,完勝 Llama2。
兩行代碼和三個關鍵結論
Llama2可以說是 AI 社區內最強大的開源大模型之一,行業位置領先,LongAlpaca居然可以完勝。 其背後的LongLoRA技術成功引起網友們的注意,到底是怎麼做到的?
原來大語言模型對長文本處理過程中,計算量的主要開銷集中在自注意力機制(self-attention),其開銷隨著文本長度成平方次地增加。
針對這個問題,研究團隊提出LongLoRA技術,並用分組和偏移的方式來對全域自注意力機制進行類比。
而這個實現方法也非常簡潔,僅兩行代碼即可完成!
在Perplexity-困惑度上,原有LoRA方法的性能在不斷惡化,而LongLoRA和全參數微調都能在各種文本長度下維持很好的效果;
在顯存消耗上,相比於全參數微調,LongLoRA和原有LoRA都有大幅度的節省。 例如,對於8k長度的模型訓練,相比於全參數微調,LongLoRA將顯存消耗從46.3GB降低到25.6GB;
在訓練時間上,對於64k長度的模型訓練,相比於常規LoRA,LongLoRA將訓練時間從90~100小時左右降低到52.4小時,而全參數微調超過1000小時。
極簡的訓練方法、極少的計算資源和時間消耗,以及極佳的準確性,令LongLoRA大規模推廣成為可能。 目前,相關技術與模型已全部開源,感興趣的使用者們可以自己部署感受。
值得一提的是,這是賈佳亞團隊繼8月9日發佈的“可以分割一切”的多模態大模型 LISA 后的又一力作。 相距不過短短兩個月,不得不說,這研究速度和能力跟LongLoRA一樣驚人。