📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
微軟寫了份GPT-4V 說明書:166 頁講解又全又詳細,提示詞demo 範例一應俱全
來源:量子位元
多模態王炸大模型GPT-4V,**166頁「說明書」**重磅發布!而且還是微軟團隊出品。
什麼樣的論文,能寫出166頁?
不僅詳細評量了GPT-4V在十大任務上的表現,從基礎的影像辨識、到複雜的邏輯推理都有展示;
也傳授了一整套多模態大模型提示詞使用技巧——
手把手教你從0到1學會寫提示詞,回答專業程度一看就懂,屬實是把GPT-4V的使用門檻打到不存在了。
在166頁報告發布前,他們也參與了OpenAI最新DALL·E 3的研究,對這個領域了解頗深。
相較於OpenAI的18頁GPT-4V論文,這篇166頁「食用指南」一發布,立刻被奉為GPT-4V用戶必讀之物:
**微軟166頁報告講了啥? **
這篇論文鑽研GPT-4V的方法,核心就靠一個字—「試」。
微軟研究員設計了涵蓋多個領域的一系列輸入,將它們餵給GPT-4V,並觀察和記錄GPT-4V的輸出。
隨後,他們對GPT-4V完成各類任務的能力進行評估,也給出了使用GPT-4V的新提示詞技巧,具體包括4大方面:
1、GPT-4V的用法:
5種使用方式:輸入影像(images)、子影像(sub-images)、文字(texts)、場景文字(scene texts)和視覺指標(visual pointers)。
3種支持的能力:指令遵循(instruction following)、思考鏈(chain-of-thoughts)、上下文少樣本學習(in-context few-shot learning)。
例如這是基於思維鏈變更提問方式後,GPT-4V展現的指令遵循能力:
開放世界視覺理解(open-world visual understanding)、視覺描述(visual deion)、多模態知識(multimodal knowledge)、常識(commonsense)、場景文字理解(scene text understandin)、文件推理(document reasoning)、寫程式碼(coding)、時間推理(temporal reasonin)、抽象推理(abstract reasoning)、情緒理解(emotion understanding)
其中就包括這種,需要一些智商才能做出來的「圖像推理題」:
提出了一種新的多模態提示詞技巧「視覺參考提示」(visual referring ing),可以透過直接編輯輸入圖像來指示感興趣的任務,並結合其他提示詞技巧使用。
預測了多模態學習研究者應該關注的2類領域,包括落地(潛在應用情境)和研究方向。
例如這是研究人員發現的GPT-4V可用場景之一—故障檢測:
一起來看看GPT-4V如今的多模態能力進化到哪一步了。
精通專業領域圖像,也能現學知識
影像辨識
最基礎的辨識自然是不在話下,例如科技、運動界以及娛樂圈的各路名人:
不過越是有名的人和地點,判斷起來就越容易,所以要難度更高的圖才能展現GPT-4V的能力。
例如醫學影像,針對下面這張肺部CT,GPT-4V給了這樣的結論:
這張圖中,GPT-4V成功辨識出了這是一張腦部的核磁共振(MRI)影像。
同時,GPT-4V也發現有大量積液,認為很可能是高惡性度腦膠質瘤。
經過專業人士判斷,GPT-4V給出的結論完全正確。
不僅是解讀表情包中的梗,真實世界中人類的表情所表達的情感也能被GPT-4看穿。
這方面,GPT-4V除了可以辨識拉丁文字拼字的語言之外,中文、日文、希臘文等其他文字也都認識。
前面所展示的DEMO,無論多麼專業或多麼難懂,都還停留在識別的範疇,但這只是GPT-4V技能的冰山一角。
除了看懂圖片中的內容,GPT-4V還具有一定的推理能力。
簡單一些的,GPT-4V可以發現兩張圖的不同(雖然還有些錯誤)。
下面的一組圖中,王冠和蝴蝶結的差異都被GPT-4V發現了。
當然難度不是在於圖形本身,注意圖中的第4條文字說明,原題目中圖形的排列方式不是圖中展示的樣子。
除了用文字回答各種問題,GPT-4V還可以在圖片中執行一系列操作。
例如我們手上有一張四位AI巨頭的合影,要GPT-4V框出其中的人物並標註他們的姓名和簡介。
除了這些靜態內容,GPT-4V還能做動態分析,不過不是直接餵給模型一段影片。
下面的五張圖是從一段製作壽司的教學影片中截取的,GPT-4V的任務是(在理解內容的基礎上)推測這些圖片出現的順序。
例如下面的一組圖中,人的動作究竟是開門還是關門,會導致排序結果截然相反。
GPT-4V不僅視覺本領強,關鍵在於還能現學現賣。
還是舉個例子,讓GPT-4V讀汽車儀表板,一開始得到的答案是錯誤的:
那麼,GPT-4V這些神器的效果背後,又是怎樣的一個團隊呢?
清華校友領銜
這篇論文的作者一共有7位,均為華人,其中6位是核心作者。
她的研究領域是基於多模態感知智能的深度學習和機器學習,具體又包括視覺語言模型預訓練、影像字幕生成、目標檢測等AI技術。
原文網址: