本文來自于微信公眾號 量子位 (ID:QbitAI),作者:白交 。
GPT-4V來做目標檢測?網(wǎng)友實測:還沒有準備好。
雖然檢測到的類別沒問題,但大多數(shù)邊界框都錯放了。
沒關系,有人會出手!
那個搶跑GPT-4看圖能力幾個月的迷你GPT-4升級啦——MiniGPT-v2。
而且只是一句簡單指令:[grounding] describe this image in detail就實現(xiàn)的結(jié)果。
不僅如此,還輕松處理各類視覺任務。
圈出一個物體,提示詞前面加個 [identify] 可讓模型直接識別出來物體的名字。
當然也可以什么都不加,直接問~
MiniGPT-v2由來自MiniGPT-4的原班人馬(KAUST沙特阿卜杜拉國王科技大學)以及Meta的五位研究員共同開發(fā)。
上次MiniGPT-4剛出來就引發(fā)巨大關注,一時間服務器被擠爆,如今GItHub項目已超22000+星。
此番升級,已經(jīng)有網(wǎng)友開始用上了~
多視覺任務的通用界面
大模型作為各文本應用的通用界面,大家已經(jīng)司空見慣了。受此靈感,研究團隊想要建立一個可用于多種視覺任務的統(tǒng)一界面,比如圖像描述、視覺問題解答等。
「如何在單一模型的條件下,使用簡單多模態(tài)指令來高效完成各類任務?」成為團隊需要解決的難題。
簡單來說,MiniGPT-v2由三個部分組成:視覺主干、線性層和大型語言模型。
該模型以ViT視覺主干為基礎,所有訓練階段都保持不變。從ViT中歸納出四個相鄰的視覺輸出標記,并通過線性層將它們投影到 LLaMA-2語言模型空間中。
團隊建議在訓練模型為不同任務使用獨特的標識符,這樣一來大模型就能輕松分辨出每個任務指令,還能提高每個任務的學習效率。
訓練主要分為三個階段:預訓練——多任務訓練——多模式指令調(diào)整。
最終,MiniGPT-v2在許多視覺問題解答和視覺接地基準測試中,成績都優(yōu)于其他視覺語言通用模型。
最終這個模型可以完成多種視覺任務,比如目標對象描述、視覺定位、圖像說明、視覺問題解答以及從給定的輸入文本中直接解析圖片對象。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。