比特幣行情 比特幣行情
Ctrl+D 比特幣行情
ads
首頁 > Gate.io > Info

OWL:達摩院貓頭鷹 mPLUG-Owl 亮相:模塊化多模態大模型,追趕 GPT-4 多模態能力

Author:

Time:1900/1/1 0:00:00

來源:機器之心

純文本大模型方興未艾,多模態領域也開始涌現出多模態大模型工作,地表最強的GPT-4具備讀圖的多模態能力,但是遲遲未向公眾開放體驗,于是乎研究社區開始在這個方向上發力研究并開源。MiniGPT-4和LLaVA問世不久,阿里達摩院便推出mPLUG-Owl,一個基于模塊化實現的多模態大模型。

今天要介紹的是mPLUG-Owl,該工作不僅通過大量cases展示出優秀的多模態能力,還第一次針對視覺相關的指令理解提出一個全?的測試集OwlEval,通過人工評測對比了已有模型,包括LLaVA、MiniGPT-4、BLIP-2以及系統類MM-REACT等工作,實驗結果表明mPLUG-Owl展示出更優的多模態能力,尤其在多模態指令理解能力、多輪對話能力、知識推理能力等方?表現突出

3月DEX交易量增長至1331億美元:金色財經報道,隨著美國監管機構對包括 Kraken、Coinbase 和 Binance 在內的中心化交易平臺采取措施,去中心化交易平臺 (DEX) 在 3 月份的加密貨幣交易量大幅增加。根據 DeFiLlama 的數據,3 月份 DEX 的交易量增至 1331 億美元,連續第三個月增長。[2023/4/6 13:46:57]

論文鏈接:https://arxiv.org/abs/2304.14178

代碼鏈接:https://github.com/X-PLUG/mPLUG-Owl

ModelScope體驗地址:

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

杭州法院對利用某平臺登錄漏洞盜賣數字藏品被告判處三年有期徒刑:4月3日消息,日前,經浙江省杭州市拱墅區檢察院提起公訴,法院以侵犯公民個人信息罪、非法獲取計算機信息系統數據罪,數罪并罰,判處被告人陳某有期徒刑三年,緩刑四年六個月,并處罰金7000元。

2022年7月20日,陳某偶然發現,某數字藏品平臺的登錄機制存在漏洞。經查,陳某成功登錄了30余個用戶的賬戶,并以1400元至1600元不等的單價賣掉了其中21個用戶的數字藏品,總計獲利3萬余元。目前,這21件數字藏品已經退還到了原用戶賬號。[2023/4/3 13:42:14]

HuggingFace體驗地址:

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模態能力展示

我們把mPLUG-Owl與現有工作進行對比來感受一下mPLUG-Owl的多模態效果,值得一提的是,該工作中評比的測試樣例基本上都來自已有工作,避免了cherrypick問題。

Roboto Games完成1500萬美元A輪融資,a16z領投:金色財經報道,旨在連接Web2體驗和可訪問的Web3游戲元素的游戲工作室Roboto Games完成1500萬美元A輪融資,a16z領投,其他參投方包括Ancient8、Animoca Brands、Gumi Cryptos Capital、Harrison Metal Capital、Makers Fund、Merit Circle、Transcend和一些天使投資人。迄今為止,該公司的總融資額為1950萬美元,包括2019年的種子輪融資。

Roboto Game由Web2資深人士創立,計劃將Web3元素添加到其即將推出的生存/制作大型多人在線(MMO)游戲Foragers and Fighters中,該團隊計劃在2023年第一季度推出該游戲的初始可玩版本,新資金將用于繼續打磨游戲并擴大招聘,包括藝術家和營銷人員。[2022/11/30 21:10:49]

下圖6展示了mPLUG-Owl很強的多輪對話能力。

以太坊信標鏈驗證者數量突破44萬,總質押量接近1500萬枚ETH:10月5日消息,據以太坊官方網站最新數據顯示,以太坊信標鏈驗證者總數量已突破44萬,截止目前為440,145個。此外,以太坊總質押量達到14,893,565枚ETH。按照當前ETH價格計算,質押ETH總價值已超過198.7億美元。[2022/10/6 18:40:23]

從圖7中可以發現,?mPLUG-Owl具有很強的推理能力。

如圖9展示了一些笑話解釋例?。

被標記為Alameda FTX Deposit的地址向FTX轉入6300萬USDC和1500萬USDT:據KingData數據監控,被KingData大戶地址標記為Alameda Research FTX Deposit的錢包地址于北京時間 5 月 23 日 8:26:51 和 9:40:24 分別向FTX交易所轉入2000萬USDC和4300萬USDC;同時于今晨6:50:55向FTX交易所轉入1500萬枚USDT。[2022/5/23 3:35:06]

在該工作中,除了評測對比外,該研究團隊還觀察到mPLUG-Owl初顯一些意想不到的能力,比如多圖關聯、多語?、文字識別和文檔理解等能力。

如圖10所示,雖然在訓練階段并沒有進行多圖關聯數據的訓練,mPLUG-Owl展現出了一定的多圖關聯能力。

如圖11所示,盡管mPLUG-Owl在訓練階段僅使用了英文數據,但其展現出了有趣的多語?能力。這可能是因為mPLUG-Owl中的語?模型使用了LLaMA,從而出現了這一現象。

盡管mPLUG-Owl沒有在帶有標注的文檔數據上進行訓練,但其仍然展現出了一定的文字識別和文檔理解能力,測試結果如圖12所示。

方法介紹

該工作提出的mPLUG-Owl,其整體架構如圖2所示。

模型結構:它由視覺基礎模塊(開源的ViT-L)、視覺抽象模塊以及預訓練語?模型(LLaMA-7B)組成。視覺抽象模塊將較?的、細粒度的圖像特征概括為少量可學習的Token,從而實現對視覺信息的?效建模。?成的視覺Token與文本查詢一起輸?到語?模型中,以?成相應的回復。

模型訓練:采用兩階段的訓練方式

第一階段:主要目的也是先學習視覺和語?模態間的對?。不同于先前的工作,?mPLUG-Owl提出凍住視覺基礎模塊會限制模型關聯視覺知識和文本知識的能力。?因此mPLUG-Owl在第一階段只凍住LLM的參數,采用LAION-400M,?COYO-700M,?CC以及MSCOCO訓練視覺基礎模塊和視覺摘要模塊。

第?階段:延續mPLUG和mPLUG-2中不同模態混合訓練對彼此有收益的發現,Owl在第?階段的指令微調訓練中也同時采用了純文本的指令數據(52kfromAlpaca+90kfromVicuna+50kfromBaize)和多模態的指令數據(150kfromLLaVA)。作者通過詳細的消融實驗驗證了引?純文本指令微調在指令理解等方?帶來的收益。第?階段中視覺基礎模塊、視覺摘要模塊和原始LLM的參數都被凍住,參考LoRA,只在LLM引?少量參數的adapter結構用于指令微調。

實驗結果

SOTA對比

為了比較不同模型的多模態能力,該工作構建一個多模態指令評測集OwlEval。由于?前并沒有合適的自動化指標,參考Self-Intruct對模型的回復進行人工評測,打分規則為:A="正確且令人滿意";B="有一些不完美,但可以接受";C="理解了指令但是回復存在明顯錯誤";D="完全不相關或不正確的回復"。

對比結果如下圖3所示,實驗證明Owl在視覺相關的指令回復任務上優于已有的OpenFlamingo、BLIP-2、LLaVA、MiniGPT-4。

多維度能力對比

多模態指令回復任務中牽扯到多種能力,例如指令理解、視覺理解、圖?上文字理解以及推理等。為了細粒度地探究模型在不同能力上的?平,本文進一步定義了多模態場景中的6種主要的能力,并對OwlEval每個測試指令人工標注了相關的能力要求以及模型的回復中體現了哪些能力。

結果如下表格6所示,在該部分實驗,作者既進行了Owl的消融實驗,驗證了訓練策略和多模態指令微調數據的有效性,也和上一個實驗中表現最佳的baseline—MiniGPT4進行了對比,結果顯示Owl在各個能力方?都優于MiniGPT4。

Tags:OWLPLUGPLUMPLSOWL Tokenplugchain幣價格Litecoin PlusAmplify Protocol

Gate.io
一文讀懂EIP-4626: 代幣化保險庫的通用標準

原文作者:StaderEthereum原文編譯:深潮TechFlow代幣化保險庫,作為一種新興的數字資產管理方式,已經在以太坊上得到廣泛應用.

1900/1/1 0:00:00
BRC:詳解BRC20原理及特點:普通用戶還有哪些參與機會?

原文作者:西柚,ChainCatcher今天,“BRC?20?代幣?Ordi?價格突破?10?美元,市值突破?2?億美元”的新聞在各大社群流傳.

1900/1/1 0:00:00
加密貨幣:Beosin:頂級黑客是如何對加密貨幣進行竊取和清洗的?

原文作者:Beosin 不知道大家是否還記得今年3月,發生的那筆接近2億美金的EulerFinance攻擊事件.

1900/1/1 0:00:00
ORI:誰是00后手機里的「BAT」?

采訪|賈紫璇于瑋琳 撰文|賈紫璇 「已經很難記起上一次打開百度是什么時候了;微信聊天記錄在以周為單位緩慢更新;我的抖音月付金額已經超過了支付寶花唄分期.

1900/1/1 0:00:00
SUI:Sui Network主網初體驗:真的如此順滑嗎

原文來源:SuiWorld千呼萬喚始出來,?5月3日晚,SuiNetwork如約上線主網,在之前的文章中,SuiWorld總結了關于SuiNetwork主網上線不得不關注的問題.

1900/1/1 0:00:00
EFI:加拿大銀行:去中心化金融貸款的脆弱性

來源|BankofCanadaStaffWorkingPaper作者|?JonathanChiu,EmreOzdenoren.

1900/1/1 0:00:00
ads