加密貨幣交易所 加密貨幣交易所
Ctrl+D 加密貨幣交易所
ads
首頁 > AVAX > Info

達摩院貓頭鷹 mPLUG-Owl 亮相:模塊化多模態大模型,追趕 GPT-4 多模態能力_OWL:PLUG

Author:

Time:1900/1/1 0:00:00

來源:機器之心

純文本大模型方興未艾,多模態領域也開始涌現出多模態大模型工作,地表最強的GPT-4具備讀圖的多模態能力,但是遲遲未向公眾開放體驗,于是乎研究社區開始在這個方向上發力研究并開源。MiniGPT-4和LLaVA問世不久,阿里達摩院便推出mPLUG-Owl,一個基于模塊化實現的多模態大模型。

今天要介紹的是mPLUG-Owl,該工作不僅通過大量cases展示出優秀的多模態能力,還第一次針對視覺相關的指令理解提出一個全?的測試集OwlEval,通過人工評測對比了已有模型,包括LLaVA、MiniGPT-4、BLIP-2以及系統類MM-REACT等工作,實驗結果表明mPLUG-Owl展示出更優的多模態能力,尤其在多模態指令理解能力、多輪對話能力、知識推理能力等方?表現突出

去中心化云存儲服務提供商Unigrid獲GEM提供2500萬美元投資承諾:金色財經報道,去中心化云存儲服務提供商Unigrid宣布獲得GEM提供的2500萬美元投資承諾,此外Unigrid還與WeSendit達成合作,將使用后者提供的匿名數據傳輸和去中心化存儲解決方案的文件傳輸服務。Unigrid旨在成為區塊鏈領域里的亞馬遜AWS或谷歌云,利用區塊鏈在保證信息永久性方面的變革力量和節點技術和,為用戶提供更低的成本交付和安全存儲數據,繼而重塑云存儲行業。[2023/6/13 21:32:48]

論文鏈接:https://arxiv.org/abs/2304.14178

代碼鏈接:https://github.com/X-PLUG/mPLUG-Owl

LG電子為其可交易NFT的電視申請專利:金色財經報道,LG電子公司正在為一款能夠讓用戶交易NFT的電視申請專利保護。該設備將能夠與NFT市場服務器建立連接,接收和顯示預覽作品,并通過用戶的加密貨幣錢包完成購買,該錢包將與電視連接。

去年9月,LG開始了將NFT引入其電視的工作,發布了其藝術實驗室市場,該市場被插入Hedera網絡,LG自2020年以來一直是該網絡的節點運營商。[2023/5/12 15:00:12]

ModelScope體驗地址:

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace體驗地址:

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模態能力展示

約60%的烏克蘭軍事硬件供應商接受加密貨幣支付:金色財經報道,烏克蘭數字轉型部副部長Alex Bornyakov表示,該國一直在使用加密貨幣購買頭盔、防彈背心、光學瞄準具等作戰裝備。根據Bornyakov的說法,大約60%的軍事硬件供應商能夠接受加密貨幣,隨著俄烏沖突的加劇,這對烏克蘭政府來說是非常有利的。

Bornyakov透露,烏克蘭已收到約1億美元的加密貨幣捐贈,其中有超過6000萬美元存入了烏克蘭加密貨幣交易所Kuna管理的主要基金。[2023/2/25 12:29:03]

我們把mPLUG-Owl與現有工作進行對比來感受一下mPLUG-Owl的多模態效果,值得一提的是,該工作中評比的測試樣例基本上都來自已有工作,避免了cherrypick問題。

下圖6展示了mPLUG-Owl很強的多輪對話能力。

美聯儲會議紀要或將指向加息接近尾聲:1月4日消息,美聯儲在去年12月的政策會議上堅定承諾,今年將繼續加息,但速度會放緩,可能只會再加息四分之三個百分點。其會議紀要將于晚些時候公布,預計可能會讓人們進一步了解當前緊縮周期的最后階段將如何結束,以及美聯儲官員開始在多大程度上權衡經濟增長風險與通脹問題。會議紀要的整體基調可能仍將是解決通脹是政策制定者的首要任務。LH Meyer經濟學家Derek Tang表示,預計會議紀要“將傾向于反對過早放松”,并將重點放在利率進一步上升并保持在高位的可能性上。(金十)[2023/1/4 9:52:42]

從圖7中可以發現,?mPLUG-Owl具有很強的推理能力。

如圖9展示了一些笑話解釋例?。

中國銀行推出服貿會主題數字人民幣硬錢包:金色財經消息,9月1日,記者在2022年中國國際服務貿易交易會(下稱“服貿會”)金融展上了解到,中國銀行作為服貿會全球合作伙伴以及數字人民幣首批運營機構,今年圍繞“數字人民幣e啟向未來”主題,深度參與服貿會數字人民幣現場應用和展覽展示工作。

在數字人民幣現場應用方面,針對貴賓、嘉賓、交易團等5類持證人群,推出了服貿會主題數字人民幣硬錢包,可以在服貿會會場內外支持硬錢包受理的商戶和自助機具進行“碰一碰”消費。(新華財經)[2022/9/1 13:02:58]

在該工作中,除了評測對比外,該研究團隊還觀察到mPLUG-Owl初顯一些意想不到的能力,比如多圖關聯、多語?、文字識別和文檔理解等能力。

如圖10所示,雖然在訓練階段并沒有進行多圖關聯數據的訓練,mPLUG-Owl展現出了一定的多圖關聯能力。

如圖11所示,盡管mPLUG-Owl在訓練階段僅使用了英文數據,但其展現出了有趣的多語?能力。這可能是因為mPLUG-Owl中的語?模型使用了LLaMA,從而出現了這一現象。

盡管mPLUG-Owl沒有在帶有標注的文檔數據上進行訓練,但其仍然展現出了一定的文字識別和文檔理解能力,測試結果如圖12所示。

方法介紹

該工作提出的mPLUG-Owl,其整體架構如圖2所示。

模型結構:它由視覺基礎模塊(開源的ViT-L)、視覺抽象模塊以及預訓練語?模型(LLaMA-7B)組成。視覺抽象模塊將較?的、細粒度的圖像特征概括為少量可學習的Token,從而實現對視覺信息的?效建模。?成的視覺Token與文本查詢一起輸?到語?模型中,以?成相應的回復。

模型訓練:采用兩階段的訓練方式

第一階段:主要目的也是先學習視覺和語?模態間的對?。不同于先前的工作,?mPLUG-Owl提出凍住視覺基礎模塊會限制模型關聯視覺知識和文本知識的能力。?因此mPLUG-Owl在第一階段只凍住LLM的參數,采用LAION-400M,?COYO-700M,?CC以及MSCOCO訓練視覺基礎模塊和視覺摘要模塊。

第?階段:延續mPLUG和mPLUG-2中不同模態混合訓練對彼此有收益的發現,Owl在第?階段的指令微調訓練中也同時采用了純文本的指令數據(52kfromAlpaca+90kfromVicuna+50kfromBaize)和多模態的指令數據(150kfromLLaVA)。作者通過詳細的消融實驗驗證了引?純文本指令微調在指令理解等方?帶來的收益。第?階段中視覺基礎模塊、視覺摘要模塊和原始LLM的參數都被凍住,參考LoRA,只在LLM引?少量參數的adapter結構用于指令微調。

實驗結果

SOTA對比

為了比較不同模型的多模態能力,該工作構建一個多模態指令評測集OwlEval。由于?前并沒有合適的自動化指標,參考Self-Intruct對模型的回復進行人工評測,打分規則為:A="正確且令人滿意";B="有一些不完美,但可以接受";C="理解了指令但是回復存在明顯錯誤";D="完全不相關或不正確的回復"。

對比結果如下圖3所示,實驗證明Owl在視覺相關的指令回復任務上優于已有的OpenFlamingo、BLIP-2、LLaVA、MiniGPT-4。

多維度能力對比

多模態指令回復任務中牽扯到多種能力,例如指令理解、視覺理解、圖?上文字理解以及推理等。為了細粒度地探究模型在不同能力上的?平,本文進一步定義了多模態場景中的6種主要的能力,并對OwlEval每個測試指令人工標注了相關的能力要求以及模型的回復中體現了哪些能力。

結果如下表格6所示,在該部分實驗,作者既進行了Owl的消融實驗,驗證了訓練策略和多模態指令微調數據的有效性,也和上一個實驗中表現最佳的baseline—MiniGPT4進行了對比,結果顯示Owl在各個能力方?都優于MiniGPT4。

Tags:OWLPLUGPLUMPLHowling Wolf TokenPlug Chainplug幣現價KMPL幣

AVAX
什么是Rug Pull 我們又該如何甄別避免_PUL:區塊鏈MOVEZ幣

隨著加密貨幣投資的興起,詐騙也隨之興起。加密世界中最常見的騙局之一是rugpull。本文將從什么是RugPull,它的不同類型,以及如何識別和避免這些欺詐行為等方面展開介紹.

1900/1/1 0:00:00
Block一季度比特幣收入21.6億美元,同比增幅 25%_比特幣:LOC

金色財經報道,金融科技公司Block(SQ)在周四的股東信中表示,第一季度其CashApp部門的比特幣收入為21.6億美元,比第四季度的18.3億美元增長18%,比2022年第一季度增長25%.

1900/1/1 0:00:00
Cardano商業投資部門EMURGO Ventures宣布對Oort進行戰略投資并建立合作伙伴關系_ORT:CAR

2023年5月3日,美國紐約州紐約市-Cardano商業投資部門?EMURGOVentures?參與了?Oort?最新戰略輪融資,Cardano?也與Oort建立了戰略合作伙伴關系.

1900/1/1 0:00:00
ETH周報 | 坎昆升級確定納入EIP-4844;Uniswap Wallet上架App Store(4.24-4.30)_以太坊:ETH

一、整體概述 根據?ChristineKim?對第?160?次以太坊執行層核心開發者會議進行的總結,本次會議主要討論在下次坎昆升級中,需要納入哪些代碼修改.

1900/1/1 0:00:00
A股市場“專家訪談”模式走向盡頭?從凱盛被調查說起_區塊鏈:TMCN價格

就在昨天,央視《焦點訪談》報道了凱盛融英“淪為境外情報機構幫兇”的消息。據稱,凱盛融英介紹的行業專家,違規向境外機構客戶提供了涉密信息,涉嫌危害國家安全.

1900/1/1 0:00:00
盤點2023年值得關注的以太坊改進提案_NFT:dapp幣上架交易所

原文作者:黑米 以太坊開發者社區不斷突破創新界限,以改善去中心化應用程序(dApp)的用戶體驗。EIP和ERC分別是提案和正式的標準,旨在改進以太坊網絡的功能.

1900/1/1 0:00:00
ads