編輯:LRS
注意力機制這么好用,怎么不把它塞到卷積網絡里?最近MetaAI的研究人員提出了一個基于注意力的池化層,僅僅把平均池化層替換掉,就能獲得+0.3%的性能提升!
VisualTransformer作為計算機視覺領域的新興霸主,已經在各個研究任務中逐漸替換掉了卷積神經網絡CNN。
ViT與CNN之間存在著許多不同點,例如ViT的輸入是imagepatch,而非像素;分類任務中,ViT是通過對類標記進行決策等等。
classtoken實際上是ViT論文原作者提出,用于整合模型輸入信息的token。classtoken與每個patch進行信息交互后,模型就能了解到具體的分類信息。
并且在自注意力機制中,最后一層中的softmax可以作為注意力圖,根據classtoken和不同patch之間的交互程度,就能夠了解哪些patch對最終分類結果有影響及具體程度,也增加了模型可解釋性。
但這種可解釋性目前仍然是很弱的,因為patch和最后一層的softmax之間還隔著很多層和很多個header,信息之間的不斷融合后,很難搞清楚最后一層softmax是否真的可以解釋分類。
Alchemy Pay宣布正在Polygon zkEVM上部署其支付服務:9月5日消息,加密支付提供商 Alchemy Pay 官方宣布正在 Polygon zkEVM 上部署其支付服務,成為首批支持 zkEVM 生態系統的法幣加密貨幣入口提供商之一。[2023/9/5 13:19:03]
所以如果ViT和CNN一樣有視覺屬性就好了!
最近MetaAI就提出了一個新模型,用attentionmap來增強卷積神經網絡,說簡單點,其實就是用了一個基于注意力的層來取代常用的平均池化層。
仔細一想,池化層和attention好像確實很配啊,都是對輸入信息的加權平均進行整合。加入了注意力機制以后的池化層,可以明確地顯示出不同patch所占的權重。
并且與經典ViT相比,每個patch都會獲得一個單一的權重,無需考慮多層和多頭的影響,這樣就可以用一個簡單的方法達到對注意力可視化的目的了。
BinaryX:將從二級市場回購100萬枚BNX并加入游戲獎池,最終獎池金額已突破140萬枚BNX:2月28日消息,據官方消息,BinaryX 在官方社群針對Boss 站第二輪(51 級-52 級)Boss 血量顯示異常情況發文回應并致歉表示,BinaryX 團隊在收到反饋后及時進行了審核調查,發現其中一臺服務器在受到大量玩家請求后出現了判斷延遲,導致攻擊結果延遲顯示,對玩家體驗造成了不好的影響,BinaryX 將為本次事件承擔責任,且向所有社區玩家表達歉意。
為此,BinaryX 團隊將會從二級市場中回購 100 萬枚 BNX,并將 100 萬枚 BNX 加入到本輪游戲的最終獎池中,使總獎池金額突破 140 萬枚 BNX。
此外,游戲團隊將會對 Boss 戰機制進行調整,加強對腳本玩家等非正常玩家參與的限制力度,最大程度保護普通玩家的利益,增強游戲的公平性和平衡性。[2023/2/28 12:34:27]
中國數字資產交易平臺將于2023年1月1日上線:12月28日消息,全國首個國家級合規數字資產二級交易平臺——中國數字資產交易平臺,將于2023年1月1日在北京舉行平臺啟動發布儀式。該平臺由中國技術交易所、中國文物交流中心、華版數字版權服務中心股份有限公司聯合建設。華版數字版權服務中心股份有限公司總裁尹濤表示,中國數字資產交易平臺的交易標的物是數字藏品、數字版權,“目前具體的交易商品和交易規則還在研究談論中,比如對交易交割的時間和價格等都有要求,通過制定規范的交易流程、標準來規避二級市場的過度炒作。”(財聯社)[2022/12/28 22:12:46]
在分類任務中更神奇,如果對每個類別使用不同顏色進行單獨標記的話,就會發現分類任務也能識別出圖片中的不同物體。
基于Attention的池化層
文章中新提出的模型叫做PatchConvNet,核心組件就是可學習的、基于attention的池化層。
A股收盤:深證區塊鏈50指數下跌2.09%:金色財經消息,A股收盤,上證指數報3073.77點,收盤下跌1.07%,深證成指報10949.12點,收盤下跌1.58%,深證區塊鏈50指數報2720.87點,收盤下跌2.09%。區塊鏈板塊收盤下跌0.67%,數字貨幣板塊收盤下跌0.36%。[2022/12/20 21:56:16]
模型架構的主干是一個卷積網絡,相當于是一個輕量級的預處理操作,它的作用就是把圖像像素進行分割,并映射為一組向量,和ViT中patchextraction操作對應。
最近也有研究表明,采用卷積的預處理能讓模型的性能更加穩定。
模型的第二部分column,包含了整個模型中的大部分層、參數和計算量,它由N個堆疊的殘差卷積塊組成。每個塊由一個歸一化、1*1卷積,3*3卷積用來做空間處理,一個squeeze-and-excitation層用于混合通道特征,最后在殘差連接前加入一個1*1的卷積。
幣安推出機構數字資產平臺Binance Institutional:6月23消息,幣安宣布推出面向VIP和機構用戶的旗艦平臺Binance Institutional,將為各類機構用戶提供定制解決方案,包括企業、資產管理公司、經紀商、對沖基金、家族辦公室、流動性提供商、自營交易公司、礦工、高凈值人士(HNWI)等,解決方案有執行和場外交易服務、資產管理與托管以及流動性計劃等。[2022/6/23 1:27:32]
研究人員對模型塊的選擇也提出了一些建議,例如在batchsize夠大的情況下,BatchNorm往往效果比LayerNorm更好。但訓練大模型或者高分辨率的圖像輸入時,由于batchsize更小,所以BatchNorm在這種情況下就不太實用了。
下一個模塊就是基于注意力的池化層了。
在主干模型的輸出端,預處理后的向量通過類似Transformer的交叉注意力層的方式進行融合。
注意力層中的每個權重值取決于預測patch與可訓練向量之間的相似度,結果和經典ViT中的classtoken類似。
然后將產生的d維向量添加到CLS向量中,并經過一個前饋網絡處理。
與之前提出的class-attentiondecoder不同之處在于,研究人員僅僅只用一個block和一個head,大幅度簡化了計算量,也能夠避免多個block和head之間互相影響,從而導致注意力權重失真。
因此,classtoken和預處理patch之間的通信只發生在一個softmax中,直接反映了池化操作者如何對每個patch進行加權。
也可以通過將CLS向量替換為k×d矩陣來對每個類別的attentionmap進行歸一化處理,這樣就可以看出每個塊和每個類別之間的關聯程度。
但這種設計也會增加內存的峰值使用量,并且會使網絡的優化更加復雜。通常只在微調優化的階段以一個小的學習率和小batchsize來規避這類問題。
實驗結果
在圖像分類任務上,研究人員首先將模型與ImageNet1k和ImageNet-v2上的其他模型從參數量,FLOPS,峰值內存用量和256張圖像batchsize下的模型推理吞吐量上進行對比。
實驗結果肯定是好的,可以看到PatchConvNet的簡單柱狀結構相比其他模型更加簡便和易于擴展。對于高分辨率圖像來說,不同模型可能會針對FLOPs和準確率進行不同的平衡,更大的模型肯定會取得更高的準確率,相應的吞吐量就會低一些。
在語義分割任務上,研究人員通過ADE20k數據集上的語義分割實驗來評估模型,數據集中包括2萬張訓練圖像和5千張驗證圖像,標簽超過150個類別。由于PatchConvNet模型不是金字塔式的,所以模型只是用模型的最后一層輸出和UpperNet的多層次網絡輸出,能夠簡化模型參數。研究結果顯示,雖然PatchConvNet的結構更簡單,但與最先進的Swin架構性能仍處于同一水平,并且在FLOPs-MIoU權衡方面優于XCiT。
在檢測和實例分割上,研究人員在COCO數據集上對模型進行評估,實驗結果顯示PatchConvNet相比其他sota架構來說,能夠在FLOPs和AP之間進行很好的權衡。
在消融實驗中,為了驗證架構問題,研究人員使用不同的架構對比了Transformer中的classattention和卷積神經網絡的平均池化操作,還對比了卷積主干和線性投影之間的性能差別等等。實驗結果可以看到卷積主干是模型取得最佳性能的關鍵,class-attention幾乎沒有帶來額外的性能提升。
另一個重要的消融實驗時attention-basedpooling和ConvNets之間的對比,研究人員驚奇地發現可學習的聚合函數甚至可以提高一個ResNet魔改后模型的性能。
通過把attention添加到ResNet50中,直接在Imagenet1k上獲得了80.1%的最高準確率,比使用平均池化層的baseline模型提高了+0.3%的性能,并且attention-based只稍微增加了模型的FLOPs數量,從4.1B提升到4.6B。
參考資料:
https://arxiv.org/abs/2112.13692
“19歲室友實現財富自由,在家躺賺”、“寶媽足不出戶,年薪百萬”、“在家就能做的兼職,拿錢到手軟”等浮夸廣告充斥各類網站,仿佛一道稍縱即逝的財富之門,讓人心潮澎動,但天下絕沒有白吃的午餐.
1900/1/1 0:00:00導語:比特幣從年初到現在,已經下跌了14%,輝煌時代已經結束了?可能很多讀者都知道比特幣,它是屬于一種加密貨幣,是靠計算機的運算力來進行挖掘,從而產生的一種貨幣.
1900/1/1 0:00:00我們站在當我們站在當前節點依然堅定的看好元宇宙的大產業趨勢以及對應不同產業環節的投資機會,我們將最近對元宇宙產業鏈和相關投資機會的思考進行了核心邏輯的提煉梳理,供參考.
1900/1/1 0:00:00比 特幣在 周末 突破40000美元關卡之后,持續上攻,至42000美元上方,帶動全球加密貨幣市值升回2萬億美元上方.
1900/1/1 0:00:00大眾汽車明確保時捷將獨立上市,或誕生歐洲史上最大IPO2月23日晚間,大眾汽車集團發布聲明稱,大眾汽車和保時捷控股董事會已經達成了一項框架協議,協議中明確保時捷將會獨立上市.
1900/1/1 0:00:00一、古中國 古中國概述:中國是舉世公認的四大文明古國(中國、古埃及,古印度,古巴比倫)之一,即華夏文明,屬大河文明。值得一提的是,中國自古以來作為文化古國五千年文明從未出現徹底的文化斷層.
1900/1/1 0:00:00