比特幣行情 比特幣行情
Ctrl+D 比特幣行情
ads

CNN:預訓練模型ProphetNet:根據未來文本信息進行自然語言生成

Author:

Time:1900/1/1 0:00:00

作者|劉大一恒、齊煒禎、晏宇、宮葉云、段楠、周明

編者按:微軟亞洲研究院提出新的預訓練模型ProphetNet,提出了一種新的自監督學習目標——同時預測多個未來字符,在序列到序列的多個自然語言生成任務都取得了優異性能。

大規模預訓練語言模型在自然語言理解和自然語言生成中都取得了突破性成果。這些模型通常使用特殊的自監督學習目標先在大規模無標記語料中進行預訓練,然后在下游任務上微調。

傳統自回歸語言模型通過估計文本語料概率分布被廣泛用于文本建模,序列到序列的建模,以及預訓練語言模型中。這類模型通常使用teacher-forcing的方法訓練,即每一時刻通過給定之前時刻的所有字符以預測下一個時刻的字符。然而,這種方式可能會讓模型偏向于依賴最近的字符,而非通過捕捉長依賴的信息去預測下一個字符。有如以下原因:局部的關系,如兩元字符的組合,往往比長依賴更強烈;Teacher-forcing每一時刻只考慮對下一個字符的預測,并未顯式地讓模型學習對其他未來字符的建模和規劃。最終可能導致模型對局部字符組合的學習過擬合,而對全局的一致性和長依賴欠擬合。尤其是當模型通過貪心解碼的方式生成序列時,序列往往傾向于維持局部的一致性而忽略有意義的全局結構。

美通社宣布新增亞洲區塊鏈協會、Blockhead和Association Blockchain Asia等亞太合作伙伴:金色財經報道,全球新聞服務提供商美通社公布了亞太地區新合作伙伴信息,在區塊鏈和新興技術領域的內容網絡新增合作伙伴為亞洲區塊鏈協會(Association of Blockchain Asia)和 Blockchain News,在加密貨幣、元宇宙和虛擬現實(VR)、去中心化金融(DeFi)領域的新合作伙伴包括 Blockhead、DigFin和Association Blockchain Asia,以及 6 個加密貨幣網站。截至目前,美通社在亞太地區的加密貨幣網站合作伙伴數量達到 30 個。(prnewswire)[2023/9/7 13:24:16]

ProphetNet

針對上述問題,我們提出了一個新的seq2seq預訓練模型,我們稱之為ProphetNet。該模型帶有一個新穎的自監督學習目標函數,即預測未來的N元組。與傳統seq2seq的Teacher-forcing每一時刻只預測下一個字符不同,ProphetNet每一時刻將學習去同時預測未來的N個字符。如圖1所示:

Cosmos推出SDK v0.47版本“Twilight”,旨在提高公鏈性能:3月17日消息,Cosmos 推出 SDK v0.47 版本“Twilight”,旨在提高所有基于 Cosmos SDK 的鏈的整體性能和功能。

據悉,該版本將 CometBFT v.037 引入 Cosmos SDK 以取代 Tendermint Core,支持升級到 ABCI 1.0,從而顯著提高性能。[2023/3/17 13:10:12]

圖1:左邊是傳統的語言模型,每一時刻預測下一時刻的字符。右邊是Bigram形式下的ProphetNet,每一時刻同時預測未來的兩個字符。

預測未來N元組這一自監督學習目標在訓練過程中顯式地鼓勵模型在預測下一個字符時考慮未來更遠的字符,做到對未來字符的規劃,以防止模型對強局部相關過擬合。

ProphetNet基于Transformer的seq2seq架構,其設計有兩個目標:1.模型能夠以高效的方式在訓練過程中完成每時刻同時預測未來的N個字符;2.模型可以靈活地轉換為傳統的seq2seq架構,以在推理或微調階段兼容現有的方法和任務。為此,我們受XLNet中Two-streamselfattention的啟發,提出了用于模型decoder端的N-streamself-attention機制。圖2展示了bigram形式下的N-streamself-attention樣例。

大額轉入:約4827萬美元BTC轉入Coinbase:金色財經報道,2113枚BTC于今日04:32從未知錢包轉入Coinbase,價值約4827萬美元。大額鏈上轉入交易所可能是大戶進場交易。[2023/1/24 11:27:49]

除了原始的multi-headself-attention之外,N-streamself-attention包含了額外的N個predictingstreamself-attention,用于分別預測第n個未來時刻的字符所示。每一個predictingstream與mainstream共享參數,我們可以隨時關閉predictingstream以讓模型轉換回傳統seq2seq的模式。

圖2:(a)為mainstreamself-attention;(b)為1-stpredictingstreamself-attention;(c)為2-ndpredictingstreamself-attention;(d)展示了n-streamself-attention的輸入輸出及流程。

Glassnode:持有1萬枚以上BTC的巨鯨曾在24500美元左右積極拋售:金色財經報道,據區塊鏈分析公司Glassnode分析數據顯示,持有1萬枚以上BTC的比特幣巨鯨曾在24500美元左右積極拋售比特幣,他們在全球市場不確定性中利用任何流動性機會退出市場,巨鯨向市場提供的過量供應似乎已經壓倒了已經被侵蝕的需求方,最終形成了一個局部頂部。當發生拋售后,比特幣跌至1.76萬美元低點,之后加密市場出現鮮明的逆轉,目前比特幣已升至2.1萬美元上方,巨鯨也迅速從提款逆轉為向交易所充值。[2022/9/10 13:21:36]

由于難以獲取到大量帶標記的序列對數據,我們用去噪的自編碼任務通過大量無標記文本預訓練ProphetNet。去噪的自編碼任務旨在輸入被噪音函數破壞后的序列,讓模型學習去復原原始序列。該任務被廣泛應于seq2seq模型的預訓練中,如MASS、BART、T5等。本文中使用MASS的預訓練方式,通過引入提出的predictingn-stream自監督學習目標函數預訓練ProphetNet。我們以bigram形式的ProphetNet為例,整個流程如圖3所示:

數據:當前Solana生態總市值為200.53億美元:金色財經報道,據CoinGecko最新數據顯示,當前Solana生態總市值為200.53億美元(截至發稿時為20,053,087,124美元),24小時交易額為2,070,572,553美元。[2022/8/22 12:39:09]

圖3:二元形式下的Prophet整體框架圖

實驗結果

我們使用兩個規模的語料數據訓練ProphetNet。ProphetNet包含12層的encoder和12層的decoder,隱層大小為1024。先在BERT所使用的BookCorpus+Wikipedia的數據上預訓練模型,將模型在Textsummarization和Questiongeneration兩個NLG任務上的三個數據集微調并評估模型性能。與使用同等規模數據的預訓練模型相比,ProphetNet在CNN/DailyMail、Gigaword和SQuAD1.1questiongeneration數據集上都取得了最高的性能,如表1-3所示。

表1:CNN/DailyMail測試集結果

表2:Gigaword測試集結果

表3:SQuAD1.1測試集結果SQuAD1.1交換驗證測試集結果

除了使用16GB的語料訓練模型,我們也進行了更大規模的預訓練實驗。該實驗中,我們使用了160GB的語料預訓練ProphetNet。我們展示了預訓練14個epoch后的ProphetNet在CNN/DailyMail和Gigaword兩個任務上微調和測試的結果。如表4所示。需要注意的是,在相同大小的訓練數據下,我們模型的預訓練epoch僅約為BART的三分之一。我們模型的訓練數據使用量僅約為T5和PEGASUSLARGE的五分之一,約為PEGASUSLARGE的二十分之一。盡管如此,我們的模型仍然在CNN/DailyMail上取得了最高的ROUGE-1和ROUGE-LF1scores。并在Gigaword上實現了新的state-of-the-art性能。

表4:模型經大規模語料預訓練后在CNN/DailyMail和Gigaword測試集的結果

為了進一步探索ProphetNet的性能,我們在不預訓練的情況下比較了ProphetNet和Transformer在CNN/DailyMail上的性能。實驗結果如表5所示,ProphetNet在該任務上超越了同等參數量的Transformer。

表5:模型不經過預訓練在CNN/DailyMail驗證集結果

總結

本文介紹了微軟亞洲研究院在序列到序列模型預訓練的一個工作:ProphetNet,該模型提出了一種新的自監督學習目標,在同一時刻同時預測多個未來字符。并通過提出的N-streamself-attention機制高效地實現了模型在該目標下的訓練。實驗表明,該模型在序列到序列的多個自然語言生成任務都取得了不錯的性能。我們將在之后嘗試使用更大規模的模型架構和語料進行預訓練,并進一步深入地探索該機制。

論文鏈接:https://arxiv.org/pdf/2001.04063.pdf

原力計劃

《原力計劃-學習力挑戰》正式開始!即日起至3月21日,千萬流量支持原創作者!更有專屬等你來挑戰

Python數據清理終極指南口罩檢測識別率驚人,這個Python項目開源了談論新型冠狀病、比特幣、蘋果公司……沃倫巴菲特受訪中的18個金句,值得一看!天貓超市回應大數據殺熟;華為MateXs被熱炒至6萬元;Elasticsearch7.6.1發布一張圖對比阿里、騰訊復工的區別不看就虧系列!這里有完整的Hadoop集群搭建教程,和最易懂的Hadoop概念!|附代碼

Tags:CNNGASBARCNN幣是什么幣GAS幣是什么幣BAR價格BAR幣

萊特幣價格
比特幣:他曾擁有10萬枚比特幣,套現135億后全身而退,卻稱比特幣是騙局

隨著互聯網的普及,一些新的概念新的事物不斷流入人們的生活,2009年時,虛擬貨幣比特幣首次問世,開始在互聯網上流通,這種虛擬貨幣不同于我們日常所用的法定貨幣,我國的法定貨幣只能在國內流通.

1900/1/1 0:00:00
STD:央行數字貨幣偶露崢嶸,盛大公鏈前景更堪期待

2014年起我國開始數字貨幣研發工作。目前,數字人民幣研發工作正在穩妥推進。數字人民幣體系在堅持雙層運營、M0替代、可控匿名的前提下,基本完成頂層設計、標準制定、功能研發、聯調測試等工作,并遵循.

1900/1/1 0:00:00
GDP:疫情引起世界經濟停擺,但與30年代“大蕭條”性質卻截然不同

來源:功夫財經 ■文|謝作詩經濟學教授 盡管新冠病引起的世界經濟停擺極其慘烈,可是,其與“大蕭條”卻性質根本不同。經濟危機發生的根源,在于前期出現了虛假繁榮,企業進行了錯誤生產.

1900/1/1 0:00:00
CMC:區塊鏈生態系統的演變——硬幣安全收購CMC

金錢安全,不止如此它的觸角已經延伸到所有的加密貨幣和區塊鏈領域4月2日正式宣布收購全球最大的數字貨幣數據聚合網站CoinMarketCap(CMC)CoinSecurity創始人兼首席執行官趙長.

1900/1/1 0:00:00
比特幣:比特幣突破7200迅速回落,距減半還剩40天,未來行情如何?

比特幣突破7200迅速回落,距減半還剩40天,未來行情如何? 隨著新冠疫情在全球的爆發,世界經濟開始籠罩一層陰云,目前全球11個國家股市遭到熔斷,美國總統特朗普為了刺激美國經濟.

1900/1/1 0:00:00
比特幣:比特幣第一季度跌幅低于美國股指 曾24小時內跌近48%

來源:金融界網站 比特幣一季度跌幅低于美國主要股指,仍未證明它可以在市場動蕩時期充當“避風港”。該加密貨幣在今年的前三個月下跌超10%.

1900/1/1 0:00:00
ads