比特幣行情 比特幣行情
Ctrl+D 比特幣行情
ads

CHA:ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因

Author:

Time:1900/1/1 0:00:00

撰文:TanyaMalhotra

來源:Marktechpost

編譯:DeFi之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如Pathways語言模型、Chinchilla等,在模仿人類方面也有很好的表現。

GIBXChange將于8月16日正式上線:據官方消息,GIBXChange將于8月16日正式上線,GIBXChange以區塊鏈基礎服務為核心,構建集技術研發、數字資產研究、開放平臺、專業管理為一體的區塊鏈產業生態圈。此次更新上線,建立以用戶為中心、推進產品的更新迭代,豐富完善用戶的交易體驗。GIBXchange通過私鑰離線存儲,風險隔離。采用短信驗證碼、谷歌驗證碼、異地登錄風險提示等多重身份驗證去滿足安全性。[2021/8/8 1:42:21]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

分析 | Blockchain.com的比特幣每日交易份額三年內下跌了50%:LongHash發文稱,Blockchain.com在比特幣網絡上的交易份額已下跌至20%左右。有可能是因為:區塊鏈錢包無法處理早期比特幣手續費市場在 2015 年末、2016 年初面臨的發展問題,這些問題導致用戶在此期間的確認交易減少。區塊鏈于2016 年3月開始實施了動態費用估算功能事實上,超過 20% 的比特幣交易仍來自單個網絡錢包提供商,其他網絡的大部分日交易可能是由交易所代表客戶進行的。這就意味著很多比特幣用戶沒有檢查交易的真實性,也無法保證這些交易確實是在比特幣網絡上進行的。[2019/5/24]

ChatGPT使用來自人類反饋的強化學習,通過最小化偏差對模型進行微調。但為什么不是監督學習呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

ProChain基金會宣布啟動支持EOS主網的計劃:ProChain基金會宣布啟動支持EOS主網的計劃,并發布了E-PRA token的分配規則。基金會將為PRA持有者派發等比例的E-PRA,并將通過多次活動將基金會持有的20% E-PRA派發給EOS持有者。據了解,ProChain作為支持不同公鏈的應用層廣告協議,是全球首家支持EOS的廣告生態系統。[2018/4/21]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF則被訓練來估計產生反應的質量,而不僅僅是排名分數。

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠SL是不夠的,RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示,RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵,而SL由于其文本段落級的損失函數而未能很好做到這一點。

像InstructGPT和ChatGPT這樣的LLMs同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用SL對模型進行微調,然后使用RL進一步更新。SL階段允許模型學習任務的基本結構和內容,而RLHF階段則完善模型的反應以提高準確性。

Tags:CHAGPT比特幣ATGLeprechaun FinanceXGPT比特幣錢包客戶端下載zatgo

以太坊交易
NFT:避坑指南:如何正確沖Yuga Labs的比特幣NFT拍賣?

北京時間今天上午7點,備受期待的YugaLabs比特幣NFT系列“TwelveFold”正式拍賣.

1900/1/1 0:00:00
區塊鏈:2023年Web3領域將帶來哪些新變化?

編譯:Dali@Web3CN.Pro基于技術進步和有利的經濟條件,區塊鏈行業在2021年迎來大發展,但隨后由于一系列毀滅性的金融事件,區塊鏈市場在2022年遭受重創.

1900/1/1 0:00:00
GPT:2023年 AIGC顛覆游戲產業?

2023開年以來,AIGC的戰爭已經達到白熱化。就在今天,百度文心一言正式發布,向公眾展示了自己的中文通用語言大模型,但依然需要邀請碼才能參與測試.

1900/1/1 0:00:00
ETH:ETHDenver參會總結:我們看到了哪些趨勢

整體而言,EthDenver整體感受非常好,遠勝Consensus,Token2049。 1.全球性開發者文化 據說整個ETHDenver來了35000人,7500hackers.

1900/1/1 0:00:00
USH:Sushi 及負責人受調查:SEC 要對 DeFi 出手了嗎?

根據一篇最新的論壇帖子,DeFi項目SushiSwap及主要負責人JaredGrey已被美國證券交易委員會傳喚.

1900/1/1 0:00:00
DEF:以DeFund解析DeFi“金融投機與資本配置”的對立與統一

出品:ThePrimediaDAO?共研共創參與者:Jerry,BeeGeeThePrimediaDAO以成就傳奇為使命.

1900/1/1 0:00:00
ads