ChatGPT引爆的AI熱潮也“燒到了”金融圈,彭博社重磅發布為金融界打造的大型語言模型(LLM)——BloombergGPT。
3月30日,根據彭博社最新發布的報告顯示,其構建迄今為止最大的特定領域數據集,并訓練了專門用于金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。
報告顯示,該模型依托彭博社的大量金融數據源,構建了一個3630億個標簽的數據集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。
一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。
美聯儲威廉姆斯:加密貨幣領域存在金融穩定風險:美聯儲威廉姆斯表示,加密貨幣領域和穩定幣的快速發展為產生積極影響提供了機會,但該領域存在金融穩定風險。(金十)[2021/11/19 6:58:50]
關于BloombergGPT
報告指出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域數據集來完成BloomberGPT,并基于通用和金融業務的場景進行混合模型訓練:
彭博社主要是一家金融數據公司,數據分析師在公司成立的四十年的時間里收集了大量的金融文件,擁有廣泛的金融數據檔案,涵蓋了一系列的主題。
我們將這些數據添加到公共數據集中,以創建一個擁有超過7000億個標簽的大型訓練語料庫。
使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和Le Scao等人的指導方針設計,基于通用和金融業務的場景進行混合模型訓練。
共為2020 | 幣核科技Karen Zhang:HBTC霍比特公鏈致力于成為構建區塊鏈金融的基礎設施:金色財經現場報道,2020年6月21日,由金色財經主辦的共為2020·區塊鏈創新應用論壇在深圳拉開帷幕。本次會議由幣核科技冠名贊助、HBTC霍比特作為戰略合作企業。幣核科技全球市場總裁Karen Zhang現場進行《新基建背景下,公鏈如何發力》主題演講指出,HBTC Chain有三點功能:助推公鏈底層互通互聯互認,有效拓展市場深度,增強系統穩定;構建完全去中心化,確保資產安全及隱私保護一體的交易生態;支持所有需要和區塊鏈資產交互的DAPP在HBTC鏈上開發。
HBTC Chain即將開放公測,屆時將上線核心功能是通過去中心化托管賦能各類成熟公鏈,實現公鏈資產跨鏈互操性,推進去中心化借貸、DEX等應用的生態完善。致力于成為構建區塊鏈金融的基礎設施,與業內同行一起創造更多的價值。[2020/6/21]
結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優于現有模型。
歷史上的今天 | 北京市互金協會:防范以虛擬貨幣名義的非法金融活動:2019年3月21日,北京市互聯網金融行業協會在官網發布了關于防范以“虛擬貨幣”“ICO”“STO”“穩定幣”及其他變種名義進行非法金融活動的風險提示。文章稱,協會再次就相關風險事項提示如下:一、請在京各相關機構、個人,嚴格遵守國家法律,共同抵制和防范以“虛擬貨幣”、“區塊鏈”、“ICO”、 “STO”、“穩定幣”及其他變種為名義進行的非法集資行為及傳播活動。二、警惕不法分子以IFO、IEO等花樣翻新的名目發行代幣,或打著“共享經濟”、“通證經濟”、“眾籌”、“共識經濟”等旗號,以IMO方式進行虛擬貨幣炒作。
2018年3月21日,據CNBC報道,IBM啟動區塊鏈計劃,推出允許初創公司以低廉價格創建分布式賬本的產品。IBM的區塊鏈啟動計劃凷處于beta測試模式,開發者可以免費使用到商業版發布。IBM區塊鏈的總經理Marie Wieck周三表示,“對于想在IBM區塊鏈平臺上構建解決方案的人來說,這一新計劃非常適合試點項目和早期開發工作。IBM區塊鏈平臺目前擁有超過250個活躍的區塊鏈網絡。[2020/3/21]
現場 | 智慧城市聯盟金融科技委員會主席陳家豪:區塊鏈風口正從炒幣轉向踏實做事 ?:金色財經現場報道,2018年8月10日,在2018紛智金融科技峰會(香港)上,智慧城市聯盟金融科技委員會主席陳家豪指出:在還沒有互聯網的年代,香港就已經是信任機制的中心了。隨著中國的互聯網、區塊鏈產業變得更為成熟,香港還是信任的門戶。現在阿里巴巴也來到香港,用區塊鏈做匯款,區塊鏈的風口在過去的一年時間里,先吹了炒幣的風,現在再吹的是比較踏實的風。[2018/8/10]
1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博數據來源可靠
在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:
金融大鱷喬治·索羅斯:加密數字貨幣是一種用詞錯誤 是一種典型的泡沫:金融大鱷喬治·索羅斯(George Soros)表示,加密數字貨幣是一種用詞錯誤,是一種典型的泡沫,其基礎一直都基于某種誤解。比特幣并非一種貨幣,因為貨幣必須具備穩定的價值儲存功能,而一種波幅在一日之內可以達到25%的“貨幣”是不能用來支付工資的。這是一種投機,以誤解為基礎的投機。[2018/1/28]
除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般數據源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。
此外,我們的訓練數據不同于傳統的網絡爬取數據,網絡上的數據總有重復和錯誤,但我們的數據來源可靠。
2.BloombergGPT的訓練數據集:
BloombergGPT的訓練數據庫名為FINPILE,由一系列英文金融信息組成,包括新聞、文件、新聞稿、網絡爬取的金融文件以及提取到的社交媒體消息。
為了提高數據質量,FINPILE數據集也使用了公共數據集,例如The Pile、C4和Wikipedia。FINPILE的訓練數據集中大約一半是特定領域的文本,一半是通用文本。為了提高數據質量,每個數據集都進行了去重處理。
對金融領域的理解更準
報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:
以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。
報告指出,從測試來看,BloombergGPT在五項任務中的四項(ConvFinQA,FiQA SA,FPB和Headline)表現最佳,在NER(Named Entity Recognition)中排名第二。因此,BloombergGPT有其優勢性。
測試一:ConvFinQA數據集是一個針對金融領域的問答數據集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。
測試二:FiQA SA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。
測試三:標題,數據集包括關于黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定信息,例如價格上漲或價格下跌等。
測試四:FPB,金融短語庫數據集包括來自金融新聞的句子情緒分類任務。
測試五:NER,命名實體識別任務,針對從提交給SEC的金融協議中收集金融數據,進行信用風險評估。
對于ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理并生成答案,具有一定挑戰性。
ChatGPT為彭博點贊
華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:
它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的數據和任務,并且在金融領域的基準測試中表現出色。
這將有助于金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。
華爾街見聞
媒體專欄
閱讀更多
金色財經 善歐巴
金色早8點
白話區塊鏈
歐科云鏈
Odaily星球日報
Arcane Labs
MarsBit
深潮TechFlow
BTCStudy
鏈得得
原文:lattice 摘要: 由于需要直接與基本協議層(L1s)進行交互,構建和使用加密貨幣仍然非常困難.
1900/1/1 0:00:00藍籌 NFT 進入調整期,NFT 交易市場卻熱鬧非凡。NFT 賽道的機會在哪?這應該是近幾個月 NFT 玩家苦思冥想的事情.
1900/1/1 0:00:002023年4月7日,美國財政部發布了去中心化金融(DeFi)非法金融風險評估(DeFi Illicit Finance Risk Assessment).
1900/1/1 0:00:00撰寫:Ignas 本文將介紹一些最新的加密貨幣投資動態,并重點關注一些處于種子輪階段的項目,它們的發展前景備受關注.
1900/1/1 0:00:002023 年開年,Layer 2 熱度在久經準備后居高不下,已有人將 2023 年稱為“Layer 2 ”之年.
1900/1/1 0:00:00隨著傳感技術、運動控制和計算機仿真與機器人技術的深度融合,機器人對于復雜外界環境的感知能力大幅提升,其處理實際問題的自主性、穩定性、可靠性也大幅提升.
1900/1/1 0:00:00