ChatGPT引爆的AI熱潮也“燒到了”金融圈,彭博社重磅發布為金融界打造的大型語言模型——BloombergGPT。
3月30日,根據彭博社最新發布的報告顯示,其構建迄今為止最大的特定領域數據集,并訓練了專門用于金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。
報告顯示,該模型依托彭博社的大量金融數據源,構建了一個3630億個標簽的數據集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。
一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。
德國金融科技公司Solaris以16億美元估值完成4180萬美元F輪融資:金色財經報道,德國金融科技公司Solaris以16億美元估值完成3800萬歐元(4180萬美元)F輪融資,這筆資金將用于擴大其銀行業務規模。Solaris業務涵蓋約180個不同的API,涉及銀行和卡服務、支付、貸款、身份驗證和數字貨幣等類別。此外,Solaris被三星、美國運通和Coinbase等公司用來為其客戶提供各種金融服務。[2023/7/11 10:48:28]
關于BloombergGPT
報告指出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域數據集來完成BloomberGPT,并基于通用和金融業務的場景進行混合模型訓練:
彭博社主要是一家金融數據公司,數據分析師在公司成立的四十年的時間里收集了大量的金融文件,擁有廣泛的金融數據檔案,涵蓋了一系列的主題。
SEC公司金融主管將于年底離職,曾牽頭SEC早期加密貨幣工作:金色財經報道,美國證券交易委員會(SEC)公司金融主管、數字資產與創新部門主管William Hinman將于今年年底離職。他曾牽頭SEC的早期加密貨幣工作,其對加密貨幣和Howey測試的評論對圍繞ICO的監管尤為關鍵。公告稱,Hinman領導了數字資產快速創新方面的工作,包括提供了一個框架,使市場參與者可以用來評估數字資產是否是以證券形式提供和出售的。[2020/10/28]
我們將這些數據添加到公共數據集中,以創建一個擁有超過7000億個標簽的大型訓練語料庫。
使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和LeScao等人的指導方針設計,基于通用和金融業務的場景進行混合模型訓練。
聲音 | 畢馬威中國金融服務業合伙人:未來金融科技的發展方向包括區塊鏈:金色財經報道,對于未來金融科技的發展方向,畢馬威中國金融服務業合伙人陳思杰認為,從技術看,可能有四個創新方向。其一是區塊鏈,其最重要的問題是商業場景運用。[2020/1/8]
結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優于現有模型。
1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博數據來源可靠
在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:
動態 | 西南財經大學區塊鏈代表隊在金融創新應用大賽中獲得全國二等獎:據官方消息,在11月30號下午結束的2019年第十五屆“花旗杯”金融創新應用大賽中,來自西南財經大學中國區塊鏈研究中心的參賽項目《Citicoin基于弱中心化的可信銀行系統》獲得全國大賽二等獎。該項目指導教師西南財經大學中國區塊鏈研究中心楊城副教授透露:CitCoin是一種“寫驗分離”,“弱中心化”的金融數據管理方案。該方案中,銀行保留核心地位,是唯一記賬人;廣大儲戶手握基于區塊鏈技術生成的公開驗證數據,是系統的分布式監督人。它使得銀行在維護數據隱私和中心化儲存的前提下,保證交易數據公開透明,實現真正的可信銀行。
原上海證券交易所總工程師、區塊鏈專家白碩點評該項目:“為區塊鏈技術如何落地另辟蹊徑,為銀行如何在保持數據中心化的前提下,服務數據可信提供了新的思路。”
本次大賽全國共有來自清華大學、北京大學、南京大學、武漢大學、四川大學、西安交通大學等在內的61所高校、95支代表隊、1000多名學生參加,共評出一等獎1個,二等獎2個,三等獎5個。[2019/11/30]
除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般數據源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。
聲音 | 清華經管學院院長白重恩:數字金融資產天生是國際化的:據核財經消息,今日,由比特大陸捐贈的清華大學經濟管理學院數字金融資產研究中心正式成立。成立大會上,清華經管學院院長白重恩表示,數字金融資產天生是國際化的,但是目前在這方面的理論深度和學術指引都比較弱,實踐者創造了很多詞,給大眾創造了很多困擾。[2018/11/2]
此外,我們的訓練數據不同于傳統的網絡爬取數據,網絡上的數據總有重復和錯誤,但我們的數據來源可靠。
2.BloombergGPT的訓練數據集:
BloombergGPT的訓練數據庫名為FINPILE,由一系列英文金融信息組成,包括新聞、文件、新聞稿、網絡爬取的金融文件以及提取到的社交媒體消息。
為了提高數據質量,FINPILE數據集也使用了公共數據集,例如ThePile、C4和Wikipedia。FINPILE的訓練數據集中大約一半是特定領域的文本,一半是通用文本。為了提高數據質量,每個數據集都進行了去重處理。
對金融領域的理解更準
報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:
以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。
報告指出,從測試來看,BloombergGPT在五項任務中的四項表現最佳,在NER中排名第二。因此,BloombergGPT有其優勢性。
測試一:ConvFinQA數據集是一個針對金融領域的問答數據集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。
測試二:FiQASA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。
測試三:標題,數據集包括關于黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定信息,例如價格上漲或價格下跌等。
測試四:FPB,金融短語庫數據集包括來自金融新聞的句子情緒分類任務。
測試五:NER,命名實體識別任務,針對從提交給SEC的金融協議中收集金融數據,進行信用風險評估。
對于ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理并生成答案,具有一定挑戰性。
ChatGPT為彭博點贊
華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:
它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的數據和任務,并且在金融領域的基準測試中表現出色。
這將有助于金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。
作者:starzq.ethTwitter:starzqethPFP之后,NFT市場的下一個新敘事是什么?大家都在呼喚更有實用價值的NFT,以星巴克為首在打造更多基于Loyalty的用例.
1900/1/1 0:00:00劃重點 ●?一部分基礎工作可能會被AI產品替代,然而,創意工作、管理和科研工作者等領域難以被取代,機器不可能像牛頓和愛因斯坦一樣做出顛覆性的發現.
1900/1/1 0:00:00頭條 ▌數據:美國政府持有205,515枚比特幣價值56億美元金色財經報道,根據目前的統計數據,截至2023年3月25日,美國政府持有205,515枚比特幣,價值56億美元.
1900/1/1 0:00:00最近很多人都在問我,ChatGPT把AI又帶火了,區塊鏈和Web3被搶了風頭,以后還有戲嗎?還有比較了解我的朋友問,當年你放棄AI而選擇區塊鏈,有沒有后悔?這里有一個小背景.
1900/1/1 0:00:00原文:《早期探索:NFTFI衍生品賽道及項目盤點nftperp、tribe3、putty等》 作者:Maverick 注:本文撰寫于2月14日,一些數據可能出現延遲過去一個月.
1900/1/1 0:00:00作者:BixinVentures翻譯:金色財經0xnaitive 前言 很明顯,Web3的未來屬于一個多鏈世界,會擁有大量模塊化和整體化的區塊鏈生態系統.
1900/1/1 0:00:00