ChatGPT引爆的AI熱潮也“燒到了”金融圈,彭博社重磅發布為金融界打造的大型語言模型(LLM)——BloombergGPT。
3月30日,根據彭博社最新發布的報告顯示,其構建迄今為止最大的特定領域數據集,并訓練了專門用于金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。
報告顯示,該模型依托彭博社的大量金融數據源,構建了一個3630億個標簽的數據集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。
一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。
Circle推出基于USDC的金融產品Circle Yield:金色財經報道,Circle宣布將推出基于美元穩定幣USDC的金融產品Circle Yield,目前通過搶先體驗計劃向特定客戶提供。Circle Yield是一項受獨特監管且安全的收益服務,可供企業和金融機構使用。借助Circle Yield,企業可以通過快速增長的數字資產借貸市場獲得新的、有利可圖的方式來建立企業財務計劃。[2021/6/10 23:25:59]
關于BloombergGPT
報告指出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域數據集來完成BloomberGPT,并基于通用和金融業務的場景進行混合模型訓練:
彭博社主要是一家金融數據公司,數據分析師在公司成立的四十年的時間里收集了大量的金融文件,擁有廣泛的金融數據檔案,涵蓋了一系列的主題。
BitCherry創始人Paul:區塊鏈創新金融將變革全球金融體系:12月10日,BitCherry創始人及CEO Paul在巴黎區塊鏈周PBWS 2020的主題圓桌討論,談及BitCherry在全球區塊鏈金融合規性的問題時表示:“區塊鏈金融合規的問題包括兩個方面:一、利用區塊鏈解決方案后,如何實現原有金融業務合規性的流程要求;二、區塊鏈創新金融業務的合規性問題。現階段,區塊鏈金融主要作為對傳統金融模式的補充或延展,并受到不同國家的金融監管法案的制約,但按照目前的發展趨勢來看,金融監管規定也并非會一成不變,目前已有越來越多的國家意識到區塊鏈金融的重要性。隨著區塊鏈技術的發展,區塊鏈創新金融未來必將變革全球金融體系,各國家應盡早為區塊鏈金融構建完善合理的監管框架。”[2020/12/11 14:53:31]
我們將這些數據添加到公共數據集中,以創建一個擁有超過7000億個標簽的大型訓練語料庫。
外匯局煙臺市中心支局力推跨境金融區塊鏈融資穩外貿:9月14日消息,外匯局煙臺市中心支局力推跨境金融區塊鏈融資穩外貿。下一步,外匯局煙臺市中心支局將繼續加大平臺推廣工作的力度。一是將宣傳推廣的重點轉移到引導產品創新和降低融資成本上。二是探索向區塊鏈平臺集成更多的監管信息,不斷完善企業“畫像”。三是積極爭取區塊鏈平臺“資本項目收入支付業務場景”試點工作,進一步提升轄區貿易投融資便利化水平。(膠東在線)[2020/9/14]
使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和Le Scao等人的指導方針設計,基于通用和金融業務的場景進行混合模型訓練。
結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優于現有模型。
蘇寧金融研究院副院長:央行數字貨幣對比特幣和Libra等“虛擬貨幣”不會構成實質壓力:蘇寧金融研究院副院長薛洪言發文《央行數字貨幣“拳打支付寶、腳踢比特幣”背后的5個真相》,文章表示,央行數字貨幣在跨境支付方面的影響力,不會超出人民幣國際化的影響范圍。對比特幣和Libra等“虛擬貨幣”,也不會構成實質壓力。人民幣國際化是中國經濟全球影響力提升在金融層面的映射,中國經濟結構升級、提質增效還有很長的路要走,人民幣國際化自然也不可能一蹴而就。央行數字貨幣,能提升人民幣在跨境交易層面的體驗,也僅此而已,不必過度解讀。[2020/5/3]
1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博數據來源可靠
動態 | 日本參議院議員將向財政金融委員會提出加密資產ETF有關建議:據cointelegraph消息,日本參議院議員Kenji Fujimaki,將在30日向參議院財政金融委員會提出加密資產ETF的有關建議。美國證券交易委員會(SEC)多次推遲比特幣ETF提案的裁決引發爭議,日本接下來可能也會展開相關討論。Kenji Fujimaki表示,從增加市場厚度,減少黑客攻擊和征稅的角度來看,加密資產ETF是可取的。[2019/5/28]
在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:
除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般數據源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。
此外,我們的訓練數據不同于傳統的網絡爬取數據,網絡上的數據總有重復和錯誤,但我們的數據來源可靠。
2.BloombergGPT的訓練數據集:
BloombergGPT的訓練數據庫名為FINPILE,由一系列英文金融信息組成,包括新聞、文件、新聞稿、網絡爬取的金融文件以及提取到的社交媒體消息。
為了提高數據質量,FINPILE數據集也使用了公共數據集,例如The Pile、C4和Wikipedia。FINPILE的訓練數據集中大約一半是特定領域的文本,一半是通用文本。為了提高數據質量,每個數據集都進行了去重處理。
對金融領域的理解更準
報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:
以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。
報告指出,從測試來看,BloombergGPT在五項任務中的四項(ConvFinQA,FiQA SA,FPB和Headline)表現最佳,在NER(Named Entity Recognition)中排名第二。因此,BloombergGPT有其優勢性。
測試一:ConvFinQA數據集是一個針對金融領域的問答數據集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。
測試二:FiQA SA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。
測試三:標題,數據集包括關于黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定信息,例如價格上漲或價格下跌等。
測試四:FPB,金融短語庫數據集包括來自金融新聞的句子情緒分類任務。
測試五:NER,命名實體識別任務,針對從提交給SEC的金融協議中收集金融數據,進行信用風險評估。
對于ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理并生成答案,具有一定挑戰性。
ChatGPT為彭博點贊
華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:
它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的數據和任務,并且在金融領域的基準測試中表現出色。
這將有助于金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。
華爾街見聞
媒體專欄
閱讀更多
金色財經 善歐巴
金色早8點
白話區塊鏈
歐科云鏈
Odaily星球日報
Arcane Labs
MarsBit
深潮TechFlow
BTCStudy
鏈得得
文/TRM Insights,譯/金色財經xiaozou伊朗經濟在整個2022年遭受了新冠疫情、國家內亂以及限制其進入外國金融市場的國際制裁的持久影響.
1900/1/1 0:00:00文/Blockworks Research,譯/金色財經xiaozouBlockworks Research對AIP-1(Arbitrum Improvement Proposal F.
1900/1/1 0:00:00推特創始人JackDorsey創辦的比特幣技術團隊Spiral開發的LDK(Lightning Development Kit,閃電網絡開發套件)近期面向公眾解讀未來一年的新路線圖.
1900/1/1 0:00:00作者 : @defioasis編輯 : Colin WuLayerZero 于 4 月 4 日完成了由 a16z Crypto、紅杉資本等投資的 1.
1900/1/1 0:00:00作者:Terry 前不久,數個頂級的 MEV 機器人遭到黑客攻擊,黑客將 MEV 機器人的交易包拆解后,將部分交易替換從而盜走了 MEV 機器人的資金,損失約 2500 萬美元.
1900/1/1 0:00:00原文:《「Trend Research by LD Capital」復盤USDC脫錨風波中的危與機》本文將探討在 USDC 脫錨危機中,受影響最大的借貸、交易類協議、去中心化穩定幣系統的表現.
1900/1/1 0:00:00