當與區塊鏈數據集一起使用時,機器學習模型往往會過擬合。什么是過度擬合以及如何解決?
乍一看,使用機器學習來分析區塊鏈數據集的想法聽起來非常吸引人,但這是充滿挑戰的道路。在這些挑戰中,當將機器學習方法應用于區塊鏈數據集時,缺少標記數據集仍然是要克服的最大難題。這些局限性導致許多機器學習模型使用非常小的數據樣本進行操作,以訓練和過度優化那些引起過擬合現象的模型。今天,我想深入探討區塊鏈分析中的過度擬合挑戰,并提出一些解決方案。
過度擬合被認為是現代深度學習應用程序中的最大挑戰之一。從概念上講,當模型生成的假設過于適合特定數據集的假設而無法適應新數據集時,就會發生過度擬合。理解過度擬合的一個有用類比是將其視為模型中的幻覺。本質上,模型從數據集中推斷出錯誤的假設時會產生幻覺/過度擬合。自從機器學習的早期以來,已經有很多關于過擬合的文章,所以我不認為有任何聰明的方法來解釋它。對于區塊鏈數據集,過度擬合是缺少標記數據的直接結果。
A股開盤:深證區塊鏈50指數上漲1.31%:金色財經消息,A股開盤,上證指數報2871.96點,開盤上漲0.69%,深證成指報10837.49點,開盤上漲0.85%,深證區塊鏈50指數報3252.65點,開盤上漲1.31%。區塊鏈板塊開盤上漲0.72%,204只概念股中,177漲19跌8平,頂點軟件(+10.00%)領漲,*ST高升(-4.09%)領跌。數字貨幣板塊上漲1.03%,31只概念股26漲4跌1平,美盛文化(+9.96%)領漲;信息發展(-2.47%)領跌。[2020/6/1]
區塊鏈是大型的半匿名數據結構,其中的所有事物都使用一組通用的構造表示,例如交易,地址和區塊。從這個角度來看,有最少的信息可以證明區塊鏈記錄。這是轉賬還是付款交易?這是個人投資者錢包或交易所冷錢包的地址?這些限定符對于機器學習模型至關重要。
想象一下,我們正在創建一個模型來檢測一組區塊鏈中的交換地址。這個過程需要我們使用現有的區塊鏈地址數據集訓練模型,我們都知道這不是很常見。如果我們使用來自EtherScan或其他來源的小型數據集,則該模型可能會過度擬合并做出錯誤的分類。
動態 | 農業農村部:利用區塊鏈等信息技術 實現全國農藥質量追溯“一張網”:據農業農村部2月12日消息,為貫徹落實中央農村工作會議、全國農業農村廳局長會議及全國農藥管理工作會議精神,農業農村部于近日印發《2020年農藥管理工作要點》。其中提到2020年農藥管理工作包括完善質量追溯體系。利用區塊鏈等現代信息技術,加快構建全國統一的質量追溯系統,逐步實現全國農藥質量追溯“一張網”。完善標簽管理辦法,推行農藥內外包裝二維碼關聯,逐步實現農藥生產、經營、使用全鏈條可追溯。[2020/2/12]
使過擬合變得如此具有挑戰性的方面之一是很難在不同的深度學習技術中進行概括。卷積神經網絡傾向于形成過擬合模式,該模式與觀察到的與生成模型不同的遞歸神經網絡不同,該模式可以外推到任何類型的深度學習模型。具有諷刺意味的是,過度擬合的傾向隨著深度學習模型的計算能力線性增加。由于深度學習主體幾乎可以免費產生復雜的假設,因此過擬合的可能性增加了。
動態 | 加拿大利用區塊鏈技術來保護藝術家的作品版權:加拿大正在建立一個區塊鏈登記系統,以保護藝術家的作品。該區塊鏈數據庫由加拿大藝術家協會(CARFAC)和Access Copyright合作建立,為加拿大視覺藝術家提供一個注冊作品的場所。注冊表將把內容鏈接到它的創建者,以確保藝術家作品的版權及收益。加拿大非盈利版權組織Access Copyright的總裁兼首席執行官羅妮·利維(Roanie Levy)表示,未能正確界定內容的所屬權,意味著藝術家將失去他們作品的報酬。在數字時代,作品的拷貝很容易下載并在網上分享,很少考慮版權所有者,她說這個問題可以通過使用區塊鏈techn制作的歸屬分類賬來解決。[2019/7/10]
在機器學習模型中,過度擬合是一個持續的挑戰,但是在使用區塊鏈數據集時,這幾乎是必然的。解決過度擬合的明顯答案是使用更大的訓練數據集,但這并不總是一種選擇。在IntoTheBlock,我們經常遇到過度擬合的挑戰,我們依靠一系列基本方法來解決問題。
中國人民大學國際貨幣所研究員李虹含:將區塊鏈技術整合到現行的銀行體系中所需成本較大:據新浪財經消息,中國人民大學國際貨幣所研究員李虹含近日表示,將區塊鏈技術整合到現行的銀行體系中所需成本較大“這不僅需要在創造經濟效益的同時符合監管部門的要求,還需要與傳統的銀行業務和資本市場的基礎設施進行良好的對接。因而去中心化的技術要進行重新部署,除了消耗較大的人力、物力、財力,還必須對銀行自身和相關部門的體制機制進行改革,這會遇到較大阻力。”[2018/6/25]
對抗區塊鏈數據集過擬合的三種簡單策略
對抗過度擬合的第一個規則是認識到這一點。雖然沒有防止過度擬合的靈丹妙藥,但實踐經驗表明,一些簡單的,幾乎是常識的規則可以幫助防止在深度學習應用中出現這種現象。為了防止過度擬合,已經發布了數十種最佳實踐,其中包含三個基本概念。
數據/假設比率
競爭壓力倒逼“嘗鮮” 銀行競逐區塊鏈:作為傳統的金融機構,銀行是區塊鏈領域最踴躍的探路者。
中國工商銀行在年報中指出,全面布局金融科技前沿領域,積極探索區塊鏈、人工智能、物聯網等應用場景,打造貴州脫貧攻堅基金區塊鏈平臺,運用區塊鏈技術推進雄安新區建設資金的透明管理。
中信銀行年報透露,已將區塊鏈技術應用于貿易融資和信用卡獲客領域,推出了國內首個基于區塊鏈技術的信用證應用聯盟,有效提高了業務處理效率和安全性。
中國建設銀行在年報中寫道,2017年,主動探索“區塊鏈+貿易金融”技術,在同業中率先實現國內信用證和國際保理領域的區塊鏈跨行、跨境的實際應用,通過區塊鏈累計交易業務量達到16億元,覆蓋20家境內外機構。
中國農業銀行也已將區塊鏈技術應用于電商供應鏈金融,還推進了金融數字積分(簡稱“嗨豆”)系統建設,打造區塊鏈積分體系。[2018/4/24]
當模型產生太多假設而沒有相應的數據來驗證它們時,通常會發生過度擬合。因此,深度學習應用程序應嘗試在測試數據集和應評估的假設之間保持適當的比率。但是,這并不總是一種選擇。
有許多深度學習算法(例如歸納學習)依賴于不斷生成新的,有時是更復雜的假設。在這些情況下,有一些統計技術可以幫助估計正確的假設數量,以優化找到接近正確的假設的機會。盡管此方法無法提供確切的答案,但可以幫助在假設數量和數據集組成之間保持統計平衡的比率。哈佛大學教授萊斯利·瓦利安特(Leslie Valiant)在他的《大概是正確的》一書中出色地解釋了這一概念。
進行區塊鏈分析時,數據/假設比率非常明顯。假設我們正在基于一年的區塊鏈交易構建預測算法。因為我們不確定要測試哪種機器學習模型,所以我們使用了一種神經架構搜索(NAS)方法,該方法針對區塊鏈數據集測試了數百種模型。假設數據集僅包含一年的交易,則NAS方法可能會產生一個完全適合訓練數據集的模型。
支持簡單假設
防止深度學習模型過度擬合的概念上瑣碎但技術上困難的想法是不斷生成更簡單的假設。當然!簡單總是更好,不是嗎?但是在深度學習算法的背景下,一個更簡單的假設是什么?如果我們需要將其減少到一個定量因素,我會說深度學習假設中的屬性數量與它的復雜度成正比。
簡單的假設往往比其他具有大量計算和認知屬性的假設更易于評估。因此,與復雜模型相比,較簡單的模型通常不易過擬合。現在,下一個明顯的難題是弄清楚如何在深度學習模型中生成更簡單的假設。一種不太明顯的技術是基于估計的復雜度將某種形式的懲罰附加到算法上。該機制傾向于傾向于更簡單,近似準確的假設,而不是在出現新數據集時可能會崩潰的更復雜(有時甚至更準確)的假設。
為了在區塊鏈分析的背景下解釋這個想法,讓我們想象一下我們正在建立一個模型,用于對區塊鏈中的支付交易進行分類。該模型使用一個復雜的深度神經網絡,該網絡會生成1000個特征以執行分類。如果將其應用于較小的區塊鏈(例如Dash或Litecoin),則該模型很可能會過擬合。
偏差/方差余額
偏差和方差是深度學習模型中的兩個關鍵估計量。從概念上講,偏差是模型的平均預測與我們試圖預測的正確值之間的差。具有高偏差的模型很少關注訓練數據,從而簡化了模型。總是會導致培訓和測試數據的錯誤率很高。或者,方差是指給定數據點的模型預測的可變性或一個告訴我們數據分布的值。具有高方差的模型將大量注意力放在訓練數據上,并且沒有對以前從未見過的數據進行概括。結果,這樣的模型在訓練數據上表現很好,但是在測試數據上有很高的錯誤率。
偏差和方差與過度擬合如何相關?用超簡單的術語來說,可以通過減少模型的偏差而不增加其方差來概括泛化的技巧。深度學習的一種良好做法是對它進行建模,以定期將產生的假設與測試數據集進行比較并評估結果。如果假設繼續輸出相同的錯誤,則說明我們存在很大的偏差問題,需要調整或替換算法。相反,如果沒有明確的錯誤模式,則問題在于差異,我們需要更多數據。
綜上所述
? 任何低復雜度模型-由于高偏差和低方差,容易出現擬合不足。
? 任何高復雜度模型(深度神經網絡)-由于低偏差和高方差,容易出現過度擬合。
在區塊鏈分析的背景下,偏差方差摩擦無處不在。讓我們回到我們的算法,該算法嘗試使用許多區塊鏈因素來預測價格。如果我們使用簡單的線性回歸方法,則該模型可能不合適。但是,如果我們使用具有少量數據集的超復雜神經網絡,則該模型可能會過擬合。
使用機器學習來分析區塊鏈數據是一個新生的空間。結果,大多數模型在機器學習應用程序中都遇到了傳統挑戰。根本上,由于缺乏標記數據和訓練有素的模型,過度擬合是區塊鏈分析中無所不在的挑戰之一
撰文:Brian Armstrong支付類初創公司正在成為風險投資公司的最愛。在投資市場漸冷的環境下,不少支付類企業獲得了風險投資公司的支持,獲得大筆資金.
1900/1/1 0:00:002020年2月6日,日本、歐洲等六家中央銀行和國際清算銀行宣布將于4月中旬舉行首次會議,討論如何開發自己的數字貨幣,以替代Facebook的Libra或數字人民幣.
1900/1/1 0:00:00從美國著名Cowboy Venture投資人Aileen Lee在2013年將私募和公開市場的估值超過10億美元的創業公司做出分類,并將這些公司稱為“獨角獸”開始,這個詞就迅速流行于硅谷.
1900/1/1 0:00:00據外媒 Finextra 報道,提供數字貨幣服務的商業支付公司 Paystand 近日完成了 2000 萬美元 B 輪融資.
1900/1/1 0:00:00Overview 概述 當前慈善組織公信力受到普遍質疑,主要原因是慈善組織缺乏有效監管,民間慈善組織缺乏合法地位以及信息不透明.
1900/1/1 0:00:00這段時間幣市的整體走勢,也有資金輪動的跡象。先是減產幣輪番上漲,幾倍的漲幅吸引了眾多的目光,然后是主流幣、BTC的持續性反彈,目前輪到了山寨幣,也有活躍的跡象.
1900/1/1 0:00:00