在最近的會議演講中我經常會被問到:區塊鏈數據分析的最大挑戰是什么?我的回答就一個詞:去匿名化。
我堅定地認為,識別不同類型的參與者并理解其行為是解鎖區塊鏈分析潛力的核心挑戰。我們花費了相當多的時間來考慮這個問題以識別出與數字貨幣運動的倫理不發生沖突的正確邊界。在這篇文章里,我想進一步探討這個思路。
市場上大多數區塊鏈的架構依賴于匿名或偽匿名機制來保護其節點的隱私并實現去中心化。數據混淆機制可以將加密資產交易數據記錄在公開的賬本上讓每個人都能訪問,但是也讓分析這些數據變得異常困難。
如果不能識別參與者的身份,就很難理解區塊鏈數據集并分析出有意義的結果,而且區塊鏈分析只能徘徊在初級階段。然而,重要的一點是要理解,去匿名化區塊鏈數據集并不是要知道賬本中每個地址的真實身份,這個方向基本上是不具備可擴展性的可能。
BNB Chain現已上線區塊鏈基礎設施LlamaNodes:金色財經報道,BNB Chain現已上線區塊鏈基礎設施LlamaNodes,通過擴展到BSC生態系統,LlamaNodes為開發人員和零售用戶等提供最大限度提高安全性、隱私性和效率的機會。
LlamaNodes?由DefiLlama推出,提供對RPC基礎設施的快速、安全的訪問。[2023/9/5 13:17:35]
相反的,我們可以識別并理解區塊鏈中已知參與者的行為,例如交易所、OTC柜臺、礦工以及其他構成區塊鏈生態系統的核心成員。
地址數量會不知不覺誤導你
網絡的量度是區塊鏈分析中無所不在的一個指標,也是一個可以清晰地展示去匿名化威力的指標。
地址數量是最常見的一個具有誤導性的指標,因為并非所有的地址都同等重要。交易創建的一個用于臨時性轉賬的地址,顯然不能和另一個長期持有資產的錢包地址相提并論。
Kaiko報告:陷入困境的Silvergate或會提升穩定幣在加密交易中的作用:3月7日消息,市場研究公司Kaiko在周一發布的一份報告中表示,陷入困境的Silvergate Capital決定關閉其在大投資者中很受歡迎的即時結算服務SEN,這將提高穩定幣及其發行商在加密交易中的作用。Kaiko的報告稱:“隨著SEN的消亡,穩定幣可能會在交易員中變得更加普遍。”Kaiko預測,交易員將不再使用銀行渠道將美元存入加密貨幣交易所,而是將資金轉移到穩定幣發行方以獲得穩定幣,然后將穩定幣存入交易所。報告補充道:“但問題是,穩定幣發行人仍然需要訪問加密貨幣銀行,因此現在風險進一步集中。”
Kaiko還在報告中表示,隨著穩定幣市值的增長,全球法定貨幣與加密貨幣之間的交易對的數量有所下降。數據顯示,去年交易所新增的美元交易對數量從2021年的400個降至326個。報告稱:“自FTX崩潰以來,相對于USDT、USDC和歐元交易對,美元的市場份額持續下降。”例如,USDT在比特幣交易量中的主導地位最近達到了93%的歷史新高,比2017年的3%有了顯著的增長。報告稱,目前,美元和與美元掛鉤的穩定幣仍然是加密經濟的基礎,但美元支付渠道日益復雜化可能會翻轉這一趨勢。(Coindesk)[2023/3/7 12:46:28]
類似的,像幣安這樣的交易所的熱錢包,肯定也不同和我的個人錢包采用同樣的方法和指標去分析。同等對待所有地址的匿名性,注定會導致解讀的有限性并且經常會得出誤導性的結論。
韓國金融機構正考慮直接參與加密貨幣在交易所上線的資格評定:12月12日消息,韓國金融服務委員會和金融情報機構(FIU)等金融監管部門正在審查一項提議,將“由監管機構直接批準代幣在國內加密交易所上線”的內容納入虛擬資產基本法。最近,因Wemade旗下鏈游平臺Wemix的WEMIX代幣遭各加密交易所下架,該國投資者陸續蒙受損失。
在這種情況下,有人提出意見稱,金融當局應該同時參與該國交易所對加密貨幣上線和下架資格的評定。但金融當局內部也出現了贊成和反對的意見分歧,因此,能否實現還有待觀察。(Herald)[2022/12/12 21:38:38]
匿名性vs.可解讀性
匿名或偽匿名身份是可伸縮的去中心化架構的關鍵因素之一,但是這也讓從區塊鏈數據集中獲取有價值的信息變得極端困難。理解這一觀點的一個辦法,就是把匿名性視為區塊鏈分析的可解讀性的一個反因子。
Blockchain.com出現用戶數據泄露情況,用戶近期或將收到一系列假冒官方郵件:7月26日消息,據加密交易平臺 Blockchain.com 官方發布的郵件顯示,該平臺第三方服務商 SendGrid(電子郵件服務平臺)于近期出現了數據泄露的情況,目前其安全團隊已經調查并關閉了 SendGrid 的接入點,收到該郵件的用戶均為本次數據泄露事件的受損用戶。
Blockchain.com 表示,本次事件中受波及的用戶近期可能會收到假冒官方的欺詐電子郵件,郵件的標題可能是區塊鏈 IC0 預售或從新的 IP 地址登錄等。該網站表示絕不會向用戶發送郵件索要密碼或為非法活動募集資金,也永遠不會聯系用戶詢問敏感信息,要求更改用戶賬戶設置。[2022/7/27 2:39:28]
在區塊鏈數據集中匿名性與可解讀性之間的摩擦相對來說還比較小。一個區塊鏈數據集的匿名性越高,從中獲取有意義的信息的難度就越大。參與者的身份提供了其行為的上下文環境,而上下文環境則是可解讀性的關鍵構建模塊。
去匿名化vs.打標簽
「你是什么」遠比「你是誰」要重要。
去匿名化區塊鏈數據集并不涉及了解每個參與者的真實身份。試圖了解每個用戶的真實身份不僅是一個意義重大的任務,而且也會讓分析工作難以突破一定的規模。
相反,我們可以試著理解一個參與者的關鍵特征來讓我們的分析達到一定程度的可解讀性。因此,不需要清楚地識別每個地址的真實身份,我們可以給地址打標簽或者附加一些描述性的元數據,來讓其行為具備一定的上下文環境。
在大規模數據中,打標簽常常要比個體識別更有效果。理解區塊鏈生態系統中特定個體的行為當然會讓分析達到更個性化的程度,但是對于在宏觀層面理解行為的趨勢就顯得相對受限了。
因此,相對與對區塊鏈地址的個體真實身份的識別,去匿名性的挑戰與地址的關鍵性屬性的標注的關系更大。我們如何實現這一點?
機器學習會是一個優秀的解決方案
標注或者去匿名化區塊鏈的思路可以讓區塊鏈分析更好地生態中已知參與者的行為模式和特征。直覺上我們可以考慮創建一些規則來分析區塊鏈生態系統中的不同成員,例如:
“如果一個地址持有大量比特幣地址并且一次執行100個交易,那么這是一個交易所地址……”
雖然很有吸引力,但是基于規則的方法將很快失效,無法再提供有用的信息。下面列出了部分原因:
預置知識的完整性:基于規則的分類會假定我們對于如何識別區塊鏈生態中的不同參與者有足夠的知識。這顯然是不正確的假設。
持續的變化:區塊鏈解決方案的架構一直都在演變,這對任何嵌入的規則而言都是挑戰。
特征屬性的數量:創建一條有兩三個參數的規則很簡單,但是試圖創建一條有幾十個甚至上百個參數的規則就沒那么簡單了。要識別出像交易所或OTC柜臺這樣的地址需要大量的特征。
因此我們不能使用預置的規則,我們需要一種可以從區塊鏈數據集中學習模式的機制來自動推斷出有意義的規則讓我們可以標注相關的參與方。從概念上來說,這是一個經典的機器學習問題。
從機器學習的觀點,我們應該從兩個主要途徑來考慮應對去匿名化的挑戰:
無監督學習:無監督學習聚焦于學習指定數據集中存在的模式并識別相關分組。在區塊鏈數據集的上下文中,可以使用無監督學習模型基于地址的特征將其匹配到不同的分組中并對這些分組進行標注。
監督學習:監督學習方法可以利用已有的知識來學習指定數據集中的新的特性。在區塊鏈上下文中,可以使用監督學習方法基于已有的交易所地址數據集訓練一個模型來識別出新的交易所地址。
去匿名化或者給區塊鏈數據集打標簽很少是只用監督學習或者只用非監督學習,更多的情況下需要兩種方法的結合。機器學習模型可以有效地學習區塊鏈生態系統中特定參與者的特征,并利用這些特征來理解其行為。
在使用區塊鏈ETL工具將區塊鏈原始數據加載到數據庫或大數據分析平臺后,將標注層引入區塊鏈數據集是進行更有價值的區塊鏈數據分析的一個關鍵挑戰。
這些標簽提供了更好的上下文環境,也讓區塊鏈分析模型具有更好的可解讀性。不過盡管我們有機器學習這樣強大的工具,去匿名性依然是分析理解區塊鏈生態系統的道路上一個不可忽視的重大路障。
本文來源于“區塊鏈大本營”。
中國平安旗下金融科技服務云平臺金融壹賬通在美國遞交申請文件,將進行5億美元的IPO,其估值遠低于預期.
1900/1/1 0:00:00尊敬的用戶: CoinTiger幣虎將于新加坡時間2019年12月11日16:00上線XQC/BTC交易對.
1900/1/1 0:00:00VIP費率申請條件如果您在其他交易所交易,您可在火幣申請對應交易量等級的火幣現貨與合約雙重VIP,開始享受相應的VIP特權與VIP費率.
1900/1/1 0:00:00據DAppTotal.com穩定幣專題頁面數據顯示:截至11月30日,USDT總發行量為46.34億美元,較上月環比增加了3,300萬美元,保持平穩緩慢增長.
1900/1/1 0:00:00尊敬的BDW用戶: BDW交易所將于18日上線米提鏈。因BDW交易所與米提鏈項目方錢包對接難度超預期,米提鏈原定于15日上線BDW交易所,推遲到18日正式上線METC/TD交易對.
1900/1/1 0:00:00今日貪婪指數再度劇烈,這兩日的BTC上升無果,走入向下行情,讓人感覺行情有點慘。再看LTC和EOS,連續的上下插針,讓大家彼此的內心被一次次刺傷,真是慘上加慘.
1900/1/1 0:00:00