加密貨幣交易所 加密貨幣交易所
Ctrl+D 加密貨幣交易所
ads
首頁 > XRP > Info

NLP 的命名實體識別 Jieba_CRF:CRF

Author:

Time:1900/1/1 0:00:00

本文主要來介紹NLP中的命名實體識別。命名實體識別與中文分詞、詞性標注一樣,也是NLP的一個基礎任務,是信息抽取、信息檢索、機器翻譯、問答系統等多種NLP技術不可或缺的一部分。其目的是:識別語料中的人名、地名、組織機構名等命名實體。

隨著命名實體數量的不斷增加,一般不可能在詞典中全部列出,由于命名實體的構成方法具有規律性,通常把對這些詞的識別在任務中進行獨立處理,稱之為命名實體識別。NER一般分為3大類和7小類。

1.中文命名實體識別的難點

各類命名實體的數量眾多。命名實體的構成規律復雜。比如人名的構成規則各有不同,中文人名識別又可以細分為中國人名識別、日本人名識別和音譯人名識別等;再比如機構名的組成方式,機構名的種類繁多,各有獨特的命名方式,用詞也相當廣泛,只有結尾用詞相對集中。嵌套情況復雜。一個命名實體經常和一些詞組合成一個嵌套的命名實體,人名中嵌套著地名,地名中也經常嵌套著人名。長度不確定。與其他類型的命名實體相比,長度和邊界難以確定,使得機構名更難識別。中國人名一般二到四字,常用地名一般二到四字,但是機構名長度變化范圍極大,少的只有兩個字簡稱,多的達到幾十個字的全稱。2命名實體識別方式

Waves創始人發布的VVXTNLP Token套利提案已獲得通過:金色財經報道,Waves創始人Sasha Ivanov(Aleksandr Ivanov)發布的VVXTNLP Token套利提案已獲得通過。提案將提議將一部分國庫資金分配給一項回購VVXTNLP代幣的計劃。該提案由DAO治理委員會成員進行投票,投票期為5天。[2023/5/29 9:48:05]

中文分詞中,主要有基于規則方法、基于統計方法和基于二者的混合方法。命名實體識別主要也包含這三種方法。

基于規則的命名實體識別:規則加詞典是早期命名實體識別中最行之有效的方式。依賴手工規則,結合命名實體庫,對每條規則進行權重賦值,然后通過實體與規則的相符情況來進行類型判斷。基于統計的命名實體識別:與分詞類似,目前主流的基于統計的命名實體識別方法有:隱馬爾可夫模型、最大熵模型、條件隨機場等。其主要思想是:基于人工標注的語料,將命名實體識別任務作為序列標注問題來解決。基于混合的命名實體識別:NLP并不完全是一個隨機過程,單獨使用基于統計的方法使狀態搜索空間非常龐大,必須借助規則知識提前進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在很多情況下是使用混合方法,結合規則和統計方法。序列標注方式是目前命名實體識別中的主流方法,下面重點介紹基于CRF條件隨機場的方法。

Coinlist公布2022年夏季批次“CoinList Seed”,7個項目最終入圍:6月24日消息,Coinlist公布2022年夏季批次“CoinList Seed”(CoinList Seed Summer 2022 Batch),共6個項目入圍,包括基于Avalanche的Web3期權交易平臺Arrow Markets、基于 Solana 的 NFT 市場創建工具 Candy Shop、音樂創作者平臺 Decent、Web3 自動化交易工具 Loop Crypto、Web3 隱私基礎設施 Mystiko.Network、跨鏈基礎設施 TeleportDAO。[2022/6/24 1:28:59]

3基于CRF的命名實體識別

條件隨機場的主要思想來源于HMM,也是一種用來標記和切分序列化數據的統計模型。不同的是,條件隨機場是在給定觀察的標記序列下,計算整個標記序列的聯合概率,而HMM是在給定當前狀態下,定義下一個狀態的分布。

Solana鏈上DeFi借貸協議Acumen將集成Chainlink喂價:1月4日消息,Solana鏈上DeFi借貸協議Acumen宣布將集成Chainlink喂價,以幫助使用DeFi為全球小額信貸提供動力。[2022/1/4 8:24:29]

條件隨機場的定義為:假設X=(X1,X2,X3,…,Xn)和Y=(Y1,Y2,Y3,…,Ym)是聯合隨機變量,若隨機變量Y構成一個無向圖G=(V,E)表示的馬爾可夫模型,則其條件概率分布P(Y|X)稱為條件隨機場,即:

P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v)

其中w~v表示無向圖G=(V,E)中與結點v有邊連接的所有節點,w≠v表示結點v以外的所有節點。

例如:對句子“我來到陶家村”進行標注,正確標注后的結果為:我/O來/O到/O陶/B家/M村/E。采用線性鏈CRF來進行解決,那么是其一種標注序列,也是是其一種標注選擇,類似的可選擇的標注序列有很多,在NER任務中就是在這么多的可選標注序列中,找出最靠譜的作為句子的標注。

阿根廷投資應用IOL invertironline計劃推出加密貨幣交易服務:金色財經報道,阿根廷的投資應用程序IO Linvertironline計劃為其213,000名用戶提供加密貨幣交易服務,將股票和加密投資集中在同一平臺上。該產品將由第三方提供支持,并在未指定的日期擴展到阿根廷的客戶。IOL母公司Grupo Supervielle的首席執行官Julio Patricio Supervielle表示,IOL計劃提供基于美國的投資產品,逐步擴展到幾個拉丁美洲國家,不包括巴西。作為第一步,其已申請授權以在烏拉圭作為在線經紀人運營。[2021/9/4 22:58:57]

那么我們要解決的問題就是要判斷標注序列是否靠譜。就剛才的兩種標注方法,顯然第一種比第二種更為準確,因為第二種將“陶”和“家”都作為地名首字標成了“B”,一個地名兩個首字符,顯然不合理。假如給每個標注序列打分,分值代表標注序列的靠譜程度,越高代表越靠譜,那么可以定一個規則,若在標注中出現連續兩個“B”結構的標注序列,則給它低分。連續“B”結構打低分就對應一條特征函數。在CRF中,定義一個特征函數集合,然后使用這個特征函數集合為標注序列進行打分,據此選出最靠譜的標注序列,該序列的分值是通過特征函數集合得出的。

火幣通過 Chainlink 向 DeFi 世界提供可靠的交易所數據喂價:7月3日,火幣錢包宣布,將向 Chainlink 提供火幣全球站交易數據,為連接到 Chainlink 上的任何 DeFi應用程序提供可靠、安全與透明的喂價服務。同時火幣將利用 Chainlink 提供的外部設配器實現火幣交易所應用程序接口(API)對智能合約的可用性,從而讓任何人可通過 API 訪問全球綜合交易量最大的交易所之一的火幣全球站的價格數據。 此外,火幣也是第一個運行Chainlink節點的交易所。火幣將把安全運行基礎設施的經驗帶到Chainlink網絡中,并進一步實現可用于語言機數據服務的節點數量的去中心化。 火幣錢包CEO Will Huang 指出:“DeFi通過提供透明、開放且可編程的金融產品為區塊鏈金融提供了獨特的價值。我們非常高興能夠通過運行自己的Chainlink 節點以及為用戶提供Huobi 交易所的數據,來加速我們對這一新興趨勢的參與。“ Chainlink CEO 兼聯合創始人Sergey Nazarov表示:“能夠協助火幣將他們的交易所數據安全可靠的提供到 DeFi 市場對我們來說是非常振奮人心的。火幣通過成為我們的節點和使用我們開發的適配器,讓智能合約很方便的調用火幣Global的API 數據。”[2020/7/3]

在CRF中有兩種特征函數,分別為:轉移函數tk(yi-1,yi,i)和狀態函數sl(yi,X,i)。tk(yi-1,yi,i)依賴于當前和前一個位置,表示從標注序列中位置i-1的標記yi-1轉移到位置i上的標記yi的概率。sl(yi,X,i)依賴當前位置,表示標記序列在位置i上為標記yi的概率。通常特征函數取值為1或0,表示符不符合該條規則約束。

4日期識別代碼示例

應用場景:

現有一個智能外呼系統,由機器人撥打電話給客戶,通知客戶新股中簽情況,客戶與機器人進行對話。對話機器人根據用戶的語音進行解析,發覺用戶的需求,比如:新股中簽的時間,新股買入的時間等。通過asr技術將用戶的語音轉換成中文文本,然后由于asr的識別準確度問題,許多日期類的數據并不是嚴格的數字,比如會出現“十一月12日”“2019年11月”“20191112”“后天下午”等形式。

現在的需求是識別出每個請求文本中可能的日期信息,并將其轉換成統一的格式進行輸出。比如:“我打算今天或明天買入新股”,那么通過日期解析后,應該輸出為“2019-11-12”和“2019-11-13”。

通過結果分析可以看到,text1text2text3text4結果還是相對較好的,對于text5這種規則覆蓋之外的場景,方法效果大大降低。

作者:KevinTao

知乎號:Kevin陶民澤

備注:轉載請注明出處。

如發現錯誤,歡迎留言指正。

Tags:CRFNLPNERCRF幣CRF價格NLP價格NLP幣NER價格NER幣

XRP
Dai遇上最大對手?Tether考慮開發算法穩定幣USDTX_穩定幣:USD價格

穩定幣提供商Tether正在考慮為其流行的USDT代幣創建一種算法替代方案——可能會允許交易者使用加密貨幣作為抵押品——作為提供另一種發行和交易與美元掛鉤資產的途徑的方法.

1900/1/1 0:00:00
市場動態:加密貨幣價格在毫無征兆的情況下大幅飆升_比特幣:加密貨幣市場還有未來嗎知乎

本周五晚些時候,數字貨幣市場出現了強勁的價格飆升,整個加密經濟的總市值因此增加了數十億美元。在這一令人驚訝的上升趨勢中,一些表現最好的加密貨幣在過去24小時內升值了20-30%.

1900/1/1 0:00:00
交易所被“黑”,炒幣者遭遇爆倉,虧損賠不賠?交易所:黑客攻擊是不可抗力,免責;法院:屬合同糾紛范圍_比特幣:比特幣最新價格行情走勢萊特幣官網查詢

來源:每日經濟新聞 比特幣、萊特幣,自一誕生就吸引了無數人的眼光。近年來,伴隨著比特幣的暴漲,投資者、交易所、幣圈自媒體以及各種不明身份的基金會、項目方紛紛涌入,構造了幣圈新“生態”.

1900/1/1 0:00:00
網絡直播持證上崗:不具備強制性 但可能成為趨勢_:

來源:華云網 據成都發布報道,近日,全國網絡節目主持人職業素養能力培訓考試培訓中心四川基地透露,各自媒體平臺的網絡節目主持人,也就是大家俗稱的網絡主播可以持證上崗了.

1900/1/1 0:00:00
貝殼、黃金到紙幣,再到Libra,究竟什么是貨幣?_Money:比特幣最新價格行情走勢

2019年6月18日,臉書發布白皮書,高調宣布將“啟動建設一種簡單的全球貨幣”,取名為Libra.

1900/1/1 0:00:00
重新訓練大腦!這些APP可治愈心理疾病_CRM:CRM

全文共2922字,預計學習時長6分鐘 我們常常擔心技術會使決策者和管理者的效率降低,原因也許是關注的范圍變小了,或者是溝通減少了。但是,合適的工具可以彌補你的專業缺陷,或是重新訓練你的大腦.

1900/1/1 0:00:00
ads