摘要:文本數(shù)據(jù)中的實(shí)體和關(guān)系抽取是領(lǐng)域知識(shí)圖譜構(gòu)建和更新的來源.針對(duì)金融科技領(lǐng)域中文本數(shù)據(jù) 存在重疊關(guān)系、訓(xùn)練數(shù)據(jù)缺乏標(biāo)注樣本等問題,提出一種融合主動(dòng)學(xué)習(xí)思想的實(shí)體關(guān)系聯(lián)合抽取方法.首 先,基于主動(dòng)學(xué)習(xí),以增量的方式篩選出富有信息量的樣本作為訓(xùn)練數(shù)據(jù);其次,采用面向主實(shí)體的標(biāo)注策 略將實(shí)體關(guān)系聯(lián)合抽取問題轉(zhuǎn)化為序列標(biāo)注問題;最后,基于改進(jìn)的BERT-BiGRU-CRF模型實(shí)現(xiàn)領(lǐng)域?qū)?體與關(guān)系的聯(lián)合抽取,為知識(shí)圖譜構(gòu)建提供支撐技術(shù),有助于金融從業(yè)者根據(jù)領(lǐng)域知識(shí)進(jìn)行分析、投資、 交易等操作,從而降低投資風(fēng)險(xiǎn).針對(duì)金融領(lǐng)域文本數(shù)據(jù)進(jìn)行實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文所提出的方法 有效,驗(yàn)證了該方法后續(xù)可用于金融知識(shí)圖譜的構(gòu)建.
關(guān)鍵詞:領(lǐng)域文本;領(lǐng)域知識(shí)圖譜;實(shí)體關(guān)系聯(lián)合抽取;主動(dòng)學(xué)習(xí);序列標(biāo)注
引 言
隨著海量數(shù)據(jù)處理和人工智能技術(shù)的快速發(fā)展,以數(shù)據(jù)密集型為主導(dǎo)的研究范式為推動(dòng)各領(lǐng)域
數(shù)字化轉(zhuǎn)型提供了新的研究思路.知識(shí)圖譜(Knowledge Graph, KG)作為一種用圖模型描述知識(shí)和建 模世界萬物之間關(guān)聯(lián)關(guān)系的方法,通過一系列形如〈頭實(shí)體,關(guān)系,尾實(shí)體〉的三元組對(duì)知識(shí)進(jìn)行結(jié) 構(gòu)化表示[1],為跨領(lǐng)域知識(shí)融合提供了解決方案.近年來,在搜索引擎、推薦計(jì)算和智能問答[4]等 KG下游應(yīng)用的驅(qū)動(dòng)下,以及DBpedia[5]、YAGO[6]和Freebase[7]等跨領(lǐng)域知識(shí)庫(kù)的誕生,研究人員對(duì) 從非結(jié)構(gòu)化數(shù)據(jù)源特別是文本數(shù)據(jù)中挖掘高質(zhì)量的領(lǐng)域知識(shí)產(chǎn)生了極大興趣[8].例如,隨著金融科技 進(jìn)入智能時(shí)代,面對(duì)大規(guī)模、多來源、不規(guī)則的金融文本數(shù)據(jù),通過構(gòu)建金融領(lǐng)域KG能夠高效利用 各個(gè)數(shù)據(jù)之間的聯(lián)系,實(shí)現(xiàn)金融與信息科技深度融合,為預(yù)測(cè)市場(chǎng)趨勢(shì)、支持政府監(jiān)管市場(chǎng)、防范金 融風(fēng)險(xiǎn)提供智能化解決方案[9].
實(shí)際上,大量的文本數(shù)據(jù)是KG構(gòu)建和領(lǐng)域知識(shí)更新的來源,如何有效地從文本數(shù)據(jù)中抽取實(shí)體 和關(guān)系,是KG構(gòu)建、更新和推理的重要基礎(chǔ).例如,金融領(lǐng)域?qū)?shù)據(jù)依賴性較大,對(duì)數(shù)據(jù)分析的準(zhǔn)確 性要求很高,股票的價(jià)格可以視作市場(chǎng)對(duì)金融新聞和事件的反映,通過有效分析相關(guān)金融新聞和事件 文本數(shù)據(jù),并將其表征為結(jié)構(gòu)化知識(shí),能夠直觀有效地展示金融領(lǐng)域覆蓋實(shí)體之間關(guān)聯(lián)對(duì)股票價(jià)格的 影響,對(duì)用戶做出明智的投資決策至關(guān)重要.從這個(gè)角度來說,只有高質(zhì)量的金融知識(shí)圖譜中的知識(shí) 有實(shí)際應(yīng)用價(jià)值.因此,本文研究從領(lǐng)域文本數(shù)據(jù)識(shí)別命名實(shí)體和聯(lián)合抽取實(shí)體關(guān)系的方法,為領(lǐng)域 KG的構(gòu)建和增量更新提供技術(shù)支撐.
領(lǐng)域文本數(shù)據(jù)是對(duì)特定領(lǐng)域知識(shí)的描述和記錄,具有以下特點(diǎn).
(1)領(lǐng)域文本數(shù)據(jù)的標(biāo)注樣本極其缺乏,對(duì)數(shù)據(jù)的標(biāo)注往往需要專家的指導(dǎo)和協(xié)助,導(dǎo)致標(biāo)注語料 庫(kù)的構(gòu)建成本極高.因此,如何以盡可能少的標(biāo)注樣本量實(shí)現(xiàn)模型訓(xùn)練,是本文研究面臨的挑戰(zhàn).
(2)領(lǐng)域文本數(shù)據(jù)中實(shí)體分布密度高且實(shí)體間存在重疊關(guān)系.數(shù)據(jù)實(shí)例圍繞主實(shí)體展開具體描述, 如一個(gè)金融數(shù)據(jù)實(shí)例描述一家公司的創(chuàng)始人、股東、注冊(cè)地址等信息,一個(gè)公司實(shí)體同時(shí)與創(chuàng)始人、 股東等實(shí)體存在關(guān)系.因此,如何有效地抽取領(lǐng)域文本數(shù)據(jù)中實(shí)體和實(shí)體間的重疊關(guān)系,是本文研究 面臨的另一個(gè)挑戰(zhàn).
主動(dòng)學(xué)習(xí)算法[10]旨在針對(duì)模型主動(dòng)參與樣本選擇的情形,優(yōu)先標(biāo)注并訓(xùn)練那些相對(duì)有價(jià)值的樣 本,從而達(dá)到以盡可能少的標(biāo)注樣本量達(dá)到模型預(yù)期性能的目標(biāo).為了從領(lǐng)域文本數(shù)據(jù)中選取待標(biāo)注 樣本,本文提出一種基于主動(dòng)學(xué)習(xí)的待標(biāo)注數(shù)據(jù)采樣方法,用以篩選出富有信息量的樣本,從而降低 標(biāo)注成本.
為了有效地抽取實(shí)體和實(shí)體間的重疊關(guān)系,本文提出一種考慮主實(shí)體的序列標(biāo)注策略,將實(shí)體關(guān) 系聯(lián)合抽取問題轉(zhuǎn)化為序列標(biāo)注問題.基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory, BiLSTM)[11]可同時(shí)獲取上下文信息并存儲(chǔ)記憶,從而被廣泛地應(yīng)用于基于序列標(biāo)注的實(shí)體 關(guān)系聯(lián)合抽取任務(wù);但是基于BiLSTM改進(jìn)的雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit, BiGRU)[12]不僅具備長(zhǎng)時(shí)序依賴能力和更快的運(yùn)行效率,而且簡(jiǎn)化了 BiLSTM復(fù)雜的結(jié)構(gòu).為緩 解BiGRU模型在訓(xùn)練過程中出現(xiàn)的過擬合問題以及梯度爆炸問題,本文通過改進(jìn)BiGRU提出 BiGRU*.首先提出TaLU激活函數(shù)替換傳統(tǒng)GRU的雙曲正切(tanh)激活函數(shù),從而解決因tanh函 數(shù)的軟飽和性而導(dǎo)致的梯度消失問題;其次,結(jié)合層標(biāo)準(zhǔn)化(Layer Normalization, LN)技術(shù),使模型 在沒有發(fā)生嚴(yán)重梯度爆炸的情況下提高網(wǎng)絡(luò)性能,從而獲得改進(jìn)的GRU*,最后使用BERT-BiGRU*- CRF序列模型來對(duì)金融領(lǐng)域文本數(shù)據(jù)集進(jìn)行實(shí)體關(guān)系聯(lián)合抽取.
綜上所述,本文的工作主要包括以下幾個(gè)方面.
(1)針對(duì)垂直領(lǐng)域數(shù)據(jù)缺乏的問題,融合主動(dòng)學(xué)習(xí)思想,提出一種基于主動(dòng)學(xué)習(xí)的待標(biāo)注數(shù)據(jù)采樣 方法.通過評(píng)估樣本的價(jià)值與樣本的相似性來選擇標(biāo)注樣本,從未標(biāo)注數(shù)據(jù)池中增量地采樣出富有信 息的樣本.
(2)通過將實(shí)體識(shí)別和關(guān)系抽取兩個(gè)子任務(wù)聯(lián)合起來,并將其建模為序列標(biāo)注,提出一種基于 BERT-BiGRU*-CRF的實(shí)體關(guān)系聯(lián)合抽取模型,用于對(duì)垂直領(lǐng)域文本的實(shí)體和關(guān)系同時(shí)進(jìn)行抽取.
(3)基于金融領(lǐng)域和少數(shù)民族領(lǐng)域文本數(shù)據(jù)對(duì)本文提出的方法進(jìn)行實(shí)驗(yàn)測(cè)試和性能分析,實(shí)驗(yàn)結(jié) 果表明,本文提出的基于BERT-BiGRU*-CRF的實(shí)體關(guān)系聯(lián)合抽取方法,效果均優(yōu)于其他傳統(tǒng)的序 列標(biāo)注模型.
1相關(guān)工作
傳統(tǒng)的實(shí)體關(guān)系抽取一般采用流水線方法,該方法將命名實(shí)體識(shí)別和關(guān)系抽取分成兩個(gè)獨(dú)立的 子任務(wù),在實(shí)體識(shí)別已經(jīng)完成的基礎(chǔ)上直接進(jìn)行實(shí)體之間的關(guān)系抽取.例如,文獻(xiàn)[13]和文獻(xiàn)[14]首 先識(shí)別文本中的實(shí)體,然后抽取出文本中實(shí)體之間的關(guān)系.盡管流水線方法更加靈活且易于建模,但 實(shí)體識(shí)別階段產(chǎn)生的錯(cuò)誤將傳播到關(guān)系抽取階段,影響關(guān)系抽取的性能,將實(shí)體識(shí)別與關(guān)系抽取分開 執(zhí)行,忽略兩個(gè)子任務(wù)之間的聯(lián)系,若識(shí)別到的實(shí)體間不存在語義關(guān)系,無法剔除冗余實(shí)體對(duì).
相比傳統(tǒng)的流水線方法,實(shí)體關(guān)系聯(lián)合抽取方法采用一個(gè)聯(lián)合模型同時(shí)識(shí)別出實(shí)體和關(guān)系類型. 根據(jù)建模對(duì)象不同,實(shí)體關(guān)系聯(lián)合抽取方法分為參數(shù)共享和序列標(biāo)注兩類.參數(shù)共享方法是分別對(duì)實(shí) 體和關(guān)系進(jìn)行建模,例如,Miwa等[15]采用參數(shù)共享的方式來對(duì)實(shí)體和關(guān)系進(jìn)行聯(lián)合提取,將BiLSTM 與樹狀LSTM用于文本的建模任務(wù),BiLSTM完成對(duì)實(shí)體的提取,樹狀LSTM實(shí)現(xiàn)對(duì)于關(guān)系的分類, 通過兩個(gè)模型的互相堆疊來實(shí)現(xiàn)參數(shù)的共享.序列標(biāo)注方法將實(shí)體與關(guān)系聯(lián)合抽取任務(wù)轉(zhuǎn)換成序列 標(biāo)注問題,基于實(shí)體關(guān)系的聯(lián)合標(biāo)注策略進(jìn)行建模,直接得到實(shí)體-關(guān)系三元組.例如,Zheng等[16]首 次提出一種特殊的標(biāo)注方案,將實(shí)體關(guān)系聯(lián)合抽取問題轉(zhuǎn)化為序列標(biāo)注問題,并在通用領(lǐng)域的知識(shí)抽 取中取得了較好的效果,但無法解決重疊關(guān)系問題.為了能更好地解決可能存在的實(shí)體關(guān)系三元組重 疊問題,Zeng等[17]提出了一種基于復(fù)制機(jī)制的端到端神經(jīng)網(wǎng)絡(luò)模型,采用了一種編碼器解碼器架構(gòu) 的實(shí)體關(guān)系抽取模型,首先完成對(duì)關(guān)系的提取,然后通過復(fù)制機(jī)制,依次復(fù)制主實(shí)體和客實(shí)體,解決了 實(shí)體關(guān)系重疊的問題,但該模型未考慮實(shí)體對(duì)之間存在多種關(guān)系的問題.
主動(dòng)學(xué)習(xí)是一種用于機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)篩選方法,相較于人工操作,它只需花費(fèi)較少的時(shí)間即 可自動(dòng)找到富有信息量的樣本來構(gòu)建更好的數(shù)據(jù)集,進(jìn)而以較低的標(biāo)注代價(jià)實(shí)現(xiàn)模型較高的性能.研 究者們依據(jù)不同的樣本選擇標(biāo)準(zhǔn)開發(fā)出一系列主動(dòng)學(xué)習(xí)的方法,Houlsby等[18]提出了一種貝葉斯不一 致主動(dòng)學(xué)習(xí)算法,其中采樣函數(shù)通過訓(xùn)練樣本關(guān)于模型參數(shù)的互信息來進(jìn)行不確定性度量.Tang等[19] 提出一種自定步長(zhǎng)的主動(dòng)學(xué)習(xí)方法,該方法一方面考慮了樣本的信息量和代表性,選取的樣本對(duì)模型 的改進(jìn)具有較高的潛在價(jià)值;另一方面,利用樣本的易用性,使模型能夠充分利用樣本潛在價(jià)值.近年 來,隨著深度學(xué)習(xí)模型的發(fā)展,主動(dòng)學(xué)習(xí)也應(yīng)用于序列標(biāo)注任務(wù).Tran等[20]針對(duì)Twitter數(shù)據(jù)進(jìn)行命 名實(shí)體識(shí)別問題,提出了一種將自學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的方法,降低了標(biāo)注成本.Shen等[21]通過將 主動(dòng)學(xué)習(xí)與一種基于深度學(xué)習(xí)的輕量級(jí)命名實(shí)體識(shí)別模型相結(jié)合,減少25%的訓(xùn)練數(shù)據(jù)量.雖然上述 方法在解決樣本標(biāo)注問題上取得了很大進(jìn)展,但這些方法往往只關(guān)注低置信度的不確定樣本,未能綜 合考慮樣本的價(jià)值與代表性.
推薦閱讀:面向人工智能的電子信息工程專業(yè)建設(shè)研究
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >