国产视频www-国产视频xxx-国产视频xxxx-国产视频一二-一本大道香蕉中文日本不卡高清二区-一本久久精品一区二区

樹人論文網一個專業的學術咨詢網站!!!
樹人論文網

一種基于LSTM的機器閱讀理解模型

來源: 樹人論文網發表時間:2021-06-05
簡要:摘要:機器閱讀理解是近幾年來十分熱門和前沿的自然語言處理研究任務之一,它能夠解決傳統的檢索式問答最后一公里的難題,也就是精準定位答案。通過預訓練好的詞向量,輔以字

  摘要:機器閱讀理解是近幾年來十分熱門和前沿的自然語言處理研究任務之一,它能夠解決傳統的檢索式問答最后一公里的難題,也就是精準定位答案。通過預訓練好的詞向量,輔以字向量微調這種字詞混合 Embedding 作為模型的輸入編碼,通過 LSTM 建立模型提取文本特征,通過對答案的起止位置進行標注,通過移動指針的方式確定答案的區間,綜合所有答案進行投票,選出最佳答案,這種對答案解碼的方式是一種半指針半標注的模式。在 WebQA 數據集上進行問答式閱讀理解實驗,結果表明,召回率達到 89.70%,相對基準模型提升了 2.08%,F1 值達到 75.11%,相對基準模型提升了 0.83%。

一種基于LSTM的機器閱讀理解模型

  本文源自劉鑫, 電子設計工程 發表時間:2021-06-04

  關鍵詞:機器閱讀理解;字詞混合 Embedding;LSTM;半指針半標注

  機器閱讀理解(Machine Reading Comprehension, MRC)的研究目標是讓計算機讀懂文章,并像人類一樣回答與文章相關的問題[1] ,在需要自動處理和分析大量文本內容的場景下,機器閱讀理解都可以節省大量人力和時間,因此,機器閱讀理解成為當前人工智能研究中最前沿、最熱門的方向之一。該文以百度 深 度 學 習 研 究 院(Baidu Research - Institute of Deep Learning,IDL)提 出 的 神 經 遞 歸 序 列 標 注(Neural Recurrent Sequence Labeling,NRSL)模型[2] 作為基礎模型,對開放域下事實類問答任務進行研究。

  原模型通過 LSTM+CRF[3] 將 MRC 轉換為序列標注問題,但是面對一段材料多次出現答案的情況, CRF 的表現并不是很好,而且直接對材料中的詞進行判斷標注,未免對模型太過嚴苛。針對這些問題,文中采用字詞混合 Embedding 編碼和半指針半標注解碼的方式來改善、提升機器閱讀理解任務的精度。

  1 相關工作

  MRC 旨在利用算法使計算機理解文章語義并回答相關問題,當前 MRC 主要分成 4個任務:完形填空、單選、跨度提取、自由問答[4] ,文中研究的是后兩者,即抽取式問答。最近幾年,由于深度學習的興起[5] ,眾多優秀的機器閱讀理解模型脫穎而出,這些模型在網絡架構、模塊設計、訓練方法等方面實現了創新,大大提高了算法理解文本和問題的能力以及預測答案的準確性。

  文獻[2]提出的 NRSL模型,文獻[4]提出的雙向注意力流(Bi-Directional Attention Flow, BiDAF)模型[6] 算得上中文機器閱讀理解的開山之作,成為了之后眾多 MRC 模型參照的典范。之后的模型創新大多集中在網絡結構的創新及優化,但是對模型的輸入編碼和輸出解碼模塊優化也是有重要意義的,該文就是在研究前人模型的基礎上,重點研究優化編碼解碼模塊來提升模型的精度。

  2 模型構建

  2.1 模型整體架構

  整個模型的架構圖如圖 1 所示,主要由 3 個模塊組成。首先提取問題特征的 LSTM 層,然后是三層 LSTM,用來分析證據,最后便是用來解碼答案的半指針半標注模塊。

  2.2 字詞混合Embedding

  詞作為最小的能夠獨立活動的有意義的語言成分,在機器閱讀理解模型中被廣泛地作為模型的輸入,單個字雖然沒有具體的語義,但卻十分靈活。比如在標注模型中,為了最大程度上避免邊界標注錯誤,使用以字作為基本單位輸入比以詞作為基本單位輸入要好得多,考慮到這一點,若是能綜合字和詞的各自優勢,對模型的提升應該是十分顯著的。

  為了讓模型兼顧字的靈活和詞的語義,該文使用字詞混合 Embedding 作為模型輸入,其編碼過程如圖 2 所示,它的原理很簡單,就是將詞向量通過變換矩陣轉換成和字向量相同的維度,再將轉換結果和字向量相加,從另一個角度看,也可以認為是通過字向量和變換矩陣對 Word2Vec[7] 的詞向量進行微調。

  2.3 LSTM模塊

  長短時記憶網絡 LSTM 是一種特殊的 RNN,是專門設計用來避免長期依賴問題的。LSTM 默認記憶長期信息,而不需要額外的條件。

  定義函數 (s′,y′)= LSTM(x,s,y) 作為 LSTM 層的輸入和輸出的映射,其中,x為經字詞混合 Embedding模塊編碼后的問題向量,s 為先前狀態,y 為輸出,s′,y′ 為當前狀態和當前輸出,它們的計算方式如式(1):

  其中,W* ∈ RH × H 為參數矩陣,b* ∈ RH 為偏移量, H 為 LSTM 層的寬度,σ為 sigmoid 函數,i、f、o 依次為輸入門、遺忘門和輸出門,LSTM的原理圖如圖3所示。

  文中模型的問題和證據均用 LSTM 進行分析,問題采用一層單向 LSTM 分析,然后通過簡單的加性注意力[8-9] 和材料向量融合作為材料 LSTM 分析模塊輸入,該模塊由三層 LSTM 組成,第二層 LSTM 為反向 LSTM,第三層 LSTM 接收前兩層的輸出。

  用 x q =(x q 1,x q 2,?,x q N) 表 示 問 題 向 量 輸 入 , x e =(xe 1,xe 2,?,xe N) 表示證據向量輸入。問題 LSTM 為單 層 LSTM,對 x q 經 LSTM 分 析 后 ,生 成 向 量 序 列 q1,q2,?,qN ,其映射關系如式(2):

  其中,Eˉ∈ RD × |V | 是字詞混合 Embedding 矩陣,D 為輸入詞的維度,|V | 為詞向量的維度。

  對輸出的向量序列采用簡單的單詞注意力機制,處理得到 r q ,作為材料 LSTM 第一層的一個輸入。

  材料 LSTM 由三層 LSTM 構成,第一層 LSTM 的輸入為 r q 和材料的字詞混合 Embedding 通過加性注意力機制融合的定長向量,第二層 LSTM 堆疊于第一層之上,但是以相反的順序處理它的輸入,第三層 LSTM 將第一層和第二層的輸出作為輸入,它的輸出將作為答案解碼模塊的輸入,具體的計算方法如式(3)所示:

  2.4 半指針-半標注解碼

  答案解碼模塊對整個模型精度的影響也是十分大的,文中將原模型中的 CRF替換為半指針-半標注的模式。

  既然用到標注,那么理論上最簡單的方案是輸出一個 0/1序列:直接標注出材料中的每個詞是答案(1)或不是答案(0)。然而,這樣的效果并不好,因為一個答案可能由連續多個不同的詞組成,要讓模型將這些不同的詞都標上同樣的標注結果,還是十分困難的。所以用兩次標注的方式,來分別標注答案的開始位置和終止位置,其計算方式如式(4):

  其中,Act 為激活函數,這里取 sigmoid 函數。為了應對材料中無答案的情況,引入 pglobal對整個問題和文檔信息編碼[10] ,得到一個全局打分,并把這個打分的結果乘到前面的標注中,即變成式(5):

  這里的 o 即為問題和材料的整體向量,當材料中無答案時,即可直接使 pglobal=0,不用讓每個詞的標注都為 0。

  pstart、pend分別代表了答案起始位置和終止位置的概率,但問題是,用什么指標確定答案區間呢?文中的做法是確定答案的最大長度 M,然后遍歷材料所有長度不超過 M 的區間,計算它們起始位置和終止位置的打分的積,然后取最大值。對每段材料都得到了自己的答案的情形,又怎么把這么多段材料的答案投票出最終的答案?比如有 5 段材料,每段材料得出的答案和分數依次是(A, 0.7)、(B, 0.2)、(B, 0.2)、(B, 0.2)、(B, 0.2),那么最終應該輸出 A還是 B呢?

  為了綜合考慮權重大和答案多的情況,這里將采用取“平方和”的思想,因為“平方”會把高分的樣本權重放大,而對小樣本將其加一置于分母位置,這樣其得分就會降低,其計算方式如式(6):

  3 實 驗

  3.1 數據集簡介

  該文數據集采用 WebQA(百度問答數據集現在已更新為 DuReader[11),] WebQA 和 DuReader 的實體類問答很類似,答案包含在材料中,該文正是對這類問答進行抽取式閱讀理解[12] 任務研究。

  WebQA 包含 42k個問題,566k個材料片段,一個數據由問題、證據、答案構成,材料樣例如下:

  問題:多瑙河注入哪個海?材料 1:多瑙河注入黑海,頓河注入亞速海,萊茵河注入北海答案:黑海

  材料 2:泰晤士、萊茵河、易北河注入北海,萊茵河、多瑙河流入黑海,都屬于大西洋水系。答案:黑海

  材料 3:多瑙河發源于德國西南部山地,向東流經 9個國家,最后在羅馬尼亞注入黑海。答案:黑海

  每個問題對應多段材料,每段材料對應一個答案,這個答案可能為空。這些問題均是由真實生活中的用戶在日常生活中提出的,因此很有代表性。該文將數據隨機均分成 8 份,6 份作為訓練集,一份作為驗證集,一份作為測試集。

  該文所用的詞向量由 WebQA 語料、50 萬百度百科條目、100 萬百科知道問題用 Word2Vec 預訓練而成[13] 。

  3.2 模型訓練

  模型訓練采用交叉驗證[14] ,評估參數為查準率 P(Precision)、查全率 R(Recall)和 P、R 的調和平均值 F1。

  模型的預測值有兩個,為答案的起、止位置,該模型使用的損失函數源于交叉熵的思想,其計算方式如式(7):

  其中,tk為真實值,yk為預測值,模型的整體損失函數取兩者之和,即為式(8): E總 = E1 + E2 (8)為了降低周期性干擾,訓練過程中對權重進行了指數滑動平均,優化器采用了 RAdam(Rectified Adam)[15] 。此外,模型輸入詞向量維度為 128,材料限制最大輸入長度為 256,答案最大長度限制為 10,模型訓練 120 epoch。

  4 實驗結果及分析

  使用的評測標準有 P、R、F1,該文優化后的模型與原模型及一些經典的模型對比數據如表 1 所示。

  從表 1 可以看出,文中模型相對于原基礎模型在準確率和召回率上都有了一定的提升,尤其是召回率 R的提升比較明顯。

  通過字向量對輸入的詞向量進行微調,兼顧字向量的靈活和詞向量的語義,再加上半指針-半標注答案解碼模型的引入,在面對答案由多個詞組成以及一段材料中多次出現答案的情況,模型對答案起止位置標注的準確率有所提升,最終再通過半指針- 半標注及投票的方式抽取出答案,從而提升了模型的精度。

  5 結 論

  該文采用字詞混合 Embedding 作為 MRC 模型的輸入編碼,參考 NRSL 模型結構,使用單層 LSTM 對問題進行分析,三層 LSTM 對材料進行分析,將 CRF 標注改進為半指針-半標注的答案解碼模塊,最終使模型的準確率和召回率都有了一定的提升。雖然該文的改進對模型性能的提升有限,但是也不可忽略對模型的輸入編碼和輸出解碼模塊進行優化帶來的收益,針對不同的網絡結構,對編碼解碼模塊進行對應的優化,能最大程度提升模型的整體性能。

  隨著信息時代的到來,文中的規模呈爆炸式增長[16] 。因此,機器閱讀理解帶來的自動化和智能化恰逢其時,在工業領域和人們生活的方方面面都有著廣闊的應用空間。因此深入研究機器閱讀理解的原理,從各方面改進模型、提升模型的精度和性能,有著十分重要的價值和意義。

主站蜘蛛池模板: 欧美成人另类69 | 久久全国免费久久青青小草 | 午夜亚洲 | 成人久久伊人精品伊人 | 亚洲精品乱无伦码 | a级毛片毛片免费很很综合 a级毛片免费 | 久久久精品久久久久久久久久久 | 成人在线欧美 | 免费观看欧美精品成人毛片 | 97视频在线免费 | 美国毛片免费看 | 色偷偷女男人的天堂亚洲网 | 亚洲成a人片毛片在线 | 国产午夜精品久久久久小说 | 亚洲国产精品一区二区三区在线观看 | 日韩美一区二区 | 神马午夜视频 | 国产亚洲精品成人婷婷久久小说 | 欧美三级成人观看 | 日韩精品在线免费观看 | 国产免费一级片 | 第四色成人网 | 成年大片免费视频播放手机不卡 | 一级黄片毛片 | 一区二区亚洲精品 | 美女张开腿让我 | 欧美激情一区二区亚洲专区 | 九九国产精品九九 | 美美女高清毛片视频黄的一免费 | 国产99视频精品免费视频免里 | 韩国女主播青草在线观看 | 99久久精品无码一区二区毛片 | 国产99久久 | 欧美日韩视频在线第一区二区三区 | 最新在线精品国自拍视频 | 亚洲国产精品久久网午夜 | 亚洲精品久久久久中文字幕一区 | 中日韩精品视频在线观看 | 7777在线视频 | 岛国搬运工最新网地址 | 日本一级级特黄特色大片 |