摘 要:為了提高英語語句翻譯的準確率,本文在英語語句翻譯的分析方面,通過語句成分分析的方式優化英語翻譯過程,該翻譯系統能夠實現把目標英語語句依據語句成分的相關程度而進行聚集處理,進而形成一個基于聚類樹結構的數據分層翻譯模式。在聚類樹中較外層的目標英語語句與其他英語語句的語句成分差別明顯,因此其翻譯方式的相似度較低,再將其反饋給其他聚類中心進行分析,直至找到聚類度高的聚類樹以完成翻譯。該英語語義分析系統在單詞含義的基礎上,可以依據語句中的語句成分而實現對英語語句的高準確率翻譯。研究結果表明,在設置合理的語句成分相似度閾值基礎上,本系統可以有效地提升英語翻譯的準確率。
關鍵詞:聚類算法;語句分析;英語翻譯
1. INTRODUCTION
當我們需要對一些英文信息進行研究時,尤其在科研和文獻查閱方面,對英語理解的準確程度及其重要,但國內大多數人的英語熟練程度遠遠低于對母語的熟練程度,因此,如何通過智能算法技術實現對英語的準確翻譯已成為當下研究熱點。國內外在當下對英譯漢的翻譯方式中,多數均為按照組成英語語句的單詞含義進行直接式翻譯,這種翻譯方式雖然能夠大致保證其中文含義,但是由于中英文本身的差異性,無法從語法的角度去進行優化,也就會出現比較常見的語法錯誤,因此如何實現對英語的高質量翻譯早已經成為我國針對自然語言處理研究的重要挑戰。
2. STATE OF THE ART
根據目前的研究成果發現國內目前在英語語義分析方面大多為依據單詞釋義來進行智能化翻譯的,這種翻譯方式雖然基本上能夠理解英語語句的中文語義,但是由于忽略了英語語句之間的語境,時常會出現錯誤的翻譯結果。此外,由于國內外的相關算法和人工智能的技術瓶頸難以突破,使得英語語義翻譯系統處于“淺發展階段”,仍舊有較大的發展空間。而且國內外在對英語語義智能翻譯方面,很少涉及到基于語句成分的英語翻譯算法,如果當下的英語翻譯系統在識別英語語句單詞的含義基礎上,實現對單詞群的語法分析,就會大大提高對英語語句翻譯的準確率,也會很好地考慮到相同語句不同語境下的含義?;诖?,本文研究了基于語句成分分析的英語翻譯方法及應用。
3. METHODOLOGY
3.1基于聚類分析算法的英語翻譯模型構建及應用思想
我們所常見的聚類算法要解決的是“把目標文本集合按照一定的規律分成多個組,通俗來講就是文本相同歸為一組、文本不同歸為不同組的過程”,該算法已成為信息挖掘和目標內容相似度分析等國內外許多領域的研究熱點,此外文本聚類也是一種自學習的基本方法。在本英語翻譯模型中,聚類算法會將英語語句文本信息按照語法的相似性來歸結于同一個簇,這就是說不同的簇組成員(目標英語語句)則沒有相似性,并且選擇不同的聚類方式會使得簇內成員具有不同的相似度。本英語語義分析模型的核心環節就是通過對不同的英語文本目標進行聚類,將目標英語語句按照語法的相似性和組成語句的單詞含義相似性進行聚類,從而避免中英文語法之間的差異性。
由于本英語語義分析模型是從語法方面進行深入分析的,因此我們把目標英語語句文本的信息通過一定的模式翻譯為計算機可以識別的語言信息(一般為二進制數或者十六進制數)。針對這一問題,我們采用向量空間模型的方式進行對目標文檔的信息處理。首先,針對目標英語語句,本英語翻譯系統會對目標英語語句進行特征信息提取,再進行計算機語言處理,轉化為二進制數,從而使得計算機進行存儲并且和已有的數據庫信息進行對比分析。其基本實現過程如圖1所示。當遇到一些特殊的英語語句信息時,本翻譯模型會通過特殊的識別通道進行智能識別。然后通過計算機的數據庫信息和預先設置好的判斷程序,對一些英語語句文本信息進行語法還原,從而實現二次文本信息的處理。最后、則是針對一些低頻或者無意義的英語單詞信息進行有目標性地刪減或者移除,并通過向量的方式進行記錄,形成特殊文本信息記錄,實現了將文本信息轉換為向量信息,并且進出存儲。例如當需要進行同類英語語句中的語法內容分類時,就可以依據這些具有特殊信息標記作用的向量進行比對。當相關英語語法的吻合度滿足預先設定的要求時,就可以實現對目標英語語句的數據處理和語法分析,進行判斷和分類,實現更加精準的翻譯。
3.2本英語翻譯模型中的優化過程
為了使得本英語翻譯系統的整體分析結果更加偏向于中文的表述習慣,盡量減小中英文語法之間的差距,我們按照目標英語語句文本在聚類后的特征元素屬于所劃分的類別的概率,將這些聚類分為硬聚類(指一個特征元素只屬于一個目標類別)和軟聚類(指一個特征元素可以同時屬于多個類別,用文本信息在聚類時的概率表示屬于每個類別的程度)。在對本基于語句成分的英語翻譯模型的優化環節,本研究把聚類過程中對目標英語文本信息處理的過程分成層級聚類和非層級聚類兩種方式。其原因如下:層級聚類的直觀原理可以通過一個樹狀結構來表現,每個樹枝的節點就是一個獨有的聚類集合(即可通過對語句成分之間的差異性進行優化翻譯)。而非層級的聚類結構則沒有層級聚類那么復雜,它是依照我們所常見的迭代法,從原始文本信息數據到最后一個文本信息通過的多次的迭代進行不同的歸類(即根據不同的語句進行無差異性地翻譯)。在本研究中共設有n個待翻譯的語句,每個待翻譯的語句共有m個語義特征數據,得到的聚類序列如下:
本英語翻譯模型在對語句的具體翻譯過程中,其分析流程如圖4所示。
4. CONCLUSION
根據上述研究,本文首先回顧了當前英語翻譯領域對語義和語句內容分析的研究現狀和存在的問題,然后提出了針對英語語句中的語句成分的翻譯模型,從語句成分方面對英語語義分析進行了研究,運用聚類算法,在對英語語句中的單詞釋義基礎之上,將英語中的語法因素進行了考慮,并且按照不同的聚類中心將其分析,從而提高了傳統英語語句翻譯中的準確率,這也是本研究的創新點。雖然本研究能夠很好地提升英語翻譯的準確率,但只注重了從語句成分的差異性方面進行優化,因此本研究存在一定的不足。
Reference
[1].Figen ?ZTEMEL. TRANSMISSION OF CULTURAL SPECIFIC ITEMS INTO ENGLISH TRANSLATION OF "DEAR SHAMELESS DEATH" BY LAT?FE TEK?N[J]. International Journal of Languages Education & Teaching, 2017, 5(Volume 5 Issue 1):302-320.
[2].Hiley David. The Scientia artis musice of Hélie Salomon: Teaching Music in the Late Thirteenth Century: Latin Text with English Translation and Commentary[J]. Music and Letters, 2018(3):3.
[3].Léglu Catherine. \n, Robert the Devil: The First Modern English Translation of ‘Robert le Diable’, an Anonymous French Romance of the Thirteenth Century. Translated by Samuel N. Rosenberg[J]. French Studies, 2018(3):3.
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >