摘要:可食用植物油的識別與區分是食品安全監測領域中的值得關注的工作內容之一。文章借助衰減全反射傅里葉變換紅外光譜分析,獲取 8 種植物油樣本的數據,而后采用標準正態變換和一階導數處理來消除背景干擾,使得重疊峰發生分離;其次構建競爭性自適應重加權算法模型對各樣本光譜數據進行特征提取,共提取 105 個特征波長點;然后構建長短期記憶神經網絡對提取特征波長前后的可食用植物油種類進行預測識別與比較,結果表明,長短期記憶神經網絡對提取特征波長前后樣本預測識別準確率分別維持在 30%~40%和 80%~90%的區間范圍內,模型運行時間分別為 111 min 25 sec 和 1 min 45 sec,這表明在光譜化學模式識別中特征波長的提取是十分有必要的;最后搭建由 Levenberg-Marquardt 算法改進的 BP 神經網絡進一步提高植物油分類識別的準確率,總體準確率達到 100%。實驗結果較為理想,可為植物油的無損快速檢驗提供一定的參考與借鑒。
關鍵詞:紅外光譜;可食用植物油;特征提取;機器學習
接昭瑋; 劉卓; 王繼芬; 古錕山; 王之宇 中國油脂 2022-01-18
1 引 言
隨著科技的進步,食品制造業迅猛發展,在給人們帶來便捷的同時,某些不法分子為牟取暴利,生產出來的產品不符合食品安全要求,導致食品安全風險隱患日益凸顯[1]。可食用植物油是我們日常生活中必不可少的烹飪用品,也是人體必需營養物質的主要來源之一[2]。近年來,不少不法分子為謀取暴利對可食用植物油的原料和制作工藝“投機取巧”,將非食用油冒充大豆油等可食用油對外銷售,造成了社會重大食品安全隱患。因此,對案發現場提取的可食用植物油樣本開展無損檢測工作是食品安全中的一個重要環節。
分子光譜分析技術是自 20 世紀 90 年代以來發展最快的分析技術,以其高效快速、制樣簡單以及無污染等獨特的分析優點被廣泛應用于食品、油脂等的品質分析檢測[3-4]。當前,可食用植物油的儀器檢測方法主要有氣相色譜-離子遷移譜、紫外光譜技術和 X 射線檢測技術等,雖然這些方法檢測性好,儀器測量精密度高,但存在儀器造價昂貴、處理步驟多、耗費時間長、檢測效率低等缺陷,且試劑消耗大、易污染環境,不適合于樣品快速檢測[5]。紅外光譜與其它光譜法相比,以其特征性好和適用樣品范圍廣等特點適合對有機物的定性分析,在法庭科學領域,紅外光譜被廣泛用于微量物證的鑒別。王延等人[6]利用紅外光譜對交通事故案件中受污染的纖維、油漆等物證進行同一認定,為交通事故案件提供證據支持和參考;陳云[7]等人研究發現紅外光譜技術可廣泛應用于對作案工具上殘留的涂料附著物、碎尸包裹物上粘附的涂料等微量物證進行同一認定,從而為偵查工作提供方向。
深度學習是機器在已知經驗基礎上建立一個自動學習機,學習機能夠在這些經驗中獲得新的知識,以解決新的問題。當前,深度學習在環境化學[8-9]、材料分析[10-11]、法庭科學[12-13]等領域均有應用。而將深度學習用于開展對光譜信息數據的挖掘,實現對樣本檢驗結果的信息化和可視化是當下分析測試研究領域的熱點之一。
鑒于此,本文提出將紅外光譜結合機器學習對油進行分類識別處理。本文采用衰減全反射傅里葉變換紅外光譜分析技術,獲取 8 種常見的可食用植物油光譜數據,構建競爭性自適應重加權算法提取各樣本的光譜數據特征,同時構建長短期記憶神經網絡、Levenberg-Marquardt 算法改進的誤差逆傳播算法訓練的多層前饋網絡神經網絡開展對不同植物油的快速無損分類識別工作。這為公安機關在搜集涉及可食用植物油的有毒有害食品案件和生產、銷售偽劣產品案件方面提供偵查方向和完整的證據鏈。
2 實 驗 2.1 樣品與設備
結合實際案件,從市場上共收集 8 種共計 160 個常見的可食用植物油樣本,可食用植物油樣本統計表見表 1。
實驗采用 Nicolet is10 型傅里葉變換紅外光譜儀(美國 Thermo Fisher Scientific 公司),設備及參數的基本信息見表 2。
2.2 光譜數據預處理
8 種可食用植物油的原始光譜如圖 1 所示。為確保實驗數據分析的準確性,排除儀器放置環境以及機器本身產生的噪聲干擾,故需要對所測得的光譜數據進行平滑降噪處理;為消除固體顆粒大小、表面散射以及光程變化對漫反射光譜影響,故需要對測得的光譜進行標準正態變換(SNV, Standard normal variate)處理;為有效消除基線和其他背景干擾,使得重疊峰發生分離,從而提高檢測的分辨率和靈敏度,故需要對在 SNV 變換后的光譜進行一階導處理。
將分別經過平滑、SNV、SNV+DT 預處理后得到的光譜圖與原始光譜圖進行對比,可食用植物油預處理光譜圖如圖 2 所示。對光譜進行預處理的目的在于去除噪聲的同時能夠盡可能地多保留原光譜的真實信息,在對原有光譜進行平滑、標準正態變換和一階導處理后,消除了由于固體顆粒大小、表面散射以及光程變化對漫反射光譜的影響,不僅增強了光譜的吸收特性,還減少了曲線的離散性,能夠有效提高譜圖的分辨率和靈敏度。
3 結果與討論 3.1 各樣本光譜數據特征提取 3.1.1 CARS 算法
競爭性自適應重加權算法(CARS, competitive adaptive reweighted sampling)是基于自適應重加權采樣(ARS, adaptive reweighted sampling)技術,從而選擇出 PLS 模型中回歸系數絕對值大的波長點,利用交互驗證選出均方標準誤差(RMSECV)值最低的子集,去掉權重小的波長點,最終有效尋出最優變量組合[14]。最初經過 OMNIC 軟件導出的樣本光譜數據共計 556160 個,如果直接對原有數據集進行光譜分析,從機器運行時間的角度來說是一件十分耗時的事情,在分類效果和準確率方面,由于龐大的數據集使機器難以找到顯示解,從而導致分類準確率低下。而 CARS 算法可以有效解決這一難題,通過尋找數據集中回歸系數絕對值最大的波長點,選出 RMSECV 值最低的子集,最終有效尋出特征光譜點組合。CARS 算法被廣泛應用于食品安全領域光譜特征波長的選取,吳建飛[15]在對冬小麥葉片含水量進行快速無損檢測研究時發現,基于 CARS 算法篩選的波段組合壓縮率達 98%以上,所建模型中最高預測決定系數為 0.8441;王海龍[16]等人在檢測番茄葉片灰霉病的方面,發現基于 CARS 算法建立的 SVM 模型對于識別真菌損害的番茄葉片的準確率高達 100%。以上結果說明了 CARS 算法對于食品安全領域檢測的實用性和有效性。
3.1.2 特征波長提取結果
本文利用 CARS 算法,采用十折交叉驗證,將采樣的總次數設置為 50 次。特征波長優選過程,可食用植物油光譜變量篩選圖如圖 3 所示,由圖 3(a)可知,特征波長采樣的數量隨著采樣數量次數的增加而減少;圖 3(b)表示十折交互驗證均方標準差(RMSECV)值的變化趨勢,圖 3(c)表示每個變量回歸系數的路徑變化[17]。將光譜數據連續運行 23 次,取 23 次結果中頻率最多的波長作為真實特征波長。
提取出八種植物油的特征波長,光譜特征提取結果如圖 4 所示。
通過 CARS 模型的建立與提取,所得到的可食用植物油特征波長共計 105 個,特征波長匯。
3.2 關于特征提取的必要性研究
長短記憶神經網絡(LSTM, Long short-term memory)是在循環神經網絡(RNN , Rerrent Neural Network)基礎上研發的一種改進式循環神經網絡,LSTM 神經網絡不僅可以有效處理序列數據,而且還可以選擇性的存儲信息,從而彌補了傳統 RNN 神經網絡在解決長時依賴問題中的局限性。當預測點與依賴的相關信息距離比較遠的時候,LSTM 神經網絡可以有效學習到所對應的相關信息。LSTM 神經網絡的結構圖如圖 5 所示。
LSTM 神經網絡的核心在于圖 5 中間的矩形方框,稱之為記憶塊(memory block),方框內上方的水平線,被稱為單元狀態(cell state),它就像一個傳送帶,可以控制信息傳遞給下一時刻。LSTM 里常用的激活函數有兩個,一個是 tanh,一個是 sigmoid,兩個函數來決定經過記憶塊的信息內容,從而達到篩選有效信息的目的。
通過矩陣實驗室(MATLAB)搭建 LSTM 神經網絡,將 8 種可食用植物油的光譜數據導入模型中,LSTM 神經網絡對于未提取特征波長的 8 種可食用植物油分類識別結果圖如圖 6 所示, LSTM 神經網絡對于提取特征波長的 8 種可食用植物油分類識別結果圖如圖 7 所示。
由圖 6 可知,在未提取特征波長前 LSTM 模型對于實驗中可食用植物油的分類識別準確率維持在 30%~40%的區間內,模型運算時間長達 111 min 25 sec。結合圖 7,發現提取特征波長后 LSTM 模型對于各樣本的分類識別準確率提升至 80%~90%的區間內,模型運算時間僅為 1 min 45 sec。這表明,通過特征提取算法可以有效提高模型的分類識別準確率以及縮短模型的運行時間,降低模型的計算復雜度。郭城[18]曾借助無信息變量消除法(UVE, uniformative variable elimination)、遺傳算法(GA, genetic algorithm)對蜂王漿水溶性蛋白質和總糖含量進行特征波長提取,結果發現 RMSEP 值都在 1 以上,導致模型過擬合,預測相關性變差。與 CARS 算法進行樣本特征波長提取相比,最終所得模型預測的準確性更高,穩健性更好。
分析認為,LSTM 在序列建模問題上有一定優勢,具有長時記憶功能,實現起來簡單。同時也解決了長序列訓練過程中存在的梯度消失和梯度爆炸的問題。但是,它在對樣本種類預測識別中穩定性不夠強,這可能會對模型的準確率造成負面影響。鄭毅[19]等人曾借助膠囊式 LSTM網絡對人體姿態檢測開展了模式識別工作,結果發現機器的最高識別正確率達到 95.42%,但是也發現 LSTM 神經網絡存在一步依賴性和時序依賴性等不足。因此,本文探討構建一種改進式神經網絡用以提升模型識別的準確率與穩定性。
3.3 基于 Levenberg-Marquardt 算法改進的 BP 神經網絡模型
Levenberg-Marquardt 算法(簡稱 LM 算法)是最優化算法中的一種,是以最廣泛的非線性最小二乘算法為基礎,利用梯度求最大(小)值的方法。利用 LM 算法改進 BP 神經網絡,可有效克服傳統 BP 神經網絡中的缺陷,從而提高機器學習分類識別的準確率。模型建立共分為 7 步:
(1)設置訓練誤差允許值
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >