摘要:建立適用于專題地圖產(chǎn)品檢索的用戶偏好推薦模型是提高專題地圖質(zhì)量的有效方式之一,在專題地圖產(chǎn)品推薦場景中,存在嚴(yán)重的內(nèi)容冷啟動和評論數(shù)據(jù)稀疏問題,現(xiàn)有的推薦算法無法為特定類用戶推薦不同特征的專題地圖產(chǎn)品,導(dǎo)致用戶從專題地圖中獲取偏好信息受到限制。因此,本文構(gòu)建基于負(fù)采樣的連續(xù)詞袋模型和基于Word2Vec的Item2Vec相結(jié)合的用戶偏好推薦方法,用于專題地圖產(chǎn)品推薦。①計算用戶行為日志文件中交互行為數(shù)據(jù)的隱性評分,以代替專題地圖推薦信息流場景中稀疏的用戶評論數(shù)據(jù);②基于負(fù)采樣的連續(xù)詞袋模型提取目標(biāo)專題地圖的前后地圖序列感知特征信息,通過控制正負(fù)樣本比例為1:2,提升目標(biāo)專題地圖潛在評分的預(yù)測精度;③通過Item2Vec將帶有用戶行為特征信息的專題地圖映射到向量空間,計算用戶對專題地圖的相似度矩陣,根據(jù)用戶偏好程度完成推薦。在構(gòu)建的專題地圖評分實驗數(shù)據(jù)集ThematicCMaps和4個公開驗證數(shù)據(jù)集MovieLens上的測試結(jié)果表明:與LFM、PersonalRank、ContentBased和SVD4種傳統(tǒng)推薦算法相比,本文所提方法可有效提高潛在評分的預(yù)測精度,推薦性能最高達(dá)到27.85%;與以霍夫曼采樣方式的Item2Vec基礎(chǔ)方法和YouTubeNet2種神經(jīng)網(wǎng)絡(luò)推薦算法相比,評分預(yù)測精度有一定提高,且推薦性能不斷提升,最高達(dá)到2.97%和5.78%。以經(jīng)典算法奇異值分解(SVD)為例,將MovieLens-20M數(shù)據(jù)集切分后,在數(shù)據(jù)量不斷增大的數(shù)據(jù)子集中,本文所用方法的評分預(yù)測精度和性能均優(yōu)于SVD方法。
本文源自地球信息科學(xué)學(xué)報,2020,22(11):2128-2139.《地球信息科學(xué)學(xué)報》主要刊登地球系統(tǒng)科學(xué)及其相關(guān)邊緣交叉學(xué)科的新研究成果,主要包括前瞻性、創(chuàng)新性強(qiáng)的科學(xué)研究論文以及與國民經(jīng)濟(jì)、技術(shù)研究開發(fā)緊密相關(guān),應(yīng)用價值較高的學(xué)術(shù)論文。本刊還辟有研究通訊、前沿探索、科技開發(fā)、綜述、學(xué)術(shù)動態(tài)等相關(guān)欄目。熱忱歡迎國內(nèi)外學(xué)者踴躍賜稿。
1、引言
針對嚴(yán)重的“信息過載”問題,推薦算法通過用戶基礎(chǔ)畫像(年齡、性別等)、用戶評論數(shù)據(jù)及物品(商品、APP等)評分信息等進(jìn)行數(shù)據(jù)建模,提取語義特征信息,抽象用戶個性化需求的偏好程度,為用戶推薦滿足個性化需求的物品,實現(xiàn)用戶偏好推薦。目前,推薦算法已應(yīng)用到許多領(lǐng)域,如:電商場景中用戶購買物品(Amazon、Alibaba等)、信息流場景中用戶瀏覽信息(iGoogle、AMiner等)、位置服務(wù)中的用戶評分系統(tǒng)(FourSquare、大眾點評等)[1]。
將推薦算法引入專題地圖產(chǎn)品推薦場景是為了快速有效地獲得特定類用戶的偏好信息,以提升專題地圖質(zhì)量。一些學(xué)者采用地學(xué)眼動實驗方法探求用戶對地圖的認(rèn)知機(jī)理,通過Web日志獲取用戶對地圖的感興趣度信息,利用問卷調(diào)查法篩選地圖相關(guān)的情境因素,以設(shè)計的推薦案例庫和推薦規(guī)則為準(zhǔn),為用戶推薦滿足偏好需求的地圖[2,3]。也有學(xué)者對相關(guān)應(yīng)急場景構(gòu)建本體知識庫,通過相似度計算工具訓(xùn)練知識庫,根據(jù)用戶檢索條目,匹配知識庫中相似度較高的內(nèi)容項,為用戶推薦偏好專題地圖[4]。相關(guān)場景的規(guī)則庫和知識庫需人工前期編制,耗時長且主觀性較強(qiáng),面對專題地圖推薦場景中多變的情境信息,這些推薦方法無法真實體現(xiàn)不同類用戶的偏好程度且時效性不強(qiáng)。傳統(tǒng)推薦算法通過表征用戶、物品之間的相似偏好模型挖掘用戶對物品的潛在評分,對用戶偏好的物品進(jìn)行召回或排序,如:協(xié)同過濾算法[5]、基于內(nèi)容的推薦算法[6,7]和基于圖的推薦算法[8]等,以上方法采用的淺層模型需人工設(shè)計用戶和物品的偏好關(guān)系特征,面對嚴(yán)重的冷啟動和數(shù)據(jù)稀疏問題,算法推薦性能和評分預(yù)測精度下降。深度學(xué)習(xí)有效推動了推薦算法研究,神經(jīng)網(wǎng)絡(luò)中輸入層與隱層、隱層與輸出層之間均是全連接的網(wǎng)絡(luò),且激活函數(shù)的去線性化,利于從多源異構(gòu)數(shù)據(jù)中自動學(xué)習(xí)用戶和物品的潛在特征,有效緩解冷啟動和數(shù)據(jù)稀疏問題,特征抽象能力優(yōu)于傳統(tǒng)推薦算法,推薦準(zhǔn)確率較高[9,10]。OrenBarkan等[11]首次將Word2Vec方法中基于負(fù)采樣的Skip-Gram模型(SGNS)遷移到基于物品的協(xié)同過濾(Item-basedCF)算法中,使用神經(jīng)項嵌入算法學(xué)習(xí)物品的潛在特征,通過計算物品相似度完成個性化推薦;陳晉音等[12]提出一種基于圖過濾的快速密度聚類雙層網(wǎng)絡(luò)推薦算法,利用基于圖的過濾器快速確定節(jié)點執(zhí)行度閾值,對數(shù)據(jù)內(nèi)虛假信息進(jìn)行過濾,再通過快速密度聚類雙層網(wǎng)絡(luò)完成推薦;黃金超等[13]提出一種基于偏好度特征構(gòu)造的個性化推薦算法,使用改進(jìn)的基于內(nèi)容的推薦算法計算偏好分,構(gòu)造物品偏好度特征矩陣,最后通過XGBoost非線性分類器對線上旅游業(yè)的子房型進(jìn)行個性化推薦;張敏等[14]提出層疊降噪自動編碼器(StackedDenoisingAuto-Encoder,SDAE)與隱含因子模型(LatentFactorModel,LFM)相結(jié)合的混合推薦方法,SDAE通過引入商品評論文本,增強(qiáng)了LFM模型分解用戶評分矩陣后商品特征矩陣的一般性,有效提升了模型的評分預(yù)測精度。該類算法均涉及用戶基礎(chǔ)畫像、用戶訂單、用戶評論等多特征提取、多任務(wù)學(xué)習(xí)的特性,對于富含專題地圖產(chǎn)品的信息流場景,相關(guān)的統(tǒng)計類特征信息稀少,適用性不強(qiáng)。
以上推薦方法對專題地圖產(chǎn)品個性化推薦提供了案例參考,針對專題地圖推薦場景中本體規(guī)則庫編制耗時較長,受用戶類型局限性較強(qiáng),專題地圖特征利用不充分等問題,鑒于此,本文提出了面向?qū)n}地圖產(chǎn)品推薦場景的用戶偏好推薦方法。首先,通過Web用戶日志數(shù)據(jù)對特定類用戶的偏好興趣進(jìn)行建模,計算用戶交互行為下每幅專題地圖的隱性評分,以減弱真實場景中出現(xiàn)的內(nèi)容冷啟動和稀疏的評論數(shù)據(jù)問題;基于負(fù)采樣(NegativeSampling)的連續(xù)詞袋(ContinuousBagofWords,CBOW)模型對用戶行為序列進(jìn)行建模,提取含用戶行為序列特征的地圖特征向量,其充分考慮前后地圖序列感知特征信息,可有效提高目標(biāo)地圖的預(yù)測評分精度;基于CBOW模型優(yōu)化的Item2Vec方法根據(jù)提取的地圖特征向量構(gòu)建相似度矩陣,通過Cosine相似度函數(shù)計算專題地圖間的相似度,完成特定類用戶的個性化推薦。
2、面向?qū)n}地圖產(chǎn)品推薦場景的用戶偏好推薦方法
面向?qū)n}地圖產(chǎn)品推薦場景的用戶偏好推薦方法框架如圖1所示,主要包括:基于用戶交互行為數(shù)據(jù)的隱性評分計算、基于負(fù)采樣的CBOW模型優(yōu)化和基于CBOW模型優(yōu)化的Item2Vec方法3個部分。
基于用戶交互行為數(shù)據(jù)的隱性評分計算,在PC/Web端采集用戶訪問專題地圖網(wǎng)站的用戶日志文件,文件中包含用戶ID、專題地圖ID及用戶對專題地圖的具體事件行為(具體專題地圖的點擊量、收藏、下載等)等隱式反饋數(shù)據(jù)。按用戶點擊鏈接的瀏覽路徑,對各事件行為分類,通過定義用戶事件行為隱性評分函數(shù),計算特定類用戶對各類專題地圖的事件行為評分,獲得評分的專題地圖為用戶感興趣的專題地圖;通過定義時間衰減函數(shù),計算特定類用戶對各類感興趣專題地圖的偏好程度[15],另提取各專題地圖的描述信息“專題地圖名稱/分類”,以上提取數(shù)據(jù)和計算結(jié)果構(gòu)成了專題地圖產(chǎn)品推薦場景中用戶偏好推薦方法所需的訓(xùn)練樣本。
圖1專題地圖檢索的用戶偏好推薦方法框架
基于負(fù)采樣的CBOW模型優(yōu)化將高維的用戶行為序列轉(zhuǎn)化為低維的專題地圖特征向量,并帶有用戶行為特征的語義信息[16]。CBOW模型根據(jù)前后地圖序列預(yù)測目標(biāo)專題地圖,相比于Word2Vec中另一種模型Skip-Gram,CBOW模型更新目標(biāo)專題地圖及其前后地圖序列的初始化向量,作為正樣本;對樣本庫中前后地圖序列的鄰近地圖序列進(jìn)行一次負(fù)采樣,構(gòu)成負(fù)樣本。通過控制正負(fù)樣本比例,提升目標(biāo)專題地圖的預(yù)測概率。此外,訓(xùn)練樣本中出現(xiàn)較多生僻詞時,采樣模式為負(fù)采樣,效率高于原有的霍夫曼方法,有助于提升Item2Vec方法的召回性能。
基于CBOW模型優(yōu)化的Item2Vec方法從用戶日志文件中抽取用戶行為序列,按用戶點擊專題地圖鏈接的最新行為記錄構(gòu)建專題地圖特征序列,通過基于負(fù)采樣的CBOW模型得到專題地圖特征向量,用于訓(xùn)練模型參數(shù)。借助Word2Vec方法中詞向量之間距離遠(yuǎn)近表示詞語義之間距離遠(yuǎn)近的思想,專題地圖特征向量之間距離遠(yuǎn)近可表征專題地圖之間隱語義的距離遠(yuǎn)近[17],利用Cosine相似度函數(shù)構(gòu)建專題地圖語義距離矩陣,根據(jù)矩陣預(yù)測每幅專題地圖的評分,完成特定類用戶的專題地圖個性化推薦。
2.1基于用戶交互行為數(shù)據(jù)的隱性評分
計算特定類用戶對專題地圖的隱性評分,從用戶日志文件中檢索用戶對專題地圖的事件行為數(shù)據(jù),隱性評分通過不同類型事件行為的交互次數(shù)進(jìn)行計量,MEij為構(gòu)建的專題地圖-事件行為矩陣(式(1))。專題地圖產(chǎn)品有多個主題,每個主題下包含多個專題要素集合,用戶定位感興趣專題地圖通過一系列點擊專題地圖鏈接的事件行為完成。按用戶在線瀏覽路徑,用戶對各類專題地圖的事件行為分為4類:(1)網(wǎng)站主頁用戶對各主題的瀏覽行為(以下簡稱“瀏覽行為”);(2)用戶對感興趣主題描述信息的行為(以下簡稱“描述性行為”);(3)用戶對感興趣專題要素屬性信息的行為(以下簡稱“屬性行為”);(4)用戶對感興趣專題地圖進(jìn)行收藏、下載等行為(以下簡稱“決定性行為”)。通過SQLScript從用戶日志文件中檢索的包含特定用戶ID和內(nèi)容ID的數(shù)據(jù)條目格式(表1)。
式中:i為用戶;j為含用戶事件行為的專題地圖;1表示用戶對感興趣專題地圖執(zhí)行了所有事件行為;0表示用戶執(zhí)行決定性行為之前的其他事件行為。
特定類用戶對專題地圖的隱性評分計算流程如圖2所示,包括2個方面:(1)用戶對感興趣專題地圖執(zhí)行各事件行為,通過權(quán)重系數(shù)和衰減系數(shù)對特定類用戶的偏好興趣進(jìn)行建模。不同類型的事件行為分配不同的權(quán)重系數(shù),依據(jù)各事件行為的權(quán)重系數(shù),通過隱性評分函數(shù),計算用戶對各專題地圖的事件行為評分,對評分?jǐn)?shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,SQL查詢返回特定類用戶的事件行為評分?jǐn)?shù)據(jù),按各數(shù)據(jù)項的事件行為時間節(jié)點,計算該數(shù)據(jù)項的衰減系數(shù),基于用戶事件行為評分和衰減系數(shù),計算特定類用戶對感興趣專題地圖的隱性評分;(2)用戶對一定量的感興趣專題地圖均執(zhí)行“決定性行為”,其它各類型事件行為次數(shù)不同,則偏好程度存在一定差別。TF-IDF根據(jù)用戶查詢對文檔價值進(jìn)行排序,引入逆用戶頻率IUF,對(1)中感興趣專題地圖的隱性評分進(jìn)行過濾,確定特殊項專題地圖的重要性排序,通過逆用戶頻率IUF值,計算特定類用戶對特殊項專題地圖的事件行為評分,對評分?jǐn)?shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,獲得特定類用戶對特殊項專題地圖的隱性評分。
(1)特定類用戶對感興趣專題地圖的隱性評分
特定類用戶對專題地圖的事件行為評分高低取決于各類型事件行為的權(quán)重系數(shù)和所占比例[18]。依據(jù)帶權(quán)重系數(shù)的專題地圖事件行為隱性評分函數(shù)(式(2)),對專題地圖產(chǎn)品推薦場景中的用戶事件行為進(jìn)行表示:“#event1”表示“決定性行為”、“#event2”表示“屬性行為”、“#event3”表示“描述性行為”。對用戶事件行為進(jìn)行權(quán)重分配(表2),加權(quán)值的確定符合權(quán)重分配規(guī)則,其中,w1為“決定性行為”的加權(quán)值,w2為“屬性行為”的加權(quán)值,w3為“描述性行為”的加權(quán)值。確定各類型事件行為的加權(quán)值和交互次數(shù)后,計算用戶對各專題地圖的事件行為評分,利用最高評分對各評分?jǐn)?shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,獲得評分范圍在(1,10)的同比例評分?jǐn)?shù)據(jù)(式(3))。
表1用于計算專題地圖隱性評分的數(shù)據(jù)格式
圖2特定類用戶對感興趣專題地圖隱性評分的計算流程
表2用戶事件行為權(quán)重分配
式中:u為用戶;i為專題地圖;w1…wn為各類型事件行為的權(quán)重系數(shù);#event1…#eventn為各類型事件行為發(fā)生的次數(shù);RI′u,i表示用戶關(guān)于專題地圖的事件行為評分。m為專題地圖數(shù)量;max(RI′u,i)表示各專題地圖事件行為評分的最大值;SRI′u,i表示標(biāo)準(zhǔn)化后各專題地圖的事件行為評分。
SQL查詢返回特定類用戶的事件行為評分?jǐn)?shù)據(jù),通過時間衰減函數(shù)(式(4)),計算用戶行為過的專題地圖的衰減系數(shù),用于測度一定時段內(nèi)用戶對專題地圖的偏好程度,衰減系數(shù)是對用戶長短期行為序列的綜合優(yōu)化,它弱化用戶的短期意圖,強(qiáng)化用戶的長期偏好興趣,反映用戶近期行為與長期行為的相關(guān)性,用戶期望評分呈緩慢下降趨勢,以提升用戶對感興趣專題地圖的隱性評分。式(5)是計算特定類用戶對感興趣專題地圖的隱性評分。
式中:dt為用戶當(dāng)前時間;dc#eventi為用戶對第i幅專題地圖開始事件行為的時間;timedelta()表示2個時間節(jié)點之間的時間差;days為用戶規(guī)定時段;dfi表示第i幅專題地圖的衰減系數(shù)。wi為第i幅專題地圖的事件行為權(quán)重系數(shù);SRIu,i表示特定類用戶對感興趣專題地圖的隱性評分。
(2)特定類用戶對特殊項專題地圖的隱性評分
計算特定類用戶對特殊項專題地圖的隱性評分,確定用戶對具有“決定性行為”的感興趣專題地圖的偏好程度。計算逆用戶頻率IUF值(式(6)),確定用戶感興趣的專題地圖中存在的特殊項專題地圖,以對數(shù)函數(shù)方式計算是確保較少的感興趣專題地圖之間存在較大差別,用戶對特殊項專題地圖的事件行為次數(shù)越多,重要性就越大,IUF值可確定特定類用戶對特殊項專題地圖的偏好程度[19]。逆用戶頻率IUF值作為特殊項專題地圖的加權(quán)值,計算特殊項專題地圖的事件行為評分(式(7)),利用最高評分對各評分?jǐn)?shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,獲得評分范圍在(1,10)的同比例特殊項專題地圖的隱性評分?jǐn)?shù)據(jù)(式(8))。
式中:n為用戶u對特殊項專題地圖i執(zhí)行各類型事件行為的次數(shù);N為數(shù)據(jù)條目中用戶數(shù)量;“+1”表示對IUF進(jìn)行平滑處理,使數(shù)據(jù)條目中未具有“決定性行為”的特殊項專題地圖得到一個合適的IUF值。RIu,i表示特殊項專題地圖的加權(quán)隱性評分;SRIu,i表示標(biāo)準(zhǔn)化后特定類用戶對特殊項專題地圖的隱性評分。
至此,專題地圖產(chǎn)品推薦場景中(1,10)范圍內(nèi)特定類用戶對各專題地圖的隱性評分計算完畢,使用其代替顯性評分,用戶ID、項目ID、專題地圖名稱/分類和專題地圖的隱性評分作為Item2Vec方法訓(xùn)練的語料個體,將由訓(xùn)練語料個體構(gòu)成的評分實驗數(shù)據(jù)集命名為“ThematicCMaps”。
2.2基于負(fù)采樣的CBOW模型優(yōu)化
CBOW是根據(jù)上下文信息預(yù)測目標(biāo)詞出現(xiàn)概率的神經(jīng)網(wǎng)絡(luò)模型,CBOW神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分為3層,輸入層將用戶行為序列構(gòu)成的item句子中某個中心詞的上下文信息初始化,獲得相關(guān)詞對應(yīng)的詞向量,投影層將上下文信息各對應(yīng)的初始化向量求和,輸出層輸出目標(biāo)詞的詞向量[20]。負(fù)采樣優(yōu)化以選定的中心詞和設(shè)置窗口長度后中心詞的上下文信息作為正樣本,輸入層映射到投影層生成訓(xùn)練樣本的詞匯表,負(fù)采樣選取詞匯表中其他詞作為負(fù)樣本,通過二元邏輯回歸求解每個詞對應(yīng)的待訓(xùn)練參數(shù)θ和中心詞對應(yīng)上下文中每個詞的詞向量[21,22],基于負(fù)采樣的CBOW模型優(yōu)化訓(xùn)練流程如圖3所示。
從專題地圖評分實驗數(shù)據(jù)集“ThematicCMaps”中抽取一個用戶行為序列樣本,經(jīng)CBOW模型讀取生成專題地圖詞匯表D,以中心專題地圖wt及其前后地圖序列Context(wt)為正樣本,通過負(fù)采樣在D中選取neg個特征專題地圖作為負(fù)樣本NEG(wt)。每一個Context(wt)經(jīng)權(quán)重矩陣W初始化,在投影層求和作為語境向量,并與輸出權(quán)重矩陣W′相乘得到前后地圖序列的輸出向量,經(jīng)激活函數(shù)處理,得到描述目標(biāo)專題地圖向量的V-dim概率分布,最大概率索引的專題地圖為預(yù)測的目標(biāo)專題地圖,最大化目標(biāo)專題地圖輸出向量v′(wt)擬合語境向量x的目標(biāo)函數(shù)為:
式中:c為上下文窗口長度;K為負(fù)樣本數(shù);P(wt|Context(wt))P(wt|Context(wt))表示最大化條件概率函數(shù)(Softmax),定義如下:
式中:v(wt)為輸入的專題地圖向量;v′(wt)為輸出的專題地圖向量;v(wt)為逐次輸入的專題地圖;|v|為專題地圖向量的維度;|C|為專題地圖詞匯表大小;2*|v|*|C|表示模型參數(shù)個數(shù);x為語境向量。P(wt|Context(wt))P(wt|Context(wt))的梯度復(fù)雜度與|C|值有關(guān),此時,式(10)無法計算目標(biāo)專題地圖的最大化概率,按照正負(fù)樣本數(shù)比例1:2,通過負(fù)采樣采集負(fù)樣本,將原來的|C|分類優(yōu)化為|K|分類,優(yōu)化后最大化正樣本的似然函數(shù)為:
式中:Xw為正樣本中各專題地圖的向量和;θu∈Rmθu為待訓(xùn)練參數(shù),指投影層與輸出層的向量為待預(yù)測目標(biāo)專題地圖u時,二者之間的全連接;Lw(u)為用于分類的判別閾值,判別為中心專題地圖時值為1,判別為負(fù)樣本時值為0。式(11)由2部分組成:σ(XwΤθu)Lw(u)表示前后地圖序列時,正樣本中預(yù)測目標(biāo)專題地圖wt的概率;(1-σ(XwΤθu))(1-Lw(u))表示前后地圖序列時,負(fù)樣本中預(yù)測目標(biāo)專題地圖wt的概率,優(yōu)化似然函數(shù)增大正樣本的預(yù)測概率同時降低負(fù)樣本的的預(yù)測概率。為計算方便,損失函數(shù)采用對數(shù)損失函數(shù),最終的優(yōu)化目標(biāo)函數(shù)為:
圖3CBOW模型優(yōu)化訓(xùn)練流程
通過隨機(jī)梯度上升法迭代更新neg個模型所需的參數(shù)Xw和θu,繼而迭代訓(xùn)練樣本中每幅專題地圖對應(yīng)的向量,優(yōu)化目標(biāo)函數(shù)在梯度推導(dǎo)中記為:L(wt,u),分別計算損失函數(shù)對參數(shù)Xw和θu的梯度,Xw為投影層中心專題地圖對應(yīng)的前后地圖序列中所有向量的加和,θu共享于正負(fù)樣本對中每幅專題地圖對應(yīng)的向量。損失函數(shù)中Xw和θu對偶,損失函數(shù)對Xw的偏導(dǎo)數(shù)與θu有關(guān)系,首先對參數(shù)θu求導(dǎo),根據(jù)式(13)和式(14),參數(shù)Xw和θu的偏導(dǎo)數(shù)為:
激活函數(shù)(Sigmoid)求導(dǎo)后,借助鏈導(dǎo)法則對參數(shù)Xw和θu進(jìn)行梯度推導(dǎo)(式(15)):
式中:XwΤθu表示模型輸出,激活函數(shù)處理后值為(0,1)。參數(shù)θu的初始值貢獻(xiàn)到e后,完成θu的下一次更新,根據(jù)模型學(xué)習(xí)率計算e值(e初值為0),由式(16)定義:
待預(yù)測目標(biāo)專題地圖u可能來自正樣本,也有可能來自負(fù)樣本。專題地圖詞匯表D的詞權(quán)值α設(shè)置為3/4,便于負(fù)采樣通過二元邏輯回歸求解模型參數(shù),訓(xùn)練完正負(fù)樣本對后,得到關(guān)于Xw的總梯度,依據(jù)總梯度值Xw完成自身更新,Xw和θu的更新公式為:
式中:v(wContext)為Xw對正負(fù)樣本對的梯度加和。前后地圖序列中每幅專題地圖對應(yīng)的向量都共享該梯度值,同樣地,θu的梯度加和貢獻(xiàn)到前后地圖序列中每幅專題地圖對應(yīng)的向量上,前后地圖序列中每幅專題地圖對應(yīng)的向量根據(jù)Xw、θu的梯度和完成自身更新,得到的專題地圖向量既是用戶行為過的內(nèi)容項的向量,也是用戶的事件行為向量。注意的是,Xw依賴于θu存在,正負(fù)樣本對的梯度加和構(gòu)成Xw的梯度后,更新每幅專題地圖對應(yīng)的參數(shù)Xw和θu的時候,先更新Xw自身所占的比例梯度。
2.3基于CBOW模型優(yōu)化的Item2Vec方法
借助Word2Vec方法計算詞語義距離的思想,從用戶日志文件中抽取用戶行為序列轉(zhuǎn)化為專題地圖特征序列,每個專題地圖特征序列表示一次完整的用戶行為,將帶有用戶行為特征的專題地圖特征序列放入Word2Vec進(jìn)行訓(xùn)練,得到專題地圖特征序列的隱語義向量,通過Cosine相似度函數(shù)計算專題地圖特征序列的語義距離矩陣,離線寫入KV存儲,計算每幅特征專題地圖相似度較高的Topk個鄰居特征專題地圖,完成特定類用戶的專題地圖個性化推薦[23],Item2Vec方法的訓(xùn)練主流程如圖4所示。
通過Cosine相似度函數(shù)計算特征專題地圖兩兩之間的隱語義相關(guān)度(式(19)),獲得特征專題地圖相似度矩陣(Item-Sim)。其中,專題地圖的隱性評分被視作n維空間向量,根據(jù)向量之間的角度計算特征專題地圖之間的相似性(式(20))。專題地圖產(chǎn)品協(xié)同過濾進(jìn)行專題地圖評分預(yù)測時,不需要校正用戶的平均評分,預(yù)測評分由用戶本身對專題地圖的事件行為決定。
式中:n為專題地圖評分實驗數(shù)據(jù)集中專題地圖數(shù)目;xu,1k,xu,2k為含用戶行為特征的專題地圖向量的分量;Iu,1k,Iu,2k為專題地圖特征向量。
3、實驗數(shù)據(jù)及結(jié)果分析
3.1實驗數(shù)據(jù)
專題地圖評分實驗數(shù)據(jù)集“ThematicCMaps”的數(shù)據(jù)來源是PC端采集的WebService記錄(http://www.onegreen.net/),用戶日志文件中詳細(xì)記錄了用戶的瀏覽行為、文件下載等信息。數(shù)據(jù)預(yù)處理后,計算其隱性評分,實驗數(shù)據(jù)集包含1179幅地圖的分類描述數(shù)據(jù)(maps.txt)和個人用戶的872條隱性評分?jǐn)?shù)據(jù)(ratings.txt),數(shù)據(jù)示例格式如下:
圖4Item2Vec訓(xùn)練主流程
分類描述數(shù)據(jù)maps.txt中數(shù)據(jù)條目格式:
隱性評分?jǐn)?shù)據(jù)ratings.txt中數(shù)據(jù)條目格式:
本文選取MovieLens(http://movielens.org)收集的電影評分?jǐn)?shù)據(jù)集作為驗證數(shù)據(jù)集,目的是為了驗證本文構(gòu)建的面向?qū)n}地圖產(chǎn)品推薦場景的用戶偏好推薦方法和專題地圖實驗數(shù)據(jù)集的有效性、可行性[24]。MovieLens-100K、MovieLens-1M、MovieL-ens-10M和MovieLens-20M4個數(shù)據(jù)集的詳細(xì)信息見表3所示。MovieLens基準(zhǔn)數(shù)據(jù)集是推薦系統(tǒng)中常用的高質(zhì)量實驗數(shù)據(jù)集,由GroupLens研究組在UniversityofMinnesot中組織,用戶對自己看過的電影進(jìn)行評分,分值范圍:0~5。
3.2評測指標(biāo)
采用均方根誤差(RMSE)評價模型的預(yù)測評分性能(式(21)),RMSE是推薦系統(tǒng)中最受歡迎的用來度量預(yù)測評分準(zhǔn)確性的指標(biāo),RMSE反映預(yù)測評分偏離真實評分的程度,值越小,評分預(yù)測精度越高[25]。存在數(shù)據(jù)集D={(uk,ik,SRIuk,ik)},計算RMSE:
表3驗證數(shù)據(jù)集信息
式中:uk為第k個行為用戶ID;ik為第k個含用戶行為特征的物品ID;SRIuk,ik,和SR?Iuk,ik為第k個用戶對物品的真實評分和預(yù)測評分;N為數(shù)據(jù)集評分量。
3.3參數(shù)設(shè)置和模型對比
根據(jù)實驗數(shù)據(jù)集和驗證數(shù)據(jù)集大小,本文所提面向?qū)n}地圖產(chǎn)品推薦場景的用戶偏好推薦方法Item2Vec中,基于負(fù)采樣的CBOW模型訓(xùn)練相關(guān)的參數(shù)設(shè)置見表4所示。
本文選取LFM、PersonalRank、ContentBased3種傳統(tǒng)的非神經(jīng)網(wǎng)絡(luò)模型與本文提出的用戶偏好推薦方法進(jìn)行比較;選取SVD和CBOW(負(fù)采樣)作為Item-Item協(xié)同過濾的代表模型,比較在信息流場景中數(shù)據(jù)量不同,生僻詞出現(xiàn)次數(shù)不同時的評分預(yù)測區(qū)別;選取以霍夫曼采樣方式的Item2Vec基礎(chǔ)方法、YouTubeNet模型作為個性化推薦召回算法的深度學(xué)習(xí)比較模型。
表4模型訓(xùn)練參數(shù)設(shè)置
(1)LFM:通過隱含特征構(gòu)建用戶興趣和物品關(guān)系的潛在因子矩陣,對矩陣分解和評分偏移量模型進(jìn)行正則化處理,減弱模型的泛化能力。
(2)PersonalRank:基于圖的推薦算法將用戶行為轉(zhuǎn)化為二分圖,依據(jù)頂點相關(guān)度對用戶、物品進(jìn)行排序,相關(guān)度越高的物品在用戶推薦列表中越靠前。
(3)ContentBased:基于內(nèi)容的推薦算法分別刻畫用戶和項目畫像,通過多種分類器對不同權(quán)重的項目結(jié)果進(jìn)行線性加權(quán),結(jié)合用戶分類結(jié)果進(jìn)行推薦。
(4)SVD:奇異值分解(SingularValueDecomposition)方法將高維度用戶評分矩陣分解為隱藏特性空間中的用戶特性矩陣和產(chǎn)品特性矩陣,SVD矩陣分解模型在NetflixPrize比賽中可生成產(chǎn)品建議[26]。
(5)YouTubeNet:YouTubeNet推薦模型首先引入了用戶的個性化信息(用戶點擊記錄,用戶年齡、性別等),在此基礎(chǔ)下學(xué)習(xí)用戶特征向量和物品序列特征向量,直接使用內(nèi)積結(jié)果選出用戶最感興趣的物品列表[27]。
3.4結(jié)果分析
本文在用于專題地圖產(chǎn)品偏好推薦的評分實驗數(shù)據(jù)集“ThematicCMaps”和4種不同數(shù)據(jù)量的驗證數(shù)據(jù)集MovieLens中運行4種傳統(tǒng)推薦模型:LFM、PersonalRank、ContentBased和SVD,以及本文提出的推薦方法,以多次實驗的預(yù)測評分和真實評分的RMSE指標(biāo)平均值來衡量各模型推薦效果,表5給出了各模型在測試集上的評分預(yù)測性能對比結(jié)果。從表5可知,本文所提用于專題地圖產(chǎn)品推薦場景的用戶偏好推薦方法,在專題地圖評分實驗數(shù)據(jù)集和驗證數(shù)據(jù)集上的評分預(yù)測精度均優(yōu)于4種傳統(tǒng)推薦模型,且推薦性能均有所提升,說明本文所提方法,相比于LFM和SVD,對用戶和項目的潛在特征有較好的學(xué)習(xí)能力;相比于PersonalRank和ContentBased,具有有效的特征提取能力,能對用戶行為的情景信息進(jìn)行有效建模。其中,在實驗數(shù)據(jù)集中,基于CBOW模型優(yōu)化的Item2Vec方法比4種傳統(tǒng)推薦模型在預(yù)測準(zhǔn)確率上提升:16.44%、15.33%、13.80%和1.49%。在4個驗證數(shù)據(jù)集中,總體上本文所提方法的預(yù)測準(zhǔn)確率優(yōu)于4種傳統(tǒng)推薦模型,相比于LFM模型,本文所提方法預(yù)測準(zhǔn)確率整體提升27.85%;相比于PersonalRank模型,本文所提方法預(yù)測準(zhǔn)確率整體提升27.45%;相比于ContentBased模型,本文所提方法預(yù)測準(zhǔn)確率整體提升18.63%;相比于SVD模型,本文所提方法預(yù)測準(zhǔn)確率整體提升4.95%。按模型在數(shù)據(jù)集中的實驗結(jié)果,除ContentBased模型外,本文所提方法相比于其余3種模型在提升預(yù)測準(zhǔn)確率上均為正相關(guān),隨數(shù)據(jù)集中數(shù)據(jù)量的不斷變大,評分預(yù)測性能提升越明顯。在基于神經(jīng)網(wǎng)絡(luò)的推薦模型中,本文所提方法相比于以霍夫曼采樣方式的Item2Vec基礎(chǔ)方法,實驗數(shù)據(jù)集中提升0.45%,驗證數(shù)據(jù)集中提升0.55%、0.68%、1.88%和2.97%,說明評分預(yù)測精度上優(yōu)于后者,評分預(yù)測性能也有了一定的提升;本文對YouTubeNet模型作了改動,在不引入用戶個性化信息的情況下,只對具有用戶行為特征的物品序列進(jìn)行建模,結(jié)果表明,實驗數(shù)據(jù)集中預(yù)測準(zhǔn)確率提升0.97%,驗證數(shù)據(jù)集中預(yù)測準(zhǔn)確率提升1.19%、1.13%、4.24%和5.78%,說明本文所提方法在評分預(yù)測精度上優(yōu)于后者,且評分預(yù)測性能有了大幅度提升。為驗證本文所提方法在不同比例訓(xùn)練集下的評分預(yù)測性能變化差異,本文對MovieL-ens-20M數(shù)據(jù)集進(jìn)行不同大小的切分,實驗結(jié)果見表6所示。
表5各模型預(yù)測評分性能對比
從MovieLens-20M數(shù)據(jù)集中隨機(jī)抽取5種不同比例的數(shù)據(jù)子集用于模型訓(xùn)練,由表6可知,本文所提方法在10%、30%和50%的數(shù)據(jù)子集上的預(yù)測準(zhǔn)確率,相比于SVD提升了4.09%、4.47%和5.75%,預(yù)測準(zhǔn)確率提升較低,但在70%和90%的數(shù)據(jù)子集中,相比于SVD,本文所提方法的預(yù)測準(zhǔn)確率提升了7.28%和9.50%,預(yù)測準(zhǔn)確率提升較高,說明隨訓(xùn)練量的增多,本文所提方法的評分預(yù)測準(zhǔn)確率上升,評分預(yù)測性能優(yōu)于SVD模型。
表6模型在MovieLens-20M數(shù)據(jù)集切分下的實驗結(jié)果
表5、表6給出了本文所提方法與其他推薦模型在評分預(yù)測性能上的定量比較,針對構(gòu)建的面向?qū)n}地圖推薦場景中專題地圖檢索的實驗數(shù)據(jù)集,進(jìn)行離線測試,定性比較兩種推薦模型的推薦結(jié)果(表7)。表7顯示獲得特定類用戶最高預(yù)測評分的種子專題地圖和相似度排名前5的鄰居專題地圖,相似度較高的專題地圖則是為特定類用戶進(jìn)行推薦的項目。由表7可知,基于CBOW模型優(yōu)化的Item2Vec方法推薦的專題地圖列表相似度較高,基本屬于同一地圖主題下的各專題指標(biāo),推薦效果優(yōu)于SVD模型,“ThematicCMaps”數(shù)據(jù)量較少,但仍能很好地推斷各專題地圖之間的相似關(guān)系。
表72種模型的推薦結(jié)果對比
4、結(jié)論
面對現(xiàn)有專題地圖推薦場景中用戶偏好建模案例研究相對較少,專題地圖評分實驗數(shù)據(jù)集缺少,通過編制本體規(guī)則等傳統(tǒng)方法進(jìn)行地圖推薦的時效性不強(qiáng)等問題,本文提出面向?qū)n}地圖產(chǎn)品推薦場景的用戶偏好推薦方法,基于WebService記錄構(gòu)造專題地圖序列的統(tǒng)計類特征,如專題地圖的點擊量、收藏率等,通過計算專題地圖隱性評分,完成用戶偏好興趣建模;基于負(fù)采樣優(yōu)化的CBOW模型,可有效提升目標(biāo)專題地圖的評分預(yù)測精度;基于CBOW模型優(yōu)化的Item2Vec方法,充分考慮專題地圖序列之間的局部共現(xiàn)關(guān)系,根據(jù)專題地圖預(yù)測評分,完成個性化推薦,推薦效果優(yōu)于傳統(tǒng)方法,形成了較為合理的專題地圖向量檢索式召回策略。主要結(jié)論如下:
(1)首先使用特定類用戶對感興趣專題地圖隱性評分的計算方法,構(gòu)建用于專題地圖檢索的實驗數(shù)據(jù)集“ThematicCMaps”。針對不同類用戶形成不同專題地圖分類粒度的評分,彌補(bǔ)了用戶行為序列中特征專題地圖強(qiáng)度無區(qū)分性的不足,解決了專題地圖產(chǎn)品推薦場景中無專題地圖評分實驗數(shù)據(jù)集的不足,根據(jù)用戶行為日志計算的隱性評分能客觀反映檢索用戶的真實偏好程度。CBOW模型對專題地圖的“專題地圖名稱/分類”標(biāo)簽的多次迭代更新,獲得的專題地圖的文本特征,可有效避免內(nèi)容冷啟動問題。
(2)基于負(fù)采樣的CBOW模型優(yōu)化,控制負(fù)樣本個數(shù)是正樣本個數(shù)的2倍,可過濾點擊序列長度小于5的樣本,過濾之后,用戶點擊序列能覆蓋99%的預(yù)測專題地圖。CBOW模型經(jīng)負(fù)采樣改進(jìn),降低了梯度下降過程中的計算量,參數(shù)Xw和θu的迭代更新,可有效提高對大型數(shù)據(jù)集的訓(xùn)練效率和評分預(yù)測性能。
(3)基于CBOW模型優(yōu)化的Item2Vec方法是將神經(jīng)項嵌入物品的協(xié)同過濾,在類似于專題地圖推薦的信息流場景中,數(shù)據(jù)量較大,生僻詞出現(xiàn)次數(shù)較多,CBOW模型預(yù)測目標(biāo)專題地圖會受到前后地圖序列的影響,地圖特征向量的跳幀隨中心專題地圖的前后地圖序列對應(yīng)的地圖向量一起調(diào)整,多次的前后地圖序列對應(yīng)的向量調(diào)整使得預(yù)測目標(biāo)專題地圖的向量更加準(zhǔn)確,且這種訓(xùn)練方式適用于分類明確、生僻詞較多的信息流場景。Item2Vec方法學(xué)習(xí)出來的專題地圖序列向量含用戶實時的偏好行為特征,具有較好的相似性,可覆蓋10%以上的曝光占比,在專題地圖個性化推薦召回層,專題地圖點擊率提升了1.83%,用戶時長提升了1.11%,所以與傳統(tǒng)推薦模型相比,基于CBOW模型優(yōu)化的Item2Vec方法在專題地圖推薦場景中能取得較好的推薦效果。
本文所提方法為語義環(huán)境下專題地圖的Web上下文感知特征提取與建模提供了新的思路,專題地圖向不同情境的特定用戶傳遞偏好信息,個性化推薦基于用戶認(rèn)知語義為特定用戶快速匹配合理有效的專題地圖,量化專題地圖推薦場景中不同類用戶的知識構(gòu)成和偏好程度,可促進(jìn)專題地圖服務(wù)中專題制圖技術(shù)的發(fā)展,提高適應(yīng)于不同類用戶的專題地圖質(zhì)量,滿足專題地圖推薦場景中的個性化推薦效率。
參考文獻(xiàn):
[2]鄭束蕾,陳毓芬,楊春雷,等.地圖個性化認(rèn)知適合度的眼動試驗評估[J].測繪學(xué)報,2015,44(s1):27-35.
[3]方瀟,李萌,包芃,等.基于眼動實驗的個性化地圖推薦模型探討[J].地理空間信息,2015,13(1):167-170.
[4]馮天文,李軼鯤,劉濤,等.語義擴(kuò)散檢索方法研究——以火災(zāi)應(yīng)急圖組庫為例[J].測繪科學(xué),2018,43(12):115-121.
[8]姜波,張曉筱,潘偉豐.基于二部圖的服務(wù)推薦算法研究[J].華中科技大學(xué)學(xué)報(自然科學(xué)版),2013,41(s2):93-99.
[9]黃立威,江碧濤,呂守業(yè),等.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J].計算機(jī)學(xué)報,2018,427(7):191-219.
[10]吳彥文,劉闖.基于用戶偏好和可疑度的推薦方法研究[J].計算機(jī)應(yīng)用研究,2018,35(12):118-120.
[12]陳晉音,吳洋洋,林翔.基于圖過濾的快速密度聚類雙層網(wǎng)絡(luò)推薦算法[J].控制理論與應(yīng)用,2019,36(4):542-552.
[13]黃金超,張佳偉,陳寧,等.基于偏好度特征構(gòu)造的個性化推薦算法[J].上海交通大學(xué)學(xué)報,2018,52(7):770-776.
[14]張敏,丁弼原,馬為之,等.基于深度學(xué)習(xí)加強(qiáng)的混合推薦方法[J].清華大學(xué)學(xué)報(自然科學(xué)版),2017,57(10):1014-1021.
[15]陳冬林,聶規(guī)劃,劉平峰.基于網(wǎng)頁語義相似性的商品隱性評分算法[J].系統(tǒng)工程理論與實踐,2006,26(11):98-102.
[17]劉淑涵,王艷東,付小康.利用卷積神經(jīng)網(wǎng)絡(luò)提取微博中的暴雨災(zāi)害信息[J].地球信息科學(xué)學(xué)報,2019,21(7):1009-1017.
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >