相關(guān)鏈接: 中國安全網(wǎng) 中國質(zhì)量網(wǎng) 中國論文網(wǎng) 中國資訊網(wǎng)
作者:鄭曉敏
1 引言
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,電子商務(wù)因其方便快捷的優(yōu)點得到了人們的廣泛關(guān)注。但隨著商品資源數(shù)量的增長,顧客在網(wǎng)絡(luò)購物方面很難方便、快捷地找到滿意的商品。為幫助廣大顧客迅速找到其所需要的商品,同時給商家?guī)砀叩睦麧,個性化服務(wù)逐漸成為行業(yè)發(fā)展面臨的一個關(guān)鍵問題。作為當(dāng)前解決信息超載問題最有效的工具之一,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,而個性化推薦技術(shù)正是此技術(shù)中一個重要的體現(xiàn)。這種致力于幫助電商網(wǎng)站為顧客購物提供完全個性化服務(wù)的智能平臺,在為顧客帶來方便、快捷的同時,也為商家?guī)砹司薮蟮睦。但隨著商品信息的細(xì)化及客戶對推薦內(nèi)容要求的提高,目前應(yīng)用的幾種常用推薦技術(shù)的不足愈發(fā)明顯,如推薦精度不高、效率過低、新商品或購買率較低的商品不能及時推薦給顧客等。如何滿足顧客的需求,向他們推薦符合其購物習(xí)慣或偏好的商品已成為當(dāng)前推薦算法的首要問題之一。研究推薦系統(tǒng)在實際中的應(yīng)用,無論是對于商家自身,還是顧客乃至社會,都具有很高的經(jīng)濟價值和實際意義。
國外的很多研究學(xué)者對于個性化推薦技術(shù)的不斷研究,大大地推動了推薦技術(shù)自身的快速發(fā)展。Ahn H J等人提出了一種新穎的相似度評估方法,精確了目標(biāo)用戶最近鄰的求解,經(jīng)實驗驗證,該方法有效地解決了傳統(tǒng)相似度計算過程中最近鄰求解不準(zhǔn)確的問題,有效提高了推薦算法的推薦質(zhì)量;Lemine D和Huang Z等人分別應(yīng)用了SLopeOne算法和用戶行為分析法,對稀疏的評分矩陣進(jìn)行了有效的填充處理,并得到了很好的效果;Chang H Y等將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于傳統(tǒng)的協(xié)同過濾算法中,同樣提高了推薦質(zhì)量。此外,Deshpande、Kim H N等人也都提出了自己的改進(jìn)思路,為推薦技術(shù)做出了貢獻(xiàn)。
近年來,我國的研究人員對個性化推薦技術(shù)的發(fā)展起到了積極的促進(jìn)作用,提出了許多非常有效的改進(jìn)算法來解決傳統(tǒng)推薦算法中存在的不足。例如顧中華、鄭楠等人分別以不同思路向傳統(tǒng)相似度計算公式中加入了時間權(quán)重因子,解決了顧客偏好隨時間變化的問題;吳發(fā)青、刑春曉等人對用戶的興趣進(jìn)行分析,分別提出了興趣局部相似度計算方法及興趣偏移處理方法:張子科、周濤等人提出了應(yīng)用用戶一項目一標(biāo)簽的三元關(guān)系對傳統(tǒng)推薦算法進(jìn)行改進(jìn)的新思路;林霜梅、范波等人在用戶行為參考及相似度優(yōu)化方面也有效地改進(jìn)了推薦算法。
本文以個性化推薦技術(shù)在電子商務(wù)領(lǐng)域中的應(yīng)用及個性化推薦系統(tǒng)為研究內(nèi)容,以傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法為研究對象,針對傳統(tǒng)算法中評分矩陣過于稀疏等問題,提出了一種新穎的協(xié)同過濾改進(jìn)算法,闡述了如何利用RFM模型合理地篩選用戶信息,利用處理后的用戶消費記錄稠密用戶一項目評分矩陣,并改進(jìn)了傳統(tǒng)相似度計算公式,以達(dá)到提高個性化推薦效果及預(yù)測準(zhǔn)確度的目的。
2協(xié)同過濾推薦算法的推薦過程
協(xié)同過濾算法的理論依據(jù)是基于這樣一個事實:在日常生活中,所有人都不是孤立存在的,他們之間總會存在興趣偏好上的相似性,且在一定的時間范圍內(nèi)是相對穩(wěn)定的。每個用戶都可以和在興趣偏好或購買行為上與之相似或相同的其他用戶組成一個用戶類別,并且此用戶更易于和同類別下的其他用戶成為好朋友,故可以通過其好朋友的興趣偏好對其自身的興趣偏好進(jìn)行預(yù)測。一般來說,此算法的推薦過程可分為用戶數(shù)據(jù)表示(user data representation)、最近鄰查找(nearest neighbor query)、產(chǎn)生推薦集( recommended generate)3個環(huán)節(jié)。
用戶對項目的評分可用一個mxn階的用戶一項目評分矩陣R(m,n)記錄,其中,m、n分別表示系統(tǒng)內(nèi)的總用戶數(shù)及總項目數(shù),每個元素代表系統(tǒng)內(nèi)一個用戶對一個項目的評分。
一般情況下評分矩陣中的評分值有兩種形式:布爾數(shù)值和實數(shù)值評分區(qū)間形式。本文是在一個五級評分制下用戶一項目評分矩陣中各項分值所對應(yīng)的用戶對項目的偏好情況。
3 改進(jìn)的協(xié)同過濾推薦算法
在協(xié)同過濾算法理論基礎(chǔ)上,提出了一種引入RFM模型并利用用戶行為的個性化協(xié)同過濾推薦策略。
3.1 RFM模型
RFM模型是由美國人Arthur Hughes首先提出的,它是由用戶的最近一次消費recency(R)、消費頻率frequency(F)、消費金額monetary(M)3個參數(shù)對應(yīng)的英文首字母組成的。最近一次消費用于衡量用戶最近的一次消費行為產(chǎn)生時間距現(xiàn)在的時間長度大小。此要素定義標(biāo)識的是一個時間范圍,它與當(dāng)前推薦算法的計算時間有關(guān)。某一條消費行為記錄的消費時間是確定的,故R值會隨著時間的推移逐漸變大。消費頻率指用戶在近一段時間內(nèi)的消費次數(shù)。經(jīng)常發(fā)生消費行為的用戶,通常是對商家商品和服務(wù)滿意度較高的用戶,商家完全有理由相信此類用戶的忠誠度及黏性比較高。增加用戶對商家的消費次數(shù)意味著從競爭對手處獲取市場占有率并賺取銷售額,增加商品銷量并提高企業(yè)收益。消費金額是對商家效益最直接的衡量指標(biāo),用戶的消費金額越高,商家從其消費行為中的獲益就越高,那么商家就越有理由相信該用戶對自身效益做出了越大的貢獻(xiàn),該用戶本身對商家也越忠誠。
3.2用戶一項目評分矩陣的改進(jìn)
傳統(tǒng)協(xié)同過濾算法中存在稀疏性問題,首先介紹評分矩陣的改進(jìn)思想,隨后定義了用戶興趣度概念,依據(jù)用戶消費行為推測他們對商家商品的喜好程度,進(jìn)而推測他們對未評分項目的預(yù)測分值,填充到初始矩陣中,降低矩陣稀疏程度。
3.2.1 評分矩陣的改進(jìn)思想
協(xié)同過濾算法的一大不足即評分矩陣的稀疏性問題,此不足嚴(yán)重影響著整個算法的推薦質(zhì)量,因此在實際運用中有必要對評分矩陣進(jìn)行改進(jìn),即在不主動向用戶索取信息、減輕用戶負(fù)擔(dān)的同時,達(dá)到提高系統(tǒng)推薦效果的目的。從另一方面說,每個用戶在選購商品過程中,實際表現(xiàn)出了對該商品的喜好傾向,用戶本身的購買行為標(biāo)志著對該商品的喜好程度。借用此思想,可利用用戶日常在商家中的消費行為來衡量其對各商品的喜好情況,進(jìn)而預(yù)測他們可能在評分矩陣中的評分,并將預(yù)測評分填充到評分矩陣對應(yīng)的商品項目上,進(jìn)而稠密化評分矩陣,降低其稀疏度,完成評估矩陣的改進(jìn)操作。
3.2.2用戶興趣度定義
預(yù)測用戶對未評分項目的評分,關(guān)鍵在于利用用戶消費行為探索其對商品的喜好情況。為了準(zhǔn)確規(guī)范地衡量用戶對商品的喜好程度,同時便于理解,在此處引入用戶興趣度的概念。在闡述其定義及計算公式前,首先必須提出一種假設(shè):每位用戶對商家商品的喜歡程度,即興趣度,可從該用戶在一段時間內(nèi)的歷史消費記錄反映出來。依據(jù)生活常識,若某用戶在某時間段內(nèi)購買某商品數(shù)量較多或購買次數(shù)較頻繁,那么商家完全有理由相信該用戶在此時間段更偏向于喜愛此商品,即該顧客對此商品的興趣度較高。
依據(jù)商家掌握的用戶消費行為,通過簡單的數(shù)據(jù)提取即可獲得一段時間范圍內(nèi),每個用戶對各項商品的購買次數(shù)及購買數(shù)量。如式(2)、式(3),可分別構(gòu)造兩個mxn,階矩陣A(m,n)和B(m,n),前者表示用戶一商品購買次數(shù)矩陣,即m個用戶對n項商品的購買次數(shù):后者表示用戶一商品購買數(shù)量矩陣,即m個用戶對n項商品的購買數(shù)量,其中,行數(shù)m表示系統(tǒng)總用戶數(shù),列數(shù)n表示系統(tǒng)中總商品數(shù),矩陣中的元素AqB分別表示用戶i對商品j的累計購買次數(shù)及累計購買數(shù)量。
若采用五級制評分標(biāo)準(zhǔn),以G表示用戶i在此段時間內(nèi)對商品j的興趣度,則可定義為:
其中,Sq表示此段時間內(nèi)用戶i對商品j的單次平均購買數(shù)量;T表示系統(tǒng)內(nèi)所有用戶此段時間內(nèi)單次平均購買數(shù)量,即商品i在所有用戶下的總購買數(shù)量與總購買次數(shù)的比值Jlag表示當(dāng)前用戶i對商品i的累計購買次數(shù)是否大于該商品的平均購買次數(shù)。它們的計算式分別如下:
其中,K表示所有用戶中購買過商品j的用戶總數(shù)。
得到每個用戶興趣度后,便可開始評分矩陣的填充工作。若某用戶對某商品的單次平均購買數(shù)量及累計購買次數(shù)兩項指標(biāo)均高于系統(tǒng)平均值,則說明該用戶對此商品很感興趣,對應(yīng)評分矩陣項上可填充5分;若為其他3種情況,則在矩陣對應(yīng)項上填充4分,即該用戶比較喜歡該商品。
評分矩陣的改進(jìn)操作中,有以下幾點需要特殊說明。
·本算法改進(jìn)中,填充操作僅針對評分矩陣中那些用戶未做出評價的且根據(jù)用戶消費行為,確實表現(xiàn)出喜好傾向的商品項目,即在矩陣中僅填充4分和5分,而未考慮商品項目的其他分值評分的填充,即用戶不喜歡或感覺一般的商品。
·本文中的評分矩陣填充處理方法是有別于未評分項取平均分值等其他的矩陣填充方法的,因為本方法有效利用了商家容易獲取到的用戶消費行為數(shù)據(jù),而且是用真實的用戶相關(guān)數(shù)據(jù)稠密化評分矩陣,比純粹地應(yīng)用數(shù)學(xué)處理辦法要好很多。
·以上定義的用戶興趣度計算針對的是用戶在某時間段內(nèi)的興趣喜好,而非一成不變的,此時間段需要系統(tǒng)人員進(jìn)行提前設(shè)置。也就是說系統(tǒng)人員想要分析哪個時間段內(nèi)的用戶興趣,或想要以哪個時間段內(nèi)的信息為數(shù)據(jù)源去完善評分矩陣,則設(shè)置哪個對應(yīng)時間段跨度。這種預(yù)先設(shè)置時間段而后運行算法展開推薦的做法的好處是顯而易見的,因為用戶的興趣喜好是隨著時間偏移的,即他們的愛好可能會因時間的變化而不同。隨著時間的推移,用戶可能對某些商品的興趣逐漸減弱,而在其他商品上產(chǎn)生新的興趣點。因此,個性化推薦系統(tǒng)中的核心推薦算法部分很有必要適應(yīng)這種用戶的興趣變化過程,否則做出的推薦更偏向于目標(biāo)用戶的原有興趣點,而未迎合其新的興趣點,導(dǎo)致推薦質(zhì)量變差。
3.3相似度計算公式的改進(jìn)
相似度計算著眼于以下兩點進(jìn)行改進(jìn)。
·所謂“個性化推薦”,其中的“推薦”二字,在普遍觀念中當(dāng)然是向用戶推薦其可能感興趣的、預(yù)測評分較高的商品,而不是判斷有哪些商品用戶可能不感興趣、預(yù)測評分較低或沒有可能購買,然后把此類商品推薦給用戶,即使這樣的推薦再準(zhǔn)確,此行為本身也是毫無意義的,它已失去了推薦系統(tǒng)的本義,失去了推薦系統(tǒng)的初衷。故在進(jìn)行目標(biāo)用戶與其他用戶間的相似度計算,進(jìn)而查找目標(biāo)用戶的最近鄰居集合時,有必要把相似度分析側(cè)重點從研究用戶對所有商品喜好程度的相似性上向用戶對感興趣商品的喜好程度的相似性上進(jìn)行轉(zhuǎn)移,即計算出來的相似度應(yīng)該是用戶喜好商品間的相似度而非全部商品間的相似度。
·傳統(tǒng)的協(xié)同過濾算法僅僅是在用戶共同評分項目上考慮用戶間對項目評分的相似性,通過此方面的匹配程度來衡量用戶間的相似度,但卻忽視了在實際評分矩陣中,矩陣本身評分項較少而導(dǎo)致稀疏度過高的情況下,用戶間共同評分項數(shù)量大小的差異同樣會對相似性的計算造成較大的偏差。
見表1中的評分矩陣,現(xiàn)要計算用戶U對商品項目D的預(yù)測評分值X,根據(jù)Pearson相似度計算式可計算出用戶U3與用戶U1、U2的相似度值均為1,但可明顯看出用戶U3與U1、U2的相似情況并不一樣,即傳統(tǒng)公式計算得出的相似度值并不準(zhǔn)確。通過分析不難發(fā)現(xiàn)用戶U與用戶U1在計算了3個商品評分后得出的相似度值,而用戶U與用戶U2計算了1個商品的評分情況,由此可以看出,用戶U3與用戶U相似度更高。
通過上例可發(fā)現(xiàn),若在一個較小的項目集合中,即使兩個用戶間評分相似程度很高,那也不能確定他們的相似度很高。也就是說,傳統(tǒng)相似度計算公式僅根據(jù)用戶間的共同評分項來計算相似度,但未考慮共同評分項集合大小對相似度計算結(jié)果造成的影響。在此情況下,可考慮分析用戶間的共同喜好商品的評分項與總評分項之間的大小權(quán)重關(guān)系,將此比例作為權(quán)重因子添加到原相似度公式中,對原有公式做出改進(jìn),如式(8):
其中,用戶a、b對項目i的評分利用R。和風(fēng)。表示,用戶a.b對項目的平均評分用Ra和Rb表示。用戶a與6在共同喜好的評分項目集合用厶表示,用戶a、6評價過的且為喜好的項目集合用T和r6表示,而,則表示整個項目集合。本相似度計算式在傳統(tǒng)的Pearson相似度計算公式上做了改進(jìn),它充分地考慮了系統(tǒng)向用戶推薦喜好商品這一事實及共同喜好項目評分集合大小對相似度結(jié)果的影響。
值得注意的是,改進(jìn)式中權(quán)重因子計算方法是兩個用戶間共同喜好評分項目的集合與共同評分集合求比值,即只關(guān)注用戶評分中的4分、5分項,而不關(guān)注有哪些項目為1分、2分或是3分,此思想恰恰符合改進(jìn)思路,到此即完成了對矩陣僅填充4分、5分評分值的問題解釋。同時,在計算用戶間相似度前,先對評分矩陣進(jìn)行4分和5分值填充處理的好處在于,推薦算法不會因為評分矩陣中已評分項目過于稀少而影響最終權(quán)重因子計算的準(zhǔn)確性。
4改進(jìn)算法的整體流程
基于協(xié)同過濾的個性化推薦算法流程如圖1所示。
具體實現(xiàn)步驟如下。
(1)黏性用戶群的篩選過程,主要統(tǒng)計段時間內(nèi)系統(tǒng)用戶R、F、M值并根據(jù)設(shè)定后的參數(shù)對原用戶群進(jìn)行篩選處理,具體步驟如下。
·遍歷系統(tǒng)內(nèi)所有用戶,根據(jù)他們的消費記錄計算每個用戶在分析時間段內(nèi)的R、F、M值;
·將R值大于R參數(shù)設(shè)置值的用戶過濾掉得過濾后集合A;
·將F值小于F參數(shù)設(shè)置值的用戶過濾掉得過濾后集合B;
·將M值小于M參數(shù)設(shè)置值的用戶過濾掉得過濾后集合C;
·按參數(shù)設(shè)置的大小及篩選意愿取集合A、B、C的交集或并集作為最終的黏性用戶群。
(2)用戶興趣度分析
·遍歷黏性用戶群,統(tǒng)計每個用戶對系統(tǒng)內(nèi)各項商品的購買次數(shù),求得用戶一項目購買次數(shù)矩陣A;
·遍歷黏性用戶群,統(tǒng)計每個用戶對系統(tǒng)內(nèi)各項商品的累計購買數(shù)量,求得用戶一項目累計購買數(shù)量矩陣B;
·依據(jù)式(5)、式(6)及式(7)計算每個用戶對應(yīng)的Sq、T及Jlag變量值并求得每個用戶對各商品項的興趣度:
·依據(jù)計算得到的興趣度填充初始評分矩陣,生成填充后的新評分矩陣。
(3)目標(biāo)用戶最近鄰居集合的生成
·遍歷黏性用戶群,依據(jù)填充后評分矩陣計算用戶間的相似度,生成用戶相似度矩陣:
·獲取目標(biāo)用戶與其他用戶間的相似度值,按遞減順序排序:
·截取相似度值排序TopⅣ的用戶作為目標(biāo)用戶的最近鄰居集合。
(4)最終商品推薦列表的產(chǎn)生
·根據(jù)最近鄰居集合,應(yīng)用預(yù)測評分式,求得目標(biāo)用戶對未評分商品的預(yù)測分值并按遞減順序排序:
·將前Ⅳ個預(yù)測評分較高的商品生成最終商品推薦列表。
5 實驗設(shè)計與結(jié)果分析
為驗證改進(jìn)算法的可行性及效率,使用了如下的開發(fā)環(huán)境和開發(fā)工具進(jìn)行實驗。
(1)硬件配置
CPU:Intel Core i5-2520M 2.5 GHz;內(nèi)存:4 GB;硬盤:250 CB。
(2)軟件配置
操作系統(tǒng):Windows7;編程語言:C#;開發(fā)平臺:VisualStudi0 2010;數(shù)據(jù)庫:SQL Server 2008。
采用MAE(mean absolute error,均方絕對誤差)作為改進(jìn)算法推薦質(zhì)量的度量標(biāo)準(zhǔn),以數(shù)據(jù)堂提供的某科研小組收集的用戶消費行為記錄及商品項目評分?jǐn)?shù)據(jù)為主實驗數(shù)據(jù)集B,以MovieLens數(shù)據(jù)集為輔助實驗數(shù)據(jù)集A,設(shè)計了多組對比實驗并進(jìn)行了實驗結(jié)果分析。
實驗中采用五重交叉驗證技術(shù),共在一個數(shù)據(jù)集上進(jìn)行5次實驗,最后取它們的實驗結(jié)果平均值作為最終的算法驗證結(jié)果。首先將原數(shù)據(jù)集合平均分為如圖2所示的A、B、C、D、E5份,再按4:1的比例分出5種可能情況,將原始數(shù)據(jù)集中的4份,即80qo的樣本量作為訓(xùn)練集,用于產(chǎn)生推薦,另外的一份,即20010的樣本量作為測試集,用于驗證推薦算法質(zhì)量。按此方法分割數(shù)據(jù)時,數(shù)據(jù)集A的訓(xùn)練集和測試集分別為80 000條和20 000條數(shù)據(jù),而數(shù)據(jù)集B的訓(xùn)練集和測試集分別為9 600條和2 400條數(shù)據(jù)。五重交叉驗證技術(shù)的優(yōu)點在于一份數(shù)據(jù)集可進(jìn)行5輪實驗且在實驗過程的數(shù)據(jù)應(yīng)用中互不重復(fù)及覆蓋,即將原數(shù)據(jù)信息進(jìn)行了充分的利用。
5.1 改進(jìn)后相似度計算式的有效性驗證
針對改進(jìn)后的相似度計算式,分別在兩個數(shù)據(jù)集上應(yīng)用余弦相似性、Pearson相似性和改進(jìn)式運行傳統(tǒng)協(xié)同過濾算法,通過推薦結(jié)果的MAE值大小比較相似度計算結(jié)果的準(zhǔn)確程度,衡量3個相似度計算式自身的優(yōu)劣性,判斷改進(jìn)式在相似度計算結(jié)果準(zhǔn)確性上是否優(yōu)于兩個傳統(tǒng)公式,同時找出兩個傳統(tǒng)公式中較優(yōu)的一個,為實驗方案設(shè)計選取比對公式做前期準(zhǔn)備。實驗中目標(biāo)用戶最近鄰居數(shù)以10為間隔,逐漸從20增加到120,判斷最近鄰個數(shù)變化對MAE值的影響情況及3組結(jié)果的大小變化情況,實驗結(jié)果如圖3、圖4所示。
通過圖3、圖4可得出如下結(jié)論:首先,就單條曲線來說,它的變化趨勢是隨著最近鄰居數(shù)的增加,3條曲線均呈下降趨勢,整個曲線前半部分下降速度較快,幅度較大,后半部分下降速度較慢并逐漸趨于平緩,當(dāng)最近鄰個數(shù)大于100時,曲線基本趨于穩(wěn)定,MAE值基本不受鄰居數(shù)變化的影響:其次,就3條曲線相互比對來說,改進(jìn)式對應(yīng)的曲線整體處于兩種傳統(tǒng)計算公式對應(yīng)曲線的下方,說明使用它計算得到的MAE值更小,證明了改進(jìn)式在預(yù)測效果上比兩種傳統(tǒng)公式效果更好,即改進(jìn)式是可行有效的:第三,兩種傳統(tǒng)公式中Pearson相似度計算公式較優(yōu)一些,故在接下來的實驗中會采用Pearson公式與改進(jìn)式的應(yīng)用效果進(jìn)行比較,以增強實驗的可信度、說服力及嚴(yán)謹(jǐn)性。
5.2改進(jìn)后協(xié)同過濾推薦算法的有效性驗證
利用數(shù)據(jù)集B.實驗中采用Pearson公式與改進(jìn)式的應(yīng)用效果進(jìn)行比較設(shè)計了3組實驗。
5.2.1 RFM模型篩選用戶群對推薦質(zhì)量的影響
R、F、M3個參數(shù)的設(shè)定標(biāo)準(zhǔn)可由篩選不同屬性用戶群的對象而定,對于不同的商家面向的用戶來說,參數(shù)可能相差不大,也可能相差很大,因為不同屬性的商品決定著不同消費時間差、消費頻率及消費金額。故在篩選用戶群前,需首先確定3個參數(shù)的合適值。
一般情況下,企業(yè)商家存儲的用戶消費行為數(shù)據(jù)初始格式為顧客ID、消費時間、消費金額等字段,利用此數(shù)據(jù)源即可完成對每個用戶的篩選操作,進(jìn)而生成RFM模型。
(1)最近一次消費(R)
本參數(shù)對應(yīng)的數(shù)據(jù)形式為一個固定時間點,在進(jìn)行用戶篩選時,取當(dāng)前的操作時間點與此時間點進(jìn)行減法運算,并把運算結(jié)果賦給該參數(shù)。本參數(shù)的單位較為靈活,可根據(jù)操作人員需要自行設(shè)定,通常情況下按天計,若單位精確到分鐘或粗略到年,在現(xiàn)實的應(yīng)用場景中的實際意義就不大了。
(2)消費頻率(F)
依據(jù)用戶消費行為數(shù)據(jù)可直接計算得到其在某時間段內(nèi)的消費次數(shù)(在本文處理中,若某用戶在一天中存在著多次光顧和消費行為,按一個消費頻率處理)。
(3)消費金額(M)
此參數(shù)計算簡單,可直接計算得到用戶在某時間段內(nèi)的消費金額總和。
圖5說明當(dāng)3個參數(shù)較適中時,非黏性用戶得到了有效過濾,應(yīng)用相對黏性顧客進(jìn)行相似度計算并在此集合中產(chǎn)生最近鄰居,商品預(yù)測結(jié)果會準(zhǔn)確得多,進(jìn)而有效地降低了MAE值。實際設(shè)置時,盡量將R值設(shè)置的比A VG(R)大些,將F值與M值設(shè)置的比』4 VC(F)、A VG(M)小些,同時篩選后的用戶集合人數(shù)盡量控制在原集合人數(shù)的一半以上,此時會取得相對較好的實驗效果。
5.2.2評分矩陣填充處理后對推薦質(zhì)量的影響
以第5.2.1節(jié)中RFM模型篩選后的較優(yōu)用戶群為基礎(chǔ),分別在原評分矩陣及填充后評分矩陣上運行傳統(tǒng)協(xié)同過濾算法,比較MAE值的大小,如圖6所示。
從圖6看出,對稀疏的評分矩陣進(jìn)行填充處理后,所得的MAE值相比未填充處理時所得到的MAE值要低,尤其是在最近鄰居個數(shù)相對較少時,MAE值下降幅度較大,說明當(dāng)最近鄰居較少時填充操作可明顯提高推薦質(zhì)量。之后隨著最近鄰居數(shù)的增加,MAE值仍然逐漸變小,但變化速率開始減慢,最終曲線趨于平緩,填充矩陣后的MAE值曲線基本處于原矩陣的MAE曲線下方。故可以說明應(yīng)用用戶消費行為及興趣度概念對評分矩陣進(jìn)行填充處理的方法是有效的。
5.2.3改進(jìn)后的相似度計算式對推薦質(zhì)量的影響
在RFM模型篩選后的較優(yōu)用戶群及填充后評分矩陣上運行傳統(tǒng)協(xié)同過濾算法和加入了相似度改進(jìn)式的改進(jìn)算法,比較MAE值的大小,如圖7所示。
從圖7可看出,引入權(quán)重因子后,在兩個用戶間的共同喜好商品上計算相似度,求得的MAE值要比應(yīng)用傳統(tǒng)Pearson公式時的MAE值要低,雖然隨著最近鄰居數(shù)的增加,MAE值減小的速率逐漸變慢,推薦質(zhì)量的改善程度有所下降,曲線逐漸趨于平緩,但其依然優(yōu)于應(yīng)用傳統(tǒng)公式時的推薦效果,前者對應(yīng)的曲線各部分明顯處于后者下方,證明了改進(jìn)式的積極意義。
6結(jié)束語
本文以提高推薦準(zhǔn)確度為目標(biāo),在傳統(tǒng)的基于用戶的協(xié)同過濾算法上進(jìn)行了改進(jìn),提出了一種引入RFM模型并利用用戶購物行為進(jìn)行相似度計算的新型推薦算法。本算法與傳統(tǒng)算法相比,其優(yōu)勢主要體現(xiàn)在:新算法中引入RFM模型對原用戶群進(jìn)行了多條件篩選,使推薦數(shù)據(jù)源更加準(zhǔn)確高效;改進(jìn)算法中利用顧客歷史消費記錄對原評估矩陣進(jìn)行填充處理,提高了評分矩陣的稠密度:對傳統(tǒng)的Pearson相似度計算公式進(jìn)行改進(jìn),使目標(biāo)用戶的相似鄰居查找更加準(zhǔn)確;最后,將改進(jìn)算法應(yīng)用于一套具有個性化商品推薦功能的實用性推薦系統(tǒng)中,驗證了該推薦算法的實用性、高效性和準(zhǔn)確性。
7摘要:
為了提高個性化推薦效果及預(yù)測準(zhǔn)確度,特別是針對傳統(tǒng)算法中評分矩陣過于稀疏等問題提出一種新穎的協(xié)同過濾算法。該算法首先利用RFM模型合理地篩選用戶信息,其次通過黏性客戶的消費記錄稠密化用戶一項目評分矩陣,并改進(jìn)了傳統(tǒng)相似度計算公式。通過仿真實驗證實了算法的準(zhǔn)確性,最后將其應(yīng)用于一套具有個性化商品推薦功能的系統(tǒng)原型中,證明了該推薦算法的有效性及實用性。
上一篇:研究美國城市化背景下的砂石資源管理體系及相關(guān)政策的現(xiàn)實意義
下一篇:經(jīng)驗介紹:自動化監(jiān)測遠(yuǎn)程監(jiān)控系統(tǒng)在基坑工程中的試驗應(yīng)用