相關(guān)鏈接: 北京安全網(wǎng) 北京質(zhì)量網(wǎng) 北京論文網(wǎng) 北京資訊網(wǎng)
一、引言
在競(jìng)爭(zhēng)日益激烈的網(wǎng)絡(luò)商業(yè)時(shí)代,電子商務(wù)企業(yè)越來越強(qiáng)烈的感覺到客戶資源是企業(yè)獲勝的法寶之一。因此企業(yè)開始從以產(chǎn)品為中心的模式向以客戶為中心的模式轉(zhuǎn)變,主要圍繞保留現(xiàn)有顧客和挖掘潛在顧客展開,預(yù)測(cè)出客戶未來的購(gòu)買趨勢(shì),制定相應(yīng)的營(yíng)銷策略。但是隨著企業(yè)產(chǎn)品的個(gè)性多樣化,客戶的需求日益增加,傳統(tǒng)的應(yīng)用統(tǒng)計(jì)學(xué)的方法對(duì)客戶進(jìn)行細(xì)分顯得力不從心。采用聚類挖掘算法可以處理幾個(gè)甚至上百個(gè)變量,通過收集整理客戶相關(guān)信息,發(fā)現(xiàn)存在于客戶整體內(nèi)部具有不同需求特點(diǎn)、購(gòu)買行為、瀏覽興趣等特征的客戶群體,分析出具有相似瀏覽或購(gòu)買行為的客戶群,進(jìn)而對(duì)客戶進(jìn)行細(xì)分,幫助電子商務(wù)企業(yè)深入了解自己的客戶,為客戶群體提供更加全面的個(gè)性化服務(wù),提高客戶的滿意度和忠誠(chéng)度,為企業(yè)創(chuàng)造更多的價(jià)值。
二、客戶細(xì)分相關(guān)理論
客戶細(xì)分是20世紀(jì)50年代中期由美國(guó)學(xué)者溫德爾?史密斯(Wendell R.Smith)提出的,他認(rèn)為“客戶細(xì)分是基于某一時(shí)期市場(chǎng)中個(gè)體需求的不同特點(diǎn)而做出的產(chǎn)品決策,而產(chǎn)品差異策略則僅定位于市場(chǎng)競(jìng)爭(zhēng)者,不考慮需求的復(fù)雜性[1]!逼淅碚撘罁(jù)在于顧客需求的異質(zhì)性和企業(yè)需要在有限資源的基礎(chǔ)上進(jìn)行有效地市場(chǎng)競(jìng)爭(zhēng)。簡(jiǎn)單地說,客戶細(xì)分是指在明確的戰(zhàn)略業(yè)務(wù)模式和特定的市場(chǎng)中,根據(jù)客戶的屬性,行為,需求,偏好以及價(jià)值等因素對(duì)客戶進(jìn)行分類,并提供有針對(duì)性的產(chǎn)品,服務(wù)和銷售模式。
三、聚類分析
聚類(clustering)是一個(gè)將數(shù)據(jù)集劃分為若干組(class)或類(cluster)的過程,并使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度,而不同組內(nèi)的數(shù)據(jù)對(duì)象則是不相似的。一個(gè)聚類(cluster)就是由彼此相似的一組對(duì)象所構(gòu)成的集合,不同聚類中的對(duì)象通常是不相似的。相似或不相似的度量是基于數(shù)據(jù)對(duì)象描述屬性的取值來確定的。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域(如商業(yè)、地理、保險(xiǎn)業(yè)、因特網(wǎng)、電子商務(wù)),很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。聚類分析的結(jié)果不僅可以揭示數(shù)據(jù)間的內(nèi)在聯(lián)系與區(qū)別,同時(shí)也為進(jìn)一步的數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)提供了重要的依據(jù),如數(shù)據(jù)間的關(guān)聯(lián)規(guī)則,分類模式以及數(shù)據(jù)的變化趨勢(shì)等。
目前在文獻(xiàn)中存在大量的聚類算法,算法的選擇取決于數(shù)據(jù)的類型以及聚類的目的和應(yīng)用。圖1展示了常用聚類算法之間的層次關(guān)系[2]。本文即采用K-means聚類算法。
四、K-means算法
。ㄒ唬㎏-means算法的基本原理
K-means算法是最為經(jīng)典的基于劃分的聚類方法,是十大經(jīng)典數(shù)據(jù)挖掘算法之一。給定一個(gè)包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)庫,以及要生成簇的數(shù)目k,隨機(jī)選取k個(gè)對(duì)象作為初始的k個(gè)聚類中心;然后計(jì)算剩余各個(gè)樣本到每一個(gè)聚類中心的距離,把該樣本歸到離它最近的那個(gè)聚類中心所在的類,對(duì)調(diào)整后的新類使用平均值的方法計(jì)算新的聚類中心;如果相鄰兩次的聚類中心沒有任何變化,說明樣本調(diào)整結(jié)束且聚類平均誤差準(zhǔn)則函數(shù)已經(jīng)收斂。本算法在每次迭代中都要考察每個(gè)樣本的分類是否正確,若不正確,就要調(diào)整。在全部樣本調(diào)整完成后修改聚類中心,進(jìn)入下一次迭代。如果在一次迭代算法中,所有的樣本被正確分類,則不會(huì)有調(diào)整,聚類中心不會(huì)有變化。在算法迭代中值在不斷減小,最終收斂至一個(gè)固定的值。該準(zhǔn)則也是衡量算法是否正確的依據(jù)之一。
。ǘ㎏-means算法的步驟
1.給定一個(gè)包含n個(gè)數(shù)據(jù)的數(shù)據(jù)集D,給定聚類個(gè)數(shù)k和k個(gè)初始聚類中心Zj(I),j=1,2,…k;
2.計(jì)算每個(gè)數(shù)據(jù)到聚類中心的距離D(xi,Zj)(I),i=1,2,…k,若滿足
D(xi,Zk(I))=min{D(xi,Zj(I),j=1,2,3,…n)},xi∈wk (3-1)
并根據(jù)距離最小將每個(gè)對(duì)象分派到最相近的聚類;
3.重新計(jì)算每個(gè)聚類的均值并確定新的聚類中心;計(jì)算誤差平方和準(zhǔn)則函數(shù)J;
5.輸出k個(gè)聚類集合。
五、K-means算法在電子商務(wù)客戶細(xì)分中的應(yīng)用
(一)K-means算法在客戶細(xì)分中的步驟
通常我們根據(jù)電子商務(wù)網(wǎng)站中的訪客日志或者CRM中的相關(guān)信息,先進(jìn)行數(shù)據(jù)預(yù)處理,然后建立相關(guān)模型,用聚類的方法把客戶進(jìn)行細(xì)分,并為企業(yè)做出決策提供依據(jù)。
K-means算法應(yīng)用于客戶細(xì)分的步驟:
1.從電子商務(wù)網(wǎng)站獲取相關(guān)的數(shù)據(jù);
2.判斷所獲取的數(shù)據(jù)是否可以進(jìn)行分類,如有明顯的聚類趨勢(shì)就進(jìn)行聚類,否則取消聚類;
3.將K-Means算法結(jié)合SPSS軟件應(yīng)用與所獲取的客戶數(shù)據(jù)集中,并將客戶分為C1、C2、C3......等類。
4.根據(jù)分類的結(jié)果,總結(jié)出每一類的規(guī)則。
5.評(píng)價(jià)聚類結(jié)果。若聚類結(jié)果可信,則可應(yīng)用于實(shí)際當(dāng)中,企業(yè)可以據(jù)此制定相應(yīng)的營(yíng)銷策略,如若不可信,則需要重新聚類。
。ǘ⿺(shù)據(jù)獲取
本文采用的數(shù)據(jù)來自淘寶網(wǎng)的某服裝網(wǎng)店。由于web日中記錄了客戶相當(dāng)齊全的信息,這些海量數(shù)據(jù)(客戶ID、姓名、注冊(cè)日期、年齡、性別、電話、通訊地址)我們沒必要全部提取,在這里我們僅僅提取一些代表性的信息,如客戶ID,年齡,受教育程度,通訊地址,收入。由于這個(gè)網(wǎng)店是專門做女裝的,所以性別對(duì)我們分類的意義不大,在這里不再提取。 對(duì)于表中數(shù)據(jù)的具體解釋:
1.年齡段(age)。根據(jù)分析結(jié)果中客戶年齡段的統(tǒng)計(jì),把客戶年齡分為四個(gè)階段:A-小于20歲;B-20歲至30歲;C-30歲至40歲;D-40歲以上。
2.受教育程度。根據(jù)客戶受教育的程度分為高學(xué)歷、一般、低學(xué)歷。
3.通訊地址。全國(guó)不同城市的統(tǒng)計(jì),分為一線城市、二線城市、三線城市。
4.根據(jù)電子商務(wù)中統(tǒng)計(jì)的數(shù)據(jù)集合,把客戶收入劃分為高收入、中等收入、低收入。
此外,我們需要根據(jù)客戶ID、商品ID、商品價(jià)格、購(gòu)買數(shù)量、每次的消費(fèi)總價(jià)、交易日期計(jì)算出每個(gè)客戶在一段時(shí)間的平均購(gòu)買次數(shù)和平均購(gòu)買價(jià)格。
。ㄈ⿺(shù)據(jù)處理
1.數(shù)據(jù)清理。數(shù)據(jù)清理是補(bǔ)充缺失數(shù)據(jù)、平滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn),解決不一致的數(shù)據(jù)。在本實(shí)驗(yàn)中,客戶的數(shù)據(jù)并不一定是完整的,尤其是客戶的受教育程度和收入較難獲取。此時(shí)我們需要采用人工處理法、估計(jì)填充法對(duì)其進(jìn)行補(bǔ)充。噪聲數(shù)據(jù)是包含錯(cuò)誤或存在偏離期望的離群值。比如年齡在90歲以上就是噪聲數(shù)據(jù)。對(duì)于這類數(shù)據(jù)需要剔除,不在考慮范圍內(nèi)。
2.數(shù)據(jù)轉(zhuǎn)換。在聚類時(shí),SPSS對(duì)數(shù)值型的數(shù)據(jù)較為敏感,因此我們應(yīng)該盡量將字符型的數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。比如將受教育程度,小學(xué)、初中、高中、學(xué)士、碩士、博士分別轉(zhuǎn)換成0、1、2、3、4、5;將收入高、中、低轉(zhuǎn)換成1、2、3;將不同的通訊地址一線、二線、三線轉(zhuǎn)換成1、2、3。對(duì)于年齡這樣的連續(xù)變量,我們需要采用等寬離散化,客戶屬于哪個(gè)年齡段就將那個(gè)年齡段標(biāo)記為1,其余的年齡段為0。
。ㄋ模┻\(yùn)用K-means算法進(jìn)行客戶細(xì)分
我們使用SPSS軟件對(duì)客戶進(jìn)行細(xì)分,選取淘寶平臺(tái)上的某一家服裝網(wǎng)店。從中選取了150個(gè)數(shù)據(jù)作為樣本,將客戶平均購(gòu)買次數(shù)和平均購(gòu)買金額作為客戶細(xì)分變量,數(shù)據(jù)經(jīng)過預(yù)處理和標(biāo)準(zhǔn)化后,應(yīng)用k-means算法對(duì)其進(jìn)行細(xì)分。
。ㄎ澹┛蛻艏(xì)分結(jié)果分析
從表中我們可以看出,4類客戶購(gòu)買人數(shù)較多,平均購(gòu)買次數(shù)較少,平均購(gòu)買金額最少,這類客戶年齡和地址分布不均,大多是低學(xué)歷,低收入的;3類客戶人數(shù)比4類人數(shù)較少,這類客戶平均購(gòu)買次數(shù)最多,平均購(gòu)買金額較少,他們大多處于30歲左右,學(xué)歷和收入一般,多來自二三線城市;2類客戶人數(shù)和平均購(gòu)買次數(shù)最少,但這類客戶的平均購(gòu)買金額最多,他們大多學(xué)歷高,收入高,聚集在北京、上海等一線城市,年齡在25到35歲;1類客戶平均購(gòu)買次數(shù)和平均購(gòu)買金額都較多,年齡集中在35歲到45歲,他們經(jīng)常光顧本店。
根據(jù)表6客戶級(jí)別的劃分,我們可以得出如下結(jié)論:一類客戶人數(shù)雖不多,但企業(yè)大部分的利潤(rùn)由他們創(chuàng)造,因此稱他們?yōu)榘捉鹂蛻,企業(yè)應(yīng)當(dāng)不遺余力的去保護(hù)和維持他們;2類客戶人數(shù)最少,卻創(chuàng)造了較高的價(jià)值,屬于潛在客戶,企業(yè)應(yīng)當(dāng)重點(diǎn)投入,高水平的維護(hù),使他們盡可能的成為白金客戶;3類客戶的人數(shù)一般,為企業(yè)創(chuàng)造的價(jià)值一般,因此企業(yè)可以關(guān)系再造,使他們向2類客戶靠攏;4類客戶人數(shù)最多,這部分客戶對(duì)企業(yè)的價(jià)值不大,企業(yè)不需要投入太多的資源。
六、結(jié)論
在網(wǎng)絡(luò)和電子商務(wù)快速發(fā)展的今天,企業(yè)的數(shù)據(jù)庫中存儲(chǔ)了大量的商業(yè)信息,電子商務(wù)企業(yè)要想盈利,在競(jìng)爭(zhēng)中立于不敗之地,就必須對(duì)自己的客戶深入了解,挖掘客戶的潛在的價(jià)值,從而制定相應(yīng)的營(yíng)銷策略。本文采用K-Means方法對(duì)某電子商務(wù)網(wǎng)站的客戶細(xì)分,運(yùn)用SPSS軟件,最終取得了可行性的結(jié)果,為企業(yè)做出合理的決策提供了有力的幫助。