91精品人妻互换日韩精品久久影视|又粗又大的网站激情文学制服91|亚州A∨无码片中文字慕鲁丝片区|jizz中国无码91麻豆精品福利|午夜成人AA婷婷五月天精品|素人AV在线国产高清不卡片|尤物精品视频影院91日韩|亚洲精品18国产精品闷骚

您當前位置:首頁 > 新聞頻道 > 技術動態(tài) > 正文
淺析Web日志挖掘

摘要:Web資源不斷豐富的同時,Web站點的結(jié)構(gòu)也將變得越來越復雜,給用戶查找信息和網(wǎng)站設計人員的工作帶來了一定困難,傳統(tǒng)的Web站點缺乏智能性和主動性,因此需要對Web站點進行優(yōu)化以提供智能的Web服務,如個性化服務、自適應站點等,滿足不同用戶的信息需求,使用戶快速找到所需信息。Web日志挖掘能夠有效地發(fā)現(xiàn)用戶的訪問行為,為站點的建設和改進提供有力依據(jù),實現(xiàn)Web站點的智能化,從而解決上述問題。從Web發(fā)展所帶來的問題、Web日志挖掘的應用以及Web日志挖掘模式發(fā)現(xiàn)這三個方面展開對Web日志挖掘的探析。
論文關鍵詞:Web挖掘,Web日志挖掘
  Web起源于20世紀80年代,由位于瑞士的歐洲量子物理實驗室CERN(the European Laboratory for Particle Physics)所發(fā)展出來的一種主從結(jié)構(gòu)分布式超媒體系統(tǒng)。到20世紀90年代,Web技術有了突破性的進展,從此迅速成長為全球范圍內(nèi)的信息寶庫,成為當今信息時代人們獲取信息的一個重要途徑。如何從海量的Web數(shù)據(jù)中找到潛在的、有用的知識,以幫助用戶更快地獲取自己所需要的信息是一個新的挑戰(zhàn),將數(shù)據(jù)挖掘技術應用到Web日志可以有效地解決問題,這就是Web日志挖掘。Web日志挖掘是Web挖掘的一個重要分支。
  2. Web挖掘簡介
  Web挖掘是結(jié)合了Web和數(shù)據(jù)挖掘的一種技術,是數(shù)據(jù)挖掘技術在Web上的應用,它的出現(xiàn)使得從海量的Web信息中抽取潛在的、有用的模式和知識成為可能。因此,在已有的KDD (Knowledge Discovery in Database,數(shù)據(jù)庫中的知識發(fā)現(xiàn))方法和技術已不能滿足人們從Web中獲取知識的需要的情況下,O.Etzioni于1996年最早提出Web挖掘這個概念。
  Web挖掘
  圖1 Web挖掘的分類
  Web挖掘不同于傳統(tǒng)的數(shù)據(jù)挖掘,它比傳統(tǒng)的數(shù)據(jù)挖掘復雜和困難,要用到更多的有別于傳統(tǒng)數(shù)據(jù)挖掘的技術和方法,對傳統(tǒng)的挖掘方法進行擴展和改進,將其應用到Web信息上進行挖掘,得到有用的知識。Web信息是Web挖掘的數(shù)據(jù)來源,典型的Web信息包括:Web頁面、Web結(jié)構(gòu)、Web日志。Web挖掘相
  應地分為三大類[1]:Web內(nèi)容挖掘(Web Content Mining)、Web結(jié)構(gòu)挖掘(Web Structure Mining)和Web使用挖掘(Web Usage Mining,Web日志挖掘),如圖1所示。
  3 Web日志挖掘探析
  3.1 Web發(fā)展帶來的問題及解決方法
  Web作為一個巨大的信息服務中心,為用戶提供了大量而豐富的信息資源,是人們生活中不可缺少的最重要的信息獲取手段。然而,Web資源不斷豐富的同時,Web站點的結(jié)構(gòu)也將變得越來越復雜,從而會出現(xiàn)以下問題:(1)面對復雜的Web站點,用戶想快速地獲得自己所需要的資源比較費勁,甚至不知道從何下手。(2)傳統(tǒng)的Web服務缺乏智能性,只是為人們提供資源,對所有的用戶一視同仁,不能針對不同的用戶提供不同的服務,不能根據(jù)用戶的興趣為用戶尋找到他們所需要的信息等。(3)Web站點的經(jīng)營和管理者的設計工作變得困難,為了提高網(wǎng)站的聲譽和效益以吸引更多的用戶,他們會竭盡全力對站點進行合理的設計或改進,來優(yōu)化站點。
  這些問題使得用戶對Web服務提出了更高的要求。提供高質(zhì)量的Web服務的一個重要前提就是需要了解用戶的訪問行為,然后根據(jù)用戶訪問行為來推薦和提供服務,滿足不同層次、不同愛好的用戶的信息需求。了解用戶的訪問行為特性對提高Web站點的服務質(zhì)量尤其重要。但由于一個Web站點有大量的用戶對其進行訪問,而這些用戶又分布在世界各個不同的地區(qū),直接去找用戶了解他們的興趣和特性不切實際,能夠有效地反應用戶訪問Web站點行為的一種數(shù)據(jù)就是Web日志,它具有以下特點:(1)Web日志是一種大規(guī)模的數(shù)據(jù),每個網(wǎng)站每天隨時都會有大量的不同的用戶進行訪問,Web日志隨著時間的推移,數(shù)據(jù)會變得非常龐大。(2)Web日志具有豐富的內(nèi)涵,記錄了用戶的行為,包含決策可用的信息,是網(wǎng)站設計者和用戶進行溝通的橋梁。
  傳統(tǒng)的數(shù)據(jù)庫技術對Web日志進行處理沒有多大意義,因為不需要進行簡單的查詢或存取操作,真正需要的是對Web日志數(shù)據(jù)進行深層次的處理,把這些數(shù)據(jù)轉(zhuǎn)換成有用的信息,從中獲取隱藏在Web日志背后的知識。通過數(shù)據(jù)挖掘的方法對Web日志進行分析和處理,發(fā)現(xiàn)有關用戶訪問站點行為的知識,這就是Web日志挖掘;赪eb日志的特點,可以看出Web日志是一種良好的數(shù)據(jù)挖掘?qū)ο螅瑢λM行挖掘可以解決Web發(fā)展所帶來的問題,Web日志挖掘的產(chǎn)生成為必然。
  3.2 Web日志挖掘的應用
  Web日志挖掘可以完成兩類任務:統(tǒng)計分析和智能分析。統(tǒng)計分析包括流量分析、廣告分析、網(wǎng)站出入口分析、用戶來源分析以及瀏覽器和平臺分析等。智能分析是進行深層次的數(shù)據(jù)分析,通過數(shù)據(jù)挖掘的模式發(fā)現(xiàn)階段來實現(xiàn),是具有重要意義的一類。
  Web日志挖掘得到的知識稱為用戶訪問模式,這些模式有著廣闊的應用:(1)改進Web服務器的性能。通過Web日志挖掘,可以提供網(wǎng)站服務效率全方位的信息,提高系統(tǒng)效率和服務質(zhì)量,包括分析網(wǎng)站流量,發(fā)現(xiàn)系統(tǒng)性能瓶頸,找到平衡服務器負荷,優(yōu)化傳輸,減少擁塞,縮短用戶等待時間。(2)優(yōu)化Web站點的結(jié)構(gòu)。站點結(jié)構(gòu)描述了某Web站點的頁面以及頁面之間的關系。通常Web服務方主要根據(jù)自己的領域知識設計Web頁面的結(jié)構(gòu),而Web站點主要是為用戶提供服務,滿足用戶的需要。那么服務方的結(jié)構(gòu)設計是否合理?是否能夠吸引更多的用戶?這些問題的出現(xiàn)要根據(jù)用戶需要對站點進行改進,優(yōu)化站點。(3)實現(xiàn)Web個性化服務和自適應站點。目前Web系統(tǒng)為所有用戶提供相同的服務,其典型的服務方式是通過建立一個Web站點來向所有用戶發(fā)布相同的信息。然而用戶的需求千差萬別,因此,用戶希望Web系統(tǒng)能夠根據(jù)他們特性的不同提供個性化的服務。Web個性化實質(zhì)上就是一種以用戶需求為中心的Web服務。利用序列模式、頻繁訪問路徑等方法對站點訪問者的行為進行預測和聚類,為他們提供具有類似瀏覽模式的用戶群體的個性化服務,更好地滿足用戶的需求。自適應站點是指能根據(jù)用戶的訪問模式自動學習和調(diào)整自身組織架構(gòu)的網(wǎng)站。通過觀察用戶的訪問模式自動改進站點的結(jié)構(gòu)和表現(xiàn)形式,以反映用戶的興趣所在。(4)商業(yè)智能發(fā)現(xiàn)。Web數(shù)據(jù)的商業(yè)智能發(fā)現(xiàn)是將數(shù)據(jù)挖掘技術應用到電子商務以發(fā)現(xiàn)有商業(yè)價值的決策知識。通過加工處理涉及消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣和消費需求,進而推斷出他們下一步的消費行為,然后以此為基礎,對所識別出來的消費群體進行特定內(nèi)容的定向營銷,這與傳統(tǒng)的不區(qū)分消費者對象特征的大規(guī)模營銷手段相比,大大節(jié)省了營銷成本,提高了營銷效果,從而為企業(yè)帶來更多的利潤。(5)網(wǎng)絡安全。分析網(wǎng)上銀行、網(wǎng)上商品交易用戶日志,可以防范黑客攻擊、惡意詐騙。(6)網(wǎng)站評估。Web日志挖掘可以獲取用戶對網(wǎng)站使用情況的第一手資料,為網(wǎng)站評估提供依據(jù)。
  3.2 Web日志挖掘模式發(fā)現(xiàn)
  Web日志詳細地記錄了用戶訪問站點的情況,反映出用戶訪問Web站點的信息,包括每個用戶的訪問行為,代表了每個用戶的個性,經(jīng)過處理后,從中提取一些特性,具有非常豐富的內(nèi)涵。Web日志挖掘通過分析Web日志文件發(fā)現(xiàn)用戶訪問站點的模式,其過程包括數(shù)據(jù)預處理、模式發(fā)現(xiàn)、模式分析,如圖2。數(shù)據(jù)預處理是根據(jù)挖掘的目的,對原始Web日志文件中的數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、用戶識別、會話識別以及路徑補充等,轉(zhuǎn)化為適合進行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存到關系型數(shù)據(jù)庫表或數(shù)據(jù)倉庫中,生成事務數(shù)據(jù)庫。模式發(fā)現(xiàn)是指運用各種挖掘算法對處理后的數(shù)據(jù)進行挖掘,生成用戶訪問模式,生成模式庫。模式分析是對模式庫中的用戶訪問模式進行分析,將有價值的模式提取出來,作為站點建設和改進的依據(jù)或其他應用。Web日志挖掘的研究主要是數(shù)據(jù)預處理和模式發(fā)現(xiàn)。
  Web日志挖掘圖2 Web日志挖掘模型
  模式發(fā)現(xiàn)是Web日志挖掘的核心,通過對Web日志進行有效的挖掘,可以發(fā)現(xiàn)用戶訪問頁面的特征、規(guī)律,獲得更深層次的用戶訪問信息,即用戶訪問模式,包括關聯(lián)規(guī)則、用戶分類和聚類、頁面聚類、序列模式、頻繁訪問路徑等,這些模式反映了用戶訪問Web站點的興趣、行為,可以作為站點設計者改善Web服務,提供高質(zhì)量的Web服務的有力依據(jù)。挖掘出的模式以及統(tǒng)計分析的結(jié)果有著廣闊的應用,如3.2節(jié)所述。因此Web日志挖掘的模式發(fā)現(xiàn)這一過程非常重要。
  Web日志模式發(fā)現(xiàn)的研究主要是針對不同挖掘任務研究各種模式發(fā)現(xiàn)算法。文獻[2]研究了Web日志的關聯(lián)規(guī)則挖掘,文獻[3]首先提出路徑遍歷模式發(fā)現(xiàn)算法,文獻[4]都是基于訪問路徑樹的頻繁訪問路徑挖掘,文獻[5]研究了基于傳統(tǒng)的數(shù)據(jù)挖掘算法的序列模式挖掘。文獻[4]中提出的CAP算法用于發(fā)現(xiàn)大多數(shù)客戶按某種頁面訪問順序來訪問一個網(wǎng)站,從而發(fā)現(xiàn)用戶的頻繁訪問路徑這種行為模式。其思想[4]是,首先構(gòu)造一棵在數(shù)據(jù)結(jié)構(gòu)上類似于FP-樹的WAP-樹,WAP-樹用來壓縮存儲Web事務數(shù)據(jù)庫WTDB,然后為每一個支持度計數(shù)大于最小支持度計數(shù)的頁面創(chuàng)建HAP-樹,最后在HAP-樹上挖掘頻繁訪問路徑。步驟如下:
  輸入:WTDB和
  輸出:-頻繁訪問路徑
  步1 掃描WTDB,用算法Make-WAP-Tree[4]構(gòu)造WAP-樹;
  步2 將WAP-樹的頭表中每一個支持度計數(shù)大于的頁面記入集合L1,且按支持度計數(shù)升序排序,對于L1中的每一個頁面只Pi:(1)用算法Make-HAP-Tree為頁面P創(chuàng)建HAP-樹。(2)用算法FPath-Output輸出以頁面Pi打頭的頻繁訪問路徑及其支持度。
  從算法的輸入知,當增加一批新的日志數(shù)據(jù)構(gòu)成WTDB,又需要重新掃描整個WTDB來產(chǎn)生新的用戶訪問模式,或者是當最小支持計數(shù)改變的時候,又需要重新掃面WTDB,不能在原有挖掘結(jié)果的基礎上進行更新來得到新的知識,即不能有效地解決增量問題。當數(shù)據(jù)庫更新后或其它情況發(fā)生變化時,為了得到新的模式,只能對整個新數(shù)據(jù)庫重新掃描,重新運用一次挖掘算法,這種做法有明顯的不合理之處:第一,重新掃描數(shù)據(jù)庫會浪費大量時間;第二,上一次挖掘得到的一些有用信息不能被再次利用。
  在越來越多的應用領域中,數(shù)據(jù)庫處在更新中,即隨著時間的推移,數(shù)據(jù)庫規(guī)模會不斷增加,或者需要對最小支持計數(shù)進行調(diào)整針對不同情況找到感興趣的模式,采用傳統(tǒng)挖掘算法,效率會越來越低,因此,如何針對動態(tài)數(shù)據(jù)庫或最小支持計數(shù)改變的條件下挖掘模式具有更重要的實際意義,這就出現(xiàn)了增量挖掘,用以提高挖掘效率。
  增量挖掘是指針對動態(tài)變化的數(shù)據(jù)庫或當某些情況發(fā)生變化時,并不需要重新掃描整個數(shù)據(jù)庫,而是在原來挖掘結(jié)果的基礎上,僅作由新情況所引起的更新。增量挖掘可以使模式庫庫處于動態(tài)更新的狀態(tài),既具有動態(tài)的學習能力,又有相對較優(yōu)的時間特性。如關聯(lián)規(guī)則的增量挖掘包括以下幾種情況:(1)最小支持計數(shù)不變,數(shù)據(jù)庫隨時間不斷變化。FUP(stands for Fast Update)算法[6]用于這種情況的增量挖掘,解決當一個新增數(shù)據(jù)集添加到原始數(shù)據(jù)庫中時關聯(lián)規(guī)則的更新,基于Apriori思想實現(xiàn)。(2)數(shù)據(jù)庫不變,調(diào)整最小支持計數(shù);贔P-tree的FIUA(Fast Incremental Updating Algorithm)[7]是解決這一類問題的關聯(lián)規(guī)則的增量更新算法。(3)數(shù)據(jù)庫和最小支持計數(shù)都變化。這種增量挖掘算法相對來說較少。但最具有實際意義。
  在Web日志挖掘中,Web日志隨時間不斷增加,用戶對Web站點的訪問不受時間限制而且用戶數(shù)量非常大,使得Web服務器不斷產(chǎn)生新的日志記錄,要全面了解用戶的訪問行為必須需要充分利用已有的挖掘結(jié)果,將已知模式作為基礎,對針對新的日志進行分析得到新的用戶訪問模式,摒棄失效的模式,從而得到實時更新后的用戶訪問模式,以進行智能Web服務所需的模式庫的更新。因此,增量挖掘?qū)τ赪eb日志挖掘模式庫的更新具有更重要的意義,可以引入其他技術來實現(xiàn)針對數(shù)據(jù)庫和最小支持計數(shù)都變化情況下的增量挖掘,這也是下一步需要繼續(xù)探索和研究的問題。
  4. 總結(jié)
  對Web日志挖掘進行了較深入的探析,分析了Web發(fā)展所帶來的問題、Web日志挖掘的應用領域,對Web日志挖掘模式發(fā)現(xiàn)進行了探析,分析了傳統(tǒng)模式發(fā)現(xiàn)算法無法滿足增量更新問題和已有增量算法的不足,結(jié)合Web日志的特點,探討Web日志增量挖掘的重要性。下一步工作,進一步研究和實現(xiàn)Web日志增量挖掘問題。

參考文獻:
[1] Madria S K,Bhowmick S S,Ng W K and Lim E P. Research Issues in Web data Mining[J]. Lecture
Notes in Computer Science,1999,1676:303~312.
[2] 陳敏,歐陽一鳴,劉紅櫻. Web挖掘中基于RD_Apriori算法發(fā)現(xiàn)用戶頻繁訪問模式[J]. 微電子學與
計算機,2005,22(5):4~7.
[3] Chen M S,Pads J S,Yu P S. Efficient Data Mining for Path Patterns [J].IEEE Trans.on Knowledge
and Data Engineering,1998,10(2):209~221
[4] 戰(zhàn)立強,劉大昕. 一種在連續(xù)MFR中快速挖掘頻繁訪問路徑的新算法[J]. 計算機工程與應用,2005,
9:180~182.
[5] 李明星,衡萍. Web日志挖掘中的用戶序列模式識別[J]. 哈爾濱工業(yè)大學學報,2005,37(11):
1570~1573.
[6] David W Cheung,J Han,Ng V T,Wong C Y. Maintenance of discovered association rules in Large
database:An incremental updating technique [R]. In Proc.12th Int. Conf.On data engineering,
NEW Orleans,Louisiana, IEEE Computer Society,1996.
[7] 朱玉全,孫志揮,季小俊. 基于頻繁模式樹的關聯(lián)規(guī)則增量式更新算法[J].計算機學報,2003,26(1):
91-96.

關鍵字:通訊
About Us - 關于我們 - 服務列表 - 付費指導 - 媒體合作 - 廣告服務 - 版權(quán)聲明 - 聯(lián)系我們 - 網(wǎng)站地圖 - 常見問題 - 友情鏈接
Copyright©2014安裝信息網(wǎng) m.78375555.com. All rights reserved.
服務熱線:4000-293-296 聯(lián)系電話:0371-61311617 傳真:0371-55611201 QQ: 郵箱:zgazxxw@126.com 豫ICP備18030500號-4
未經(jīng)過本站允許,請勿將本站內(nèi)容傳播或復制
安全聯(lián)盟認證