相關(guān)鏈接: 中國安全網(wǎng) 中國質(zhì)量網(wǎng) 中國論文網(wǎng) 中國資訊網(wǎng)
作者:鄭曉蒙
由于微博的使用方便、互動性強等特點,它不僅成為人們被動接收信息的主要渠道,更成為人們主動分享信息、暢所欲言的平臺。以新浪微博為例,截止2014年9月,新浪微博日活躍用戶達到7660萬人,月活躍用戶達到1.67億人。微博用戶基數(shù)大,用戶活躍度高,每天都會有大量新的數(shù)據(jù)產(chǎn)生。對微博數(shù)據(jù)進行分析,主要有以下幾個特點:
1)手機等移動設(shè)備的普及,使得只要設(shè)備能接入網(wǎng)絡(luò),人們可隨時隨地地發(fā)微博,因此微博的實時性強,消息傳播迅速。
2)受140個字符的字數(shù)限制,微博文本較短,信息碎片化,單條微博攜帶信息量較少。
3)大量營銷賬號、僵尸粉絲的存在,使得微博上噪聲數(shù)據(jù)增多。
4)微博中有豐富的表情符號,包含較多的情感信息。
5)用戶基數(shù)大,活躍度高,導致微博數(shù)據(jù)產(chǎn)生速度快,數(shù)據(jù)量大。
6)用戶可以關(guān)注他人,也可以被關(guān)注,通過關(guān)注與被關(guān)注的行為,用戶建立起各自的社交網(wǎng)絡(luò),用戶數(shù)據(jù)具有豐富的社交信息。
微博數(shù)據(jù)的以上特點與傳統(tǒng)長文本的規(guī)范性強、信息豐富等特點相比,存在很大區(qū)別,因此傳統(tǒng)的話題檢測方法并不完全適合于微博上的話題發(fā)現(xiàn)。本文從時間的維度出發(fā),對不同時域上的微博集合進行關(guān)鍵詞提取,提出一種基于間語能量值變化的微博熱點話題檢測方法。本文的貢獻包括以下幾點:
1)介紹了一些與話題檢測等相關(guān)的工作。
2)提出了基于詞語能量值變化的關(guān)鍵詞檢測方法。
3)對單條件概率的上下文相似度模型進行改進。
4)用實驗證明了本文方法的有效性以及改進E下文相似度模型之后聚類效果的提升。
1相關(guān)工作
1.1話題的檢測與跟蹤
話題的檢測與跟蹤( TDT)起源于1996年美國政府贊助的項目之一,該項目主要以新聞流為研究對象,關(guān)注的重點在于話題的發(fā)現(xiàn)和跟蹤算法的創(chuàng)新,包括5個任務(wù):對新聞廣播類報道進行切分、對已有話題進行后續(xù)跟蹤、對未知話題進行檢測、對未知話題的第一次相關(guān)報道進行檢測以及對報道之間的關(guān)聯(lián)性進行檢測。TDT經(jīng)過十多年的高速發(fā)展,已經(jīng)有了一系列成熟的理論,包括LDA話題發(fā)現(xiàn)模型、隱馬爾可夫話題預測跟蹤模型、話題生命周期的老化理論等。在新的應(yīng)用背景下,基于話題檢測的研究對象不再僅限于TDT的評測語料,而是拓寬到了普通網(wǎng)頁的新聞流、博客、論壇、郵件等實際應(yīng)用中。微博平臺上的熱點話題發(fā)現(xiàn)就是TDT技術(shù)在實際生活中的一個應(yīng)用,但傳統(tǒng)的TDT技術(shù)并不完全適用于微博平臺上的熱點話題發(fā)現(xiàn)。
1.2微博熱點話題發(fā)現(xiàn)
微博的文本信息雖短,但其具備的社交性、實時性、情感豐富性等特點使得研究者能從不同的角度去研究微博上的熱點話題發(fā)現(xiàn)。從微博的社交性出發(fā),Weng J等人基于PageRank算法的思想,結(jié)合用戶之間參與話題的相似性和用戶的互粉關(guān)系,在twitl.er上發(fā)現(xiàn)對敏感話題具有較大影響力的用戶;Du Y和He Y I7 J等人先對用戶權(quán)威度進行評價,利用用戶權(quán)威度重新定義文本權(quán)重,結(jié)合一種無監(jiān)督的聚類算法來發(fā)現(xiàn)熱點話題。從時間的角度出發(fā),莊婷婷等人提出一種時間情境依賴的話題抽取方法,薛素芝等人提出一種基于速度增長的題發(fā)現(xiàn)算法,這兩種算法的本質(zhì)都是通過研究單位時間內(nèi)詞語的增長速度來發(fā)現(xiàn)熱點話題,實驗證實了算法的有效性,但只以詞語增長速度來判斷一個詞是否為主題詞,評判依據(jù)過于單一;鄭斐然等人提出一種增量式的算法,引入詞語的增長系數(shù)來發(fā)現(xiàn)微博中的新聞主題詞。從情感分析的角度出發(fā),方然等人基于負面情感的詞語往往具有更大的信息熵這一論點,對鄭斐然提出的方法進行改進,通過加大含有負面情感的短文本在話題檢測中的權(quán)重,提高聚類的查全率;A kcora等人對tweets中的情感詞匯進行分析建模,提出Emotion Centroid( EC)和Set Space Model( SSM)兩種方法來分析twitte。平臺上的熱點話題;楊亮等人提出情感分布語言模型( ELM),通過分析相鄰時間段的情感分布情況差異來發(fā)現(xiàn)熱點,該方法能較為準確地檢測出熱點事件發(fā)生的時間段,但是對同一時間段內(nèi)不同熱點事件的區(qū)分較為模糊,當微博文本集中情感詞比重較低時,實驗結(jié)果波動較大。
2關(guān)鍵技術(shù)
熱點話題發(fā)現(xiàn)的研究方法主要分為兩種,一種是先對全部的文本集進行聚類,再對聚類的結(jié)果進行關(guān)鍵詞提取,這種方法比較適用于傳統(tǒng)的長文本集的熱點話題發(fā)現(xiàn);另外一種是先對文本集進行關(guān)鍵詞檢測,再對檢測得到的關(guān)鍵詞集進行聚類,從而發(fā)現(xiàn)熱點話題。由于微博的字數(shù)限制和個人的文字表述習慣差異大,使得由微博組成的文本向量集非常稀疏,且微博用詞不規(guī)范,導致噪聲數(shù)據(jù)多,因此先檢測關(guān)鍵詞后聚類的研究方法更適用于微博平臺的熱點話題發(fā)現(xiàn)。本文采用先檢測后聚類的研究方法,通過研究不同時域上詞語的能量值變化來發(fā)現(xiàn)微博熱點話題,主要包括微博預處理、關(guān)鍵詞檢測、關(guān)鍵詞聚類3個過程。本節(jié)詳細介紹這3個過程中用到的關(guān)鍵技術(shù)。
2.1微博預處理
2.1.1微博的去噪處理
從微博上采集的數(shù)據(jù)包含了非常多的噪聲數(shù)據(jù),這些噪聲數(shù)據(jù)的存在會直接影響整個算法的性能。本文通過分析采集到的微博數(shù)據(jù),統(tǒng)計了噪聲數(shù)據(jù)的特征,制定了一些去除噪聲數(shù)據(jù)的規(guī)則,按照這些規(guī)則對微博數(shù)據(jù)進行過濾。具體的規(guī)則包括:
1)從文本的角度分析,對文本內(nèi)容中一些特殊符號、外國文字、網(wǎng)頁鏈接、固定但沒有實質(zhì)意義的文字進行過濾。
2)從用戶的角度分析,過濾掉粉絲人數(shù)很少且遠遠小于關(guān)注人數(shù)的用戶所發(fā)的微博。因為這些用戶主要是營銷賬號或僵尸用戶,,他們所發(fā)的微博基本都是廣告營銷的內(nèi)容,這些內(nèi)容在數(shù)據(jù)中占了一定的比例,沒有現(xiàn)實意義,對話題聚類造成很大干擾。
2.1.2微博的窗口劃分
實時性強是微博文本的一大特點,也是微博文本與傳統(tǒng)靜態(tài)文本的主要區(qū)別之一。本文以這個角度作為切入點,檢測不同時域上熱點話題的關(guān)鍵詞。首先根據(jù)每一條微博所帶的時間標簽,對微博文本按照時間的前后順序進行排序;接著按照每個窗口存放Ⅳ條微博的原則,對所有微博文本進行窗口劃分,具體表示如下:
其中,Window,表示第i個微博窗口,Text表示窗口內(nèi)的第.Ⅳ條微博。
2.2關(guān)鍵詞檢測
2.2.1分詞處理
中文文本不同于英文文本,英文文本詞與詞之間有空格隔開。因此對中文文本分析的第一步是要對文本進行分詞處理。分詞是一個復雜而重要的過程,分詞質(zhì)量的好壞直接影響話題聚類結(jié)果。本文采用中國科學院開發(fā)的NIPIR/ICTCLAS分詞系統(tǒng),該系統(tǒng)分詞效果較好,不但具有較高的分詞速度和分詞精度,而且還能夠進行諸如人名、地名、組織機構(gòu)名等命名實體的識別。此外,還能對每個詞進行詞性標注,并支持用戶詞典等功能。微博中不同詞性的詞語對文本主題表達的貢獻程度不一樣。本文對每條微博中的動詞、名詞和命名實體進行提取。分詞之后的每條微博可以被表示成一個向量,具體表示如下:
其中,Text,表示第i條微博,wordi,。表示第i條微博的第n個詞。
2.2.2詞語的綜合能量
根據(jù)主題生命周期模型,一個話題的生命周期就像人的生命一樣,會經(jīng)歷話題形成、話題持續(xù)、話題衰退、話題消失4個過程。本文引入詞語的能量值來刻畫一個詞語在當前窗口內(nèi)的重要程度。當一個話題被持續(xù)討論時,相關(guān)詞語具有較高的能量值;當這個話題逐漸衰退時,相關(guān)詞語的能量值就逐漸減小。
在物理學中,當一個物體受到與速度同方向的合外力越大時,這個物體的加速度越大,則物體的速度增長得就越快,所具有的動能也越大。在這種理論的啟發(fā)下,本文引入了詞語的加速度概念,通過研究詞語在不同窗口之間速度的變化情況來檢測關(guān)鍵詞。首先計算詞語在窗口中的速度w_V:
其中,w-哆表示詞語w在第/個窗口的速度;T[j”表示詞語w在第/個窗口的詞頻;Tj_.nrs,表示第/個窗口內(nèi)的第一條微博的時間;乃k,,表示第j個窗口內(nèi)的最后一條微博的時間;Tj表示第/個窗口的時間長度,即窗口內(nèi)最后一條微博與第一條微博的時間之差。
接著計算詞語在相鄰窗口之間速度的變化情況,即詞語的加速度:
其中,w 4,表示詞語w在第j個窗口的加速度;表示第j個窗口的中間時刻點;
表示第j-l個窗口的中間時刻點;
表示第,個窗口與第j-l個窗口的時間間隔,即相鄰兩個窗口的中間時刻點之差。當一個熱點話題處于話題形成階段時,相關(guān)詞語的加速度能夠很好地反映出詞語速度的變化情況。而當一個熱點話題處于話題持續(xù)階段時,相鄰窗口內(nèi)相關(guān)詞語速度的變化情況可能就不明顯,但是相關(guān)詞語在本窗口內(nèi)的出現(xiàn)次數(shù)會處于一個相對高頻的狀態(tài)。因此,本文除了考慮詞語的加速度之外,同時也將詞語在窗口中的權(quán)重值作為詞語能量值的一部分。在2.2.1節(jié)中,本文把每條微博表示成一個向量,現(xiàn)采用文獻[16]中一種文本權(quán)重表示方法對向量中的每一個詞語進行權(quán)重表示:
其中,w‘表示詞語w在單條微博中的權(quán)重,Tf‘表示詞語w在該條微博中的詞頻,表示該條微博中的最高詞頻。
分析單條微博文本時,由于字數(shù)限制,使用者需要在規(guī)定的字數(shù)內(nèi)盡量表達出自己要傳遞的信息,因此在分詞處理后,保留下來的大部分詞語都具有較高的信息量,特別是單條微博中出現(xiàn)的高頻詞語在很大概率上都是事件五要素( SW)之一:何時(when)、何地(where)、何事(what)、何因(why)、何人(who)。因此本文采用公式(5)所示的權(quán)重計算方法,對單條微博的分詞結(jié)果進行合理的權(quán)重表示。
對單條微博內(nèi)的詞語進行權(quán)重表示后,接著要計算詞語在窗口內(nèi)的總權(quán)重,即本窗口中所有出現(xiàn)了該詞語的微博中該詞語的權(quán)重之和:
其中,w_Sumj表示詞語w在第/個窗口內(nèi)的總權(quán)重,L表示該窗口內(nèi)包含了詞語w的微博集合,瓦,;表示該窗口內(nèi)包含了詞語w的第i條微博,w/表示詞語w在微博瓦,,中的權(quán)重。
綜合考慮窗口內(nèi)詞語的加速度和權(quán)重值,本文構(gòu)造了一個復合權(quán)值表示詞語在窗口內(nèi)的綜合能量值,具體的計算公式如下:
其中,Energyj表示第/個窗口中詞語w的綜合能量值。“為比重調(diào)整參數(shù),當n較大時,詞語加速度占主導作用;當n較小時,詞語的總權(quán)重占主導作用。y為數(shù)量級調(diào)整參數(shù)。因為詞語的加速度與權(quán)重值不在同一個數(shù)量級上,為了防止詞語的加速度因數(shù)值過小而被詞語的總權(quán)重完全弱化掉,故利用參數(shù)y進行調(diào)整。
詞語的Energy越大,表示該詞語的綜合能量值越高,則該詞語越有可能是熱點話題的關(guān)鍵詞。本文對窗口內(nèi)的所有詞語的綜合能量值從大到小進行排序,取每個微博窗口中的前k個詞語作為本窗口的關(guān)鍵詞。
2.3關(guān)鍵詞聚類
2.3.1相似度計算
檢測出每個窗口的關(guān)鍵詞之后,通過對關(guān)鍵詞進行聚類可以獲得熱點話題。為了判斷兩個詞語是否屬于同一個話題,需要對詞語之間的相似度進行判斷。詞義近似的理論認為,兩個詞語的詞義越相近,這兩個詞語的相似度越大;反之,則相似度越小。但這種理論并不適合先檢測關(guān)鍵詞后聚類的話題發(fā)現(xiàn)方法。例如,“斯諾登棱鏡事件”這個話題中,“斯諾登”、“棱鏡”、“登月”、“美國”這幾個詞語的詞義幾乎不相近,但是它們都是該話題的關(guān)鍵詞。因此,本文采用基于上下文的詞義相似度和文檔分布相似度相結(jié)合的方法來判斷兩個詞語之間的相似度。當兩個詞語屬于同一個熱點話題時,可以做出這樣的假設(shè):
1)這兩個詞語在同一條微博中一起出現(xiàn)的概率較高。
2)這兩個詞語在微博文本集中的文檔分布相似度較高。
基于以上兩個假設(shè),本文采用詞語的條件概率和文檔重疊率來判斷兩個詞語是否屬于同一個話題。首先引入兩個詞語的條件概率:
其中,P(w:lw,)表示在詞語w,出現(xiàn)的前提下,詞語w.出現(xiàn)的概率,F(xiàn)(w,,W/)表示詞語w,和詞語w,-起出現(xiàn)的微博條數(shù),F(xiàn)(w,)表示詞語wj出現(xiàn)的微博條數(shù)。條件概率并不具有對稱性,即P(w。1 w力≠P(w/lw:)。例如,上文提到的“斯諾登棱鏡事件”中,“棱鏡”在“登月”先出現(xiàn)的條件下出現(xiàn)的概率與“登月”在“棱鏡”先出現(xiàn)的條件下出現(xiàn)的概率不一定相同。文獻【10]中也采用條件概率來判斷兩個詞語的相似度,但其采用的單條件概率模型只考慮在詞語wj先出現(xiàn)的前提下,詞語w,出現(xiàn)的概率,沒有考慮在詞語w,先出現(xiàn)的前提下,詞語w,出現(xiàn)的概率。為了更好地衡量兩個詞語的相似度,本文綜合這兩種情況,采用雙條件概率模型來表示兩個詞語在同一條微博中一起出現(xiàn)的概率,具體計算公式為:
當話題4和話題B擁有同一個關(guān)鍵詞w。時,w,與A的關(guān)鍵詞集和B的關(guān)鍵詞集都有較高的相似度,那么僅僅采用條件概率作為相似度的判斷條件則很有可能把A和B聚類為同一個話題,從而出現(xiàn)話題混淆的情況。為了解決這個問題,本文引入Jaccard系數(shù)來衡量兩個詞語的文檔重疊率。Jaccard系數(shù)也是一種常用的相似度計算方法,它主要用來衡量兩個樣本集之間的相似性和分散性。Jaccard系數(shù)的具體計算公式為:
其中,J(w,,W/)表示兩個詞語的文檔重疊率,M表示包含了詞語w,的微博集合,M表示包含了詞語w『的微博集合。
因此,基于上面提到的兩個假設(shè),本文定義兩個詞語的相似度計算公式如下:
其中,Sim_PJ(w,,wj)表示兩個詞語之間的相似度;∥為調(diào)節(jié)參數(shù),用來調(diào)節(jié)詞語的條件概率和文檔重疊率的比重。
本文把用單條件概率模型P(wjlw,)表示的相似度記為Sim i,把用單條件概率模型P(w。lw,)表示的相似度記為Simj,把用雙條件概率模型P(w.,Wj)表示的相似度記為Sim_ij。
2.3.2增量式聚類
本文采用文獻[10]中提到的增量式聚類算法對關(guān)鍵詞集進行聚類,得到熱點話題。
輸入:帶有能量值的關(guān)鍵詞集。
輸出:熱點話題集。
1)根據(jù)關(guān)鍵詞的能量值大小對關(guān)鍵詞進行降序排列;
2)選取第一個關(guān)鍵詞作為初始話題。
3)計算下一個關(guān)鍵詞w,與每一個已有話題的距離。
4)若w.與已有話題的最近距離大于閾值D,則該詞成為一個新的話題;否則,把w,加入到離它最近距離的話題中。
5)重復步驟3和步驟4),直至所有的關(guān)鍵詞處理完畢。
6)輸出熱點話題集。
以上聚類過程中需要計算關(guān)鍵詞與已有話題的距離。
2.3.1節(jié)已經(jīng)介紹了兩個詞語的相似度計算方法,這里取兩個詞語的相似度的倒數(shù)作為兩個詞語之間的距離。兩個詞語的相似度越高,它們之間的距離就越短;反之,距離就越長。
詞語w,與話題S的距離計算公式如下:
公式( 12)中,d(w,,S)表示詞語w;到話題S的距離,max{S/m(w,,w)lw∈S}>O表示詞語w:與話題S包含的所有詞語的相似度的最大值。根據(jù)公式( 12),若話題S中存在詞語w,它與w.的距離最近,并且小于閾值D,則把w,加入話題S中。
3實驗及分析
3z.1實驗語料
本文的實驗語料來自于新浪微博平臺,采集了2013年8月9日至2013年8月25日期間的部分微博數(shù)據(jù)。對數(shù)據(jù)進行去噪處理后,剩下32562條微博數(shù)據(jù)用于本文實驗。人工標注該數(shù)據(jù)集的主要熱點話題,包括“臺風尤特登陸”、“北京樓頂蓋別墅”、“8-16光大證券烏龍指”、“世錦賽林丹李宗偉大戰(zhàn)”等。
3.2評價指標
召回率(R)、準確率(P)和綜合評價指標(Fl值)是話題檢測中常用的3個評價指標,用來評價話題檢測算法的質(zhì)量好壞。本文采用這3個評價指標來衡量本文提出的熱點話題檢測方法的檢測效果。本文采用的這3個指標的具體計算公式如下:
3.3實驗設(shè)計及結(jié)果分析
3.3.1關(guān)鍵詞聚類結(jié)果
實驗一:本實驗采用本文提出的方法,設(shè)置每個窗口的微博條數(shù)Ⅳ為500,取每個窗口的詞語能量值排序前50個詞語為本窗口內(nèi)的關(guān)鍵詞,a取值0.5,p取值 0.5,y取值100,閾值D取兩個詞語的相似度為0.3時對應(yīng)的距離。部分關(guān)鍵詞聚類結(jié)果如表1所示。
從表1可以看出,本文提出的方法能夠有效地對微博數(shù)據(jù)中的熱點話題進行發(fā)現(xiàn),關(guān)鍵詞的聚類結(jié)果可以直接反映熱點話題的情況,聚類結(jié)果與熱點話題契合度較高。例如,熱點話題“世錦賽羽毛球林丹李宗偉大戰(zhàn)”中,對應(yīng)的關(guān)鍵詞“世錦賽、決賽、李宗偉、林丹、羽毛球、冠軍、錦標賽、男單、決賽”都是該話題的關(guān)鍵詞,證明了本文在計算詞語相似度時提出的兩個假設(shè)的有效性。
3.3.2不同的關(guān)鍵詞檢測方法對比實驗
實驗二:本實驗對微博窗口大小Ⅳ進行了不同的設(shè)置,比較不同大小窗口下話題的檢測情況。首先用本文方法得出不同大小窗口下的話題檢測結(jié)果,然后計算在不同大小窗口下的召回率(R)、準確率(P)和綜合評價指標(F1值),最后對不同大小窗口下的召回率、準確率和F1值進行對比。實驗結(jié)果如圖1所示。本實驗中取每個窗口前4%N的詞語為本窗口內(nèi)的關(guān)鍵詞,其他參數(shù)設(shè)置均與實驗一相同。
實驗三:本實驗對比了本文方法、基于詞頻的方法和文獻[10]中的增長系數(shù)的方法這3種關(guān)鍵詞檢測方法的召回率、準確率和Fl值,如圖2所示。圖2實驗中,窗口大、羧≈2000,其他參數(shù)設(shè)置均與實驗二相同。
對Ⅳ進行不同的設(shè)置,對比這3種方法在不同大小窗口下的F1佰.如圖3所示。
從圖1可以看出,隨著每個窗口內(nèi)微博條數(shù)的增加,本文方法的召回率、正確率和Fl值并沒有隨著微博條數(shù)的增加而劇烈波動,準確率穩(wěn)定在0.7—0.8左右,F(xiàn)l值和召回率隨著窗口的增大漸漸提高,最后趨于平穩(wěn)。此結(jié)果表明本文方法利用詞語增長速度的變化情況和總權(quán)重來衡量詞語的能量值,能夠較為全面地考慮窗口內(nèi)的突增詞匯和高頻穩(wěn)定詞匯,無論微博窗口的大小如何,對短時間內(nèi)突發(fā)的熱點話題和周期較長的熱點話題均具有較穩(wěn)定的檢測結(jié)果,算法的穩(wěn)定魯棒性較好。
圖2和圖3的實驗結(jié)果表明,基于詞頻的方法準確率較高,但召回率偏低;增長系數(shù)的方法召回率相對較高,但準確率偏低;本文方法的召回率和準確率相差不大,并且在3種方法中具有最高的Fl值。
3,3.3相似度模型對比實驗
實驗四:本實驗對兩種不同情況的單條件概率模型(分別用相似度Sim i、Sim_表示),雙條件概率模型(用相似度Sim_ij表示)以及條件概率與文檔分布相結(jié)合的模型(用相似度Sim PJ表示)這4種模型的相似度計算方法的聚類效果進行對比。在采用本文方法進行關(guān)鍵詞檢測之后,4種模型下的相似度計算方法對應(yīng)的召回率、準確率和Fl值對比如圖4所示;在采用文獻[10]的方法進行關(guān)鍵詞檢測之后,4種模型下的相似度計算方法對應(yīng)的召回率、準確率和Fl值對比如圖5所示。本實驗中,窗口大小JV為1500,其他參數(shù)設(shè)置均與實驗二相同。
實驗結(jié)果表明,這幾種相似度模型在關(guān)鍵詞聚類中均具有一定的有效性。從圖4和圖5中還可以看出不同的單條件概率模型具有不同的聚類效果,與條件概率的不對稱性相符,且聚類效果差別較大;雙條件概率模型較大幅度地提高了聚類的準確率,也使得Fl值有所提升。本文改進后的相似度模型與單條件概率模型、雙條件概率模型相比,具有最高的召回率、準確率和Fl值,且在不同的關(guān)鍵詞檢測方法中均具有最好的聚類效果。
4結(jié)束語
本文通過分析不同時域上微博窗口中詞語能量值的變化來檢測關(guān)鍵詞,并對基于詞語上下文的相似度計算方法進行改進。實驗證明了本文方法的有效性及穩(wěn)定魯棒性,與文獻[10]中的方法相比,本文改進的相似度計算方法具有更好的聚類效果。目前,微博平臺上每天產(chǎn)生的數(shù)據(jù)量大而雜亂,如何快速和高效地對數(shù)據(jù)集進行去噪處理是提高聚類效果的關(guān)鍵所在。此外,在大數(shù)據(jù)背景下,如何盡量減少聚類所需的時間和保證聚類的精確度也是未來研究工作的重點。
5摘要:
隨著微博的迅速發(fā)展,微博上的熱點話題發(fā)現(xiàn)成為目前的研究熱點之一。文章以微博的實時性強作為研究的切入點,通過研究不同時域上詞語的能量值變化,提出一種基于詞語能量值變化的微博熱點話題檢測方法。,該方法基于傳統(tǒng)的話題生命周期理論,按微博的時間先后順序?qū)ξ⒉┻M行劃分;引入了物理學科中加速度的概念,用詞語的加速度來刻畫詞語在相鄰窗口之間速度的變化;綜合考慮詞語的加速度和權(quán)重值來構(gòu)造詞語的復合權(quán)值,更適合量化詞語的能量值;在單條件概率的基礎(chǔ)上,使用了雙條件概率的上下文相似度計算方法,并增加文檔分布相似度來減少話題混淆的概率。、實驗表明了文章方法的有效性和穩(wěn)定魯棒性。與單條件概率的上下文相似度模型相比,改進之后的上下文相似度模型在不同的關(guān)鍵詞檢測方法中均具有更好的聚類效果。
化,而是大部分菌體與電氣石分散牛長,少部分附著生長、