91精品人妻互换日韩精品久久影视|又粗又大的网站激情文学制服91|亚州A∨无码片中文字慕鲁丝片区|jizz中国无码91麻豆精品福利|午夜成人AA婷婷五月天精品|素人AV在线国产高清不卡片|尤物精品视频影院91日韩|亚洲精品18国产精品闷骚

首頁       資訊中心       企業(yè)動態(tài)       行業(yè)動態(tài)       安全動態(tài)       行業(yè)資訊       設(shè)備資訊       工具資訊       材料資訊       招商代理
您當(dāng)前位置:首頁 > 新聞頻道 > 技術(shù)動態(tài) > 正文
淺析微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的節(jié)點特征和傳播模型

作者;張毅

1  引言

  隨著在線社會網(wǎng)絡(luò)的普及,微博、微信等平臺逐漸滲透進人們的生活,其影響力已經(jīng)從虛擬網(wǎng)絡(luò)拓展到實際生活中。因此,在線社會網(wǎng)絡(luò)越來越集中到人們?nèi)粘P袨槟J降阮I(lǐng)域。微博短文本形式使得信息傳播更加快速,作為一種全新的在線社交應(yīng)用,近年來得到了快速發(fā)展。由于微博這些前所未有的新特征以及其中信息傳播產(chǎn)生的巨大社會效應(yīng),它已經(jīng)成為了一把“雙刃劍”。一方面微博為廣大網(wǎng)民提供了一個更加自由便捷的信息獲取和發(fā)布平臺,推動了我國信息化社會的發(fā)展;另一方面,微博中也包含了謠言、誹謗、偏激觀點、扭曲價值觀等一系列負面問題,并在一些別有用心的個人和組織的推動下,產(chǎn)生了極壞的影響。因此,提取、分析微博中的信息傳播特征,構(gòu)建相應(yīng)的傳播模型有著十分重要的理論和現(xiàn)實價值。對于已知的網(wǎng)絡(luò),如何評價網(wǎng)絡(luò)的動力學(xué)性能一直是研究者關(guān)注的重點內(nèi)容,當(dāng)前主要利用網(wǎng)絡(luò)疾病傳播模型對信息傳播進行研究,但疾病傳播模型往往假設(shè)傳播時間是無限長的。在很多現(xiàn)實情況中,關(guān)注的往往是一個時間段內(nèi)信息的傳播情況。SIR (susceptible infective removal)模型及其變型是研究信息傳播最為常用的模型,在該模型中,個體僅在有限時間內(nèi)保持感染態(tài),隨后便能恢復(fù),甚至如果這些鄰居個體足夠幸運,就有可能永遠不會得這種疾病。根據(jù)傳染病模型中的SIR模型定義,利用積分可以求得傳播概率,在一個固定時間段T內(nèi),這種概率為:

  其中,β表示傳播速度。假設(shè)這些事件是獨立的,即疾病在網(wǎng)絡(luò)中沿任意一條邊的傳播是相互獨立的,將‘D作為一個常數(shù),那么整個疾病傳播過程可以認為是以概率占據(jù)每條邊或者以概率1-p移除每條邊,整個過程就可以看作一個“鍵滲流”過程。

  利用滲流理論對微博的信息傳播過程進行研究,通過構(gòu)建動力學(xué)過程分析傳播的影響因素,已經(jīng)取得一定的成果:主要分析度值對傳播范圍的映射關(guān)系,基于微博數(shù)據(jù)構(gòu)建信息傳播的動力學(xué)過程,利用復(fù)雜網(wǎng)絡(luò)理論研究其機理;主要針對在線社會網(wǎng)絡(luò)中的觀點形成過程進行研究,將其抽象為擴散過程,提出了輿論傳播模型;借鑒傳染病模型,主要分析了不同

的傳播主體對傳播結(jié)果的影響,對應(yīng)3個不同狀態(tài)將用戶類型進行抽象,結(jié)合信息傳播方向的影響,分析度值分布的冪律特性對傳播行為的影響;在真實的微博數(shù)據(jù)中進行了滲流過程的仿真;在服從冪律分布的隨機網(wǎng)絡(luò)中,通過隨機刪除和目標(biāo)刪除網(wǎng)絡(luò)節(jié)點或邊,計算不同占有概率下巨分支的大小來分析網(wǎng)絡(luò)性能。

  無向網(wǎng)絡(luò)對于滲流閾值的求導(dǎo)依賴于鄰接矩陣的對稱性,因此原有的分析方法不能直接應(yīng)用于有向網(wǎng)絡(luò),這是因為有向網(wǎng)絡(luò)中的鄰接矩陣通常是非對稱的,無法得到正交特征向量。因此本文借鑒已有研究成果,利用數(shù)值方法分析有/無關(guān)聯(lián)特征情況下的滲流過程,通過對比,得到有向網(wǎng)絡(luò)下的傳播能力分析。

2基于微博信息的有向轉(zhuǎn)發(fā)網(wǎng)絡(luò)度值特征

2.1  基于微博信息的有向轉(zhuǎn)發(fā)網(wǎng)絡(luò)

  在微博的信息傳播過程中,用戶i發(fā)布一條信息,其所有粉絲用戶都會接到該信息,若其中一個用戶i轉(zhuǎn)發(fā)這條信息,則用戶i的所有粉絲用戶(如用戶k)都會繼續(xù)接到信息,以此類推,該信息沿著多條i→i→k→…的路徑在用戶之間呈網(wǎng)狀蔓延。實際中,微博用戶數(shù)量龐大,信息傳播過程復(fù)雜,如何衡量網(wǎng)絡(luò)的傳播能力是一個重要課題。本節(jié)通過采集微博用戶轉(zhuǎn)發(fā)行為的數(shù)據(jù),抽象得到有向轉(zhuǎn)發(fā)網(wǎng)絡(luò)模型,分析信息傳播和滲流過程的映射關(guān)系,設(shè)計傳播能力的評估指標(biāo),為后續(xù)研究提供模型基礎(chǔ)。

  首先對微博用戶及其行為進行抽象建模。微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)抽象為G=(V,E),其中,G是全部節(jié)點vi的集合,對應(yīng)微博的用戶;E是邊eij的集合,對應(yīng)用盧之間的關(guān)系,這里的關(guān)系是“轉(zhuǎn)發(fā)行為”,轉(zhuǎn)發(fā)行為是信息傳遞的基礎(chǔ),如果節(jié)點Vi轉(zhuǎn)發(fā)了鄰接節(jié)點Vi的信息,則在傳播過程中,Vi→Vj將在下一次以更大的概率成為信息傳遞的路徑,記為eij否則eij=O;指向Vi的節(jié)點數(shù)為節(jié)點vi的入度,記為kin;vi指向節(jié)點數(shù)為節(jié)點vt的出度,記為kiout。

  在信息傳播過程中,只會有部分個體以及個體間部分關(guān)系會參與到傳播過程中來,所有的用戶關(guān)系中只有部分關(guān)系會發(fā)揮作用,而這個過程同樣能夠用滲流過程表示。

  在微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)中,有一些隨機均勻選擇的節(jié)點被刪除。微博轉(zhuǎn)發(fā)過程是刪除過程的“逆向”,一條邊被保留意味著一條消息被轉(zhuǎn)發(fā),衡量的是保留概率,可以用概率參數(shù)p表示,表示節(jié)點存在于網(wǎng)絡(luò)中。因此,p=l就表示網(wǎng)絡(luò)中的所有節(jié)點都被保留(即沒有節(jié)點被刪除),p=0表示沒有節(jié)點被保留(即所有的節(jié)點都被刪除)。在實際情況中,網(wǎng)絡(luò)中不可能只存在一個分支,初始時,所有節(jié)點被保留,但是隨著節(jié)點被刪除以后網(wǎng)絡(luò)逐漸分割,如分裂為兩個分支或者更多,將其中最大的一個分支稱為巨分支。本文只考慮一個分支的情況,也就是分析巨分支的消亡過程,即從p=l到p=0的過渡。巨分支的形成和解體叫做滲流過渡。當(dāng)網(wǎng)絡(luò)中包含一個巨分支時,稱這個網(wǎng)絡(luò)是可滲流的,而出現(xiàn)滲流過渡的臨界值就叫做滲流閾值。在很多方面,滲流過渡與泊松隨機圖中巨分支形成的相變很相似。在隨機圖中變化的不是被保留的節(jié)點,而是節(jié)點間連接的概率。然而,在這兩種情況下,當(dāng)網(wǎng)絡(luò)中有足夠多的點被刪除時,巨分支就會分裂成一些小分支。

2.2出度一入度分布

  度( degree)是針對網(wǎng)絡(luò)中的節(jié)點來說的,節(jié)點i的度k(/)定義為與節(jié)點i相連的所有邊的數(shù)目。度描述了個體的特性,而度分布描述了網(wǎng)絡(luò)的整體特性。現(xiàn)實中的很多網(wǎng)絡(luò),如科學(xué)家合作網(wǎng)、捕食網(wǎng)絡(luò)、國際互聯(lián)網(wǎng),都服從冪率分布,冪指數(shù)在-3.4和-2.0之間,而不是之前人們所認為的泊松分布。研究了含權(quán)科學(xué)家合作網(wǎng)的冪律分布等統(tǒng)計特性;將現(xiàn)實社交關(guān)系推廣到合作網(wǎng)絡(luò)中來衡量其特性;中,系統(tǒng)地研究了大量在線社會網(wǎng)絡(luò)的冪律分布特性。一般地,根據(jù)冪律分布可繪出一條向右偏斜得很厲害,拖著長長“尾巴”的累積分布曲線,它與鐘形的泊松分布曲線有顯著的不同。這種“長尾”分布表明,絕大多數(shù)個體的尺度很小,而只有少數(shù)個體的尺度相當(dāng)大。

  以往通常利用最小二乘法來擬合數(shù)據(jù),但得出的結(jié)果經(jīng)常會出現(xiàn)很大的誤差,這主要是由以下兩個原因引起的:

  ·在“長尾”中出現(xiàn)的大的波動:

  ·很難確定冪律分布成立的范圍。

  在分析度分布特性時可以從兩方面著手,一是設(shè)定冪律分布成立的范圍,二是和其他分布結(jié)合。這里假設(shè)度分布服從冪律分布和指數(shù)分布的雙分布:

  綜上所述,需要在度分布特性分析中辨識兩個參數(shù),分別是a和Xmin。

  度分布參數(shù)辨識的流程如下。

  (1)利用極大似然估計的方法,在給定Xnin情況下,可求出:

  (2)首先利用冪律分布的密度函數(shù)的lg-lg圖像或者利用Xmin圖像判定Xmin的范圍,然后從這個范圍里選取對于實際數(shù)據(jù)最合適的Xmin選擇Xmin令:

  取得最小值,其中S(x)、Pr(x)分別為擬合數(shù)據(jù)和原始數(shù)據(jù)的分布函數(shù)。

  (3)對于擬合數(shù)據(jù)和原始數(shù)據(jù),利用K-S統(tǒng)計量求出p-value,p的值越接近1,則擬合數(shù)據(jù)與原始數(shù)據(jù)越吻合,通常當(dāng)p≤0.1時,認為利用冪律函數(shù)對原始數(shù)據(jù)進行的擬合失敗。在求p -value的過程中,由于認為當(dāng)x≤Xmin時,分布并不符合冪律分布,所以,利用冪律分布擬合出來的數(shù)據(jù)與原始數(shù)據(jù)相比是不完全的,忽略了x≤Xmin的數(shù)據(jù),那么利用K-S統(tǒng)計量計算p-value比較擬合情況的結(jié)果也不精確。筆者希望可以使擬合數(shù)據(jù)在x≤Xnin時非常接近原始數(shù)據(jù),而在X>Xmm時,符合冪律分布。

  (4)根據(jù)實際數(shù)據(jù),再找出其他可能符合的分布,并得出擬合數(shù)據(jù)。利用似然比檢驗比較不同分布的擬合情況,從而確定符合原始數(shù)據(jù)的最佳分布。其中似然比檢驗用來評估兩個模型中哪個模型更適合當(dāng)前的數(shù)據(jù)分析。具體來說,一個相對復(fù)雜的模型與一個相對簡單的模型比較,檢驗?zāi)膫模型能夠顯著地適合一個特定的數(shù)據(jù)集。引入統(tǒng)計量LR表示兩種模型似然值的差異。

  在這里,統(tǒng)計量LR近似服從卡方分布,自由度是兩個模型的參數(shù)個數(shù)之差。其中,L1和L2分別是兩個分布的似然函數(shù)。對于微博轉(zhuǎn)發(fā)網(wǎng)絡(luò),節(jié)點口vi的kin和kiout是分析網(wǎng)絡(luò)的基本屬性,本節(jié)主要分析同一節(jié)點的kin、kiout的統(tǒng)計特征和不同節(jié)點kin、kiout之間的關(guān)系。擬合參數(shù)分別為出度為xmin=5,a=-2.060 0,人度為xmin=4.7,a=-2.920 0。研究同一

節(jié)點出度一入度值特征,可以看出:在雙對數(shù)坐標(biāo)中,kin、kiout與F(k)不存在明顯的線性關(guān)系(如圖l(a)所示),即不服從嚴(yán)格的冪律分布;節(jié)點的kin、kiout的分布不同(如圖l(a)所示),kin下降速度快于kiout,即kin具有更顯著的長尾效應(yīng)。圖l(b)橫軸為kin和kiout的度值,縱軸為對應(yīng)的方差?梢钥闯觯(dāng)kin固定時,kiout的方差明顯大于kin固定時kin的方差。這是因為,出度表征了節(jié)點的客觀影響力,更能體現(xiàn)節(jié)點間的差異。因此,在分析傳播能力時,應(yīng)考慮網(wǎng)絡(luò)的出度一入度序列,保留出度一人度值特征,而不是簡單地用冪律分布表示。

3考慮度分布特性的微博信息傳播

  Newman給出了無向網(wǎng)絡(luò)滲流后巨分支規(guī)模的解,并得到滲流閾值,本文考慮有向網(wǎng)絡(luò)情況。與無向的情況不同,有向滲流考慮的是巨出向分支而不是巨分支。假如信息是從某一個節(jié)點開始向外傳播,那么最終所有獲得信息的節(jié)點的集合實際上就是滲流之后的網(wǎng)絡(luò)中初始節(jié)點的出向分支,認為最終網(wǎng)絡(luò)中最大的出向分支規(guī)模就代表了最終接受信息的人數(shù),但實際上只有當(dāng)信息是從最大出向分支的初始節(jié)點開始傳播的時候,接收信息的人數(shù)才等于最大出向分支的節(jié)點數(shù)。研究的轉(zhuǎn)發(fā)網(wǎng)絡(luò)與現(xiàn)實當(dāng)中的轉(zhuǎn)發(fā)關(guān)系相對應(yīng),如果一個用戶發(fā)出的信息具有影響力,那么他在網(wǎng)絡(luò)中出現(xiàn)分支的規(guī)模一定很大,那么相對應(yīng)地,滲流后對應(yīng)的節(jié)點在最終的網(wǎng)絡(luò)中依然會有一個很大的出向分支,所以滲流之后的最大出向分支規(guī)模就表示了信息傳播的最大可能影響范圍,具有一定的代表性。

  節(jié)點是否屬于某個出向分支是由其入邊決定的,如果

一侖節(jié)點有一個人邊來自于巨出向分支,那么它肯定屬于

巨出向分支,反之,則它所有入邊的另一端點都不屬于巨

出向分支。假定uout是節(jié)點不經(jīng)過特定一條與其相連的入

邊與巨出分支相連接的平均概率,那么可以得到:

  對于任意一個節(jié)點,一個鄰接節(jié)點通過出邊指向它,qin(k)表示鄰接節(jié)點入度為k的概率。利用聯(lián)合分布p(a,b)表示一個節(jié)點人度為a且出度為6的概率,那么通過出邊連接的節(jié)點的鄰接節(jié)點入度為k,出度為i的概率為:

那么,無論鄰接節(jié)點出度取何值,其入度為k的概率為:

  可以利用圖解法,將式(6)左右兩邊分別構(gòu)造方程,分別為方程y=uout與方程:

  由于qin(k)為條件概率,其和為1,所以uout=1時為恒等式。在uout=l處相切得到滲流閾值:

  利用不同的方法,對有向網(wǎng)絡(luò)中巨強連通分支求得了同樣的滲流閾值,實際上巨出向分支、巨人向分支與巨強連通分支出現(xiàn)的條件是相同的。此時,出分支的規(guī)模為:

  通過上面的推導(dǎo),得到了考慮節(jié)點關(guān)聯(lián)性的有向滲流模型解法。接下來,將分別驗證有向性和關(guān)聯(lián)性對網(wǎng)絡(luò)信息傳播性能的影響以及所提出方法的正確性。

4仿真驗證

  本文將研究對象限定為新浪“名人堂”用戶。“名人堂”用戶是新浪根據(jù)名人堂的相關(guān)規(guī)定篩選出的認證用戶,是在信息傳播過程中有著重要價值的真實用戶。通過接口“statuses/user_timeline”爬取微博信息,若M_O為原創(chuàng)初始微博信息,信息M_l轉(zhuǎn)發(fā)自M_O,則接口所返回的M_l數(shù)據(jù)中包含了“retweeted~status”字段,其中記錄了包含初始

發(fā)布用戶在內(nèi)的M_O的全部內(nèi)容,但若此時另一條消息M_2轉(zhuǎn)發(fā)自M_l,M_2所返回的數(shù)據(jù)“retweeted_status”字段中包含的依然是M_O而非M_l的內(nèi)容。因此針對轉(zhuǎn)發(fā)長度大于1的轉(zhuǎn)發(fā)消息,需要通過分析信息中的轉(zhuǎn)發(fā)標(biāo)志獲知其直接轉(zhuǎn)發(fā)信息來源。新浪微博中以前綴//@user_name(其中user_name表示用戶名)來標(biāo)識直接轉(zhuǎn)發(fā)信息來源。分析2012年9月23日至10月23日這一個月內(nèi)的名人堂用戶轉(zhuǎn)發(fā)信息,利用轉(zhuǎn)發(fā)關(guān)系來定義邊,利用賬號來定義節(jié)點。其中出度是轉(zhuǎn)發(fā)的數(shù)目,入度是被轉(zhuǎn)發(fā)的數(shù)目。最終得到了一個由92 933個節(jié)點、1 083 584條邊構(gòu)成的轉(zhuǎn)發(fā)網(wǎng)絡(luò)。

  首先,分別利用無向轉(zhuǎn)發(fā)和有向轉(zhuǎn)發(fā)網(wǎng)絡(luò)進行仿真,找出不同傳播概率下子網(wǎng)絡(luò)的最大出向分支,而這個最大出向分支的規(guī)模也就代表了最終的傳播范圍,通過這種方式可以粗略地模擬真實的傳播情況,對比兩種仿真結(jié)果,觀察有向性對于信息傳播的影響。同時利用Newman提出的無向滲流解法和本文提出的有向滲流解法預(yù)測出不同傳播概率下的巨出向分支規(guī)模以及滲流閾值,與真實有向轉(zhuǎn)發(fā)網(wǎng)絡(luò)仿真進行對比,驗證提出的有向滲流解法的正確性。圖2中4條曲線分別表示以下內(nèi)容。

  ·有向仿真:在有向微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)利用滲流模型進行仿真得到的結(jié)果。

  。有向滲流解法:利用前面提到的有向滲流模型解法求解得到的結(jié)果。

  ·無向仿真:在無向微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)利用滲流模型進行仿真得到的結(jié)果。

  ·無向滲流解法:利用前面提到的無向滲流模型解法求解得到的結(jié)果。

  觀察圖2可以發(fā)現(xiàn),有向性對信息傳播性能有著極大的影響,使得相同傳播概率下信息傳播范圍明顯變小,同時也可以發(fā)現(xiàn),相比于無向滲流解法,提出的有向滲流解法與無向仿真結(jié)果較為吻合,但仍有明顯差異。接下來觀察滲流閾值,如圖3所示。

  圖3中4條曲線與圖2相同,觀察圖3可以發(fā)現(xiàn)仿真結(jié)果并沒有一個十分明顯的閾值,這是由于有限規(guī)模效應(yīng)(finite size effect)造成的,但通過觀察曲線的變化趨勢,還是可以得到一個大致的臨界區(qū)域,大致對應(yīng)閾值,邊的有向性使得滲流閾值明顯變大,即使得信息爆發(fā)變得更加困難,同時還可以發(fā)現(xiàn),相比于無向滲流解法,提出的有向滲流解法給出的滲流閾值接近實際仿真閾值,但依然有偏差。

  通過上面可以看出:

  ·邊的有向性對信息傳播有著顯著的影響,在有向條件下,滲流閾值增加,同樣概率下傳播范圍變小,信息傳播更為困難;

  ·提出的有向滲流解法較好地貼合了有向性特征,但與有向轉(zhuǎn)發(fā)網(wǎng)絡(luò)信息傳播仿真結(jié)果相比,依然存在一定差距。

5結(jié)束語

本文通過區(qū)分信息傳播的方向性,利用滲流理論研究微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)中節(jié)點度值特征。區(qū)分信息傳播的方向有助于更加細致地分析轉(zhuǎn)發(fā)概率對傳播性能的影響,有向滲流的關(guān)聯(lián)更能夠準(zhǔn)確反映微博中的轉(zhuǎn)發(fā)場景,為進一步分析影響滲流閾值、傳播范圍的因素提供了理論支撐。

6摘要:微博作為重要的社交網(wǎng)絡(luò)平臺,具有傳播快速、平臺影響大的特點。微博用戶的節(jié)點特征決定了其網(wǎng)絡(luò)影響力。研究了微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)中節(jié)點的度值特征和傳播模型。首先通過區(qū)分信息流動方向構(gòu)建了微博轉(zhuǎn)發(fā)網(wǎng)絡(luò):其次分別討論了出度一入度的均值和方差,明確二者的差異,并分析了考慮節(jié)點度值特征的信息傳播過程:最后通過仿真驗證可以看出:邊的有向性對信息傳播有著顯著的影響,在有向條件下,滲流閾值增加,同樣概率下傳播范圍變小,信息傳播更為困難。

關(guān)鍵字:
About Us - 關(guān)于我們 - 服務(wù)列表 - 付費指導(dǎo) - 媒體合作 - 廣告服務(wù) - 版權(quán)聲明 - 聯(lián)系我們 - 網(wǎng)站地圖 - 常見問題 - 友情鏈接
Copyright©2014安裝信息網(wǎng) m.78375555.com. All rights reserved.
服務(wù)熱線:4000-293-296 聯(lián)系電話:0371-61311617 傳真:0371-55611201 QQ: 郵箱:zgazxxw@126.com 豫ICP備18030500號-4
未經(jīng)過本站允許,請勿將本站內(nèi)容傳播或復(fù)制
安全聯(lián)盟認證