個(gè)性化網(wǎng)頁(yè)權(quán)重PageRank算法研究
發(fā)布時(shí)間:2008-11-01
目前關(guān)于個(gè)性化PageRank,其他的常見(jiàn)方法還有模型化PageRank(modular PageRank)和BlockRank等。這些方法在具體的計(jì)算方法上,主要的特點(diǎn)體現(xiàn)在從效率的角度上對(duì)算法進(jìn)行了必要的優(yōu)化。
目前關(guān)于個(gè)性化PageRank,其他的常見(jiàn)方法還有模型化PageRank(modular PageRank)和BlockRank等。這些方法在具體的計(jì)算方法上,主要的特點(diǎn)體現(xiàn)在從效率的角度上對(duì)算法進(jìn)行了必要的優(yōu)化。
關(guān)于加速PageRank算法的先前研究?jī)?nèi)容主要使用稀疏性圖結(jié)構(gòu)技術(shù),比如Arasu等提出的觀點(diǎn),他們不僅僅單純使用上次迭代循環(huán)產(chǎn)生值來(lái)計(jì)算本輪循環(huán)值,也使用本輪循環(huán)已經(jīng)產(chǎn)生的值來(lái)加速本輪循環(huán)的計(jì)算。甚至提出了Web網(wǎng)絡(luò)的蝴蝶結(jié)結(jié)構(gòu),并將其用于PageRank值的有效計(jì)算中。然而這些方法并不具有很大的實(shí)用性,主要原因在于算法要求對(duì)Web網(wǎng)絡(luò)矩陣進(jìn)行排序,這個(gè)操作需要按照深度搜索優(yōu)先的原則進(jìn)行網(wǎng)絡(luò)遍歷,這顯然是一種代價(jià)極大的運(yùn)算。最近Kamvar等也提出一些算法,使用連續(xù)中間循環(huán)來(lái)推斷真實(shí)PageRank更好的估計(jì)值,但是仍然存在受PageRank算法初始參數(shù)影響的不足之處。
目前對(duì)于Web網(wǎng)絡(luò)圖結(jié)構(gòu)的分析主要關(guān)注于研究圖的屬性,如節(jié)點(diǎn)的分布、網(wǎng)頁(yè)鏈接的情況和Web網(wǎng)頁(yè)圖結(jié)構(gòu)的建模等。然而,對(duì)于這些研究并沒(méi)有強(qiáng)調(diào)如何有效利用這些屬性來(lái)加快超鏈分析。
不少學(xué)者提出了一些改進(jìn)做法,如Raghavan和Garcia-Molina等利用主機(jī)名稱或者URL隱含的Web結(jié)構(gòu)來(lái)代表Web圖更為成功的做法也有很多,如Jeh和Widom通過(guò)有限修改網(wǎng)頁(yè)的權(quán)值來(lái)表達(dá)的個(gè)性化網(wǎng)頁(yè)權(quán)重,這個(gè)重要性權(quán)值可以反映用戶指定的初始興趣網(wǎng)頁(yè)。由于對(duì)個(gè)性化視圖的計(jì)算需要反復(fù)遍歷整個(gè)Web圖結(jié)構(gòu)中的網(wǎng)頁(yè),這只有在運(yùn)行期間才能實(shí)現(xiàn),所以事先計(jì)算和存儲(chǔ)所有的個(gè)性化視圖并不現(xiàn)實(shí)。他們利用新的圖論結(jié)果和技術(shù)構(gòu)建出表達(dá)個(gè)性化視圖的“偏好向量”(partial vector),它可以在不同用戶的個(gè)性化視圖中共享,同時(shí)關(guān)于它的計(jì)算和存儲(chǔ)花費(fèi)與視圖數(shù)量的多少呈現(xiàn)出合理的比例。在計(jì)算中,還可以采用遞增式計(jì)算,這就使得在查詢期間利用偏好向量去構(gòu)建個(gè)性化視圖是可行的。這個(gè)偏好向量即為個(gè)性化PageRank向量(personalized PageRank vector,PPV),通俗地說(shuō),PPV是種Web網(wǎng)頁(yè)的個(gè)性化視圖。按照這個(gè)PPV來(lái)對(duì)網(wǎng)頁(yè)結(jié)果進(jìn)行排序可以有效地表達(dá)用戶的偏好。
簡(jiǎn)單地看,每個(gè)PPV的長(zhǎng)度都為咒,即Web的網(wǎng)頁(yè)數(shù)量。但是由于從一個(gè)固定的角度循環(huán)計(jì)算PPV需要多次遍歷Web網(wǎng)頁(yè)圖,這顯然是不可能作為一種在線響應(yīng)用戶查詢的方式。從另一個(gè)角度來(lái)看,所有PPV向量的總數(shù)量會(huì)達(dá)到2n(n為網(wǎng)頁(yè)總數(shù)),這顯然又過(guò)于巨大而無(wú)法實(shí)現(xiàn)離線存儲(chǔ)。所以,必須將p集合中出現(xiàn)的網(wǎng)頁(yè)限制為hub網(wǎng)頁(yè)集合H的子集。H集合通常包含一些用戶最為感興趣的網(wǎng)頁(yè)。在實(shí)踐中,H集合可以是具有較高PageRank值的網(wǎng)頁(yè)集合(重要網(wǎng)頁(yè))、在人工分類目錄中的網(wǎng)頁(yè)(如Yahoo和Open Directory)、特定企業(yè)或程序的重要網(wǎng)頁(yè)等。H集合可以看成是計(jì)算個(gè)性化的基礎(chǔ)。這種基于PPV的計(jì)算方式,不像傳統(tǒng)的方式,能夠和H集合大小成良好的比例縮放關(guān)系,并且這種技術(shù)也可以在更大的PPV集合上取得近似的效果,滿足一些對(duì)于任意偏好網(wǎng)頁(yè)集合的個(gè)性化計(jì)算要求。
除此以外,還有一些在計(jì)算效果上進(jìn)行改進(jìn)的算法。
如一種較為成功的做法是BlockRank方法,它主要是充分利用Web網(wǎng)頁(yè)間鏈接結(jié)構(gòu)呈現(xiàn)一種塊狀結(jié)構(gòu)的特征來(lái)改進(jìn)算法效率。關(guān)于Web網(wǎng)絡(luò)塊狀結(jié)構(gòu)的特征,已有很多學(xué)者進(jìn)行了論證。例如,據(jù)Bharat等的分析,通過(guò)對(duì)比分析Web網(wǎng)絡(luò)的鏈接結(jié)構(gòu),可以發(fā)現(xiàn)近80%左右的網(wǎng)頁(yè)超鏈都是同一站點(diǎn)主機(jī)內(nèi)部不同網(wǎng)頁(yè)間形成的,而不同主機(jī)站點(diǎn)間網(wǎng)頁(yè)的超鏈比重僅為20%左右。如果去除無(wú)用的死鏈接,這一比重表現(xiàn)得更加不平衡,近似于9:l。進(jìn)一步將考察范圍限定在域名級(jí)別后,上述的兩個(gè)比重都有明顯的增加,一為84:16,二為95:5,不平衡性明顯加劇。一般在一個(gè)主機(jī)站點(diǎn)內(nèi),大部分的超鏈由于導(dǎo)航和站點(diǎn)安排,往往會(huì)在幾個(gè)關(guān)鍵的網(wǎng)頁(yè)上具有較多的內(nèi)部鏈接。例如,高校站點(diǎn)內(nèi)一般會(huì)對(duì)諸如圖書館、教務(wù)處和學(xué)生處等網(wǎng)頁(yè)產(chǎn)生很高的鏈接比重。其實(shí)這種內(nèi)部鏈接較高、外部鏈接較低的情況在不同級(jí)別的Web網(wǎng)頁(yè)圖結(jié)構(gòu)中廣泛存在,產(chǎn)生了明顯的塊化現(xiàn)象,而且大部分的塊結(jié)構(gòu)都遠(yuǎn)遠(yuǎn)小于整個(gè)Web的圖結(jié)構(gòu)。
這種Web網(wǎng)絡(luò)所具有的塊化結(jié)構(gòu)有助于快速計(jì)算PageRank,同時(shí)為表達(dá)個(gè)性化PageRank提供了良好的基礎(chǔ)。這個(gè)算法的思路大體描述如下:先對(duì)每個(gè)主機(jī)的網(wǎng)頁(yè)計(jì)算本地化的PageRank值,得到在主機(jī)內(nèi)部的相對(duì)重要權(quán)值。這些本地化的PageRank向量可以進(jìn)一步按照不同Web網(wǎng)頁(yè)塊的相對(duì)重要程度加權(quán)形成全局PageRank值的近似值,然后將此PageRank向量作為標(biāo)準(zhǔn)PageRank算法的起始向量。不可否認(rèn),個(gè)性化PageRank雖然是個(gè)非常吸引人的主意,但是它需要對(duì)大規(guī)模的PageRank向量進(jìn)行有效的迭代計(jì)算,而使用BlockRank算法和對(duì)沖浪者的隨機(jī)沖浪行為做簡(jiǎn)單的限制就可以有效地減少個(gè)性化PageRank值的計(jì)算復(fù)雜度。這個(gè)限制就是當(dāng)他厭倦時(shí),他并不是從諸多網(wǎng)頁(yè)中選擇,而是從主機(jī)站點(diǎn)中進(jìn)行選擇。也就是說(shuō),此時(shí)無(wú)需考察沖浪者跳轉(zhuǎn)的網(wǎng)頁(yè),而只考慮跳轉(zhuǎn)的站點(diǎn)。這時(shí)構(gòu)造的個(gè)性化向量具有的維度就是Web網(wǎng)絡(luò)中主機(jī)的個(gè)數(shù)K,并且向量的元素值也反映沖浪者對(duì)不同主機(jī)的偏好程度。有了這個(gè)限制,本地化PageRank向量就無(wú)需針對(duì)不同的個(gè)性化用戶而改變。事實(shí)上,本地化的PageRank向量也不會(huì)因?yàn)榫仃嘊結(jié)構(gòu)的改變而改變,只有BlockRank向量6才會(huì)因?yàn)椴煌膫€(gè)性化特征而改變,因此只需對(duì)每個(gè)基于塊結(jié)構(gòu)的個(gè)性化PageRank向量進(jìn)行重新計(jì)算。
應(yīng)該說(shuō),不論從理論上看,還是從實(shí)踐上看,利用個(gè)性化PageRank來(lái)實(shí)現(xiàn)搜索引擎的個(gè)性化服務(wù)是個(gè)非常可行的選擇,適應(yīng)Web網(wǎng)絡(luò)資源對(duì)信息檢索提出的特點(diǎn)要求。它不僅在推薦結(jié)果內(nèi)容上綜合考慮網(wǎng)頁(yè)客觀性權(quán)重這個(gè)重要指標(biāo),而且該方法性能較高,主要計(jì)算工作都在離線階段完成。然而,這些現(xiàn)有的個(gè)性化PageRank技術(shù)都需要用戶登錄并主動(dòng)提交個(gè)性化信息,卻忽略了用戶對(duì)Web網(wǎng)頁(yè)的理解,沒(méi)有挖掘用戶使用行為,收集用戶個(gè)性化信息的方式不自然,這顯然加重了用戶的使用負(fù)擔(dān)。所以,雖然說(shuō)節(jié)省了用戶挑選相關(guān)網(wǎng)頁(yè)的時(shí)間,但是用戶卻需要花更多的時(shí)間去實(shí)現(xiàn)搜索個(gè)性化。由此可以看出,探討獲取用戶個(gè)性化信息的其他有效形式將是提高此方法效果的關(guān)鍵所在,本書也主要對(duì)此進(jìn)行研究,探尋更好的個(gè)性化信息收集和表達(dá)方法以適用于個(gè)性化PageRank算法中,該方法較為客觀和全面。







24小時(shí)免費(fèi)服務(wù)咨詢熱線:
立即咨詢
聯(lián)系我們
立即咨詢
聯(lián)系我們