少妇午夜啪爽嗷嗷叫视频-久久精品欧美伊人婷婷1024-泰国大鸡吧猛操日日本大骚逼-国产精品高清一区二区不卡-熟女少妇一区二区三区四区-中文字幕午夜人妻久久一区-天美传媒麻豆蜜桃飘香-国产做a爰片久久毛片95-欧美亚洲另类在线日韩国产

思億歐觀點(diǎn)

PageRank算法淺析

發(fā)布時(shí)間:2009-08-20

思億歐將對(duì)PageRank算法進(jìn)行闡述。在這里,思億歐使用Google網(wǎng)站和其他地方所用的“投票”這一比喻代替原來(lái)的“隨機(jī)沖浪”一詞所表達(dá)的含義。

基于鏈接的排序算法似乎已廣泛應(yīng)用到各種商業(yè)搜索引擎中。為了讓設(shè)計(jì)出來(lái)的網(wǎng)站能夠在各種搜索引擎中獲得較高排名,設(shè)計(jì)者們應(yīng)該知道這些算法的原理。Google的成功意味著PageRank算法值得特別的關(guān)注。PageRank算法是少數(shù)幾個(gè)公開的排序算法之一。PageRank算法對(duì)數(shù)學(xué)要求很高,但可以做些簡(jiǎn)單的解釋,以分析它對(duì)網(wǎng)絡(luò)空間的影響。搜索引擎的其他排序算法也可能獲得與PageRank算法相同的結(jié)果,盡管他們沒有公開任何與其相關(guān)的信息。HITS算法是另一個(gè)基于鏈接的排序算法,與PageRank算法形成鮮明對(duì)比,下面的引述概括了鏈接對(duì)于搜索引擎的價(jià)值。 “通過(guò)分析網(wǎng)頁(yè)間的鏈接關(guān)系,搜索引擎可以判定出一個(gè)網(wǎng)頁(yè)是關(guān)于什么的,也可以判斷它是否很重要并值得列入排序列表中去。”

搜索引擎在排序過(guò)程中不考慮鏈接因素,而使用一個(gè)基于關(guān)鍵詞詞頻的公式,該公式在潛在匹配文檔中統(tǒng)計(jì)以用戶為中心的查詢的關(guān)鍵詞的詞頻。例如,檢索“動(dòng)物學(xué)”時(shí),引擎可能返回文檔標(biāo)題、頭部和正文或是在URL中出現(xiàn)該詞語(yǔ)的所有網(wǎng)頁(yè)。這種排序算法可能無(wú)法判定哪些是關(guān)于“動(dòng)物學(xué)”的最權(quán)威的網(wǎng)頁(yè),而只能判定哪些頁(yè)面中與“動(dòng)物學(xué)”相關(guān)的詞語(yǔ)最多。但PageRank算法卻可以通過(guò)鏈接結(jié)構(gòu),判別出哪個(gè)是最權(quán)威的網(wǎng)頁(yè)——排名位于最前面的那個(gè),即擁有最多入鏈的網(wǎng)頁(yè)。這就使得引擎能夠返回一個(gè)真正的權(quán)威網(wǎng)頁(yè),而不是一個(gè)類似于“動(dòng)物學(xué)”課程表的網(wǎng)頁(yè)。

1998年Google的PageRank算法的設(shè)計(jì)者和奠基者Brin和Page將其核心部分公開。隨后,在1999年他們和Motwani、Winogriad對(duì)其進(jìn)行了更為詳細(xì)地闡述。直到2004年,該算法仍在使用,只是作為一個(gè)更大規(guī)模的算法集的一部分,該算法集采用100多個(gè)指標(biāo)來(lái)判定網(wǎng)頁(yè)是否和用戶的查詢相關(guān),并對(duì)它們進(jìn)行排序。Google官方聲明:“雖然我們有許多工程師在為全面提高Google的各個(gè)方面而努力,但PageRank算法仍然是我們網(wǎng)絡(luò)搜索工具技術(shù)的基礎(chǔ)。”下面是支撐PageRank算法的兩個(gè)基本理念:

·人鏈?zhǔn)呛饬磕繕?biāo)網(wǎng)頁(yè)重要性的很好的指標(biāo)。

·源于重要網(wǎng)頁(yè)的人鏈比源于次要網(wǎng)頁(yè)的人鏈更能說(shuō)明該網(wǎng)頁(yè)的重要性。

思億歐將對(duì)PageRank算法進(jìn)行闡述。在這里,思億歐使用Google網(wǎng)站和其他地方所用的“投票”這一比喻代替原來(lái)的“隨機(jī)沖浪”一詞所表達(dá)的含義。

在一個(gè)簡(jiǎn)單的基于鏈接的投票系統(tǒng)中,可以給每個(gè)網(wǎng)頁(yè)投票,并允許網(wǎng)頁(yè)將其一票平分后投給它所鏈接的網(wǎng)頁(yè),最后統(tǒng)計(jì)每個(gè)網(wǎng)頁(yè)的最終票數(shù)便可形成一個(gè)排序系統(tǒng)。在這一過(guò)程中,擁有較多人鏈的網(wǎng)站能獲得較高的票數(shù)。然而,這個(gè)簡(jiǎn)單的投票系統(tǒng)不足以說(shuō)明問題。如受歡迎的列表網(wǎng)頁(yè)的入鏈很多,就會(huì)獲得很多投票,但該頁(yè)面只有一票,可平分給它所鏈接的目標(biāo)網(wǎng)頁(yè),這些目標(biāo)網(wǎng)頁(yè)中可能含有有價(jià)值的內(nèi)容。重復(fù)這個(gè)投票過(guò)程,使得每個(gè)網(wǎng)頁(yè)在前一輪中獲得的票數(shù)平分給其目標(biāo)網(wǎng)頁(yè)。然而遺憾的是,當(dāng)投票系統(tǒng)陷入循環(huán)時(shí),或遇到一個(gè)沒有出鏈的網(wǎng)頁(yè)時(shí),投票的重復(fù)過(guò)程便無(wú)法進(jìn)行下去了。

對(duì)此,Brin和Page提出的解決方案是,在每次投票時(shí),網(wǎng)頁(yè)回收一部分票數(shù),而不全部傳遞給它的鏈接目標(biāo)網(wǎng)頁(yè)。他們建議保留15%的票數(shù),這樣,每次投票時(shí),網(wǎng)頁(yè)只將其85%的票數(shù)平分給其鏈接目標(biāo)網(wǎng)頁(yè),而另外15%的票數(shù)供系統(tǒng)中所有的URL平分。運(yùn)用數(shù)學(xué)算法可以有效地實(shí)現(xiàn)這一投票系統(tǒng)。重復(fù)這樣的投票過(guò)程,直至所有網(wǎng)頁(yè)的票數(shù)都趨于穩(wěn)定,即在新的一輪投票中,網(wǎng)頁(yè)票數(shù)的變化很小,這樣,PageRank算法便誕生了。

有兩種PageRank算法和修正算法,修正后的算法有明顯的不同。實(shí)踐中,Google采用的可能是PageRank修正算法。種修正算法是由Lifantsel在2000年提出的,即將PageRank的投票統(tǒng)計(jì)建立在網(wǎng)站的基礎(chǔ)上,而不是對(duì)單個(gè)網(wǎng)頁(yè)進(jìn)行投票統(tǒng)計(jì)。第二種修正算法是由Page、Brin、Motwain和Winograd于1999年提出的,即自動(dòng)賦予一個(gè)網(wǎng)站的首頁(yè)較高的票數(shù)。Google似乎同時(shí)采用了這兩種修正算法,可能是與基于網(wǎng)頁(yè)的標(biāo)準(zhǔn)算法相結(jié)合,也可能是完全將其取代,但這些都只是猜測(cè)。

分享至share
  • pin
  • weibo
  • wechat
email

tel 24小時(shí)免費(fèi)服務(wù)咨詢熱線:400-080-3010

立即咨詢立即咨詢 聯(lián)系我們聯(lián)系我們