PageRank研究的一些結(jié)論
發(fā)布時(shí)間:2009-02-12
結(jié)合PageRank的算法原理以及實(shí)證分析,利用PageRank判斷網(wǎng)頁的質(zhì)量具有一定的可靠性和可行性,這方面已經(jīng)得到行業(yè)的認(rèn)可,但在評(píng)價(jià)中必須考慮以下幾個(gè)方面的問題:
結(jié)合PageRank的算法原理以及實(shí)證分析,利用PageRank判斷網(wǎng)頁的質(zhì)量具有一定的可靠性和可行性,這方面已經(jīng)得到行業(yè)的認(rèn)可,但在評(píng)價(jià)中必須考慮以下幾個(gè)方面的問題:
1.對評(píng)價(jià)對象抽取樣本進(jìn)行試驗(yàn),檢驗(yàn)PageRank值對評(píng)價(jià)該主題網(wǎng)頁質(zhì)量的可靠性和可行性,如根據(jù)“SEO”的相關(guān)網(wǎng)站的PageRank值與網(wǎng)頁的質(zhì)量未見相關(guān)性。對于該主題,不能輕易使用PageRank來判斷網(wǎng)頁的質(zhì)量。
2.不同語言的網(wǎng)頁的PageRank值不具有可比性,經(jīng)過我們的試驗(yàn)顯示,中文網(wǎng)頁的PageRank值遠(yuǎn)低于英文網(wǎng)頁的PageRank,也就是說,同等質(zhì)量的內(nèi)容,中文網(wǎng)頁的PageRank遠(yuǎn)低于英文網(wǎng)頁。
3.PageRank值不適用于評(píng)價(jià)中文網(wǎng)頁。從實(shí)驗(yàn)中可以看到,中文網(wǎng)頁的PageRank值絕大多數(shù)仍為0。
中文網(wǎng)頁P(yáng)ageRank值得分低,至少有3個(gè)方面的原因:一是語言的影響使網(wǎng)頁在全球范圍內(nèi)傳播能力弱于英文網(wǎng)頁。第二,與中文網(wǎng)頁的鏈接行為有關(guān)。在以往的實(shí)驗(yàn)中,發(fā)現(xiàn)PageRank為零的網(wǎng)頁所在的網(wǎng)域的PageRank并不低,很多高達(dá)5或6,也就是說,中文網(wǎng)頁的鏈接通常更多的是鏈接到網(wǎng)站的主頁,而不是鏈接到資源所在的網(wǎng)頁,這使一些網(wǎng)頁內(nèi)容很好的網(wǎng)站不一定獲得更多的權(quán)威鏈接,影響其PageRank值。第三,從實(shí)證一和實(shí)證二中發(fā)現(xiàn),對于以“PageRank”為關(guān)鍵詞檢索到的網(wǎng)頁,中文網(wǎng)頁的內(nèi)容90%以上來自于博客(blog)網(wǎng)站或論壇,一些被評(píng)價(jià)為好的網(wǎng)頁的內(nèi)容多來自對國外文章的編譯,而其他大量的網(wǎng)頁內(nèi)容僅幾句話。英文網(wǎng)頁的內(nèi)容有些來自于學(xué)術(shù)機(jī)構(gòu)(以edu、ac為網(wǎng)域)或?qū)<业膫€(gè)人網(wǎng)站。
4.PageRank的算法在評(píng)價(jià)學(xué)術(shù)網(wǎng)頁時(shí),有其本身的缺陷:,PageRank的算法未考慮到網(wǎng)頁的日期問題。從實(shí)證中發(fā)現(xiàn),有的網(wǎng)頁質(zhì)量較高,但PageRank值卻很低,進(jìn)一步觀察發(fā)現(xiàn)這些網(wǎng)頁的日期很新。分析PageRank算法,也可以發(fā)現(xiàn)PageRank算法未考慮網(wǎng)頁的新舊問題,一個(gè)剛發(fā)布的優(yōu)質(zhì)網(wǎng)頁,可能因?yàn)闆]有多少外部鏈接而被PageRank視為低等級(jí),相反,一個(gè)舊的質(zhì)量較一般的網(wǎng)頁,可能因?yàn)闀r(shí)間累積,造成外部鏈接相對較多,而排名居前。第二,PageRank算法未考慮域的價(jià)值,在學(xué)術(shù)網(wǎng)頁的評(píng)價(jià)中,這顯然是一個(gè)缺陷。由于網(wǎng)絡(luò)中存在大量的廣告,因此,來自域edu、ac的網(wǎng)頁通常比來自com、net的網(wǎng)頁更具有學(xué)術(shù)性。對于這類網(wǎng)頁只有人工增加權(quán)重以彌補(bǔ)上述缺陷。
由此可見,只有在對PageRank的評(píng)價(jià)作用、適用范圍有清楚的把握時(shí),才能使用這一指標(biāo)進(jìn)行網(wǎng)頁質(zhì)量評(píng)價(jià)。
網(wǎng)站的內(nèi)容質(zhì)量取決于構(gòu)成網(wǎng)站的諸網(wǎng)頁的內(nèi)容質(zhì)量,檢索到網(wǎng)站關(guān)于某主題的相關(guān)網(wǎng)頁后,將相關(guān)網(wǎng)頁的PageRank值之和作為網(wǎng)站的PageRank值,這樣,PageRank就從評(píng)價(jià)網(wǎng)頁的指標(biāo)進(jìn)而成為評(píng)價(jià)網(wǎng)站的指標(biāo)。







24小時(shí)免費(fèi)服務(wù)咨詢熱線:
立即咨詢
聯(lián)系我們
立即咨詢
聯(lián)系我們