動(dòng)態(tài)網(wǎng)頁(yè)對(duì)SEO的影響
發(fā)布時(shí)間:2009-07-07
動(dòng)態(tài)網(wǎng)頁(yè)對(duì)于搜索引擎的索引都不比靜態(tài)網(wǎng)頁(yè)更為友好。這也就是思億歐一直強(qiáng)調(diào)應(yīng)該將URL靜態(tài)化的原因之一。本文章會(huì)剖析動(dòng)態(tài)網(wǎng)頁(yè)為什么會(huì)對(duì)搜索引擎的索引有影響。
動(dòng)態(tài)網(wǎng)頁(yè)是響應(yīng)用戶(hù)使用行為時(shí)自動(dòng)生成的網(wǎng)頁(yè),在用戶(hù)發(fā)出請(qǐng)求之前,動(dòng)態(tài)網(wǎng)頁(yè)是不存在的。動(dòng)態(tài)網(wǎng)頁(yè)給網(wǎng)絡(luò)爬蟲(chóng)帶來(lái)了麻煩。
舉例來(lái)說(shuō),眾所周知的搜索引擎的檢索結(jié)果頁(yè)面就是動(dòng)態(tài)網(wǎng)頁(yè)。搜索引擎收到用戶(hù)提交的查詢(xún)請(qǐng)求后,會(huì)搜索它的數(shù)據(jù)庫(kù),查找相關(guān)的地址,并生成一個(gè)結(jié)果頁(yè)面。這個(gè)頁(yè)面會(huì)整合查詢(xún)結(jié)果及其他信息,如搜索引擎標(biāo)識(shí)和廣告。它生成的網(wǎng)頁(yè)是一個(gè)真實(shí)的網(wǎng)頁(yè),有惟一的URL(對(duì)大多數(shù)搜索引擎來(lái)說(shuō)),但是,如果爬蟲(chóng)訪(fǎng)問(wèn)搜索引擎站點(diǎn),它不會(huì)發(fā)現(xiàn)該網(wǎng)頁(yè),因?yàn)樵摼W(wǎng)頁(yè)是響應(yīng)查詢(xún)請(qǐng)求生成的,響應(yīng)結(jié)束后,立即被清除。
從該例可以看出,在網(wǎng)絡(luò)上有很多有用信息。但不是以靜態(tài)網(wǎng)頁(yè)形式呈現(xiàn)的。這些網(wǎng)頁(yè)必須向數(shù)據(jù)庫(kù)發(fā)出一個(gè)請(qǐng)求才能訪(fǎng)問(wèn),包括一些圖書(shū)館目錄、商業(yè)產(chǎn)品數(shù)據(jù)庫(kù)以及數(shù)字圖書(shū)館。這些通常只是被稱(chēng)作“不可見(jiàn)的網(wǎng)絡(luò)”或者“深度網(wǎng)絡(luò)”的一部分,前一個(gè)概念已經(jīng)由Sherman和Price普及(2001)。爬蟲(chóng)數(shù)據(jù)的使用者必須接受這一不可避免的局限性,即網(wǎng)絡(luò)爬蟲(chóng)無(wú)法找到大量不同類(lèi)型的動(dòng)態(tài)網(wǎng)頁(yè)。
有趣的是,一些運(yùn)營(yíng)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的信息提供商也擁有大量靜態(tài)網(wǎng)頁(yè),甚至是數(shù)據(jù)庫(kù)的關(guān)鍵部分,因此,搜索引擎能完全地索引這些頁(yè)面。
對(duì)鏈接分析而言,未將爬蟲(chóng)數(shù)據(jù)建庫(kù)已不是問(wèn)題,但有一個(gè)相關(guān)問(wèn)題值得注意,即有些網(wǎng)站以動(dòng)態(tài)網(wǎng)頁(yè)為核心,而不是以數(shù)據(jù)庫(kù)為核心。有一些網(wǎng)絡(luò)技術(shù)可用于自動(dòng)生成動(dòng)態(tài)網(wǎng)頁(yè),包括PHP技術(shù)(PHP:Hypertext Pre-processor-arecursive acronym)和ASP(Active Server Pages)技術(shù)。
動(dòng)態(tài)網(wǎng)頁(yè)曾經(jīng)是爬蟲(chóng)的一大難題。設(shè)計(jì)爬蟲(chóng)時(shí),通常都回避動(dòng)態(tài)網(wǎng)頁(yè)(如Charkabarti,Joshi,Punera,&Pennock,2002)。識(shí)別動(dòng)態(tài)網(wǎng)頁(yè)時(shí),只需要看URL中是否出現(xiàn)問(wèn)號(hào),含問(wèn)號(hào)的就是動(dòng)態(tài)網(wǎng)頁(yè)。忽略動(dòng)態(tài)網(wǎng)頁(yè)是因?yàn)樗鼈內(nèi)菀自斐芍┲胂葳濉V┲胂葳謇碚撋鲜且粋€(gè)無(wú)限的網(wǎng)頁(yè)集合,而蜘蛛永遠(yuǎn)不能完整地遍歷這個(gè)集合。在線(xiàn)日歷就是一個(gè)容易被忽略的蜘蛛陷阱,它生成的動(dòng)態(tài)網(wǎng)頁(yè)中可以標(biāo)上任何日期,并包含指向后一天網(wǎng)頁(yè)的鏈接。一個(gè)爬蟲(chóng)從這個(gè)日歷中找到一個(gè)網(wǎng)頁(yè)后,便會(huì)無(wú)止境地請(qǐng)求后一天的網(wǎng)頁(yè)。
商業(yè)搜索引擎的爬蟲(chóng)通常回避這些帶問(wèn)號(hào)的URL,因?yàn)檫@些URL可能會(huì)導(dǎo)致蜘蛛陷阱。Google已經(jīng)放寬了對(duì)這些站點(diǎn)的限制。Google爬蟲(chóng)似乎有另一種避免蜘蛛陷阱的方法。舉例來(lái)說(shuō),它可能沿著指向帶問(wèn)號(hào)URL的鏈接爬行,但不會(huì)爬取帶問(wèn)號(hào)的URL,這樣便可以跳出蜘蛛陷阱的遞歸循環(huán)。
鏈接分析研究者應(yīng)當(dāng)注意,研究型的網(wǎng)絡(luò)爬蟲(chóng)不能遍歷含動(dòng)態(tài)網(wǎng)頁(yè)的站點(diǎn),或者只能遍歷深度較淺的站點(diǎn)。商業(yè)搜索引擎的爬蟲(chóng)也是如此。在使用爬蟲(chóng)的時(shí)候,應(yīng)當(dāng)公開(kāi)所使用的參數(shù),以便其他研究者能判斷這些參數(shù)對(duì)結(jié)果的影響。遍歷參數(shù)集合列舉如下:
·拒絕訪(fǎng)問(wèn)帶有如下子串的URL:?,cgi-bin,&
·拒絕訪(fǎng)問(wèn)超過(guò)最大斜線(xiàn)數(shù)的URL
·拒絕訪(fǎng)問(wèn)超過(guò)最大字符數(shù)的URL
影響搜索引擎收錄就會(huì)間接影響到SEO項(xiàng)目,盡管現(xiàn)在各大搜索引擎算法對(duì)動(dòng)態(tài)網(wǎng)頁(yè)的索引都有了很大的改善。但是與其等搜索引擎來(lái)改變這個(gè)事情,為什么不自己就做的很好?站點(diǎn)靜態(tài)化仍舊是SEO中非常必要的一個(gè)事情。







24小時(shí)免費(fèi)服務(wù)咨詢(xún)熱線(xiàn):
立即咨詢(xún)
聯(lián)系我們
立即咨詢(xún)
聯(lián)系我們