少妇午夜啪爽嗷嗷叫视频-久久精品欧美伊人婷婷1024-泰国大鸡吧猛操日日本大骚逼-国产精品高清一区二区不卡-熟女少妇一区二区三区四区-中文字幕午夜人妻久久一区-天美传媒麻豆蜜桃飘香-国产做a爰片久久毛片95-欧美亚洲另类在线日韩国产

思億歐觀點

搜索引擎蜘蛛的工作過程

發(fā)布時間:2009-09-01

搜索引擎蜘蛛的工作過程,了解搜索引擎蜘蛛是如何爬取網(wǎng)頁、索引網(wǎng)頁等。

搜索器在工作過程中主要需考慮以下幾個問題:

(1)Web信息的選擇

在大多數(shù)情況下,搜索器不可能搜集所有Web信息,只能選擇下載其中一部分。這樣,如何下載比較“重要”的Web信息就是一個很現(xiàn)實的問題。判斷一個網(wǎng)頁是否重要的依據(jù)主要有興趣驅動、流行性驅動和位置驅動三個指標。

(2)Web頁面的更新頻率

當網(wǎng)頁被下載后,搜索器應以一定的頻率對全部網(wǎng)頁進行刷新或對網(wǎng)頁重新訪問,其頻率應與網(wǎng)頁自身更新的頻率相適應,但不是成正比。

(3)減少搜索器對Web服務器的負擔

當很多搜索器在工作時,將大大消耗服務器資源,對Web服務器而言是一個不小的負擔,如何減少服務器負擔和避免阻塞也是設計搜索器應該考慮的問題。例如,有的搜索引擎與網(wǎng)站達成協(xié)議,只有在網(wǎng)站服務器端放置特殊標記文件,搜索器才采集,有的網(wǎng)站服務器按照搜索器的要求建立索引文件,搜索器只采集這個索引文件即可。

(4)并行工作

由于網(wǎng)頁數(shù)量龐大,許多搜索器在多臺機器上工作,并行下載網(wǎng)頁,從而使得在最短的時間內(nèi)下載更多的網(wǎng)頁,而這些并行工作的搜索器必須協(xié)同工作,以便使得不同搜索器不會重復訪問。并行工作處理的好壞,將直接影響搜索器的效率。

目前的搜索引擎蜘蛛已經(jīng)不在是以前的發(fā)現(xiàn)一張網(wǎng)頁,并收錄。現(xiàn)在網(wǎng)頁的收錄,將比以往更加嚴格。以前搜索引擎蜘蛛面臨的問題是大部分站點的網(wǎng)頁不太友好,不利于搜索引擎的蜘蛛爬取。而現(xiàn)在的問題,網(wǎng)頁的路徑很友好,但是搜索引擎蜘蛛需要分辨其價值,從而再決定要不要收錄。也正是這個原因,讓很多內(nèi)容主要是靠采集但是網(wǎng)站結構很有利于搜索引擎蜘蛛爬行的網(wǎng)站,并沒有得到搜索引擎大量收錄的原因。

通過網(wǎng)站結構、外部鏈接等因素來促進搜索引擎的收錄,依然是主要的方法之一。但是相比較而言,現(xiàn)在搜索引擎已經(jīng)不那么依賴這兩者的作用了。所以對SEO來說,難度已經(jīng)明顯增加。

分享至share
  • pin
  • weibo
  • wechat
email

上一篇:全文搜索

下一篇:鏈接關系的分析

tel 24小時免費服務咨詢熱線:400-080-3010

立即咨詢立即咨詢 聯(lián)系我們聯(lián)系我們