少妇午夜啪爽嗷嗷叫视频-久久精品欧美伊人婷婷1024-泰国大鸡吧猛操日日本大骚逼-国产精品高清一区二区不卡-熟女少妇一区二区三区四区-中文字幕午夜人妻久久一区-天美传媒麻豆蜜桃飘香-国产做a爰片久久毛片95-欧美亚洲另类在线日韩国产

思億歐觀點

基于關鍵詞的網(wǎng)頁權重方法研究

發(fā)布時間:2008-11-02

利用關鍵詞序列得到的用戶事務模式經(jīng)過聚類以后,形成了表達用戶個性化信息需求的不同模式特征。

利用關鍵詞序列得到的用戶事務模式經(jīng)過聚類以后,形成了表達用戶個性化信息需求的不同模式特征。和關鍵詞序列相比,聚類后的用戶事務模式顯然具有更少的數(shù)量和更明確的個性化特征,所以使用此用戶事務聚類模式就可以進行下一步的個性化信息推薦活動。

目前搜索引擎中常見的個性化信息推薦方式主要有兩種:一種是查詢改進;一種是個性化網(wǎng)頁權重。前者主要是利用改變用戶實際搜索的關鍵詞內(nèi)容來表達用戶的個性化信息需求,而后者主要是根據(jù)網(wǎng)頁權重對結果網(wǎng)頁進行排序來表達用戶的個性化信息需求。基于個性化網(wǎng)頁權重的推薦方法和基于查詢改進的推薦方法相比,具有很多優(yōu)勢,主要表現(xiàn)在以下幾個方面:

一是經(jīng)過實踐證明,諸如PageRank等網(wǎng)頁權重值是一種較為有效反映網(wǎng)頁客觀重要性的指標,同時相應算法具有技術易行性。

二是算法主要解決了網(wǎng)頁客觀重要性的評價問題,可以在網(wǎng)頁相關度排序上發(fā)揮作用。也就是說,該算法能夠?qū)M足用戶個性化要求的網(wǎng)頁放在結果網(wǎng)頁集合的最前端。事實上,這更有助于用戶得到所需的個性化信息。

最后,相關的網(wǎng)頁權重計算工作無需在線進行,只需利用離線階段的存儲數(shù)據(jù)即可計算,從而能夠有效節(jié)省用戶查詢所需要的時間開銷。

基于個性化網(wǎng)頁權重的推薦算法思想是在傳統(tǒng)的網(wǎng)頁權重算法基礎之上,通過合理地修改和添加其中使用的具體參數(shù),以表達不同用戶的個性化需求特征,從而計算出不同用戶所特有的網(wǎng)頁權重值,并在用戶查詢時,利用這個值來計算網(wǎng)頁的相關度和優(yōu)先級。

較為常見的個性化網(wǎng)頁權重方式為個性化PageRank方法傳統(tǒng)的PageRank是一種用于查詢結果網(wǎng)頁的相關度排序技術,它通過網(wǎng)頁問的鏈人和鏈出關系來計算不同網(wǎng)頁的權重值,并據(jù)此來實現(xiàn)網(wǎng)頁排序。這種算法目前已有多種衍生類型,主要目的都是著眼于對結果做進一步的信息表達。其中,最為常見的做法是使用個性化PageRank向量來表達不同用戶的個性化信息需求,并使用此向量計算網(wǎng)頁的相關度,從而產(chǎn)生針對特定用戶的個性化搜索結果。

個性化PageRank算法主要依據(jù)個性化PageRank向量來使結果網(wǎng)頁產(chǎn)生對特定用戶的偏好特性。其中,很多算法都是以基于Web的圖論算法為基礎的,最為常見的模型有馬爾可夫模型等。對于馬爾可夫模型,人們已經(jīng)提出了很多不同的具體類型,如一階馬爾可夫鏈模型、高階馬爾可夫鏈模型和混合馬爾可夫鏈模型等。其中,一階馬爾可夫鏈模型雖然能對序列依賴給出一個簡單的描述方法,但是它沒有考慮網(wǎng)絡沖浪行為的長效記憶特征;高階馬爾可夫鏈模型能夠更加準確地預測導航路徑,但是它也會隨著維度增多而產(chǎn)生覆蓋度和計算復雜性的權衡問題,且這種復雜模型通常要求相當大的訓練集;混合馬爾可夫鏈模型組合了各階的馬爾可夫模型,在預處理和訓練的時候也需要更多的資源。

顯然,此處的算法和選用的模型是相關的,要根據(jù)對簡易性和正確性的權衡情況來決定所選模型類型,甚至是一些其他模型,這些其他模型多半采用基于樹狀導航圖結構的數(shù)據(jù)挖掘算法,如聚類、序列模型挖掘、頻繁項挖掘等。

現(xiàn)在人們提出的個性化PageRank方法雖然有很多,但是主要分為兩大類:一類是直接修改基于超鏈關系得到的網(wǎng)頁權重值;另一類是在傳統(tǒng)PageRank公式上添加修正參數(shù)來反映用戶的個性化要求。

分享至share
  • pin
  • weibo
  • wechat
email

tel 24小時免費服務咨詢熱線:400-080-3010

立即咨詢立即咨詢 聯(lián)系我們聯(lián)系我們