老师的大兔子好软水好多的网站|井田制的特点|亚洲精品无码专区在线在线播放|古典文学下载|少女配狗1-12集全集在线观看|99久久点在线精品|av人人揉揉资源站免费

思億歐觀點

全文搜索

發布時間:2009-09-02

有專家認為,無論對文獻標引的質量如何,對用戶檢索的滿足率都不可能百分之百。

有專家認為,無論對文獻標引的質量如何,對用戶檢索的滿足率都不可能百分之百。例如,用戶想檢索關于陳毅在抗日戰爭中活動的文獻,采用對標引詞(主題詞、關鍵詞)字段的檢索就很難滿足檢索要求,只有全文檢索才能滿足這一檢索目的。因此,無論對文獻的標引和分類如何,全文檢索的功能都是不可替代的。然而,由于全文檢索是直接對“原文”的檢索,檢索時會產生誤檢,大量的檢索垃圾降低了全文檢索的查準率,同時由于作者用詞的不統一,同義詞繁多,全文檢索的查全率也受到影響。所以,解決這些問題是刻不容緩的。

1.提高查全率

作者用詞的不統一,影響了用戶的查全。例如,查找“非典型肺炎”,由于不同的文獻使用的詞匯不同,如“非典型肺炎”、“SARS”、“非典”等,只用某一詞查找就可能出現漏檢,如果讓用戶去列舉出所有同義詞來檢索,勢必增加了用戶的檢索負擔。因此,構造全文檢索算法時應考慮到檢索詞的擴充,采用同義詞詞典無疑是一個好的方法。

同義詞詞典是把含義相同的詞匯關聯起來,在全文檢索中的作用是,當用戶使用某個詞匯檢索時,系統直接將同義詞取出,構成“或”運算檢索式,在全文中匹配查詢,這樣確保了具有高查全率的檢索效果。對于同義詞詞典,應能夠及時更新,或具有學習功能,為維護同義詞詞典提供幫助。

2.提高查準率

由于中文詞之間沒有間隔標記,所以進行全文檢索時極易產生誤檢索,使查準率偏低。例如,用“華人”一詞去檢索,會使得含有“中華人民共和國”詞匯的文獻被檢索出來;用“民法’’檢索,會把“人民法院”檢索出來。解決這類問題同樣可通過構造檢索輔助詞典來完成,而實現這一任務的詞典,稱為“排除詞詞典”。

排除詞詞典的結構為,將檢索用詞(如民法)與欲排除詞(如人民法院、移民法等)關聯起來,用于在檢索時消除誤檢。用排除詞詞典排除誤檢的做法有許多,最簡單的方法是將檢索詞在每一文獻中檢索出數量(檢索詞在文獻中出現次數)與所有欲排除詞在文獻中出現的數量相比較,若相等,該文獻就被排除,否則為命中。

分享至share
  • pin
  • weibo
  • wechat
email

tel 24小時免費服務咨詢熱線:400-080-3010

立即咨詢立即咨詢 聯系我們聯系我們