搜索引擎原理(四) |
發(fā)布時間: 2012/9/3 11:01:36 |
本章介紹搜索引擎的基本工作原理和它作為一種網(wǎng)絡(luò)應(yīng)用軟件的體系結(jié)構(gòu)。 在后面的三章中,我們將以一個實際的例子,具體展開在這些原理基礎(chǔ)上實現(xiàn)的 一種方案。通過這幾章學(xué)習(xí),讀者將得到一個可實際運行搜索引擎的實現(xiàn)細節(jié)。 第一節(jié) 基本要求 如在第一章第二節(jié)所述,搜索引擎是一個網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng), 對它有如下基本要求。 能夠接受用戶通過瀏覽器提交的查詢詞或者短語,記作q,例如“非典”,“伊 拉克戰(zhàn)爭”,“床前明月光”等等。 在一個可以接受的時間內(nèi)返回一個和該用戶查詢匹配的網(wǎng)頁信息列表,記作 L 。上一章講過,這個列表的每一條目至少包含三個元素(標(biāo)題,網(wǎng)址鏈接,摘 要)。 q ,q ,… L ,L ,… 1 2 1 2 搜索引擎 網(wǎng)頁數(shù)據(jù)庫 圖2-1 搜索引擎示意圖 這里有幾個問題需要注意,它們對應(yīng)上面黑體的文字: “可以接受的時間”,也就是響應(yīng)時間。對于在Web 上面向廣大用戶提供服 務(wù)的軟件來說,這個時間不能太長,通常也就在“秒”這個量級。這是衡量搜索 引擎可用性的一個基本指標(biāo),也是和傳統(tǒng)信息檢索系統(tǒng)的一個差別。更進一步的, 這樣的響應(yīng)時間要求不僅要能滿足單個用戶查詢,而且要能在系統(tǒng)設(shè)計負載的情 況下滿足所有的用戶。也就是說,系統(tǒng)應(yīng)該在額定吞吐率的情況下保證秒級響應(yīng) 時間。這其中詳細的分析將在中篇第八章展開。 “匹配”,指的是網(wǎng)頁中以某種形式包含有q 的內(nèi)容,其中最簡單、最常見 本文出自:億恩科技【m.1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |