搜索引擎原理(一) |
發(fā)布時間: 2012/9/3 11:01:20 |
信息的生產(chǎn)、傳播、搜集與查詢是人類最基本的活動之一。考慮以文字為載 體的信息,傳統(tǒng)上有圖書館、相應(yīng)的編目體系和專業(yè)人員幫助我們很快找到所需 的信息,其粒度通常是“書”或者“文章”。隨著計算機與信息技術(shù)的發(fā)展,有了 信息檢索(Information Retrieval,IR)學(xué)科領(lǐng)域,有了關(guān)于圖書或者文獻的全文 檢索系統(tǒng),使我們能很方便地在“關(guān)鍵詞”的粒度上得到相關(guān)的信息。 我們注意到,上述全文檢索系統(tǒng)一般工作在一個規(guī)模相對有限、內(nèi)容相對穩(wěn) 定的館藏(collection)上,被檢索的對象通常是經(jīng)過認真篩選和預(yù)先處理的(例 如人工提取出了“作者”,“標(biāo)題”等元數(shù)據(jù),形成了很好的“摘要”等),并且系 統(tǒng)需要同時響應(yīng)的查詢數(shù)量通常都不會太大(例如每秒鐘 10 個左右)。 1994 年左右,萬維網(wǎng)(World Wide Web,簡記為WWW 或Web )出現(xiàn)。它 的開放性(openness)和其上信息廣泛的可訪問性(accessibility)極大地鼓勵了 人們創(chuàng)作的積極性。作為一個信息源,Web 和上述全文檢索系統(tǒng)的工作對象相比, 具有許多不同的特征,它們給信息檢索領(lǐng)域帶來了新的發(fā)展機遇和技術(shù)挑戰(zhàn)。 規(guī)模大。在短短的 10 年左右時間,人類至少生產(chǎn)了40 億網(wǎng)頁[Google,2004], 而人類有文字上萬年以來產(chǎn)生了大約 1 億本書;中國網(wǎng)上到2004 年初大致有了約 3 億網(wǎng)頁[天網(wǎng),2004],而中華民族有史以來出版的書籍大約不過 275 萬種。盡管 書籍的容量和質(zhì)量是一般網(wǎng)頁不可比的,但在對應(yīng)的時間背景上考察其文字的總 體數(shù)量,我們不能不為人類在Web 上創(chuàng)造文字的激情驚嘆! 內(nèi)容不穩(wěn)定。除了不斷有新的網(wǎng)頁出現(xiàn)外,舊的網(wǎng)頁會因為各種原因被刪除 (有研究指出50%網(wǎng)頁的平均生命周期大約為50 天[Cho and Garcia-Molina,2000, Cho,2002]); 從原則上講,讀者數(shù)和作者數(shù)在同一個量級,形式和內(nèi)容的隨意性很強,權(quán) 威性相對也不高,也不太可能進行人工篩選和預(yù)處理。 與生俱來的數(shù)字化、網(wǎng)絡(luò)化。傳統(tǒng)載體上的信息,人們目前正忙于將它們數(shù) 字化、上網(wǎng)(花費極高),而網(wǎng)絡(luò)信息天生如此。這個特性是一把雙刃劍:一方面 便于我們搜集和處理,另一方面也會使我們感到太多,蜂擁而至,魚目混珠。 而作為要在Web 上提供服務(wù)的信息查詢系統(tǒng),如搜索引擎和數(shù)字圖書館,通 常要具備同時對付大量訪問的能力(例如每秒鐘 1000 個查詢),而且響應(yīng)時間還 要足夠的快(例如 1 秒鐘)。 本書旨在介紹構(gòu)建這類搜索引擎的有關(guān)技術(shù)。傳統(tǒng)的 IR是其基礎(chǔ),同時也 充分討論了由上述Web 信息的特征所帶來的新問題及其解決方案。 本文出自:億恩科技【m.1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |