文章內(nèi)容

搜索引擎原理(一)

發(fā)布時間: 2012/9/3 11:01:20

信息的生產(chǎn)、傳播、搜集與查詢是人類最基本的活動之一。考慮以文字為載體的信息，傳統(tǒng)上有圖書館、相應(yīng)的編目體系和專業(yè)人員幫助我們很快找到所需的信息，其粒度通常是“書”或者“文章”。隨著計算機與信息技術(shù)的發(fā)展，有了信息檢索（Information Retrieval，IR）學(xué)科領(lǐng)域，有了關(guān)于圖書或者文獻的全文檢索系統(tǒng)，使我們能很方便地在“關(guān)鍵詞”的粒度上得到相關(guān)的信息。我們注意到，上述全文檢索系統(tǒng)一般工作在一個規(guī)模相對有限、內(nèi)容相對穩(wěn) 定的館藏（collection）上，被檢索的對象通常是經(jīng)過認真篩選和預(yù)先處理的（例如人工提取出了“作者”，“標(biāo)題”等元數(shù)據(jù)，形成了很好的“摘要”等），并且系統(tǒng)需要同時響應(yīng)的查詢數(shù)量通常都不會太大（例如每秒鐘 10 個左右）。 1994 年左右，萬維網(wǎng)（World Wide Web，簡記為WWW 或Web ）出現(xiàn)。它的開放性（openness）和其上信息廣泛的可訪問性（accessibility）極大地鼓勵了人們創(chuàng)作的積極性。作為一個信息源，Web 和上述全文檢索系統(tǒng)的工作對象相比，具有許多不同的特征，它們給信息檢索領(lǐng)域帶來了新的發(fā)展機遇和技術(shù)挑戰(zhàn)。規(guī)模大。在短短的 10 年左右時間，人類至少生產(chǎn)了40 億網(wǎng)頁[Google,2004]，而人類有文字上萬年以來產(chǎn)生了大約 1 億本書；中國網(wǎng)上到2004 年初大致有了約 3 億網(wǎng)頁[天網(wǎng),2004]，而中華民族有史以來出版的書籍大約不過 275 萬種。盡管書籍的容量和質(zhì)量是一般網(wǎng)頁不可比的，但在對應(yīng)的時間背景上考察其文字的總體數(shù)量，我們不能不為人類在Web 上創(chuàng)造文字的激情驚嘆！內(nèi)容不穩(wěn)定。除了不斷有新的網(wǎng)頁出現(xiàn)外，舊的網(wǎng)頁會因為各種原因被刪除（有研究指出50%網(wǎng)頁的平均生命周期大約為50 天[Cho and Garcia-Molina,2000, Cho,2002]）；從原則上講，讀者數(shù)和作者數(shù)在同一個量級，形式和內(nèi)容的隨意性很強，權(quán) 威性相對也不高，也不太可能進行人工篩選和預(yù)處理。與生俱來的數(shù)字化、網(wǎng)絡(luò)化。傳統(tǒng)載體上的信息，人們目前正忙于將它們數(shù) 字化、上網(wǎng)（花費極高），而網(wǎng)絡(luò)信息天生如此。這個特性是一把雙刃劍：一方面便于我們搜集和處理，另一方面也會使我們感到太多，蜂擁而至，魚目混珠。而作為要在Web 上提供服務(wù)的信息查詢系統(tǒng)，如搜索引擎和數(shù)字圖書館，通常要具備同時對付大量訪問的能力（例如每秒鐘 1000 個查詢），而且響應(yīng)時間還要足夠的快（例如 1 秒鐘）。本書旨在介紹構(gòu)建這類搜索引擎的有關(guān)技術(shù)。傳統(tǒng)的 IR是其基礎(chǔ)，同時也充分討論了由上述Web 信息的特征所帶來的新問題及其解決方案。
本文出自：億恩科技【m.1tcdy.com】

服務(wù)器租用/服務(wù)器托管中國五強！虛擬主機域名注冊頂級提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]