搜索引擎原理(二) |
發(fā)布時(shí)間: 2012/9/3 11:01:25 |
早在 Web 出現(xiàn)之前,互聯(lián)網(wǎng)上就已經(jīng)存在許多旨在讓人們共享的信息資源 。那些資源當(dāng)時(shí)主要存在于各種允許匿名訪問的FTP 站點(diǎn)(anonymous ftp), 內(nèi)容以學(xué)術(shù)技術(shù)報(bào)告、研究性軟件居多,它們以計(jì)算機(jī)文件的形式存在,文字材 料的編碼通常是PostScript 或者純文本(那時(shí)還沒有HTML)。 為了便于人們?cè)诜稚⒌腇TP 資源中找到所需的東西,1990 年加拿大麥吉爾大 學(xué)(University of McGill )計(jì)算機(jī)學(xué)院的師生開發(fā)了一個(gè)軟件,Archie。它通過定 期搜集并分析FTP 系統(tǒng)中存在的文件名信息,提供查找分布在各個(gè)FTP 主機(jī)中文 件的服務(wù)。Archie 能在只知道文件名的前提下,為用戶找到這個(gè)文件所在的FTP 服務(wù)器的地址。Archie 實(shí)際上是一個(gè)大型的數(shù)據(jù)庫,再加上與這個(gè)大型數(shù)據(jù)庫相 關(guān)聯(lián)的一套檢索方法。該數(shù)據(jù)庫中包括大量可通過FTP 下載的文件資源的有關(guān)信 息,包括這些資源的文件名、文件長度、存放該文件的計(jì)算機(jī)名及目錄名等。盡 管所提供服務(wù)的信息資源對(duì)象(非HTML 文件)和本書所討論搜索引擎的信息資 源對(duì)象(HTML 網(wǎng)頁)不一樣,但基本工作方式是相同的(自動(dòng)搜集分布在廣域 網(wǎng)上的信息,建立索引,提供檢索服務(wù)),因此人們公認(rèn) Archie 為現(xiàn)代搜索引擎 的鼻祖。 值得一提的是,即使是在 10 多年后的今天,以FTP 文件為對(duì)象的信息檢索 服務(wù)技術(shù)依然在發(fā)展,尤其是在用戶使用界面上充分采用了Web 風(fēng)格。北大天網(wǎng) 文件檢索系統(tǒng)就是一個(gè)例子(見http://bingle.pku.edu.cn )。不過鑒于本書寫作定位 的關(guān)系,后面將主要討論網(wǎng)頁搜索引擎的相關(guān)問題。 以Web 網(wǎng)頁為對(duì)象的搜索引擎和以FTP 文件為對(duì)象的檢索系統(tǒng)一個(gè)基本的 不同點(diǎn)在于搜集信息的過程。前者是利用 HTML 文檔之間的鏈接關(guān)系,在 Web 上一個(gè)網(wǎng)頁、一個(gè)網(wǎng)頁的“爬取”(crawl),將那些網(wǎng)頁“抓”(fetch)到本地后 進(jìn)行分析;后者則是根據(jù)已有的關(guān)于FTP 站點(diǎn)地址的知識(shí)(例如得到了一個(gè)站點(diǎn) 地址列表),對(duì)那些站點(diǎn)進(jìn)行訪問,獲得其文件目錄信息,并不真正將那些文件下 載到系統(tǒng)上來。因此,如何在 Web 上“爬取”,就是搜索引擎要解決的一個(gè)基本 問題。在這方面,1993 年Matthew Gray 開發(fā)了World Wide Web Wanderer,它是 世界上第一個(gè)利用HTML 網(wǎng)頁之間的鏈接關(guān)系來監(jiān)測Web 發(fā)展規(guī)模的“機(jī)器人” (robot )程序。剛開始時(shí)它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能 夠通過它檢索網(wǎng)站域名。鑒于其在Web 上沿超鏈“爬行”的工作方式,這種程序 有時(shí)也稱為“蜘蛛”(spider)。因此,在文獻(xiàn)中crawler, spider, robot 一般都指的是 相同的事物,即在Web 上依照網(wǎng)頁之間的超鏈關(guān)系一個(gè)個(gè)抓取網(wǎng)頁的程序,通常 也稱為“搜集”。在搜索引擎系統(tǒng)中,也稱為網(wǎng)頁搜集子系統(tǒng)。 現(xiàn)代搜索引擎的思路源于Wanderer,不少人在Matthew Grey 工作的基礎(chǔ)上對(duì) 它的蜘蛛程序做了改進(jìn)。1994 年7 月,Michael Mauldin 將John Leavitt 的蜘蛛程 序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos,成為第一個(gè)現(xiàn)代意義的 搜索引擎。在那之后,隨著Web 上信息的爆炸性增長,搜索引擎的應(yīng)用價(jià)值也越 來越高,不斷有更新、更強(qiáng)的搜索引擎系統(tǒng)推出(下一節(jié)會(huì)有介紹)。 本文出自:億恩科技【m.1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |