搜索引擎原理(三) |
發(fā)布時(shí)間: 2012/9/3 11:01:28 |
在許多場(chǎng)合,也稱Yahoo!之類的門戶網(wǎng)站提供的信息查 找功能為搜索引擎。但從技術(shù)上講,這樣的門戶中提供的搜索服務(wù)和前述搜索引 擎是很不同的。這樣的門戶依賴的是人工整理的網(wǎng)站分類目錄,一方面,用戶可 以直接沿著目錄導(dǎo)航,定位到他所關(guān)心的信息;另一方面,用戶也可以提交查詢 詞,讓系統(tǒng)將他直接引導(dǎo)到和該查詢?cè)~最匹配的網(wǎng)站。圖 1-2 就是我們?cè)谒押?查詢“伊拉克戰(zhàn)爭(zhēng)”的結(jié)果。和圖 1-1 相比,不難看到其風(fēng)格是很不相同的。在 需要區(qū)別的場(chǎng)合,我們可以分別稱“自動(dòng)搜索引擎”和“目錄搜索引擎”,或者“網(wǎng) 頁搜索引擎”和“網(wǎng)站搜索引擎”。一般來講,前者的信息搜索會(huì)更全面些,后者 則會(huì)準(zhǔn)確些。在沒有特殊說明的情況下,本書中所討論的“搜索引擎”不包括Yahoo! 和搜狐這樣的搜索方式。 隨著網(wǎng)上信息越來越多,單純靠人工整理網(wǎng)站目錄取得較高精度查詢結(jié)果的 優(yōu)勢(shì)逐漸退化——對(duì)海量的信息進(jìn)行高質(zhì)量的人工分類已經(jīng)不太現(xiàn)實(shí)。目前有兩 個(gè)發(fā)展方向。一是利用文本自動(dòng)分類技術(shù),在搜索引擎上提供對(duì)每篇網(wǎng)頁的自動(dòng) 分類,這方面最先看到的例子是Google 的“網(wǎng)頁分類”選項(xiàng),但它分類的對(duì)象只 是英文網(wǎng)頁。在中文方面,文本自動(dòng)分類的研究工作有很多,但我們知道的第一 個(gè)在網(wǎng)上提供較大規(guī)模網(wǎng)頁自動(dòng)分類服務(wù)的是北大網(wǎng)絡(luò)實(shí)驗(yàn)室馮是聰和龔筆宏等 人的工作[馮是聰,2003],他們于2002 年 10 月在天網(wǎng)搜索上掛接了一個(gè)300 萬網(wǎng) 頁的分類目錄。另一個(gè)發(fā)展方向是將自動(dòng)網(wǎng)頁爬取和一定的人工分類目錄相結(jié)合, 希望形成一個(gè)既有高信息覆蓋率,也有高查詢準(zhǔn)確性的服務(wù)。 互聯(lián)網(wǎng)上信息量在不斷增加,信息的種類也在不斷增加。例如除了我們前面 提到的網(wǎng)頁和文件,還有新聞組,論壇,專業(yè)數(shù)據(jù)庫等。同時(shí)上網(wǎng)的人數(shù)也在不 斷增加,網(wǎng)民的成分也在發(fā)生變化。一個(gè)搜索引擎要覆蓋所有的網(wǎng)上信息查找需 求已出現(xiàn)困難,因此各種主題搜索引擎,個(gè)性化搜索引擎,問答式搜索引擎等紛 紛興起。這些搜索引擎雖然還沒有實(shí)現(xiàn)如通用搜索引擎那樣的大規(guī)模應(yīng)用,但隨 著互聯(lián)網(wǎng)的發(fā)展,我們相信它們的生命力會(huì)越來越旺盛。另外,即使通用搜索引 擎的運(yùn)行現(xiàn)在也開始出現(xiàn)分工協(xié)作,有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù) 提供商。例如美國的Inktomi,它本身并不是直接面向用戶的搜索引擎,但向包括 Overture (原GoTo)、LookSmart、MSN、HotBot 等在內(nèi)的其他搜索引擎提供全文 網(wǎng)頁搜集服務(wù)。從這個(gè)意義上說,它是搜索引擎數(shù)據(jù)的來源。 搜索引擎出現(xiàn)雖然只有 10 年左右的歷史,但在Web上已經(jīng)有了確定不移的地 位。據(jù)CNNIC統(tǒng)計(jì),它已經(jīng)成為繼電子郵件之后的第二大Web應(yīng)用。雖然它的基 本工作原理已經(jīng)相當(dāng)穩(wěn)定,但在其質(zhì)量、性能和服務(wù)方式等方面的提高空間依然 很大,研究成果層出不窮,是每年WWW學(xué)術(shù)年會(huì)1 的重要論題之一。 本文出自:億恩科技【m.1tcdy.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |