91精品人妻互换日韩精品久久影视|又粗又大的网站激情文学制服91|亚州A∨无码片中文字慕鲁丝片区|jizz中国无码91麻豆精品福利|午夜成人AA婷婷五月天精品|素人AV在线国产高清不卡片|尤物精品视频影院91日韩|亚洲精品18国产精品闷骚

您當(dāng)前位置:首頁(yè) > 新聞?lì)l道 > 技術(shù)動(dòng)態(tài) > 正文
簡(jiǎn)述搜索引擎的原理及發(fā)展前景
[摘 要]文章簡(jiǎn)述搜索引擎定義和服務(wù)方式,及搜索引擎的發(fā)展、工作原理和性能指標(biāo),分析了搜索引擎面臨的挑戰(zhàn),并對(duì)特色搜索引擎進(jìn)行了簡(jiǎn)要的闡述。
[關(guān)鍵詞]搜索引擎;信息檢索

信息技術(shù)的不斷發(fā)展,特別是互聯(lián)網(wǎng)應(yīng)用的迅速普及,深入到了人們生活的各個(gè)方面,改變了人們生活方式和思維方式,方便了全球信息資源共享。全球目前的網(wǎng)頁(yè)超過(guò)100億,每天新增加數(shù)百萬(wàn)網(wǎng)頁(yè),電子信息爆炸似的豐富起來(lái)。要在如此浩瀚的海洋里尋找信息,就像“大海撈針”一樣。能有一種工具使我們可以在不到1秒鐘的時(shí)間就迅速找到我們想要的內(nèi)容嗎?答案是“有”,這就是搜索引擎。今天,搜索引擎已成為人們?cè)诰W(wǎng)絡(luò)信息海洋中自如沖浪必不可少的利器。
搜索引擎(Search Engines)就是指在WWW(World Wide Web)環(huán)境中能夠響應(yīng)用戶提交的搜索請(qǐng)求,返回相應(yīng)的查詢結(jié)果信息的技術(shù)和系統(tǒng),是互聯(lián)網(wǎng)上的可以查詢網(wǎng)站或網(wǎng)頁(yè)信息的工具。它包括信息搜集、信息整理和用戶查詢?nèi)糠。搜索引擎的服?wù)方式分為兩種:目錄服務(wù)和關(guān)鍵字檢索服務(wù)。目錄服務(wù)是由分類專家將網(wǎng)絡(luò)信息按照主題分成若干個(gè)大類,用戶可以根據(jù)分類清晰地找到自己所需要的內(nèi)容。關(guān)鍵字檢索服務(wù)可以查找包含一個(gè)或多個(gè)特定關(guān)鍵字或詞組的WWW站點(diǎn)。搜索引擎是互聯(lián)網(wǎng)的第二大核心技術(shù),涉及到信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書(shū)館、自然語(yǔ)言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。
1搜索引擎的發(fā)展
1990年以前,沒(méi)有任何人能實(shí)現(xiàn)搜索互聯(lián)網(wǎng)的功能。互聯(lián)網(wǎng)發(fā)展早期,信息量較少,互聯(lián)網(wǎng)用戶多為專業(yè)人士,那時(shí)查找信息要相對(duì)容易。伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡(jiǎn)直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的搜索引擎便應(yīng)運(yùn)而生了。所有搜索引擎的祖先,都可以追溯到1990年由蒙特利爾McGill大學(xué)學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明的Archie(Archie FAQ)。雖然當(dāng)時(shí)World Wide Web還未出現(xiàn),但因?yàn)楫?dāng)時(shí)網(wǎng)絡(luò)的主要用途是傳輸文件,網(wǎng)絡(luò)中的文件傳輸還是相當(dāng)頻繁。由于大量的文件散布在各個(gè)分散的FTP主機(jī)中,查詢起來(lái)非常不便,因此Alan Emtage想到了開(kāi)發(fā)一個(gè)可以以文件名查找文件的系統(tǒng),于是便有了Archie。
1993年,美國(guó)內(nèi)華達(dá)System Computing Services大學(xué)開(kāi)發(fā)了一個(gè)與Archie非常相似的搜索工具,這個(gè)搜索工具既能夠檢索文件也能夠檢索網(wǎng)頁(yè)。
1994年4月,斯坦福(Stanford)大學(xué)的兩名博士生,David Filo和美籍華人楊致遠(yuǎn)(Gerry Yang)共同創(chuàng)辦了超級(jí)目錄索引Yahoo,并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。
1998 年,斯坦福大學(xué)的兩位博士生 Larry Page 和 Sergey Brin 開(kāi)發(fā)出了現(xiàn)在世界上最大的搜索引擎——Google。通過(guò)對(duì) 20 多億網(wǎng)頁(yè)進(jìn)行整理,Google 可為世界各地的用戶提供適需的搜索結(jié)果,而且搜索時(shí)間通常不到半秒。現(xiàn)在,Google 每天需要為世界各國(guó)用戶提供 1.5 億次查詢服務(wù)。
1997年10月29日,北大天網(wǎng)正式在CERNET上向廣大Internet用戶提供Web信息導(dǎo)航服務(wù),它是由北大計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開(kāi)發(fā)的國(guó)家“九五”重點(diǎn)科技攻關(guān)項(xiàng)目“中文編碼和分布式中英文信息發(fā)現(xiàn)”的研究成果,受到學(xué)術(shù)界廣泛好評(píng)。
2000年1月,兩位北大校友,前Infoseek資深工程師李彥宏與加州大學(xué)伯克利分校博士后徐勇在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。歷經(jīng)5年的高速發(fā)展后,在近兩年時(shí)間里,百度高居全球網(wǎng)站流量前八名的位置,已經(jīng)成為全球十大網(wǎng)站之一。百度每天接受著超過(guò)一億人次來(lái)自各個(gè)方面的內(nèi)容檢索請(qǐng)求,中國(guó)9400萬(wàn)網(wǎng)民幾乎每天使用1次百度!坝袉(wèn)題百度一下”已經(jīng)成為中國(guó)網(wǎng)絡(luò)流行語(yǔ)之一。
2002年,中國(guó)搜索(原慧聰搜索)正式進(jìn)入中文搜索引擎市場(chǎng)。在一年多的時(shí)間里,就發(fā)展為全球著名的中文搜索引擎服務(wù)商,為新浪、搜狐、網(wǎng)易、TOM等知名門戶網(wǎng)站提供搜索引擎技術(shù);勐斔阉饕娴膬(yōu)勢(shì)是從人工審核網(wǎng)站信息源和設(shè)置禁查詞兩個(gè)方面入手,有效地過(guò)濾了不良信息,降低了垃圾信息的含量。在互聯(lián)網(wǎng)實(shí)時(shí)新聞搜索方面,慧聰也實(shí)現(xiàn)了網(wǎng)絡(luò)新聞的實(shí)時(shí)檢索。
2 搜索引擎的工作原理
簡(jiǎn)單的說(shuō),搜索引擎是通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息來(lái)建立數(shù)據(jù)庫(kù),檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。
根據(jù)搜索引擎提取數(shù)據(jù)的方法,可將搜索引擎系統(tǒng)可以分為三大類:
2.1目錄式搜索引擎:是一種網(wǎng)站級(jí)搜索引擎。目錄式搜索引擎由分類專家將網(wǎng)絡(luò)信息按照主題分成若干個(gè)大類,每個(gè)大類再分為若干個(gè)小類,依次細(xì)分,一般的搜索引擎分類體系有五六層,有的甚至十幾層。先由程序自動(dòng)搜集信息,然后由編輯員查看信息,人工形成信息摘要,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,因此其搜索的準(zhǔn)確度是相當(dāng)高的,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不夠及時(shí)。Yahoo就是這類搜索引擎的代表。
2.2機(jī)器人搜索引擎:Robot(機(jī)器人)一詞大家并不陌生,Computer Robot是指某個(gè)能以人類無(wú)法達(dá)到的速度不斷重復(fù)執(zhí)行某項(xiàng)任務(wù)的自動(dòng)程序。由于專門用于檢索信息的Robot程序象蜘蛛(spider)一樣在網(wǎng)絡(luò)間爬來(lái)爬去,因此,搜索引擎的Robot程序被稱為spider程序。搜索引擎主動(dòng)派出稱為蜘蛛(Spider)的機(jī)器人程序定期搜索(比如Google一般是28天),對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。Google、北大天網(wǎng)、百度(Baidu)就是這類搜索引擎的代表。
2.3元搜索引擎:這類搜索引擎沒(méi)有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)預(yù)先選定的獨(dú)立搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是用戶需要做更多的篩選。第一個(gè)元搜索引擎,是美國(guó)華盛頓大學(xué)碩士生Eric Selberg 和 Oren Etzioni 開(kāi)發(fā)的 Metacrawler。元搜索引擎的搜索效果始終不理想,所以沒(méi)有哪個(gè)元搜索引擎有過(guò)強(qiáng)勢(shì)地位。ByteSearch(http://www.bytesearch.com)、Mamma(http://www.mamma.com)、Profusion(http://www.profusion.com)就是這類搜索引擎的代表。
3 搜索引擎的性能指標(biāo)
搜索引擎的目標(biāo)就是在非常短的時(shí)間內(nèi)搜索的信息全面并且準(zhǔn)確。傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)——召回率和精度同樣也可以衡量一個(gè)搜索引擎的性能。
召回率是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查全率;精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。對(duì)于一個(gè)檢索系統(tǒng)來(lái)講,召回率和精度不可能兩全其美:召回率高時(shí),精度低;精度高時(shí),召回率低。因?yàn)闆](méi)有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁(yè),所以召回率很難計(jì)算。對(duì)于網(wǎng)民來(lái)說(shuō),互聯(lián)網(wǎng)上的信息不是不夠,而是“過(guò)剩”,如何精確查找到信息是大家所關(guān)心的問(wèn)題。因此,目前的搜索引擎系統(tǒng)都非常關(guān)心精度。
4 搜索引擎面臨的挑戰(zhàn)
目前搜索引擎是網(wǎng)絡(luò)上被使用頻率最高的服務(wù)項(xiàng)目之一。隨著Internet的強(qiáng)勢(shì)發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾日益突出。國(guó)際數(shù)據(jù)公司(IDC)曾公布的一份報(bào)告表明,被大肆宣傳為“使用簡(jiǎn)便易用,搜索結(jié)果豐富”的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因?yàn)榇蠖鄶?shù)搜索系統(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長(zhǎng)的視頻、音頻等多媒體信息的檢索,現(xiàn)在仍然是無(wú)法突破的難題。搜索引擎越來(lái)越不能滿足挑剔的網(wǎng)民們的各種信息需求,這表現(xiàn)在以下幾個(gè)方面:
收集的網(wǎng)頁(yè)數(shù)量和其數(shù)據(jù)庫(kù)的更新速度存在著不可調(diào)和的矛盾。用戶經(jīng)常無(wú)法打開(kāi)查詢的結(jié)果。網(wǎng)絡(luò)信息時(shí)刻變動(dòng),實(shí)時(shí)搜索幾乎不可能。就是剛剛瀏覽過(guò)的網(wǎng)頁(yè),也隨時(shí)都有更新、過(guò)期、刪除的可能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要一部分。搜索引擎需要定期不斷地訪問(wèn)網(wǎng)絡(luò)資源。目前網(wǎng)絡(luò)帶寬不足,網(wǎng)絡(luò)速度不夠理想,遍歷如此龐雜的網(wǎng)絡(luò)時(shí)間花費(fèi)是非常龐大的,這就是不能實(shí)時(shí)搜索的原因。


對(duì)多媒體內(nèi)容的處理尚不成熟。迄今為止,搜索對(duì)象主要是文本;谡Z(yǔ)義的多媒體搜索技術(shù)還不成熟,比如搜索圖片時(shí)還只能通過(guò)周圍相關(guān)的文字進(jìn)行判斷,而無(wú)法根據(jù)圖片本身的信息提供檢索。多媒體技術(shù)的發(fā)展,對(duì)搜索引擎提出了更多的要求。人們期望引擎不僅能挑出自己需要的文章,還能挑出自己所關(guān)心的圖片、電影、音樂(lè)等。
搜索引擎的“智能” 有待提高。 一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自動(dòng)排序軟件Spiders蜘蛛程序,只能接受這種格式的網(wǎng)頁(yè)。這意味著,在企業(yè)內(nèi)部的局域網(wǎng)上,任何沒(méi)有使用HTML格式的信息將無(wú)法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應(yīng)用軟件的數(shù)據(jù)庫(kù)的信息會(huì)長(zhǎng)期的“沉沒(méi)”在信息的海底中。智能搜索引擎具有跨平臺(tái)工作和處理多種混合文檔結(jié)構(gòu)的能力。譬如既能處理HTML(Hyper Text Markup Language,超文本標(biāo)志語(yǔ)言),又能處理SGML(Standard for General Markup Language,通用標(biāo)志語(yǔ)言標(biāo)準(zhǔn))和XML(Extended Marked Language,擴(kuò)展標(biāo)志語(yǔ)言)文檔以及其他類型的文檔,譬如Word、WPS等。智能搜索引擎應(yīng)該可以支持多語(yǔ)言搜索。
搜索引擎應(yīng)更好地支持動(dòng)態(tài)網(wǎng)頁(yè),許多蜘蛛軟件不敢去碰動(dòng)態(tài)網(wǎng)頁(yè),怕被變化無(wú)窮的動(dòng)態(tài)系統(tǒng)黑洞吸進(jìn)去出不來(lái)。然而,網(wǎng)站使用動(dòng)態(tài)網(wǎng)頁(yè)生成工具乃是大事所趨,解決動(dòng)態(tài)網(wǎng)頁(yè)查找的問(wèn)題已經(jīng)迫在眉睫。
如何解決這些難題已成為第三代搜索引擎探索的方向。一個(gè)好的搜索引擎不再僅憑借數(shù)據(jù)庫(kù)大小、更新頻率、檢索速度、對(duì)多語(yǔ)言的支持這幾個(gè)基本特性來(lái)衡量,隨著數(shù)據(jù)庫(kù)容量的不斷膨脹,如何從龐大的資料庫(kù)中精確地找到正確的資料,被公認(rèn)為是下一代搜索技術(shù)的競(jìng)爭(zhēng)要點(diǎn)。
5 特色搜索引擎
在網(wǎng)絡(luò)信息多樣化和網(wǎng)絡(luò)用戶多樣化的呼喚下,人們希望在網(wǎng)絡(luò)上找到更豐富更實(shí)用的資源,不再漫無(wú)目的地查找,特色搜索引擎便應(yīng)運(yùn)而生了。
尋人搜索引擎。如果您想在網(wǎng)上尋找一位老朋友,那么可以考慮使用Yahoo提供的尋人搜索引擎(http://people.yahoo.com)。由于Yahoo的用戶群極為龐大,大多數(shù)網(wǎng)民都擁有或曾經(jīng)擁有Yahoo的賬戶,另外其國(guó)際化特征明顯,用戶群包含了全世界各國(guó)的網(wǎng)民。因此,它應(yīng)該是大范圍尋人的較好選擇。尤其當(dāng)您尋找的人正好在某些非英語(yǔ)國(guó)家,找不到專門的搜索引擎,Yahoo的優(yōu)勢(shì)就更為明顯。
圖像搜索引擎。圖像搜索引擎雖然還沒(méi)有成熟的產(chǎn)品,但是這項(xiàng)研究工作卻緊鑼密鼓的進(jìn)行著。據(jù)稱,美國(guó)Purdue大學(xué)的研究人員已經(jīng)開(kāi)發(fā)出了一種新的搜索引擎,這種搜索引擎不再使用關(guān)鍵詞文本進(jìn)行搜索,而是使用圖像或者草圖進(jìn)行搜索。不就的將來(lái),用戶自己畫(huà)一幅草圖,搜索引擎就可以對(duì)數(shù)據(jù)庫(kù)進(jìn)行搜索,并找到所有與草圖類似的圖像。不過(guò),這要求圖像搜索引擎能夠快速處理超大容量數(shù)據(jù)庫(kù)。這種技術(shù)不僅為網(wǎng)民提供了方便,在生物、化學(xué)、醫(yī)學(xué)等領(lǐng)域都可能發(fā)揮極大的作用。
多媒體搜索引擎。FAST(http://multimedia.alltheweb.com)是國(guó)外著名的多媒體搜索引擎,很多同類搜索引擎都會(huì)引用此引擎的內(nèi)容。在FAST搜索多媒體文件,您可以同時(shí)搜索圖像、音頻、視頻等多種格式的多媒體文件,圖像支持JPEG、GIF、BMP三種格式,音頻支持MP3、Wave、AIFF、RealAudio、MIDI五種格式,視頻支持AVI、DivX、QuickTime、MPEG四種。FAST為每一個(gè)搜索結(jié)果提供預(yù)覽和說(shuō)明,同時(shí)還有可供下載的直接鏈接,以及該文件所在網(wǎng)站的地址。
房產(chǎn)地圖搜索引擎。房產(chǎn)地圖搜索引擎是結(jié)合地理信息系統(tǒng)(GIS)、數(shù)據(jù)庫(kù)系統(tǒng)(DBMS)和動(dòng)態(tài)Web軟件技術(shù)開(kāi)發(fā)研制,可以通過(guò)智能化地理信息分析查找特定范圍內(nèi)的特定目標(biāo)。例如用戶可以選擇購(gòu)房愿望:價(jià)格、面積、戶型、房屋布局、地理位置、周邊商業(yè)、交通、自然環(huán)境、小區(qū)狀況等,在互聯(lián)網(wǎng)上進(jìn)行查詢。引擎立即會(huì)將所有滿足條件的房源顯示出來(lái),并可以任意放大、縮小、移動(dòng)房源地圖。
美國(guó)華盛頓大學(xué)科學(xué)家正在研究一種新型搜索引擎——一搜得(Know It All ),它能像拖網(wǎng)一樣“撈到”所需資料網(wǎng)頁(yè),然后以目錄表格形式將其進(jìn)行整理。目前的搜索引擎使用起來(lái)其實(shí)并不“方便”。如果上網(wǎng)用搜索引擎查找和搜集想要的內(nèi)容,將是一件十分單調(diào)乏味的工作,因?yàn)槟惚仨氃L問(wèn)大量網(wǎng)頁(yè),檢索大量資料數(shù)據(jù)。但新一代搜索引擎技術(shù)將有可能僅“按一次”鼠標(biāo),就能找出你想查找的內(nèi)容。它的研發(fā)者埃齊奧尼說(shuō):“這種方法很奇特,它可將一大堆網(wǎng)頁(yè)中的有關(guān)信息以目錄表格的形式放在一個(gè)單一網(wǎng)頁(yè)上。”他們的最終目標(biāo)是讓“Know It All ”能回答諸如“列表指出1900年以前出生的全英科學(xué)家”這樣的問(wèn)題。

搜索引擎的存在使得每個(gè)人與任何問(wèn)題的答案之間的距離只有點(diǎn)擊一下鼠標(biāo)那么遠(yuǎn)。搜索引擎改變了我們上網(wǎng)的習(xí)慣,改變了我們工作方式甚至是生活方式。搜索引擎正在不斷創(chuàng)造奇跡,而我們正在享受著奇跡。


【參考文獻(xiàn)】
[1] 張興華.搜索引擎技術(shù)及研究[J].現(xiàn)代情報(bào),2004,(4).
[2] 唐銘杰.論搜索引擎的發(fā)展概況及發(fā)展趨勢(shì)[J].情報(bào)雜志,2001,(5).
[3] 陽(yáng)小華.分布式WWW信息收集技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2000,(5).
關(guān)鍵字:通訊,北京
About Us - 關(guān)于我們 - 服務(wù)列表 - 付費(fèi)指導(dǎo) - 媒體合作 - 廣告服務(wù) - 版權(quán)聲明 - 聯(lián)系我們 - 網(wǎng)站地圖 - 常見(jiàn)問(wèn)題 - 友情鏈接
Copyright©2014安裝信息網(wǎng) m.78375555.com. All rights reserved.
服務(wù)熱線:4000-293-296 聯(lián)系電話:0371-61311617 傳真:0371-55611201 QQ: 郵箱:zgazxxw@126.com 豫ICP備18030500號(hào)-4
未經(jīng)過(guò)本站允許,請(qǐng)勿將本站內(nèi)容傳播或復(fù)制
安全聯(lián)盟認(rèn)證