搜索引擎關(guān)鍵技術(shù)論文(2)
搜索引擎關(guān)鍵技術(shù)論文
搜索引擎關(guān)鍵技術(shù)論文篇二
搜索引擎技術(shù)及研究
引言
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人們要在互聯(lián)網(wǎng)的海量信息中查找自己所需的信息,就要使用搜索引擎,搜索引擎已經(jīng)成為人們獲取信息的重要手段。搜索引擎從廣義的角度來(lái)講,是指互聯(lián)網(wǎng)上提供用戶檢索接口并且具有檢索功能的網(wǎng)站,它能幫助人們?cè)诨ヂ?lián)網(wǎng)中查找到所需要的信息;從狹義的角度來(lái)講,搜索引擎是指根據(jù)某種策略、運(yùn)用特定的計(jì)算機(jī)程序從網(wǎng)絡(luò)上搜集要查找的信息,對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索的相關(guān)信息展現(xiàn)給用戶的系統(tǒng)。
1 搜索引擎的發(fā)展歷程
搜索引擎是伴隨互聯(lián)網(wǎng)的發(fā)展而產(chǎn)生和發(fā)展的,互聯(lián)網(wǎng)已成為人們學(xué)習(xí)、工作和生活中不可缺少的平臺(tái),幾乎每個(gè)人上網(wǎng)都會(huì)使用搜索引擎。搜索引擎大致經(jīng)歷了四代的發(fā)展。
1.1 第一代搜索引擎
1994年第一代真正基于互聯(lián)網(wǎng)的搜索引擎Lycos誕生,它以人工分類(lèi)目錄為主,代表廠商是Yahoo,特點(diǎn)是人工分類(lèi)存放網(wǎng)站的各種目錄,用戶通過(guò)多種方式尋找網(wǎng)站,現(xiàn)在也還有這種方式存在。
1.2 第二代搜索引擎
隨著網(wǎng)絡(luò)應(yīng)用技術(shù)的發(fā)展,用戶開(kāi)始希望對(duì)內(nèi)容進(jìn)行查找,出現(xiàn)了第二代搜索引擎,也就是利用關(guān)鍵字來(lái)查詢(xún)。最具代表性、最成功的是Google,它建立在網(wǎng)頁(yè)鏈接分析技術(shù)的基礎(chǔ)上,使用關(guān)鍵字對(duì)網(wǎng)頁(yè)搜索,能夠覆蓋互聯(lián)網(wǎng)的大量網(wǎng)頁(yè)內(nèi)容,該技術(shù)可以分析網(wǎng)頁(yè)的重要性后,將重要的結(jié)果呈現(xiàn)給用戶。
1.3 第三代搜索引擎
隨著網(wǎng)絡(luò)信息的迅速膨脹,用戶希望能快速并且準(zhǔn)確的查找到自己所要的信息,因此出現(xiàn)了第三代搜索引擎。相比前兩代,第三代搜索引擎更加注重個(gè)性化、專(zhuān)業(yè)化、智能化,使用自動(dòng)聚類(lèi)、分類(lèi)等人工智能技術(shù),采用區(qū)域智能識(shí)別及內(nèi)容分析技術(shù),利用人工介入,實(shí)現(xiàn)技術(shù)和人工的完美結(jié)合,增強(qiáng)了搜索引擎的查詢(xún)能力。第三代搜索引擎的代表是Google,它以寬廣的信息覆蓋率和優(yōu)秀的搜索性能為發(fā)展搜索引擎的技術(shù)開(kāi)創(chuàng)了嶄新的局面。
1.4 第四代搜索引擎
隨著信息多元化的快速發(fā)展,通用搜索引擎在目前的硬件條件下要得到互聯(lián)網(wǎng)上比較全面的信息是不太可能的,這時(shí),用戶就需要數(shù)據(jù)全面、更新及時(shí)、分類(lèi)細(xì)致的面向主題搜索引擎,這種搜索引擎采用特征提取和文本智能化等策略,相比前三代搜索引擎更準(zhǔn)確有效,被稱(chēng)為第四代搜索引擎[1]。
2 搜索引擎的分類(lèi)
搜索引擎按工作方式分為三類(lèi):目錄索引類(lèi)搜索引擎、全文搜索引擎和元搜索引擎[2]。
2.1 目錄索引類(lèi)搜索引擎
目錄索引類(lèi)搜索引擎的數(shù)據(jù)庫(kù)是人工建立的,工作人員訪問(wèn)過(guò)某個(gè)web網(wǎng)站后依據(jù)自定的一套評(píng)判準(zhǔn)則對(duì)這個(gè)網(wǎng)站進(jìn)行描述,并根據(jù)站點(diǎn)的性質(zhì)和內(nèi)容歸類(lèi)到預(yù)先分好的類(lèi)別,再將其存放在對(duì)應(yīng)的目錄中,用戶既可以通過(guò)關(guān)鍵詞查詢(xún),也可以按目錄逐層檢索。由于目錄索引類(lèi)數(shù)據(jù)庫(kù)是人工評(píng)價(jià)某個(gè)網(wǎng)站的內(nèi)容,所以相比基于Robot搜索引擎搜索到的結(jié)果,用戶通過(guò)目錄搜索的結(jié)果更具有參考價(jià)值。當(dāng)前大部分搜索網(wǎng)站既提供基于Robot的搜索服務(wù),又提供基于目錄的搜索服務(wù),以盡可能為用戶提供全面的查詢(xún)結(jié)果。
2.2 全文搜索引擎
目前全文搜索引擎是主流的搜索引擎,人們經(jīng)常說(shuō)的搜索引擎一般都是指全文搜索引擎,典型的代表有Google、百度、搜狗等。這類(lèi)搜索引擎利用網(wǎng)絡(luò)蜘蛛在網(wǎng)絡(luò)中搜索,再抓取原始網(wǎng)頁(yè),存放于本地?cái)?shù)據(jù)庫(kù)并對(duì)原始網(wǎng)頁(yè)進(jìn)行加工,然后建立網(wǎng)頁(yè)內(nèi)容索引。系統(tǒng)在檢索階段,索引后臺(tái)數(shù)據(jù)庫(kù)并尋找和用戶查詢(xún)條件相匹配的網(wǎng)頁(yè),把這些網(wǎng)頁(yè)按照相應(yīng)規(guī)則排序后將結(jié)果按順序返回給用戶。在搜索引擎的界面上,用戶輸入要查詢(xún)的關(guān)鍵字,就能夠找到互聯(lián)網(wǎng)中與之相關(guān)的網(wǎng)頁(yè)。
2.3 元搜索引擎
元搜索引擎是將用戶的搜索請(qǐng)求同時(shí)提交給多個(gè)獨(dú)立搜索引擎,然后集中處理搜索結(jié)果,按統(tǒng)一格式返回給用戶,故又被稱(chēng)為搜索引擎之上的搜索引擎。該搜索引擎的特點(diǎn)是本身不保存網(wǎng)頁(yè)信息內(nèi)容,如果有用戶輸入查詢(xún)請(qǐng)求,它把請(qǐng)求轉(zhuǎn)換成其它搜索引擎可以接受的命令格式,同時(shí)訪問(wèn)多個(gè)搜索引擎查詢(xún)?cè)撽P(guān)鍵詞,最后將搜索引擎返回的結(jié)果處理后提交給用戶。
總之,目錄索引類(lèi)搜索引擎的缺點(diǎn)是信息覆蓋量不大、更新慢,元搜索引擎要等待所有搜索引擎提交結(jié)果并進(jìn)行處理,速度通常比較慢,因此全文搜索引擎是人們研究的重點(diǎn)。
3 搜索引擎的工作原理
搜索引擎通常由搜索器、索引器、檢索器和用戶接口四部分組成[3]。系統(tǒng)先由搜索器收集網(wǎng)頁(yè)內(nèi)容,再通過(guò)索引器分析收集的內(nèi)容并建立索引,然后由檢索器響應(yīng)用戶的檢索請(qǐng)求,當(dāng)用戶輸入查詢(xún)關(guān)鍵字后,搜索器用關(guān)鍵字與索引器進(jìn)行匹配,作相關(guān)性排序后通過(guò)用戶接口給用戶返回結(jié)果。
搜索引擎的工作流程可以簡(jiǎn)單的描述為:網(wǎng)絡(luò)蜘蛛定期在互聯(lián)網(wǎng)上爬行,當(dāng)發(fā)現(xiàn)新的頁(yè)面時(shí),將其取出并存放到本地?cái)?shù)據(jù)庫(kù)中,用戶可通過(guò)查詢(xún)本地?cái)?shù)據(jù)庫(kù)得到結(jié)果。大致可概括為抓取網(wǎng)頁(yè)、加工整理、查詢(xún)服務(wù)三個(gè)階段。
抓取網(wǎng)頁(yè)階段:每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)絡(luò)蜘蛛,它每隔一定的時(shí)間自動(dòng)啟動(dòng),從數(shù)據(jù)庫(kù)獲得URL列表,按照某種策略抓取列表指定的網(wǎng)站,并將抓到的網(wǎng)頁(yè)存入數(shù)據(jù)庫(kù),然后把新的URL存入數(shù)據(jù)庫(kù)。理論上,從一定范圍網(wǎng)頁(yè)出發(fā),就可以搜集到絕大多數(shù)網(wǎng)頁(yè)。
加工整理階段:搜索引擎抓到網(wǎng)頁(yè)后,再做大量的預(yù)處理工作,對(duì)網(wǎng)頁(yè)文檔建立倒排索引,將索引更新到索引數(shù)據(jù)庫(kù),并提取網(wǎng)頁(yè)鏈接信息,存入鏈接數(shù)據(jù)庫(kù),為網(wǎng)頁(yè)評(píng)級(jí)做準(zhǔn)備。
查詢(xún)服務(wù)階段:搜索引擎待用戶輸入關(guān)鍵詞,從索引數(shù)據(jù)庫(kù)找到匹配該關(guān)鍵詞的網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)評(píng)級(jí)對(duì)結(jié)果進(jìn)行排序處理,最后將結(jié)果反饋給用戶。
搜索引擎的實(shí)現(xiàn)過(guò)程包括四部分:從互聯(lián)網(wǎng)抓取網(wǎng)頁(yè)→建立索引數(shù)據(jù)庫(kù)→在數(shù)據(jù)庫(kù)中搜索→對(duì)搜索結(jié)果排序。
搜索引擎的 網(wǎng)絡(luò)蜘蛛會(huì)定期訪問(wèn)所有的網(wǎng)頁(yè)來(lái)更新網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù),去除死鏈接,并根據(jù)網(wǎng)頁(yè)鏈接關(guān)系和內(nèi)容的變(下轉(zhuǎn)第116頁(yè))(上接第88頁(yè))化重新排序。最終網(wǎng)頁(yè)內(nèi)容的變化情況將反映在用戶查詢(xún)結(jié)果中[4]。
4 搜索引擎的 發(fā)展趨勢(shì)
4.1 提高搜索引擎的智能化水平
智能搜索引擎是利用人工智能技術(shù)對(duì)用戶的查詢(xún)意圖、興趣等推理,用獲得的知識(shí)對(duì)信息進(jìn)行過(guò)濾搜集,把用戶感興趣的信息提交給用戶。通過(guò)智能算法進(jìn)行人與 計(jì)算機(jī)的對(duì)話,利用機(jī)器翻譯技術(shù)強(qiáng)化自然 語(yǔ)言的處理能力,通過(guò)語(yǔ)義理解用戶自然語(yǔ)言的需求。智能代理技術(shù)能夠不斷適 應(yīng)用戶興趣變化,并提供個(gè)性化的服務(wù)。
4.2 提供優(yōu)化的檢索結(jié)果
利用搜索引擎規(guī)則,搜索引擎優(yōu)化能夠提高網(wǎng)站在搜索引擎中的排名,針對(duì)檢索網(wǎng)頁(yè)的特點(diǎn),按照搜索引擎的檢索原則調(diào)整網(wǎng)站的基本要素,使其在自然檢索結(jié)果中排名靠前,從而達(dá)到推廣網(wǎng)站的目的。
4.3 多媒體搜索引擎
隨著搜索引擎技術(shù)的發(fā)展,搜索引擎除檢索文本外,還要檢索多媒體數(shù)據(jù),目前許多公司投入資金解決該技術(shù)的系統(tǒng)模型優(yōu)化、圖像聲音特征相關(guān)性研究、多媒體特征提取等問(wèn)題,從而開(kāi)發(fā)能夠查詢(xún)圖像、圖片、聲音等內(nèi)容的搜索引擎,這項(xiàng)技術(shù)是未來(lái)搜索引擎發(fā)展的必然趨勢(shì)[5]。
5 總結(jié)
隨著計(jì)算機(jī)網(wǎng)絡(luò)搜索技術(shù)的飛速發(fā)展,人們對(duì)搜索引擎的要求也越來(lái)越高,未來(lái)的搜索引擎要求速度更快、精度更高,更能滿足用戶查詢(xún)信息的個(gè)性化需求,使得互聯(lián)網(wǎng)用戶能夠享受到更加高效的人性化的網(wǎng)絡(luò)搜索服務(wù)。
看了“搜索引擎關(guān)鍵技術(shù)論文”的人還看: