網(wǎng)絡(luò)檢索論文
網(wǎng)絡(luò)信息檢索工具是指在因特網(wǎng)上提供信息檢索服務(wù)的計(jì)算機(jī)系統(tǒng),其檢索的對(duì)象是存在于因特網(wǎng)信息空間中各種類型的網(wǎng)絡(luò)信息資源。下文是學(xué)習(xí)啦小編為大家整理的關(guān)于網(wǎng)絡(luò)檢索論文的范文,歡迎大家閱讀參考!
網(wǎng)絡(luò)檢索論文篇1
淺析網(wǎng)絡(luò)信息檢索
【摘 要】本文主要對(duì)網(wǎng)絡(luò)信息檢索進(jìn)行論述。
【關(guān)鍵詞】網(wǎng)絡(luò)信息;檢索
隨著信息技術(shù)的高速發(fā)展,信息資源的越來(lái)越顯得重要,而網(wǎng)絡(luò)信息資源也逐步成為這個(gè)信息時(shí)代的核心資源。信息檢索技術(shù)也很快得到發(fā)展,在此網(wǎng)絡(luò)信息檢索隨著網(wǎng)絡(luò)的發(fā)展也應(yīng)運(yùn)而生。網(wǎng)絡(luò)信息檢索,就是將描述特定用戶所需網(wǎng)絡(luò)信息的提問特征,與信息儲(chǔ)存的檢索標(biāo)識(shí)進(jìn)行異同比較,從中找出與提問一致或基本一致的網(wǎng)絡(luò)信息的過(guò)程。相對(duì)傳統(tǒng)文獻(xiàn)檢索,網(wǎng)絡(luò)信息檢索顯現(xiàn)出了很多的優(yōu)越性,如不受時(shí)間地點(diǎn)的限制,檢索方式多樣化,多元化等。但是我覺得網(wǎng)絡(luò)信息檢索的發(fā)展還不是十分完善,仍存在些問題,如目前檢索工具在信息搜集缺乏統(tǒng)一的規(guī)范管理,檢索過(guò)程會(huì)出現(xiàn)很多雷同,甚至無(wú)用的垃圾信息等。以下從網(wǎng)絡(luò)信息檢索目前存在的問題,及針對(duì)問題面臨的以后的發(fā)展方向進(jìn)行了探討。
隨著網(wǎng)上信息資源的膨脹發(fā)展,一種搜索引擎,無(wú)論它多么完善都不可能滿足一個(gè)人所有的檢索需求。如果遇到文獻(xiàn)普查、專題查詢、新聞?wù){(diào)查與溯源、軟件及MP3下載地址搜索等情況,人們就更需要使用多種搜索引擎來(lái)比較、篩選和相互印證。為解決逐一登陸各搜索引擎,在各搜索引擎中分別多次輸入同一檢索請(qǐng)求等煩瑣操作,基于網(wǎng)絡(luò)檢索工具的檢索工具產(chǎn)生了。
目前這列檢索工具只要有兩種:集成搜索引擎和元搜索引擎。所謂集成搜索引擎是在一個(gè)檢索界面上鏈接若干種獨(dú)立的搜索引擎,檢索時(shí),一次檢索輸入,可以指定搜索引擎也可以要求多個(gè)引擎同時(shí)檢索,搜索結(jié)果由各搜索引擎分別以不同頁(yè)面提交的網(wǎng)絡(luò)檢索工具,其實(shí)是利用網(wǎng)站鏈接技術(shù)形成的搜索引擎集合。集成搜索引擎制作與維護(hù)技術(shù)簡(jiǎn)單,可隨時(shí)對(duì)所鏈接的搜索引擎進(jìn)行增刪調(diào)整和及時(shí)更新,尤其大規(guī)模專業(yè)搜索引擎集成鏈接,深受特定用戶群歡迎。如國(guó)內(nèi)天網(wǎng)搜霸和百度搜霸,國(guó)外比較著名的有“搜索之家” “網(wǎng)際瑞士軍刀”等。
另一個(gè)是元搜索引擎,用戶只需遞交一次檢索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將所有查詢結(jié)果集中起來(lái)以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。國(guó)外比較著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前國(guó)內(nèi)現(xiàn)在還沒有見到真正意義上的元搜索引擎。元搜索引擎雖沒有網(wǎng)頁(yè)搜尋機(jī)制,亦無(wú)獨(dú)立的索引數(shù)據(jù)庫(kù),但在檢索請(qǐng)求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)支持。目前元搜索引擎技術(shù)主要有并行處理式和串行處理式兩大類。并行式元搜索引擎運(yùn)行時(shí)是將查詢請(qǐng)求同時(shí)發(fā)向各個(gè)獨(dú)立搜索引擎,然后將的結(jié)果按特定的順序呈現(xiàn)給用戶;串行式元搜索引擎運(yùn)行時(shí)是將查詢請(qǐng)求先發(fā)向某個(gè)獨(dú)立搜索引擎,待其返回結(jié)果后再將請(qǐng)求發(fā)往另一個(gè)獨(dú)立搜索引擎。
從第一個(gè)元搜索引擎Metacrawler誕生至今,這一新型的網(wǎng)絡(luò)檢索工具異軍突起,發(fā)展迅速,目前可用的元搜索引擎已近百種。由于元搜索引擎的功能受著源搜索引擎和元搜索技術(shù)的雙重制約,元搜索引擎比較理想的并不多見。信息檢索專家邢志宇將元搜索引擎存在的問題歸納如下:(1)大多元搜索引擎不支持多語(yǔ)種,尤其是漢語(yǔ)檢索;(2)一些元搜索引擎實(shí)現(xiàn)檢索語(yǔ)法轉(zhuǎn)換的能力有限,不支持指定字段檢索,不能充分發(fā)揮各個(gè)獨(dú)立搜索引擎的高級(jí)檢索功能;(3)部分元搜索引擎無(wú)源搜索引擎列表,用戶不能自主選擇和調(diào)用源搜索引擎;(4)大部分元搜索引擎僅支持調(diào)用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;(5)在檢索結(jié)果上,元搜索引擎只能返回十幾、數(shù)十條“相關(guān)度”較高的結(jié)果,大量可能有價(jià)值的源搜索引擎的檢索結(jié)果被忽視,影響檢索結(jié)果的全面性。
Internet的發(fā)展使信息采集、傳播和利用無(wú)論是從規(guī)模還是速度都達(dá)到了空前的水平。我覺得未來(lái)網(wǎng)絡(luò)信息檢索技術(shù)的發(fā)展方向如下:
1.智能化
現(xiàn)有的檢索引擎存在著查全率和查準(zhǔn)率低的問題,未來(lái)的搜索引擎技術(shù)必須具有能及時(shí)挖掘新信息和及時(shí)能鏈接新增的信息,多途徑檢索功能,用戶可以交互式檢索,搜索出滿意的信息。提高網(wǎng)絡(luò)信息檢索技術(shù)水平并實(shí)現(xiàn)智能檢索,智能化是網(wǎng)絡(luò)信息檢索未來(lái)主要的發(fā)展方向。智能檢索是基于自然語(yǔ)言的檢索形式,機(jī)器根據(jù)用戶所提供的以自然語(yǔ)言表述的檢索要求進(jìn)行分析,而后形成檢索策略進(jìn)行搜索,智能檢索技術(shù)就是采用人工智能進(jìn)行信息檢索的技術(shù),它可以模擬人腦的思維方式,分析用戶以自然語(yǔ)言表達(dá)的檢索請(qǐng)求,自動(dòng)形成檢索策略進(jìn)行智能、快速、高效的信息檢索。最近幾年,智能信息檢索作為人工智能的一個(gè)獨(dú)立研究分支得到了迅速發(fā)展,而且目前已有一些搜索引擎支持智能檢索,但智能化程度還不高,這方面還有待進(jìn)一步的發(fā)展。
2.標(biāo)準(zhǔn)化
現(xiàn)在的網(wǎng)站信息瞬息萬(wàn)變,雜亂紛繁,很是需要進(jìn)行分類整理。目前雖然有大量的搜索引擎,但還沒有一個(gè)統(tǒng)一嚴(yán)格的分類方法來(lái)管理,網(wǎng)絡(luò)信息資源在組織分類上需要制定一個(gè)統(tǒng)一的分類標(biāo)準(zhǔn)。還要規(guī)范網(wǎng)絡(luò)術(shù)語(yǔ),提高資源共享的程度,這樣可以有效保證用戶的檢索效率。
3.個(gè)性化
科技的發(fā)展要以人為本,隨著科學(xué)技術(shù)的發(fā)展,個(gè)性化服務(wù)也將成為網(wǎng)絡(luò)信息檢索的一個(gè)發(fā)展方向。隨著互聯(lián)網(wǎng)的飛速發(fā)展,每個(gè)人的對(duì)信息的需求將不再滿足于標(biāo)準(zhǔn)化、單一化的大眾需求。不同的人需要不同的服務(wù),如殘疾人士對(duì)網(wǎng)絡(luò)信息檢索的要求就要區(qū)別于常人,要是信息檢索能很好的識(shí)別語(yǔ)音檢索就能很有效的滿足他們的信息需求。如何使用戶更方便、快捷地使用各種檢索工具,滿足用戶各種檢索要求,個(gè)性化服務(wù)也會(huì)成為網(wǎng)絡(luò)信息檢索重要的發(fā)展方向。
在這個(gè)知識(shí)大爆炸的時(shí)代,要想從浩如煙海的信息資源中快速準(zhǔn)確地找到自己所需的信息,就需要我們?cè)诓粩嘈畔z索實(shí)踐中總結(jié)及掌握一些檢索技巧。當(dāng)然也需要我們不斷的發(fā)現(xiàn)問題,努力解決問題。也由衷地希望隨著科技的發(fā)展,網(wǎng)絡(luò)信息檢索技術(shù)越來(lái)越成熟,能給人們帶來(lái)各式各樣的服務(wù),讓我們的生活更加便利。
網(wǎng)絡(luò)檢索論文篇2
網(wǎng)絡(luò)檢索系統(tǒng)的研究
【 摘 要 】 21世紀(jì)是信息的時(shí)代,第一時(shí)間掌握信息,就掌握了時(shí)代的脈搏。隨著互聯(lián)網(wǎng)的不斷發(fā)展,人們對(duì)于信息的需求量更大,對(duì)于得到信息的時(shí)間要求更短。本文對(duì)網(wǎng)絡(luò)檢索系統(tǒng)進(jìn)行研究,首先從功能性需求和排序需求描述了檢索系統(tǒng)的需求分析,其次從總體上對(duì)系統(tǒng)的架構(gòu)、系統(tǒng)的模塊及系統(tǒng)數(shù)據(jù)庫(kù)進(jìn)行詳細(xì)的描述,最后給出了系統(tǒng)的部分具體源代碼。本文對(duì)于信息工作者有著積極的意義。
【 關(guān)鍵詞 】 網(wǎng)絡(luò)檢索;系統(tǒng);Java
1 引言
隨著網(wǎng)絡(luò)的不斷普及,人們的工作、生活,、娛樂越來(lái)越離不開網(wǎng)絡(luò)。人們可以通過(guò)網(wǎng)絡(luò)查閱到自己需要的內(nèi)容,網(wǎng)絡(luò)搜索引擎為人們查找到需要的內(nèi)容提供了巨大的幫助。據(jù)不完全統(tǒng)計(jì),近一半的網(wǎng)民對(duì)搜索引擎非常依賴,當(dāng)查詢不到相關(guān)內(nèi)容時(shí),會(huì)通過(guò)更換關(guān)鍵字重新進(jìn)行搜索。人們對(duì)于網(wǎng)絡(luò)搜索引擎的依賴性呈現(xiàn)出增強(qiáng)的趨勢(shì),已經(jīng)成為網(wǎng)民上網(wǎng)的一種習(xí)慣。
2 需求分析
網(wǎng)絡(luò)中的信息眾多,根據(jù)用戶的查詢檢出相關(guān)的文檔,并分析評(píng)價(jià)其相關(guān)度,對(duì)其結(jié)果排序,將其結(jié)果反饋給用戶。
2.1 功能性需求
隨著網(wǎng)絡(luò)用戶數(shù)量的增加,人們對(duì)于信息的搜索有了更高的個(gè)性化要求,在信息的搜索過(guò)程中,用戶之間對(duì)于信息的需求側(cè)重點(diǎn)也有所不同,系統(tǒng)通過(guò)對(duì)用戶的興趣進(jìn)行分析,從而在海量的信息中找到相關(guān)的數(shù)據(jù),以滿足不同用戶的不同需求。網(wǎng)絡(luò)檢索系統(tǒng)采用個(gè)性化的搜索技術(shù)方法,不僅可以提高檢索的效率,同時(shí)還針對(duì)用戶的行為愛好進(jìn)行有針對(duì)性的搜索,達(dá)到吸引用戶使用的效果。
網(wǎng)絡(luò)檢索系統(tǒng)中檢索器的主要功能有幾種。
(1)短語(yǔ)搜索
通過(guò)對(duì)詞語(yǔ)加引號(hào)的方式,形成短語(yǔ)以精確搜索。例如,“計(jì)算機(jī)高級(jí)游戲”與計(jì)算機(jī)高級(jí)游戲是不同的,對(duì)于計(jì)算機(jī)高級(jí)游戲來(lái)說(shuō),計(jì)算機(jī)、高級(jí)、游戲三個(gè)關(guān)鍵字是可以進(jìn)行互換的,而加了引號(hào)的“計(jì)算機(jī)高級(jí)游戲”則作為一個(gè)單詞進(jìn)行查詢,其順序不能發(fā)生改變,這樣就縮小了查詢范圍。
(2)近似搜索
在信息的查詢搜集過(guò)程中,很多使用者無(wú)法將自己的真實(shí)意愿很清晰地表達(dá)出來(lái),而只能給出一些模糊的關(guān)鍵字,近似搜索以這些給出的關(guān)鍵字為中心,給出一些相近的、相似的詞反饋給使用者進(jìn)行搜索,以便于使用者不斷地向目標(biāo)信息靠近,最終達(dá)到搜索到相關(guān)的信息內(nèi)容。
例如:在搜索“學(xué)碩和專碩的區(qū)別”過(guò)程中,在搜索結(jié)束后會(huì)得到相關(guān)的結(jié)果,另外還會(huì)給使用者一些近似的探索,列出與該關(guān)鍵詞相關(guān)的搜索關(guān)鍵詞,如“專碩與學(xué)碩的區(qū)別”、“專碩與學(xué)碩的學(xué)費(fèi)區(qū)別”、“學(xué)術(shù)與專碩的區(qū)別”等,使用者就可以在提示的關(guān)鍵詞基礎(chǔ)上進(jìn)一步的選擇滿足自己需求的關(guān)鍵詞。
(3)二次查詢
在信息的查詢搜索過(guò)程中,很難達(dá)到一次就將需求的信息明確地標(biāo)識(shí)出來(lái),但是需求的信息很多都已經(jīng)包含在搜索的結(jié)果當(dāng)中,在搜索的結(jié)果里通過(guò)新的關(guān)鍵詞進(jìn)行再一次的搜索分類,可以使結(jié)果更加清晰明確,離真正需求的搜索結(jié)果更加接近。
2.2 排序需求
搜索結(jié)果出來(lái)之后,哪一個(gè)結(jié)果在前,哪一個(gè)在后,關(guān)系到用戶找到需求結(jié)果的效率。當(dāng)前,對(duì)于搜索結(jié)果進(jìn)行排序,主要采用的理論基礎(chǔ)是谷歌的頁(yè)面排序原理,該原理累似于論文集的引用機(jī)制,哪個(gè)論文被引用的次數(shù)越多,在相關(guān)搜索過(guò)程中,該論文排列的名次越靠前??梢杂霉奖硎緸椋?/p>
PR(A) = (1-d) + d (PR(t1)/C (t1)+……+PR(tn) /C(tn))
(公式1)
在公式1中,網(wǎng)頁(yè)1,2……N都與網(wǎng)站A相鏈接,其中系數(shù)為(0,1)之間的數(shù)字,一般為0.85。通過(guò)公式可以看出,鏈接A網(wǎng)站的網(wǎng)頁(yè)越多,即N的值越大,A的級(jí)別越高;反之,A的級(jí)別低,N的值也越小。
在將結(jié)果反饋給用戶時(shí),其排序采用的方法是:優(yōu)先考慮查詢匹配的結(jié)果;其次對(duì)結(jié)果在網(wǎng)絡(luò)中出現(xiàn)的權(quán)重和頻率進(jìn)行計(jì)算,優(yōu)先排出最大值的網(wǎng)站;最后考慮用戶的滿意度,滿意度高的排列靠前。
3 總體設(shè)計(jì)
3.1 系統(tǒng)架構(gòu)
每一個(gè)軟件系統(tǒng)要設(shè)計(jì)之前,都要首先分析其總體結(jié)構(gòu),即系統(tǒng)架構(gòu),當(dāng)前,三層架構(gòu)體系是在原來(lái)兩層架構(gòu)的基礎(chǔ)上發(fā)展起來(lái)的,即在客戶端和數(shù)據(jù)庫(kù)之間加了一個(gè)中間層,即組件層,這三層分別是表示層、業(yè)務(wù)邏輯層和數(shù)據(jù)訪問層。其中表示層主要是用戶用于接受數(shù)據(jù)的返回,將信息展示在應(yīng)用程序上;業(yè)務(wù)邏輯層是對(duì)數(shù)據(jù)層進(jìn)行操作,完成具體的問題;數(shù)據(jù)訪問層是對(duì)數(shù)據(jù)進(jìn)行處理操作,與數(shù)據(jù)庫(kù)緊密相連。
3.2 系統(tǒng)模塊
整個(gè)系統(tǒng)主要由三大模塊組成,分別是啟動(dòng)模塊、管理模塊和查詢模塊。在系統(tǒng)的啟動(dòng)模塊里,有注冊(cè)注銷模塊、XML預(yù)處理、選舉模塊、網(wǎng)絡(luò)服務(wù)等組成;管理模塊主要包括登錄模塊、用戶管理模塊、資源管理模塊、詞庫(kù)管理模塊、資源緩存模塊、服務(wù)器初始化模塊、定期事件模塊及資源緩存模塊等;查詢模塊主要包括解析模塊、過(guò)濾模塊及錯(cuò)誤檢查模塊。
系統(tǒng)模塊有效地描述了網(wǎng)絡(luò)檢索系統(tǒng)的各個(gè)具體的功能,但對(duì)于整個(gè)系統(tǒng)來(lái)說(shuō),其主要的工作流程是:首先通過(guò)搜索器對(duì)索引器進(jìn)行查找,對(duì)沒有出現(xiàn)過(guò)的生詞進(jìn)行存詞操作,將其存放索引文件之中,其次再利用檢索器進(jìn)行查找,送查找請(qǐng)求給搜索表單,將其結(jié)果進(jìn)行格式化,使系統(tǒng)能夠識(shí)別,最終找到相應(yīng)的網(wǎng)頁(yè)。具體如圖2所示。
3.3 系統(tǒng)數(shù)據(jù)庫(kù)
根據(jù)系統(tǒng)的總體設(shè)計(jì)、功能模塊和主要工作流程的分析,網(wǎng)絡(luò)檢索系統(tǒng)的數(shù)據(jù)庫(kù)中就主要包括以下數(shù)據(jù)表:中文詞表、英文詞表、資源表、任務(wù)列表、完成任務(wù)列表、臨時(shí)結(jié)果表、命中表、命名規(guī)則表等。其表間之間的關(guān)系如圖3所示。
4 結(jié)束語(yǔ)
利用網(wǎng)絡(luò)搜索相關(guān)的信息,已經(jīng)成為人們工作和生活中的一部分,當(dāng)前,互聯(lián)網(wǎng)上的搜索引擎系統(tǒng)被極少一部分企業(yè)所掌握,使行業(yè)的發(fā)展處于壟斷地位。本文所設(shè)計(jì)的網(wǎng)絡(luò)檢索系統(tǒng)雖然在某種程度上還比較弱小,但給出了整個(gè)功能結(jié)構(gòu)框架,給軟件開發(fā)人員解決此類問題的思路,讀者在此基礎(chǔ)上,可以將自身所掌握的算法適當(dāng)?shù)貞?yīng)用到該系統(tǒng)中,使網(wǎng)絡(luò)檢索系統(tǒng)更加的強(qiáng)大。
參考文獻(xiàn)
[1] 馮惠玲,王立清.信息檢索教程[M].北京:中國(guó)人民大學(xué)出版社,2004.
[2] 盧亮,張博文.搜索引擎原理、實(shí)踐與應(yīng)用[M].電子工業(yè)出版社,2004(9).
[3] 易愛平,廖祝華,張惠.基于 Google 的個(gè)性化搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2007,第 164-165 頁(yè).
[4] 白麗君.基于內(nèi)容和協(xié)作的信息過(guò)濾方法研究[J].情報(bào)學(xué)報(bào),2005(6),第 304-308 頁(yè).